CM-Notes

Audit

release version wiki page

nucleus 一定要带上 Risk, 单独列出来

并且 risk & risk-ui 独立于其他 nucleus componet 单独跑 regression

nexus 一定要带上 Accounts.grpc

Citadel 和 Customizedlog 这两个即便没有 code change 也要一起跑 regression

有些 component 新的 commit 直接进了 release 分支,audit 探不到,需要 manual check

Code Merge

上一个 CM 没签完的话下一个 CM 的 code 不能急着合进 release

如果需要 recut 上一个 CM 的话要保证不带进下一个 CM 的 commit

Release

mvn BUILD FAILURE 找 dev 看

no space left 找 ops 清

docker build 看情况, push failure 找 ops

偶尔有 post step 里发 slack 消息发失败,不影响 image本身

Kanas 如果需要 manual release 就用 precise release kanas

Deploy STG

更新 liquibase 以后再铺 STG

Refresh Catalog DB

每次 CM 重刷 Promotion Rules

有些 nucleus test case 会去 call catalog,如果 promotion rules 堆积太多的话 catalog 回复就会慢导致 case 跑败

每月重做一次 DB,原因同上

STG Sanity

Regression

Code Client for Rerun

fr-cn-a, cd /home/shdev/fastrun/signoff_client_tis

./test.sh 会去 pull 一次 source code

所以要在 merge 完之后去跑

1
mvn clean install -DskipTests -T 5 -Dmaven.repo.local=/home/shdev/fastrun/signoff_client_tis/repository/

有可能会跑不过,线程数要相应调整

机器上的 git 是远古版本1.8,没有 restore

Sign off onebox

从 local regression 里找台 onebox, keep 99小时以上, 铺上所有当前 cm component

弄两三台,兼顾 FullCycle 和 HoroScope , 互为备份

签完之后记得释放

Watcher Report

Watcher Report 下班前发一份出去,从已有结果里找一份最好的,如果晚上有更好的再发一次

挑没有 env issue的,passrate 99%+,公共账号发,账号 issue 找 it, env issue 找 dev / FR Admin

CN Watcher Report -> Local

CD Watcher Report -> STG

STG Watcher 在 CM Day 铺完 STG 全起来后,把 job 开出来跑

Parameters for components

一般在 FR 上从上一个 CM 起的 regression 直接 rerun

LB Components 在 test-infra-node-b 上由 owner 单独跑

ops 铺完 int 以后起 int regression

不要漏掉 Component

Sign off

Keymaster liquibase INT 邮件可以不用发, 从 Oracle 迁移到 MySQL 了

走 CICD 上 INT 的 component 在 PRD wiki 上时,要找 owner 单独确认能不能签

可以直接签掉: liquibase images 和 INT Regression 里面签完的 component

Ops Deploying INT

如果有新的 component 要临时加,要在 wiki page 上标注出来,并且在 #ci-deployments 里说一声

ops 直接看 wiki page 是不知道哪些有更新的

INT Regression

Risk & Risk UI 最多 1 台 1box 跑

无法 Rerun 单个 legacy component, 至少要带上 Association 一起跑

如果对结果没有信心,可以 recover result

踩到过的坑

Audit 缺 Component -> Manual check

起 regression 的时候忘记带上 Risk / Preferences Center / Value-Transfer / Customizedlog -> trigger 完 regression 对着 wiki 再确认

recut 更新页面的时候误删 image version -> 划删除线代替退格删除

公共账号邮箱登录失败 -> IT

Sign off client 炸了并且没有备份 -> 每次先起 local,跑完以后 keep 三台

image 没推到 AWS Repo -> nova-utility 上去推一把,推完及时修 build script

FR 上跑 local 的时候 HS 挂了 -> 及时反馈

Reminders

base image 有更新的时候,需要从 IAD2 里移到 harbor 上

因为 ACL 的缘故,k3s-onebox 不通 Image Release Registry,需要在 Nova-Utility 上把 baseimage 推到 AWS-int Registry

再在 Test-Infra-Master 上把 baseimage 移到 Harbor 上

每个月 China Build Host 上重做 image 并 tag 到 latest