1.
总体架构与职责划分
- 明确运维与安全边界:划分监控(SRE)、安全(SecOps)、网络(NetOps)三组责任。
- 列出资产清单:在资产管理表(CSV/CMDB)记录IP、机房(拉萨/香港)、用途、负责人与联系方式。
- 建立SLA与SOP:定义可用性目标(如99.95%),并撰写对应事件响应SOP。
2.
基础监控项与阈值设置
- 必监指标:CPU、内存、磁盘IO、磁盘使用率、负载、网络延迟/带宽、TCP连接数、进程存活。
- 建议阈值示例:CPU持续5分钟>80%触发警告,>95%触发紧急;磁盘使用>80%警告,>90%紧急。
- 细化到服务:对HTTP/HTTPS用200/500率、响应时间;数据库监控慢查询、连接池、IO等待。
3.
监控平台快速部署(Prometheus+Grafana示例)
- 安装node_exporter:在每台服务器运行:wget && tar && ./node_exporter &,并用systemd管理。
- 配置Prometheus scrape:在prometheus.yml加入targets为拉萨/香港节点的IP与port。
- Grafana面板:导入常用主机与nginx/mysql模板,设置Organizational folders按地区区分视图。
4.
告警与告警路由(PagerDuty/企业微信+电话)
- 告警规则:Prometheus Alertmanager写规则文件,按严重性分local/critical/ok。
- 告警路由:critical先短信+电话、同时推送到值班群;warning推送到企业微信并在工单系统生成任务。
- 去重与抑制:在Alertmanager配置抑制(duration)和抑制策略以避免风暴式告警。
5.
网络与连通性监控(含跨境延迟)
- 主动探测:用ping、mtr、smokeping定时采样,部署在拉萨和香港各至少两个节点。
- BGP与路由监测:对接运营商提供的路由表或使用bgpdump检查路由变化,记录丢包与跃点变化。
- 带宽与流量分析:sFlow/NetFlow采样导入nfdump,识别异常流量和北向/南向流量峰值。
6.
日志管理与追溯(ELK/EFK流程)
- 日志采集:在每台服务器部署filebeat,采集系统、nginx、app与数据库日志,发到Logstash/Elasticsearch。
- 日志规整与索引策略:按天索引并设置7/30/90天的留存策略,关键日志设置长期存储。
- 搜索与告警:在Kibana中建立常用查询和Watcher(或Elastalert)用于异常模式告警。
7.
补丁与配置管理(Ansible实战步骤)
- 建仓库:用Ansible Inventory区分拉萨/香港主机组。
- 执行补丁:编写playbook(apt/yum更新、重启内核安排),先在灰度组跑,确认无误再推广。命令示例:ansible-playbook -i hosts update.yml --limit=staging。
- 配置管理:将SSH、iptables、sysctl配置写成模板,版本化于Git,变更通过CI校验后Apply。
8.
备份与恢复策略
- 数据备份:数据库使用物理备份(mysqldump或xtrabackup),加密后异地同步(rsync/ssh)到香港/拉萨对端或对象存储。
- 文件与快照:关键文件系统使用LVM快照或云盘快照,定期全备+增量备。命令示例:rsync -az --delete /data backup@
:/backup/。
- 恢复演练:每季度进行一次从备份恢复演练并记录时间与差异,确保RTO/RPO可达标。
9.
边界防护与入侵检测(WAF/IDS/Fail2ban)
- 简易防护:在边界部署WAF(ModSecurity或云WAF)并开启常用规则集,对HTTP异常请求进行拦截。
- SSH与暴力破解防护:使用fail2ban规则封锁多次失败的IP;限制SSH登录只允许密钥登录并更换默认端口。示例:/etc/fail2ban/jail.local配置。
- 主机入侵检测:部署OSSEC或Wazuh进行文件完整性检查(AIDE)与异常行为报警。
10.
DDoS与流量异常应对流程
- 前置缓解:接入CDN/云防护(如有)并配置速率限制,短时间内将异常流量切入Scrubbing。
- 流量分析与黑洞:使用NetFlow分析攻击源,在路由器层面临时黑洞或限制带宽,同时向上游ISP申请清洗流量。
- 恢复后复盘:攻击结束后保存pcap与日志,做IOC关联与阻断规则下发。
11.
应急响应与演练清单
- 事件接收:接到告警后按SOP执行分级响应、故障命名、负责人和时间点记录。
- 快速回滚与灰度:对配置引发问题的,先回滚到上一个版本;对代码问题,启用流量切换到备用机房(香港/拉萨互备)。
- 事后分析:在72小时内完成RCAs并产出改进计划,落到具体负责人。
12.
一问:如何快速定位拉萨到香港的网络延迟突增?
- 步骤:1) 在两端用mtr -rw <目标IP>查看丢包与跃点;2) 查看smokeping历史曲线判定开始时间;3) 在各路由器/防火墙查ACL或BGP变更日志;4) 联系ISP确认链路质量并要求路由回退或清洗。
13.
一答:定位时注意哪些命令与日志文件?
- 常用命令与路径:mtr/ping/traceroute/tcpdump(tcpdump -i eth0 host x.x.x.x -w trace.pcap)、/var/log/syslog、/var/log/messages、路由器BGP日志、监控历史(Prometheus/Grafana)。保存pcap与监控截图用于复盘。
14.
一问:在拉萨与香港混合托管环境如何保证合规与高可用?
- 答案步骤:1) 资产分类与数据分级,敏感数据不跨境或加密后传输;2) 建立跨机房热备(数据库主从/异地双活)并定期演练切换;3) 明确合规清单并定期审计、日志留存满足监管要求。