1.
应急预案总览:目标与触发条件
- 目标:在30分钟内将业务可用率恢复到90%以上;
- 触发条件1:带宽利用率持续>70%且持续5分钟;
- 触发条件2:HTTP请求率超过正常峰值10倍且错误率上升;
- 触发条件3:源IP分布高度异常(>95%为短时随机IP);
- 触发条件4:连接数(ESTABLISHED)异常增长,如短时间内>500k。
2.
监测与快速识别措施
- 部署双通道监控:流量监控(NetFlow/sFlow)与应用监控(NGINX+Prometheus);
- 阈值示例:带宽阈值:1000Mbps(基线峰值100Mbps时设置10x);
- 日志指标:5分钟内请求/秒(RPS)和平均响应时间(ms)同时上升;
- 自动告警:当RPS>50000或连接数>200k触发告警并执行脚本;
- 初步隔离:启用Fail2ban和NGINX limit_req后观察30秒变化。
3.
应急处置步骤(0–90分钟)
- 0–5分钟:启用本地速率限制(NGINX limit_conn/limit_req)与SYN cookies;
- 5–15分钟:在防护厂商处提交清洗申请,调整黑名单策略与地理封禁;
- 15–30分钟:将流量导向CDN或流量清洗节点(BGP流量引导到scrubbing);
- 30–60分钟:精细化过滤(基于HTTP头/UA/URI签名),配置WAF规则;
- 60–90分钟:记录完整流量包(采样)并逐步恢复正常路由与白名单。
4.
配置示例与真实案例数据
-
香港VPS示例配置:8 vCPU、16GB RAM、500GB NVMe、带宽1Gbps,附加抗DDoS包10Gbps清洗;
- 系统调优示例:net.ipv4.tcp_max_syn_backlog=4096;conntrack_max=262144;nginx limit_req_zone $binary_remote_addr zone=one:10m rate=10r/s;
- 真实案例:某电商平台遭遇峰值120Gbps、800万RPS的攻击,持续3小时;
- 处置结果:通过BGP引导至清洗中心+多点CDN,小时级抑制至<1Gbps,业务中断时间<20分钟;
- 恢复措施:逐步移除高风险规则并保留长期黑名单与自动化检测。
| 指标 | 正常值 | 攻击峰值 | 处置后 |
| 带宽 | 150 Mbps | 120 Gbps | 0.9 Gbps |
| HTTP RPS | 5,000 | 8,000,000 | 12,000 |
| 并发连接 | 10,000 | 1,200,000 | 15,000 |
| 恢复时间 | - | 3 小时攻击期 | <20 分钟 |
5.
事后复盘与长期防护清单
- 编写事故报告:流量曲线、触发规则、黑白名单、责任人和时间线;
- 常态化防护:部署多点CDN、云端清洗与本地硬件防护的混合方案;
- 规则库维护:每次攻击后更新IP/UA/URI签名库并自动同步;
- 备份与演练:每季度进行演练,包括BGP流量劫持与恢复演练;
- 合同与SLA:与VPS/CDN/清洗供应商签署清晰的SLA(清洗能力、响应时间)。