1.
准备工作与信息收集
- 收集关键信息:香港实例公网IP、实例ID、实例操作系统、绑定的EIP、所属VPC/子网与路由表、安全组ID、发生问题的时间段和受影响的客户端IP/域名。
- 本地准备:能从大陆多条链路(家宽、移动、联通、教育网)复现问题的记录,准备 traceroute/mtr/ping 的输出截图或文本。
2.
第一步:连通性基础检测(从大陆侧与服务器侧)
- 在大陆机器上运行:ping -c 6 <目标IP>、traceroute -n <目标IP> 或 mtr -rw <目标IP>,记录丢包跳点、延迟突增与 * 超时。
- 在香港服务器上运行:ping -c 6 <大陆测试IP>、traceroute -n <测试IP>;若只对特定端口不通,用 curl -v --connect-timeout 10 http://域名:端口 或 telnet
<端口> 测试。
3.
第二步:阿里云控制台网络配置排查
- 登录阿里云控制台 -> ECS -> 实例 -> 选择实例 -> 网络与安全:检查实例是否绑定EIP、EIP是否已生效。
- 检查安全组:控制台 -> 安全组 -> 进入对应安全组,确认入站/出站规则开放了目标端口(例如 80/443/22/自定义端口),来源可设置为 0.0.0.0/0 或严格到需要的 IP 段。
- 检查VPC路由表与NAT网关:VPC -> 路由表,确认0.0.0.0/0 指向正确网关;若使用 NAT 网关,确认 SNAT 规则与弹性公网 IP 映射正确。
4.
第三步:实例内部防火墙与服务检查
- 检查监听:ss -tuln | grep :80 或 netstat -tuln,确认服务在期望端口监听并绑定正确地址(0.0.0.0)。
- 检查防火墙:systemctl status firewalld && firewall-cmd --list-all 或 iptables -L -n,若使用 ufw:ufw status。必要时临时关闭防火墙测试:sudo systemctl stop firewalld 或 sudo ufw disable(测试后记得恢复)。
- 查看内核网络参数:sysctl net.ipv4.ip_forward、sysctl net.ipv4.tcp_syncookies,必要时调整并持久化到 /etc/sysctl.conf。
5.
第四步:深度链路与包抓取分析
- 使用 tcpdump 抓包:sudo tcpdump -i eth0 host <对端IP> and port <端口> -w /tmp/cap.pcap,然后用 Wireshark 分析三次握手、RST、ICMP unreachable、MSS/MTU 相关的 ICMP Fragmentation Needed。
- 若发现跨境链路在某个 AS 丢包或延迟陡增,记录对应的 ASN、跳数与时间点,准备提交给阿里云与ISP 的工单。
6.
第五步:常见问题与快速解决方案
- 安全组/实例防火墙导致端口不可达:补充入站/出站规则并重启防火墙。
- MTU/MSS 问题导致大包传输失败:在服务器端调整 /etc/sysctl.conf 添加 net.ipv4.tcp_mtu_probing=1,或使用 iptables --clamp-mss-to-pmtu -t mangle -A FORWARD -p tcp --tcp-flags SYN,RST SYN -j TCPMSS --clamp-mss-to-pmtu。
- 跨境链路本身不稳定或被运营商限速:优先使用阿里云全球加速(Global Accelerator)或将静态资源迁移到国内 CDN(阿里云 CDN 控制台 -> 添加域名 -> 配置源站为香港 IP)以规避国际链路问题。
7.
问:如何判断问题是我配置导致还是运营商链路问题?
- 回答:通过对比从香港服务器发起到大陆 IP 的 traceroute 与从大陆发起到香港 IP 的 traceroute,若两侧都在同一跳或同一运营商出现丢包,通常是链路/运营商问题;若香港侧可以到达但大陆侧不行,优先检查安全组、实例防火墙与路由。
8.
问:提交工单时需要准备哪些证据让阿里与ISP快速定位?
- 回答:准备完整的双端 traceroute/mtr 文本(包含时间戳)、ping 丢包样例、tcpdump 抓包文件(pcap)、受影响的公网 IP/EIP、实例 ID、发生时间窗口、受影响的大陆测试节点 IP 与 ISP 信息,并通过阿里云控制台工单或电话上传这些文件。
9.
问:短期内如何缓解大陆访问不稳定的影响?
- 回答:可以立刻采取的措施有:1) 把静态资源(图片/JS/CSS)放到阿里云 CDN 并使用国内节点加速;2) 启用阿里云全球加速(GIA)或配置跨境专线/云企业网以稳定链路;3) 在国内设置备份节点,并用 DNS 负载或智能解析(阿里云解析)做故障转移。