CN2线路丢包严重,是机器问题还是线路问题

CN2线路出现丢包,现场排查时最容易被误判。用户看到 ping 丢包,第一反应是服务器不行;机房看监控说端口没满、CPU正常,又会认为是用户本地网络问题。实际处理多了会发现,CN2丢包要分清楚丢在什么位置,不能只看一个 ping 结果。

这里先把场景说清楚。CN2一般指 China Telecom Next Carrier Network,常见在香港、日本、美国西海岸等回国线路里。香港 CN2 因为距离近、延迟低,经常用于企业站、游戏转发、跨境业务、API接口、远程办公。正常情况下,华南到香港 CN2 延迟大概 10ms 到 30ms,华东大概 30ms 到 50ms,华北大概 40ms 到 70ms。线路正常时,丢包应该非常低,长时间测试一般接近 0%。

如果突然出现 5%、10%、20% 甚至更高丢包,就不能只看“是不是CN2”这几个字了,要看是服务器资源异常、机房出口拥塞、运营商回程波动,还是本地接入网问题。

先别急着换机器,先看丢包发生在哪一跳

实际使用中发现,很多人排查丢包只会 ping 服务器 IP。ping 通了说正常,ping 丢了说服务器坏了,这个判断太粗。

更靠谱的方式是同时看 mtr 或 WinMTR。比如从国内电信到香港 CN2 服务器,跑 300 到 1000 个包,看每一跳的 Loss%。如果只有中间某一跳显示 30% 丢包,但后续节点和最终 IP 没丢,那通常不是故障。很多路由节点会限制 ICMP 响应,看起来中间跳丢包很高,实际业务流量没有受影响。

真正需要关注的是:丢包是否从某一跳开始持续传递到后面所有节点,尤其是最终服务器 IP 是否也丢。如果最终 IP 也稳定丢包,问题才有继续查的价值。

现象 常见判断 处理方向
中间某一跳 Loss 很高,后续正常 多半是 ICMP 限速 不用急着处理,看最终节点和业务连接
从某一跳开始后面全部丢包 该节点之后链路可能拥塞或异常 截图 mtr,提交给服务商查路由
最终 IP 丢包,但 TCP 业务正常 可能是 ICMP 被限速,也可能轻微拥塞 补充 TCPing、curl、业务日志一起看
ping 丢包,SSH、网站也卡顿 真实链路或服务器异常概率高 同时查机器负载、端口流量、线路状态

机器问题通常不是“线路丢包”,但会表现得很像

机器本身异常也会造成丢包感知,尤其是小配置云服务器或者长期高负载业务。比如 CPU 100%、内存打满、磁盘 IO wait 很高、iptables 规则过多、conntrack 表爆掉,这些都会让服务器响应变慢。ping 看起来像丢包,实际是系统没有及时处理网络包。

这里补充一点,Linux 服务器上可以先看几个状态:

top 看 CPU 是否长期高占用,特别是 steal 值是否异常。free -m 看内存是否被打满,是否频繁 swap。iostat 看磁盘是否有明显 IO wait。ss -s 看 TCP 连接数量,dmesg 看有没有网卡、conntrack、内核报错。

如果机器是 1C1G,跑了网站、数据库、反代、监控、日志采集,再叠加高并发访问,丢包感知就不一定是 CN2 线路问题。小机器在高峰时段响应慢,很容易被误认为线路抖动。

举个常见场景:香港 1C1G CN2 机器,白天正常,晚上 8 点到 11 点网站打开慢。mtr 看最终 IP 丢包 3% 到 8%,但机器 top 里 CPU 长期 90% 以上,MySQL 占用很高。这种时候换线路没太大意义,先把业务拆出来,或者升级到 4C4G、8C8G,效果更明显。

线路问题一般有明显时间段和方向性

真正的线路丢包,通常有几个特征:固定高峰期出现、某个运营商更明显、回程或去程其中一边异常、多个同机房同线路 IP 都有类似情况。

比如电信方向丢包明显,联通和移动正常,那就要看是否电信 CN2 回程拥塞。再比如广东电信很稳,北京电信丢包,这可能是国内骨干段或区域出口问题。CN2不是魔法线路,它也要经过城域网、省网、骨干网、国际出口、香港落地,再到机房。

多说一句,很多人买香港 CN2,是因为“回国快”。但快不代表永远不抖。CN2 GIA、CN2 GT、普通优化线路、BGP混合线路,体验差别很大。商家页面写 CN2,也要看去程、回程、三网表现和带宽是否独享。

去程和回程要分开看

排查 CN2 丢包时,一个很容易漏掉的点是去程和回程。用户从国内访问香港服务器,是国内到香港的去程;服务器访问国内,是香港到国内的回程。网页打开慢、SSH卡顿、游戏延迟高,可能是去程问题,也可能是回程问题。

从国内本地跑 mtr 到服务器,只能看到去程。从服务器上跑 mtr 到国内 IP,才能看回程。两边都测,结论才比较稳。

例如:

广州电信到香港服务器 mtr,最终 IP 0% 丢包,延迟 15ms;但服务器 mtr 到广州电信,最终丢包 12%,延迟从 20ms 飙到 120ms。这种情况下,用户访问体验依然会差,因为数据返回时丢了。

还有一种情况是去程绕路。明明买的是香港 CN2,但从国内过去先绕日本、美国,再回香港,延迟直接 150ms 起步。这不是机器性能问题,而是路由调度或线路标识问题,需要让服务商确认路由。

怎么看是不是带宽打满

带宽打满是最常见、也最容易被忽略的原因。尤其是香港 CN2 小带宽套餐,1Mbps、5Mbps、20Mbps,业务稍微有图片、下载、接口返回大一点,就可能顶满。

1Mbps 理论下载速度大约 128KB/s,扣掉协议开销后更低。一个网站首页如果有几张未压缩图片,同时 20 个人访问,就可能出现排队。用户感知就是打开慢、丢包、SSH输入延迟。

带宽 大致可用下载速度 适合场景 容易出问题的场景
1Mbps 约 100KB/s 到 120KB/s 轻量站点、测试、低访问量后台 图片站、下载、多人同时访问
5Mbps 约 550KB/s 到 600KB/s 企业官网、小程序接口、轻量业务 大文件分发、视频、突发流量
20Mbps 约 2.2MB/s 到 2.4MB/s 回国访问要求较高的业务、转发、小型游戏服务 高并发下载、DDoS流量冲击

判断方法也简单:服务器上用 iftop、nload、sar -n DEV 看网卡实时流量。如果出方向长期贴近套餐上限,比如 5Mbps 套餐长期跑到 4.8Mbps,丢包和延迟飙升基本正常。不是线路坏,是带宽队列排满了。

如果业务本身依赖国内访问速度,比如企业官网、游戏管理后台、跨境 API,可以优先看香港 CN2 直连或 CN2 优化线路。配置选择上,轻量测试可以用 1C1G、1Mbps;企业站点建议至少 4C4G、5Mbps;对回国速度要求更高的业务,可以看 8C8G、20Mbps 的香港 CN2 活动机。选型时如果不确定业务峰值,可以直接问129云客服,电话 400-9177118,把访问地区、运营商、预估并发说清楚,比盲买再迁移省事。

DDoS 或异常流量也会造成 CN2 丢包

香港 CN2 线路多数强调低延迟,但不一定带高防。无防御机器遇到 DDoS 或者 CC 攻击,线路和服务器都会出现异常。有些攻击不需要很大流量,几十 Mbps 的 UDP、SYN、ACK 异常包,就可能让小带宽 CN2 机器直接卡死。

这里要区分两类情况:

如果机房入口被打满,整个 IP 可能丢包严重,甚至被黑洞。ping 不通、SSH断开、面板显示流量暴涨,这类比较明显。

如果是应用层 CC,带宽不一定高,但 Nginx、PHP、数据库被打满。ping 可能还正常,网站却打不开。这个时候看 access log、连接数、负载,比盯着线路更有用。

香港 CN2 活动机器如果标注无防御,就不要拿它硬扛攻击。游戏、金融、接口类业务有被打风险时,前面加高防 IP、WAF、CDN,或者直接选高防服务器。低延迟和高防护经常要做取舍,不能只看单台机器价格。

本地网络问题也不少见,特别是家宽和办公网

有些丢包只发生在用户本地。比如家里 Wi-Fi 干扰、路由器性能差、公司出口做了限速、运营商晚高峰拥塞,都会影响测试结果。

实际排查时,建议至少换三个测试源:本地宽带、手机 5G 热点、第三方探针或云服务器。如果只有本地宽带丢包,手机 5G 和其他地区都正常,那基本别急着找机房。先看本地路由器、光猫、运营商。

尤其是 Wi-Fi 测试很不稳定。2.4GHz 干扰严重时,ping 网关都能丢包。连服务器丢包 20%,看起来像国际线路炸了,结果 ping 家里路由器 192.168.1.1 都在抖。

服务商机房侧怎么判断

机房侧一般会看服务器宿主机状态、交换机端口、上联流量、线路出口、同段 IP 反馈。如果只有一台机器异常,优先查机器和宿主机。如果同一母机多台异常,可能是宿主机或交换层。如果同线路多个网段都异常,那才更像出口或运营商线路问题。

用户提交工单时,最好别只发一句“丢包严重”。更有效的信息包括:测试时间、测试地区、运营商、mtr截图、服务器到本地的反向 mtr、业务端口测试结果、是否高峰期固定出现、是否只有某个运营商异常。

例如这种描述就比较容易处理:

“广州电信家宽到香港 CN2 IP,晚上 21:00 到 23:00 丢包 8% 到 15%,白天正常。WinMTR 500包截图里,从 59.43.x.x 后开始持续丢包,最终 IP 也丢。服务器反向到 14.x.x.x 也有 10%左右丢包。联通测试正常。”

这种信息给到服务商,基本可以直接进入线路排查,不用来回确认半天。

CN2、CN2 GIA、普通优化线路不能混着看

市面上写 CN2 的产品差异很大。CN2 GIA通常体验更好,去程回程更干净,三网表现也更稳;CN2 GT有时只有部分方向走 CN2,晚高峰更容易受影响;普通优化线路可能电信不错,联通移动走 BGP 或其他回程。

如果业务主要面向国内电信用户,香港 CN2 直连性价比不错。如果面向三网用户,不能只测电信,还要看联通和移动。移动到香港有时走 CMI,表现可能很好,也可能绕路;联通不同地区差异也明显。

购买前建议看测试 IP,自己从目标用户地区跑一轮 mtr、ping、TCPing。只看商家宣传页不够。像129云这类提供香港 CN2 直连、优化线路、高防服务器和海外云计算方案的服务商,适合把测试、正式业务、高防需求分开选,不要把所有业务都塞到一台低带宽无防机器上。

用业务端口测试,比单纯 ping 更接近真实体验

ping 用的是 ICMP,很多网络设备会限速或降优先级。网站、游戏、数据库连接走的是 TCP 或 UDP。只看 ping,有时会误判。

网站可以用 curl 看连接时间、TLS握手时间、首包时间。SSH可以观察输入延迟和断连频率。游戏服务要看 UDP 抖动、重传和实际在线玩家反馈。API服务可以看 P95、P99延迟,而不是只看平均值。

比如 ping 丢包 5%,但 curl 连续请求 1000 次,失败 0 次,P95 在 80ms 内,业务日志没有超时,这种不一定需要处理。反过来,ping 0% 丢包,但 HTTPS 首包时间经常 3 秒以上,就要查应用、数据库、带宽和回程。

常见误判场景

场景一:香港 CN2 1Mbps 机器放了 WordPress,首页 8MB,晚上访问慢。mtr 看最终 IP 偶尔丢包。实际是带宽太小,图片没压缩,出方向跑满。

场景二:服务器 CPU 正常,但 conntrack 表满,NAT或防火墙规则导致新连接失败。用户说线路丢包,实际是内核丢连接。dmesg 里能看到 nf_conntrack: table full。

场景三:电信访问丢包,移动正常。去程 mtr 显示电信 CN2 段开始丢,反向也丢。这类更像电信方向线路波动,换机器配置没有意义。

场景四:只有公司办公室访问卡,家宽、手机热点、第三方节点都正常。最后发现公司出口防火墙做了流控,跨境连接被限制。

场景五:被小流量 DDoS 打了,机房没有高防,IP被清洗或限速。用户看到 CN2 丢包严重,但根因是攻击流量触发策略。

遇到严重丢包时可以按这个顺序查

先确认最终 IP 是否真的丢包,不要被中间跳 ICMP 限速误导。再看丢包是否影响业务端口,HTTP、SSH、游戏端口都要测。接着查服务器负载、带宽、连接数、系统日志。机器没问题,再分别测去程和回程。最后对比不同地区、不同运营商、不同时间段。

如果丢包只在晚高峰出现,而且集中在某个运营商方向,大概率是线路拥塞或路由问题。如果全天都丢,并且服务器负载、带宽异常,就先处理机器。如果多个地区都访问不了,还伴随流量暴涨,就要考虑攻击或机房侧策略。

香港 CN2 机器本身适合低延迟回国访问,但配置和带宽要跟业务匹配。轻量测试用 1C1G、1Mbps 可以;企业站或接口服务更适合 4C4G、5Mbps;需要更稳定的回国体验和更高吞吐,可以看 8C8G、20Mbps 的香港 CN2 活动配置。购买前把目标用户地区、电信/联通/移动占比、是否需要防御、日常峰值带宽说清楚,让服务商给测试 IP 和线路建议。

什么时候该换机器,什么时候该换线路

机器 CPU、内存、磁盘、连接数异常,带宽长期跑满,这种优先升级机器或带宽。换到同样小带宽的 CN2 机器,问题还会回来。

只有某个运营商方向丢包,多个 IP 同样表现,机器资源正常,业务端口也受影响,这种更偏线路问题。可以让服务商调整回程、切换线路,或者换到 CN2 GIA、优质 BGP、三网优化线路。

被攻击时不要纠结是不是 CN2。无防机器被打,线路再好也顶不住。该上高防就上高防,该做 WAF、限速、黑白名单就做,不然丢包会反复出现。

如果业务正在选香港节点,又比较看重国内访问速度,可以重点关注 CN2 直连、回程质量和带宽规格。需要香港 CN2、G口大带宽、高防服务器或海外云计算方案,可以看129云的对应产品线,再用测试 IP 跑一轮目标地区实测。