CN2线路晚高峰限速,是QoS策略还是物理带宽跑满了

CN2线路在晚高峰变慢,这个问题现场遇到得很多。尤其是香港、洛杉矶、新加坡这些回国节点,白天测速很漂亮,到了晚上8点到11点,下载从几十Mbps掉到几Mbps,SSH有轻微卡顿,视频加载变慢,业务侧看起来像“被限速”。

但这里要拆开看:有些确实是QoS策略在控速,有些是上游物理带宽被打满,还有一些是跨运营商方向拥塞,比如电信正常、联通绕路、移动丢包。只看一个speedtest结果,很容易判断错。

先把CN2、CN2 GIA、普通优化线路分清楚

CN2不是一个泛泛的“好线路”标签,它本质上是China Telecom Next Carrying Network。实际业务里常见的说法有两类:

线路类型 常见特点 晚高峰表现
CN2 GT 部分骨干走CN2,出入口资源相对有限,价格比GIA低 晚高峰可能抖动,速度下降比较常见
CN2 GIA 去程、回程更完整走CN2,优先级更高,资源更贵 稳定性明显好,但也不是无限带宽
普通BGP优化 多运营商接入,依赖调度和上游质量 不同地区差异大,晚高峰波动更明显

实际使用中发现,很多用户说的“CN2线路限速”,并不一定是CN2 GIA。市场上有些产品写CN2直连、CN2优化、精品线路,含义可能不同。购买前最好确认回程路由、带宽类型、峰值限制、是否共享端口。

如果业务面向国内访问,对香港CN2这种低延迟线路有要求,可以看下129云的香港CN2相关机器。比如香港CN2-活动款是8C、8G DDR4 ECC、80G SSD、20Mbps峰值、1个IPv4,适合中小型站点、API回源、企业访问入口这类场景。需要确认线路和库存时可以直接问客服,热线400-9177118。

晚高峰速度下降,常见有三种现象

测速掉速但延迟稳定

比如白天iperf3能跑到18Mbps,晚上只能跑到6Mbps,但ping从30ms变成35ms,丢包基本没有。这种更像是带宽被调度或者共享出口拥塞,不一定是严重故障。

如果供应商给的是20Mbps峰值共享带宽,晚高峰用户集中跑流量,单机测速下降很正常。这里的关键词是“峰值”,不是“独享”。峰值20Mbps的机器,在低峰时可能跑满,晚高峰只能跑一部分。

延迟上升并伴随丢包

比如香港到华南电信白天20ms,晚上跳到80ms,还出现2%到8%的丢包。这个就不只是普通限速问题了,可能是跨境出口拥塞,也可能是某段链路排队严重。

这种时候TCP吞吐会掉得很厉害。哪怕带宽标称是20Mbps,只要丢包达到3%,实际下载速度可能只剩几Mbps。很多人看到下载慢就以为被限速,其实是TCP拥塞控制在自动降速。

单线程慢,多线程还能跑上去

这类特别常见。wget单线程只有2Mbps,开多线程下载能到15Mbps。这个现象通常说明链路没有完全跑死,但单连接被影响了。

可能原因包括QoS按session限速、TCP窗口不够、跨境链路丢包、服务端拥塞控制算法不合适。这里补充一点,测试时不要只看浏览器下载速度,至少用iperf3单线程和多线程分别测一次。

QoS策略限速一般长什么样

QoS不是坏词。运营商、IDC、云厂商都会用QoS,目的可能是保障整体稳定,也可能是做套餐隔离。问题在于用户感知到的就是“怎么一到晚上就慢”。

比较典型的QoS限速特征:

观察项 QoS限速倾向 物理带宽跑满倾向
速度曲线 很平,稳定卡在某个值,比如5Mbps、10Mbps 上下波动明显,忽高忽低
延迟 变化不大 高峰期明显升高
丢包 通常不明显 可能出现周期性丢包
多线程测试 可能总速率仍被卡住 多线程有时能抢到更多带宽
时间规律 固定时段触发,恢复也很准时 随流量潮汐变化,不一定准点

举个现场里很容易见到的数据:一台标称20Mbps峰值的香港CN2机器,白天iperf3跑18.5Mbps,晚上8点开始稳定在9.8Mbps,上下浮动不到0.3Mbps,ping一直是28ms到32ms,mtr也没有明显丢包。这种就很像策略限速,或者上游对某类产品做了固定保障值控制。

如果同一时间测速曲线是3Mbps、12Mbps、5Mbps、16Mbps这样乱跳,ping也从30ms飙到120ms,那就更像物理链路拥塞。

物理带宽跑满时,链路状态会更“脏”

物理带宽跑满不只是下载变慢,排队延迟、抖动、丢包都会跟着来。特别是跨境方向,晚高峰用户流量集中,视频、游戏、企业远程、备份任务一起挤,链路缓冲区开始排队,延迟先变高,然后TCP吞吐下降。

一个比较典型的mtr结果会这样:

时间 平均延迟 丢包 iperf3单线程 iperf3 8线程
14:00 26ms 0% 18.2Mbps 19.4Mbps
20:30 68ms 3.5% 2.8Mbps 11.6Mbps
22:15 94ms 6.8% 1.4Mbps 7.9Mbps
00:30 31ms 0.2% 16.9Mbps 18.7Mbps

这个数据看起来就不是单纯“卡到某个固定值”。它是链路质量在恶化,TCP自己退让。用户体感上可能就是网页打开慢、接口偶发超时、SFTP传输越来越慢。

多说一句,物理带宽跑满不一定发生在你的服务器所在交换机,也可能在国际出口、运营商互联点、回程入口。你在机器上看网卡流量很低,不代表上游链路不堵。

怎么判断是QoS还是带宽拥塞

用iperf3分单线程和多线程

测试时建议找国内不同运营商节点,比如电信、联通、移动各找一个。命令可以很简单:

iperf3 -c 测试端IP -p 端口 -t 30

再跑多线程:

iperf3 -c 测试端IP -p 端口 -t 30 -P 8

如果单线程和多线程总速率都稳定卡在同一个上限,比如都在10Mbps附近,QoS概率更高。如果单线程很差,多线程还能往上堆,拥塞、丢包、TCP问题的概率更高。

mtr要看回程,不要只看去程

很多人只在本地电脑ping服务器,然后得出线路没问题。实际业务里,服务器回国内的方向更关键。尤其是海外机器服务国内用户,回程线路决定了大部分访问体验。

可以在服务器上对国内目标跑mtr:

mtr -rwzc 100 目标IP

看三件事:延迟是不是从某一跳开始突然升高,丢包是不是持续到终点,晚高峰和白天差异有多大。中间某一跳显示丢包但后面正常,很多时候只是ICMP限速,不要直接判故障。

抓时间点,不要只测一次

晚高峰问题最怕只拿一张测速图说事。建议至少测这几个时间段:14:00、20:30、22:30、00:30。每次记录ping、mtr、iperf3单线程、多线程、业务接口耗时。

实际排查时,拿连续三天的数据比拿一次截图有用得多。供应商也更容易判断是临时异常、区域性拥塞,还是套餐本身有峰值策略。

为什么同样写CN2,体验差这么多

CN2线路成本不低,尤其是CN2 GIA。不同供应商的区别主要在这几个地方:上游资源、带宽超售比例、回程质量、是否混跑普通流量、DDoS清洗策略。

香港CN2尤其明显。香港到华南物理距离近,低峰期延迟很漂亮,20ms上下很常见。但晚高峰要看出口资源。如果供应商采购的是比较紧的共享带宽,用户一多就会明显降速。

这里有个简单对照:

场景 更适合的带宽类型 原因
企业官网、后台系统 CN2优化或CN2 GIA,小带宽稳定型 并发不一定高,但延迟和稳定性重要
游戏登录服、API网关 低延迟CN2 GIA优先 小包交互多,抖动比峰值带宽更敏感
文件分发、下载站 大带宽BGP或CDN组合 单纯CN2带宽成本高,容易被流量打满
经常被攻击的业务 高防服务器或高防IP加源站 DDoS清洗和回源稳定性比线路名更重要

如果只是企业站、跨境办公、小程序接口、轻量业务回国访问,香港CN2直连的小规格机器就够用。比如129云香港活动款有1C 1G、15GB SSD、1Mbps、1个IPv4的CN2直连配置,也有4C 4G、50GB SSD、5Mbps的配置。小带宽不是缺点,关键是业务模型要匹配,不要拿1Mbps机器做下载分发。

有些“限速”其实是套餐峰值设计

云服务器里经常看到“20Mbps峰值”“100Mbps共享”“G口大带宽”这些字样,含义不一样。

20Mbps峰值通常表示这台机器最高可跑到20Mbps,但不承诺任何时间都能跑满。共享带宽表示同一资源池里多台机器共用出口,低峰速度好,高峰看资源池压力。独享带宽价格会明显更高,因为上游就不是一个成本模型。

实际采购时要问清楚:

带宽是独享还是共享;峰值有没有晚高峰保障;回程是否CN2;是否三网都走CN2;DDoS触发后会不会切路由;超流量后是限速还是停机。

这些问题听起来细,但能避免很多后期扯皮。尤其是业务上线后才发现晚高峰跑不动,再迁移就比较被动。

业务侧能做什么缓解

把大流量和低延迟业务分开

不要把下载、图片、视频、备份和API接口全部压在一台CN2机器上。CN2适合承载对延迟敏感的流量,不适合无脑跑大文件。大文件可以走对象存储、CDN、普通大带宽节点,API和后台走CN2。

这样做的好处很直接:晚高峰即使下载慢一点,也不会把核心接口拖死。

服务端开启合适的TCP拥塞控制

Linux上可以检查当前拥塞控制算法:

sysctl net.ipv4.tcp_congestion_control

一些跨境链路在BBR下吞吐会更好,但也不是所有环境都适合。建议灰度测试,不要线上直接全量改。丢包严重的链路,BBR可能改善下载速度,但如果上游已经物理跑满,它也不能凭空变出带宽。

监控要盯业务耗时,不只盯ping

ping正常不代表业务正常。HTTP接口耗时、TCP重传率、Nginx upstream_response_time、数据库连接耗时,这些更接近真实用户体验。

有一次现场排查,ping一直在35ms以内,但用户反馈接口慢。抓包后发现TCP retransmission明显升高,应用层请求偶发2秒以上。后面确认是晚高峰回程轻微丢包,ping包小且频率低,看不出来。

供应商侧怎么证明不是简单甩锅

靠谱的IDC或云厂商,在面对晚高峰问题时,不应该只回复“本地测试正常”。更有价值的是给出回程路由、端口利用率、上游状态、同节点对比测试。

如果能看到晚高峰出口端口已经到90%以上,那基本就是资源紧张。如果端口不高但单用户被卡在固定速率,就要看QoS策略或套餐限制。如果某个运营商方向异常,比如只有移动慢、电信正常,就要排跨运营商路由。

用户侧也要给足信息:服务器IP、测试源IP、测试时间、mtr结果、iperf3结果、业务类型。只发一句“线路很慢”,技术人员很难定位。

香港CN2选型时的实战判断

如果业务主要用户在华南、华东,香港CN2仍然是很常用的选择。延迟低,部署方便,备案压力小,适合企业站、游戏辅助服务、管理后台、跨境电商系统。

但要接受一个现实:香港CN2带宽贵,晚高峰稳定性和价格强相关。特别便宜的大带宽CN2,要么是共享峰值,要么是线路描述比较宽泛,要么是高峰期体验会打折。

小业务可以从低配开始,比如1Mbps或5Mbps CN2直连机器,先看真实访问日志和带宽曲线。访问增长后再升到20Mbps峰值或更高规格。需要高防的业务不要只盯CN2,DDoS一来,普通无防机器可能直接黑洞,线路再好也没意义。

如果你也在找香港CN2直连、优化线路、海外云服务器这类产品,可以看看129云。它的产品线里有香港CN2活动机、香港优化线路机器、G口大带宽服务器、高防服务器,适合按业务阶段拆开选,而不是所有流量都堆在一台机器上。

看到晚高峰变慢时,建议直接按这个顺序查

先确认套餐:峰值带宽、共享还是独享、是否CN2 GIA、是否三网优化。

再测链路:服务器到国内电信、联通、移动分别跑mtr,白天和晚上都留数据。

然后测吞吐:iperf3单线程、多线程各跑一次,观察是不是稳定卡在某个速率。

接着看业务:Nginx日志、接口耗时、TCP重传、系统负载、磁盘IO,排除应用自身瓶颈。

如果速度稳定卡死、延迟不变,多半要问供应商是否有QoS或套餐保障值;如果延迟升高、丢包增加、吞吐乱跳,更像上游拥塞或物理带宽压力;如果只有某个运营商慢,就继续追回程路由和互联点状态。