2018-06-22

跟某个云厂商的长期扯皮...

云服务器效率急降

从2017年6月开始，云服务器出现了不同程度的效率急降，通常是突然cpu能力和IO效率在几秒内降低5成，表现到程序上就是游戏服务器程序突然cpu100%，非常可怕，找到云厂商反应问题，得到的答复是他们没问题，要我自己检查自己的程序。每次出问题通过sar命令观察系统的效率，都可以看到明显的问题。这个问题断断续续在一年的时间中出现了不下10次，最近该厂商终于承认是自己的问题，他们的解释是同一台物理机上其他虚拟机抢占了我们虚拟机的资源，导致我们的云服务器效率下降。记录一下几个关键sar命令，可以清楚的看到系统的各种统计信息，这些信息可以很清楚的表明，服务器的效率问题跟CP的服务器程序没有关系。

sar -B

sar -B

pgpgin/s：每s从磁盘换入的页的大小（KB）
pgpgout/s：每s换出到磁盘的页的大小（KB）
fault/s：每s发生的缺页错误的次数，包括minor fault和major fault。
majflt/s：每s发生的major fault的次数，major fault会导致从磁盘载入内存页（即使用了swap分区）。
pgfree/s：每s放入空闲列表中的页的个数。
pgscank/s：每s被kswapd后台进程扫描的页的个数。
pgscand/s：每s直接被扫描的页的个数。
pgsteal/s：为了满足内存要求，每s从cache（pagecache和swapcache）回收的页的个数。
%vmeff：等于pgsteal  /  pgscan，用于计算页回收（page reclaim）的效率。

sar -q

sar -q

runq-sz:处于运行或就绪的进程数量
plist-sz:现在进程的总数(包括线程).
ldavg-1:最近一分钟的负载.
ldavg-5:最近五分钟的负载.
ldavg-15:最近十分钟的负载.

sar -n DEV

sar -n DEV

IFACE：LAN接口
rxpck/s：每秒钟接收的数据包
txpck/s：每秒钟发送的数据包
rxbyt/s：每秒钟接收的字节数
txbyt/s：每秒钟发送的字节数
rxcmp/s：每秒钟接收的压缩数据包
txcmp/s：每秒钟发送的压缩数据包
rxmcst/s：每秒钟接收的多播数据包

Shafeng`s blog

road

跟某个云厂商的长期扯皮...

云服务器效率急降