摘要:本文主要介绍GaussDB(DWS)网络流控能力,并对其管控效果进行验证.
上一篇博文GaussDB(DWS)网络调度与隔离管控能力,我们详细介绍了GaussDB网络调度逻辑,并简单介绍了如何应用网络隔离管控能力.本篇博文主要介绍GaussDB(DWS)网络流控能力,并对其管控效果进行验证.
网络过载对性能的影响主要体现在两方面:
网络调度对性能的影响,性能影响原因分析与GaussDB网络调度详见博客:GaussDB(DWS)网络调度与隔离管控能力;
TCP缓存对性能的影响,本篇博客主要分析TCP缓存对性能的影响,并介绍GaussDB如何通过流控实现对TCP缓存的控制.
众所周知,TCP是一种面向连接的可靠的传输协议,为了保证数据传输的可靠,发送方发送的每一个数据包,接收方都需要向发送方回复一个应答,如果发送失败,则进行重传.上述机制保证了数据传输的可靠性,但是缺点也是比较明显的:发送方每发送一个数据包都需要等待接收方确认,接收方确认接收后再发送下一个数据包,两次发送之间的时间间隔取决于数据包收发时延和接收端处理能力,这个时间间隔越大,通信效率越低.为了解决这个问题,TCP引入了窗口的概念,所谓的窗口其实是操作系统开辟缓存空间用于收发数据包缓存,以提高通信效率,提升网络吞吐量,详细原理可参考TCP滑动窗口机制.
TCP缓存解决了TCP协议通信效率低的问题,但是网络过载情况下,TCP缓存一般比较高,这就导致高优业务发送数据包时,需要等待缓存区中数据全部发送完成后,才能发送高优业务的数据包,这个等待时间,我们称之为发送时延.显而易见,网络带宽不变的情况下,TCP缓存越大,发送时延也就越大.
实验室环境下,构造网络过载场景,测试TCP缓存对业务性能的影响,测试环境配置如下:
使用大表broadcast作为背景压力,两个表简单关联作为正常业务进行测试,测试数据如下:
注:为了更直观地体现TCP缓存对性能的影响,我们使用相对无背景压力增加的执行时间作为性能裂化指标.
从上述测试数据以及TCP缓存默认配置的测试数据看,无论是否进行网络管控,都是TCP缓存越大,性能越差.到这里我们基本可以确定,网络过载场景下应用网络调度后,TCP缓存是性能影响的关键点,但是直接调整TCP缓存区配置会影响到网络整体吞吐量和通信延迟,所以呢需要采用其他技术控制TCP缓存大小在一定范围内.
限流是保护系统稳定的三把利器(限流、缓存、降级)之一.限流可以是限制并发,也可以是限制资源使用;可以保护自己,也可以保护别人.数据库混合负载场景下,限流可以防止低优业务占用过多资源,预防资源过载,保证高优业务性能不受大幅影响.常见的限流算法有计数限流、漏桶算法和令牌桶算法:
计数限流:通过对一个限流周期内的请求数量进行限制,实现限流的目的.在一个限流周期内,可以限制请求不超限,但是在两个限流周期的相邻时间,存在临界问题,可能出现瞬时流量超限的情况.
漏桶限流:按照固定速率消费请求,限制单位时间内可以发送的请求量;请求先放入桶(队列)中,漏桶按照固定速率出水,可以防止突发流量.
令牌桶限流:服务提供者按照固定速率向令牌桶中加入令牌,令牌总量达到阈值则不再添加;请求消费时从令牌桶中获取一定数量令牌,如果令牌不足,则触发拒绝策略,令牌桶允许短时突发流量.
GaussDB网络流控主要用于防止网络欠佳SQL引发网络持续过载,预防TCP缓存持续飙高,引发网络发送延迟过大,进而导致高优业务网络请求不能及时发送,影响高优业务性能.对于正常业务并发过大导致的TCP缓存飙高,建议采用查询调度限制并发的方法进行解决.网络欠佳SQL的网络流控基于网络调度中的低优队列设计实现,采用类漏桶算法实现.
测试环境配置:
网卡:10GE
CREATE EXCEPT RULE bandwidth_rule1 WITH(bandwidth=128, ELAPSEDTIME=60, action='penalty');
创建资源池rp1,关联上述异常规则:
CREATE RESOURCE POOL rp1 WITH(EXCEPT_RULE='bandwidth_rule1');
创建用户user1关联资源池rp1:
CREATE USER user1 RESOURCE POOL 'rp1' PASSWORD 'xxxxxxxx';
使用user1执行以下测试验证网络限流效果:
创建示例表并导入数据
// 背景压力SQL使用的表 CREATE TABLE wt1(c1 int, c2 int, b1 char(1000), b2 char(7000)) distribute by hash(c1); CREATE TABLE wt2(c1 int, c2 int, b1 char(1000), b2 char(7000)) distribute by hash(c1); INSERT INTO wt1 select generate_series(1,10000), generate_series(1,10000),repeat('a',900), repeat('b',6888); INSERT INTO wt2 select * from wt1; INSERT INTO wt1 select * from wt1; // 连续执行多次,导入3GB以上数据 // 高优业务SQL使用的表 CREATE TABLE wt3(c1 int, c2 int, b1 char(1000), b2 char(7000)) distribute by hash(c1); CREATE TABLE wt4(c1 int, c2 int, b1 char(1000), b2 char(7000)) distribute by hash(c1); INSERT INTO wt3 select generate_series(1,10000), generate_series(1,10000),repeat('a',900), repeat('b',6888); INSERT INTO wt4 select * from wt3;
select count(1) from (select /*+ broadcast(wt1)*/ wt1.c1,wt1.c2 from wt1, wt2 where wt1.c2 = wt2.c2);
select count(1) from (select /*+ broadcast(wt3)*/ wt③c1,wt③c2 from wt3, wt4 where wt③c2 = wt④c2);
从性能测试数据可以看出:
不进行网络管控情况下,网络背景压力越大,业务性能越差.
背景压力降级后,不同背景压力情况下,业务性能变化不明显.
背景压力降级后,业务性能裂化基本可控,不再大幅裂化.
背景压力降级后,业务性能还是有劣化,主要原因是流控只能降低TCP缓存,而不能完全消除,想要完全消除背景压力对业务性能的影响,可以配合使用终止异常规则,在识别网络欠佳SQL后将其终止.
从测试验证效果看,降级异常规则配合低优队列网络流控,可以有效控制背景压力对业务性能的影响,保证网络欠佳SQL不会导致高优业务性能大幅劣化.