python多进程的cpu亲和性绑定

关于什么是cpu的亲和性的问题,大家自己去搜吧,不想在这里阐述了这讲义了。

简单说,就是让进程不要可哪跑,给定一个cpu core的范围,这样可以减少cs上下文切换后cpu cache miss的情况,节省了主存复制到cpu cache的时间。

该文章写的有些乱,欢迎来喷 ! 另外文章后续不断更新中,请到原文地址查看更新.   http://xiaorui.cc/?p=4542

最开始接触cpu亲和性绑定是nginx上,我想大家一定都有在nginx配置过worker_cpu_affinity。 nginx 的 worker_cpu_affinity 参数就是用来绑定cpu core的,worker是顺序绑定的。
#nginx
worker_processes 8;
worker_cpu_affinity 00000001 00000010 00000100 00001000 00010000 00100000 01000000 10000000;

那么python需要做cpu亲和性绑定么? 那要看场景吧,不管你是c、golang、python语言,如果只是个没流量没任务的服务,那么无所谓了。  在高频流量服务下,还是很推荐cpu亲和性绑定的。 说下经验,爬虫系统和即时通信系统是采用python和golang写的, 任务量很大,流量也很大….  在python多进程配置了cpu亲和性之后, 系统的上下文少了一些,毕竟线程单元不会被迁移到别的core上,也就不会因为cache失效问题引发syscall。

另外我们通过ps aux进程的sys内核态时间,也可以看到优化cpu绑定的效果… … 

如果在命令行下获取进程的cpu绑定信息?

#xiaorui.cc

taskset  -cp 118222
pid 118222's current affinity list: 0-15 

意思是说,pid绑定了0-15核,可以说默认的配置。

在终端下配置进程cpu绑定。

taskset  -cp 0,4 118222
pid 118222's current affinity list: 0-15
pid 118222's new affinity list: 0,4

启动脚本并绑定cpu core
taskset -c 0 python abc.py

 

详细的查看进程所在的cpu核心上, PSR 是cpu id编号, 随便写个脚本会发现psr id不定期会变化
ps -o pid,psr,comm -p 187090
PID PSR COMMAND
187090   7 python 

top -p 187090 , 按下P,然后按下f, 然后按 j (开启smp查看), 然后回车. 在每个进程信息里看到一个 P ,这个P就是psr。 

批量查看脚本:
#xiaorui.cc

pname="nginx"  # for example
for pid in (pgrep "{pname}")
do 
    [ "{pid}" != "" ] || exit
    echo "PID:{pid}"
    for tid in \
      (ps --no-headers -ww -p "{pid}" -L -olwp | sed 's// /' | tr  -d '\n')
    do
    taskset -cp "{tid}"   # substitute thread id in place of a process id
    done
done 

到此为止,我们说完了如何在终端下查看配置cpu亲和性。 但其实也可以在程序内部实现绑定,当然难度不在于绑定,不管你是c、golang、python,都是通过系统系统的方式来实现绑定的,下面说说CPU亲和性在用户态的使用

linux的CPU亲和性在用户态表现为一个cpu_set_t掩码的形式,用户可以调用两个函数设置和获取掩码:

#define _GNU_SOURCE /* See feature_test_macros(7) */
#include
#设置cpu绑定
int sched_setaffinity(pid_t pid, size_t cpusetsize,
 cpu_set_t *mask);
#查看进程的cpu绑定情况
int sched_getaffinity(pid_t pid, size_t cpusetsize,
 cpu_set_t *mask);


sched_setaffinity是设置指定pid亲和性掩码的,mask是传入的参数;sched_getaffinity则是获取指定pid亲和性掩码的,mask是获取的参数。

cpusetsize可以通过sizeof cpu_set_t算出来。cpu_set_t 是一个掩码数组,一共有1024位,每一位都可以对应一个cpu核心,以下宏,都是对这个掩码进行操作的。如果需要,一个进程是可以绑定多个cpu的。


而mask的表现是如此的:如果是0X23,转换成二进制则为00100011,则表明进程绑定在0核、1核和5核上。

绑核需要注意是,子进程会继承父进程的绑核关系。


那么python多进程内部如何实现cpu绑定?当然你如果不想这么折腾,完全可以在外部做cpu绑定。

python在3.4之后在os模块里加入了cpu_affinity方法,但是参数不太友好,pid绑定的cpu核是掩码,而不是taskset那样易懂的核心数。

推荐使用该模块,https://github.com/algodirect/affinity/blob/master/affinity/src/affinity/__init__.py

他比python3.4内置的os.sched_setaffinity 多了这么一个参数及返回值的处理。

# xiaorui.cc

def sched_setaffinity(pid_, cpus_):  # same name as in python3
    cpu_set_ = cpu_set(cpus_)
    result_ = set_affinity(pid_, ctypes.sizeof(cpu_set), cpu_set_)
    if result_ != 0:
        errno_ = errno_location().contents.value;
        raise OSError(errno_, os.strerror(errno_))

def sched_getaffinity(pid_):  # same name as in python3
    cpu_set_ = cpu_set()
    result_ = get_affinity(pid_, ctypes.sizeof(cpu_set), cpu_set_)
    if result_ != 0:
        errno_ = errno_location().contents.value;
        raise OSError(errno_, os.strerror(errno_))
    return cpu_set_.to_list()

# 参数转换
class cpu_set(ctypes.Structure):
    #cpu掩码
    _fields_ = [("bits", ctypes.c_ulong * (CPU_SET_SIZE / SZ_LONG))]  # to represent cpu_set_t from sched.h
    
    def __init__(self, cpus_ = None):
        for i_ in xrange(CPU_SET_SIZE / SZ_LONG):
            self.bits[i_] = 0
        if cpus_:
            for cpu_id_ in cpus_:
                self.enable(cpu_id_)
    
    def enable(self, cpu_id_):
        if cpu_id_ < 0 or cpu_id_ >= NO_OF_CPU:
            raise ValueError, "Invalid CPU id %d, it doesn't exist", cpu_id_
        self.bits[cpu_id_ / SZ_LONG] |= 1 << (cpu_id_ % SZ_LONG)
    
    def is_enabled(self, cpu_id_):
        if cpu_id_ < 0 or cpu_id_ >= NO_OF_CPU:
            raise ValueError, "Invalid CPU id %d, it doesn't exist", cpu_id_
        return ((self.bits[cpu_id_ / SZ_LONG]) & (1 << (cpu_id_ % SZ_LONG))) != 0
    
    def to_list(self):
        return [ i_ for i_ in range(NO_OF_CPU) if self.is_enabled(i_) ]
    os.sched_setaffinity = sched_setaffinity # 补丁方法
    os.sched_getaffinity = sched_getaffinity # 补丁方法

如果你是python2.7 可以使用Pyobject实现的cpu affinity模块,一老外写的…   简单看了下实现的代码,通过Python.h构建方法,通过include sched.h系统调用。

https://pypi.python.org/pypi?%3Aaction=search&term=affinity&submit=search

那么,如何在项目里合理给进程池配置cpu亲和性绑定?

我这边的进程管理模型是参考nginx master worker原理实现的。 但是跟nginx 工作进程区别在于,nginx的worker是一种工作类型,处理的逻辑是一模一样。既然都一样了,那么nginx可以按照worker pid list顺序的绑定cpu核心。 但我这边的架构是worker分组的,也就是说,有很多种的worker group,每种worker的cpu消耗不一致。

那么首先,我们要避免多个cpu密集的任务集中在一个cpu上。  首先我们预先知道那种任务进程会消耗cpu,那么可以统一的先把cpu密集的pid收集起来,最后在一个个的配置cpu亲和性。
那么剩下的无关紧要的管理进程,可以按照区间的方式配置。 避免某个cpu密集任务把cpu打满,你的其他进程虽然无关紧要,但也不能太可怜了,所以24core的cpu,配置0-3, 5-8 以此类推…. 

总结:

用python构建的高频服务还是少数,在python里推荐大家使用多进程加协程池模型,该模型配置cpu亲和性是有效果的…. 还有cpu亲和度绑定是否有必要,看你的项目了。

END


大家觉得文章对你有些作用! 如果想赏钱,可以用微信扫描下面的二维码,感谢!
另外再次标注博客原地址  xiaorui.cc