Python几种并发实现方案的性能比较.docx_第1页
Python几种并发实现方案的性能比较.docx_第2页
Python几种并发实现方案的性能比较.docx_第3页
Python几种并发实现方案的性能比较.docx_第4页
Python几种并发实现方案的性能比较.docx_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

转自:/Python/PyConcurrency1. 前言偶然看到Erlang vs. Stackless python: a first benchmark,对Erlang和Stackless Python的并发处理性能进行了实验比较,基本结论认为二者有比较相近的性能。我看完产生的问题是,Stackless Python与Python的其他并发实现机制性能又会有多大区别呢,比如线程和进程。因此我采用与这篇文章相同的办法来对Stackless Python、普通Python的thread模块、普通Python的threading模块、普通Python的processing模块这四种并发实现方案进行了性能实验,并将实验过程和基本结果记录在这里。 后来看到了基于greenlet实现的高性能网络框架Eventlet,因而更新了实验方案,将greenlet也加入了比较,虽然greenlet并非是一种真正意义上的并发处理,而是在单个线程下对程序块进行切换轮流执行。 (Edit Section )2. 实验方案实验方案与Erlang vs. Stackless python: a first benchmark是相同的,用每种方案分别给出如下问题的实现,记录完成整个处理过程的总时间来作为评判性能的依据: 1. 由n个节点组成一个环状网络,在上面传送共m个消息。 2. 将每个消息(共m个),逐个发送给1号节点。 3. 第1到n-1号节点在接收到消息后,都转发给下一号节点。 4. 第n号节点每次收到消息后,不再继续转发。 5. 当m个消息都从1号逐个到达第n号节点时,认为全部处理结束。 (Edit Section )2.1 硬件平台Macbook Pro 3,1上的Vmware Fusion 1.0虚拟机中,注意这里给虚拟机只启用了cpu的单个核心: 原始Cpu:Core 2 Duo,2.4 GHz,2核心,4 MB L2 缓存,总线速度800 MHz 分配给虚拟机的内存:796M (单个CPU,还能比较并发吗?) (Edit Section )2.2 软件平台Vmware Fusion 1.0下的Debian etch: 原始Python:Debian发行版自带Python 2.4.4 Python 2.4.4 Stackless 3.1b3 060516 processing-0.52-py2.4-linux-i686.egg 原始Python下的greenlet实现:py lib 0.9.2 (Edit Section )3. 实验过程及结果各方案的实现代码见后文。实验时使用time指令记录每次运行的总时间,选用的都是不做任何输出的no_io实现(Python的print指令还是挺耗资源的,如果不注释掉十有八九得影响测试结果),每次执行时设定n=300,m=10000(Erlang vs. Stackless python: a first benchmark文章中认为n可以设置为300,m则可以取10000到90000之间的数值分别进行测试)。 (Edit Section )3.1 Stackless Python的实验结果real0m1.651suser0m1.628ssys0m0.020s即使将m扩大到30000,实验结果仍然很突出: real0m4.749suser0m4.716ssys0m0.028s(Edit Section )3.2 使用thread模块的实验结果real1m13.009suser0m2.476ssys0m59.028s(Edit Section )3.3 使用threading模块配合Queue模块的实验结果不太稳定,有时候这样: real1m9.222suser0m34.418ssys0m34.622s也有时这样: real2m14.016suser0m6.644ssys2m7.260s(Edit Section )3.4 使用processing模块配合Queue模块的实验结果real3m43.539suser0m15.345ssys3m27.953s(Edit Section )3.5 greenlet模块的实验结果real0m9.225suser0m0.644ssys0m8.581s(Edit Section )3.6 eventlet模块的实验结果注意!eventlet 的这个实验结果是后来增补的,硬件平台没变,但是是直接在 OSX 自带 Python 2.5 环境下执行出来的,同时系统中还有 Firefox 等很多程序也在争夺系统资源。因此只能作为大致参考,不能与其他几组数据作直接对比。(其中 eventlet 的版本是 0.9.5) real 0m21.610suser 0m20.713ssys 0m0.215s(Edit Section )4. 结论与分析(Edit Section )4.1 Stackless Python毫无疑问,Stackless Python几乎有匪夷所思的并发性能,比其他方案快上几十倍,而且借助Stackless Python提供的channel机制,实现也相当简单。也许这个结果向我们部分揭示了沈仙人基于Stackless Python实现的Eurasia3能够提供相当于c语言效果的恐怖并发性能的原因。 (Edit Section )4.2 Python线程从道理上来讲,thread模块似乎应该和threading提供基本相同的性能,毕竟threading只是对thread的一种封装嘛,后台机制应该是一致的。或许threading由于本身类实例维护方面的开销,应该会比直接用thread慢一点。从实验结果来看,二者性能也确实差不多。只是不大明白为何threading方案的测试结果不是很稳定,即使对其他方案的测试运行多次,误差也不会像threading这么飘。从代码实现体验来说,用threading配合Queue比直接用thread实在是轻松太多了,并且出错的机会也要少很多。 (Edit Section )4.3 Python进程processing模块给出的进程方案大致比thread线程要慢一倍,并且这是在我特意调整虚拟机给它预备了足够空闲内存、避免使用交换分区的情况下取得的(特意分给虚拟机700多M内存就是为了这个)。而其他方案仅仅占用数M内存,完全无需特意调大可用内存总量。当然,如果给虚拟机多启用几个核心的话,processing也许会占上点便宜,毕竟目前thread模块是不能有效利用多cpu资源的(经实验,Stackless Python在开启双核的情况下表现的性能和单核是一样的,说明也是不能有效利用多cpu)。因此一种比较合理的做法是根据cpu的数量,启用少量几个进程,而在进程内部再开启线程进行实际业务处理,这也是目前Python社区推荐的有效利用多cpu资源的办法。好在processing配合其自身提供的Queue模块,编程体验还是比较轻松的。 (Edit Section )4.4 greenlet超轻量级方案基于greenlet的实现则性能仅次于Stackless Python,大致比Stackless Python慢一倍,比其他方案快接近一个数量级。其实greenlet不是一种真正的并发机制,而是在同一线程内,在不同函数的执行代码块之间切换,实施“你运行一会、我运行一会”,并且在进行切换时必须指定何时切换以及切换到哪。greenlet的接口是比较简单易用的,但是使用greenlet时的思考方式与其他并发方案存在一定区别。线程/进程模型在大逻辑上通常从并发角度开始考虑,把能够并行处理的并且值得并行处理的任务分离出来,在不同的线程/进程下运行,然后考虑分离过程可能造成哪些互斥、冲突问题,将互斥的资源加锁保护来保证并发处理的正确性。greenlet则是要求从避免阻塞的角度来进行开发,当出现阻塞时,就显式切换到另一段没有被阻塞的代码段执行,直到原先的阻塞状况消失以后,再人工切换回原来的代码段继续处理。因此,greenlet本质是一种合理安排了的串行,实验中greenlet方案能够得到比较好的性能表现,主要也是因为通过合理的代码执行流程切换,完全避免了死锁和阻塞等情况(执行带屏幕输出的ring_greenlet.py我们会看到脚本总是一个一个地处理消息,把一个消息在环上从头传到尾之后,再开始处理下一个消息)。因为greenlet本质是串行,因此在没有进行显式切换时,代码的其他部分是无法被执行到的,如果要避免代码长时间占用运算资源造成程序假死,那么还是要将greenlet与线程/进程机制结合使用(每个线程、进程下都可以建立多个greenlet,但是跨线程/进程时greenlet之间无法切换或通讯)。 Stackless则比较特别,对很多资源从底层进行了并发改造,并且提供了channel等更适合“并发”的通讯机制实现,使得资源互斥冲突的可能性大大减小,并发性能自然得以提高。粗糙来讲,greenlet是“阻塞了我就先干点儿别的,但是程序员得明确告诉greenlet能先干点儿啥以及什么时候回来”;Stackless则是“东西我已经改造好了,你只要用我的东西,并发冲突就不用操心,只管放心大胆地并发好了”。greenlet应该是学习了Stackless的上下文切换机制,但是对底层资源没有进行适合并发的改造。并且实际上greenlet也没有必要改造底层资源的并发性,因为它本质是串行的单线程,不与其他并发模型混合使用的话是无法造成对资源的并发访问的。 (Edit Section )greenlet 封装后的 eventlet 方案eventlet 是基于 greenlet 实现的面向网络应用的并发处理框架,提供“线程”池、队列等与其他 Python 线程、进程模型非常相似的 api,并且提供了对 Python 发行版自带库及其他模块的超轻量并发适应性调整方法,比直接使用 greenlet 要方便得多。并且这个解决方案源自著名虚拟现实游戏“第二人生”,可以说是久经考验的新兴并发处理模型。其基本原理是调整 Python 的 socket 调用,当发生阻塞时则切换到其他 greenlet 执行,这样来保证资源的有效利用。需要注意的是: eventlet 提供的函数只能对 Python 代码中的 socket 调用进行处理,而不能对模块的 C 语言部分的 socket 调用进行修改。对后者这类模块,仍然需要把调用模块的代码封装在 Python 标准线程调用中,之后利用 eventlet 提供的适配器实现 eventlet 与标准线程之间的协作。 再有,虽然 eventlet 把 api 封装成了非常类似标准线程库的形式,但两者的实际并发执行流程仍然有明显区别。在没有出现 I/O 阻塞时,除非显式声明,否则当前正在执行的 eventlet 永远不会把 cpu 交给其他的 eventlet,而标准线程则是无论是否出现阻塞,总是由所有线程一起争夺运行资源。所有 eventlet 对 I/O 阻塞无关的大运算量耗时操作基本没有什么帮助。 在性能测试结果方面,eventlet 消耗的运行时间大致是 greenlet 方案的 3 到 5 倍,而 Python 标准线程模型的 thread 方式消耗的运行时间大致是 eventlet 测试代码的 8 到 10 倍。其中前者可能是因为我们在 eventlet 的测试代码中,使用队列机制来完成所有的消息传递,而队列上的访问互斥保护可能额外消耗了一些运算资源。总体而言,eventlet 模型的并发性能虽然比 Stackless Python 和直接使用 greenlet 有一定差距,但仍然比标准线程模型有大约一个数量级的优势,这也就不奇怪近期很多强调并发性能的网络服务器实现采取 eventlet 、线程、进程三者组合使用的实现方案。 (Edit Section )5. 实验代码实验代码下载: 版本3 下载:增加了 eventlet 方案的实验代码。 版本2 下载:增加了 greenlet 方案的实验代码。 版本1 下载:包括 Stackless Python 、 thread 、 threading 、 processing 四种方案的实验代码。 为方便阅读,将实验中用到的几个脚本的代码粘贴如下,其中Stackless Python方案的代码实现直接取自Erlang vs. Stackless python: a first benchmark: (Edit Section )5.1 ring_no_io_slp.py1. #!/Library/Frameworks/Python.framework/Versions/2.5/bin/python2. # encoding: utf-83. import sys4. import stackless as SL5. 6. def run_benchmark(n, m):7. # print( Python 2.5.1, stackless 3.1b3 here (N=%d, M=%d)!n % (n, m)8. firstP = cin = SL.channel()9. for s in xrange(1, n):10. seqn = s11. cout = SL.channel()12. # # print(* s = %d % (seqn, )13. t = SL.tasklet(loop)(seqn, cin, cout)14. cin = cout15. else:16. seqn = s+117. # # print($ s = %d % (seqn, )18. t = SL.tasklet(mloop)(seqn, cin)19. for r in xrange(m-1, -1, -1):20. # # print(+ sending Msg# %d % r)21. firstP.send(r)22. SL.schedule()23. def loop(s, cin, cout):24. while True:25. r = cin.receive()26. cout.send(r)27. if r 0: 28. # print(: Proc: , Seq#: %s, Msg#: %s . % (pid(), s, r)29. pass30. else:31. # print(* Proc: , Seq#: %s, Msg#: terminate! % (pid(), s)32. break33. def mloop(s, cin):34. while True:35. r = cin.receive()36. if r 0: 37. # print( Proc: , Seq#: %s, Msg#: %s . % (pid(), s, r)38. pass39. else:40. # print( Proc: , Seq#: %s, ring terminated. % (pid(), s)41. break42. 43. def pid(): return repr(SL.getcurrent().split()-12:-144. 45. if _name_ = _main_:46. run_benchmark(int(sys.argv1), int(sys.argv2)Get Code(Edit Section )5.2 ring_no_io_thread.py1. #!/Library/Frameworks/Python.framework/Versions/2.5/bin/python2. # encoding: utf-83. import sys, time4. import thread5. 6. SLEEP_TIME = 0.00017. 8. def run_benchmark(n, m):9. # print( Python 2.5.1, stackless 3.1b3 here (N=%d, M=%d)!n % (n, m)10. locks = thread.allocate_lock() for i in xrange(n)11. firstP = cin = 12. cin_lock_id = 013. for s in xrange(1, n):14. seqn = s15. cout = 16. cout_lock_id = s17. # print(* s = %d % (seqn, )18. thread.start_new_thread(loop, (seqn, locks, cin, cin_lock_id, cout, cout_lock_id)19. cin = cout20. cin_lock_id = cout_lock_id21. else:22. seqn = s+123. # print($ s = %d % (seqn, )24. thread.start_new_thread(mloop, (seqn, locks, cin, cin_lock_id)25. for r in xrange(m-1, -1, -1):26. # print(+ sending Msg# %d % r)27. lock = locks028. lock.acquire()29. firstP.append(r)30. lock.release()31. time.sleep(SLEEP_TIME)32. try:33. while True:34. time.sleep(SLEEP_TIME)35. except:36. pass37. def loop(s, locks, cin, cin_lock_id, cout, cout_lock_id):38. while True:39. lock = lockscin_lock_id40. lock.acquire()41. if len(cin) 0:42. r = cin.pop(0)43. lock.release()44. else:45. lock.release()46. time.sleep(SLEEP_TIME)47. continue48. lock = lockscout_lock_id49. lock.acquire()50. cout.append(r)51. lock.release()52. if r 0: 53. # print(: Proc: , Seq#: %s, Msg#: %s . % (pid(), s, r)54. pass55. else:56. # print(* Proc: , Seq#: %s, Msg#: terminate! % (pid(), s)57. break58. def mloop(s, locks, cin, cin_lock_id):59. while True:60. lock = lockscin_lock_id61. lock.acquire()62. if len(cin) 0:63. r = cin.pop(0)64. lock.release()65. else:66. lock.release()67. time.sleep(SLEEP_TIME)68. continue69. if r 0: 70. # print( Proc: , Seq#: %s, Msg#: %s . % (pid(), s, r)71. pass72. else:73. # print( Proc: , Seq#: %s, ring terminated. % (pid(), s)74. break75. errupt_main()76. 77. def pid(): return thread.get_ident()78. 79. if _name_ = _main_:80. run_benchmark(int(sys.argv1), int(sys.argv2)Get Code(Edit Section )5.3 ring_no_io_queue.py1. #!/Library/Frameworks/Python.framework/Versions/2.5/bin/python2. # encoding: utf-83. import sys4. import threading, Queue5. 6. def run_benchmark(n, m):7. # print( Python 2.5.1, stackless 3.1b3 here (N=%d, M=%d)!n % (n, m)8. firstP = cin = Queue.Queue()9. for s in xrange(1, n):10. seqn = s11. cout = Queue.Queue()12. # print(* s = %d % (seqn, )13. t = Loop(seqn, cin, cout)14. t.setDaemon(False)15. t.start()16. cin = cout17. else:18. seqn = s+119. # print($ s = %d % (seqn, )20. t = MLoop(seqn, cin)21. t.setDaemon(False)22. t.start()23. for r in xrange(m-1, -1, -1):24. # print(+ sending Msg# %d % r)25. firstP.put(r)26. class Loop(threading.Thread):27. def _init_(self, s, cin, cout):28. threading.Thread._init_(self)29. self.cin = cin30. self.cout = cout31. self.s = s32. def run(self):33. while True:34. r = self.cin.get()35. self.cout.put(r)36. if r 0: 37. # print(: Proc: , Seq#: %s, Msg#: %s . % (pid(), self.s, r)38. pass39. else:40. # print(* Proc: , Seq#: %s, Msg#: terminate! % (pid(), self.s)41. break42. class MLoop(threading.Thread):43. def _init_(self, s, cin):44. threading.Thread._init_(self)45. self.cin = cin46. self.s = s47. def run(self):48. while True:49. r = self.cin.get()50. if r 0: 51. # print( Proc: , Seq#: %s, Msg#: %s . % (pid(), self.s, r)52. pass53. else:54. # print( Proc: , Seq#: %s, ring terminated. % (pid(), self.s)55. break56. 57. def pid(): return threading.currentThread()58. 59. if _name_ = _main_:60. run_benchmark(int(sys.argv1), int(sys.argv2)Get Code(Edit Section )5.4 ring_no_io_proc.py1. #!/Library/Frameworks/Python.framework/Versions/2.5/bin/python2. # encoding: utf-83. import sys4. import processing, Queue5. 6. def run_benchmark(n, m):7. # print( Python 2.5.1, stackless 3.1b3 here (N=%d, M=%d)!n % (n, m)8. firstP = cin = processing.Queue()9. for s in xrange(1, n):10. seqn = s11. cout = processing.Queue()12. # print(* s = %d % (seqn, )13. p = processing.Process(target = loop, args = seqn, cin, cout)14. p.start()15. cin = cout16. else:17. seqn = s+118. # print($ s = %d % (seqn, )19. p = processing.Process(target = mloop, args = seqn, cin)20. p.start()21. for r in xrange(m-1, -1, -1):22. # print(+ sending Msg# %d % r)23. firstP.put(r)24. p.join()25. def loop(s, cin, cout):26. while True:27. r = cin.get()28. cout.put(r)29. if r 0: 30. # print(: Proc: , Seq#: %s, Msg#: %s . % (pid(), s, r)31. pass32. else:33. # print(* Proc: , Seq#: %s, Msg#: terminate! % (pid(), s)34. break35. def mloop(s, cin):36. while True:37. r = cin.get()38. if r 0: 39. # print( Proc: , Seq#: %s, Msg#: %s . % (pid(), s, r)40. pass41. else:42. # print( Proc: , Seq#: %s, ring terminated. % (pid(), s)43. break44. 45. def pid(): return processing.currentProcess()46. 47. if _name_ = _main_:48. run_benchmark(int(sys.argv1), int(sys.argv2)Get Code(Edit Section )5.5 ring_no_io_greenlet.py1. #!/Library/Frameworks/Python.framework/Versions/2.5/bin/python2. # encoding: utf-83. import sys4. from py.magic import greenlet5. 6. def run_benchmark(n, m):7. # print( Python 2.5.1, stackless 3.1b3 here (N=%d, M=%d)!n % (n, m)8. glets = greenlet.getcurrent()9. for s in xrange(1, n):10. seqn = s11. glets.append(greenlet(loop)12. # print(* s = %d % (seqn, )13. else:14. seqn = s+115. glets.append(greenlet(mloop)16. # print($ s = %d % (seqn, )17. glets-1.switch(seqn, glets)18. for r in xrange(m-1, -1, -1):19. # print(+ sending Msg# %d % r)20. glets1.switch(r)21. def loop(s, glets):22. previous = gletss - 123. next = gletss + 124. if s 1:25. r = previous.switch(s - 1, glets)26. else:27. r = previous.switch()28. while True:29. if r 0: 30. # print(: Proc: , Seq#: %s, Msg#: %s . % (pid(loop, s), s, r)31. pass32. else:33. # print(* Proc: , Seq#: %s, Msg#: terminate! % (pid(loop, s), s)34. break35. next.switch(r)36. r = previous.switch()37. next.switch(r)38. def mloop(s, glets):39. previous = gletss - 140. r = previous.switch(s - 1, glets)41. while True:42. if r 0: 43. # print( Proc: , Seq#: %s, Msg#: %s . % (pid(mloop, s), s, r)44. pass45. else:46. # print( Proc: ,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论