用python编写网络爬虫.doc

上传人：过*** IP属地：江西上传时间：2020-04-30 格式：DOC 页数：5 大小：44KB 积分：15 举报 版权申诉

免费预览已结束，剩余1页可下载查看

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

刚刚开了一个计算机网络的课，觉得很有用。正好师兄让我练习编写一个能下载网站网页的程序，正好能用上课上的知识了。为了想作一个效率不差的，而下载网页的性能瓶颈是在网络上，所有决定用Python编写代码。刚学python没几天，学习一种语言的最好方法就是写code.下面的是我用的多线程实现的网络爬虫，并用py2exe生成了一个exe，自身觉得py2exe不太好，又不会更好的，只能. 这是我这些天的成果。希望有人能提出好的建议，先谢谢了！一共两个文件，一个是toolbox_insight.py，是一个工具文件另一个是test.py，是一个用到toolbox_insight.py中工具的测试文件 #FileName: toolbox_insight.pyfrom sgmllib import SGMLParserimport threadingimport timeimport urllib2import StringIOimport gzipimport stringimport os#rewrite SGMLParser for start_aclass Basegeturls(SGMLParser): #这个Basegeturls类作用是分析下载的网页，把网页中的所有链接放在self.url中。 def reset(self): self.url = SGMLParser.reset(self) def start_a(self, attrs): href = v for k, v in attrs if k = href if href: self.url.extend(href)#for quickly findingclass Newlist(list):#这个类其实是一个添加了find方法的LIST。当num变量在LIST中，返回True,当不在LIST中，返回False并把num按二分法插入LIST中 def find(self, num): l = len(self) first = 0 end = l - 1 mid = 0 if l = 0: self.insert(0,num) return False while first selfmid: first = mid + 1 elif num num: self.insert(first, num) return False elif selffirst end: self.insert(first, num) return False else: return True#下面的reptile顾名思义是一个爬虫 class reptile(threading.Thread): #Name: 是爬虫是名字，queue是任务队列，所有的爬虫共用同一个任务队列 #从中取出一个任务项进行运行，每个任务项是一个要下载网页的URL #result: 也是一个队列，将下载的网页中包含的URL放入该队列中 #inittime: 在本程序中没有用，只是一个为了以后扩展用的 #downloadway:是下载的网页存放的路径 #configfile: 是配置文件，存放网页的URL和下载下后的路径 #maxnum: 每个爬虫有个最大下载量，当下载了这么多网页后，爬虫dead def _init_(self, Name, queue, result, Flcok, inittime = 0.00001, downloadway = D:bbs,configfile = D:bbsconf.txt, maxnum = 10000): threading.Thread._init_(self, name = Name) self.queue = queue self.result = result self.Flcok = Flcok self.inittime = inittime self.mainway = downloadway self.configfile = configfile self.num = 0 #已下载的网页个数 self.maxnum = maxnum os.makedirs(downloadway + self.getName() #系统调用：在存放网页的文件夹中创建一个以该爬虫name为名字的文件夹 self.way = downloadway + self.getName() + def run(self): opener = urllib2.build_opener() #创建一个开启器 while True: url = self.queue.get() #从队列中取一个URL if url = None: #当取得一个None后表示爬虫结束工作，用于外部方便控制爬虫的生命期 break parser = Basegeturls() #创建一个网页分析器 request = urllib2.Request(url) #网页请求 request.add_header(Accept-encoding, gzip)#下载的方式是gzip压缩后的网页，gzip是大多数服务器支持的一种格式 try: #这样可以减轻网络压力 page = opener.open(request)#发送请求报文 if page.code = 200: #当请求成功 predata = page.read() #下载gzip格式的网页 pdata = StringIO.StringIO(predata)#下面6行是实现解压缩 gzipper = gzip.GzipFile(fileobj = pdata) try: data = gzipper.read() except(IOError): print unused gzip data = predata#当有的服务器不支持gzip格式，那么下载的就是网页本身 try: parser.feed(data)#分析网页 except: print I am here#有的网页分析不了，如整个网页就是一个图片 for item in parser.url: self.result.put(item)#分析后的URL放入队列中 way = self.way + str(self.num) + .html#下面的是网页的保存，不多说了 self.num += 1 file = open(way, w) file.write(data) file.close() self.Flcok.acquire() confile = open(self.configfile, a) confile.write( way + + url + n) confile.close() self.Flcok.release() page.close() if self.num = self.maxnum:#达到最大量后退出 break except: print end error#和爬虫一样是个线程类,作用是将爬虫中的result中存入的URL加以处理。只要同一个服务器的网页class proinsight(threading.Thread): def _init_(self, queue, list, homepage, inqueue): threading.Thread._init_(self) self.queue = queue#和爬虫中的result队列是同一个 self.list = list#是上面Newlist的对象 self.homepage = homepage#主页 self.inqueue = inqueue#处理完后的URL的去处 def run(self): length = len(self.homepage) while True: item = self.queue.get() if item = None: break if item0:4 = rn: item = item4: if item-1 = /: item = item:-1 if len(item) = len(http:/) and item0:7 = http:/: if len(item) = length and item0:length = self.homepage: if self.list.find(item) = False: self.inqueue.put(item) elif item0:5 = /java or item0:4 = java: pass else: if item0 != /: item = / + item item = self.homepage + item if self.list.find(item) = False: self.inqueue.put(item)下面的是一个主函数过程我下载的网站是开始网页是/mainpage.php#FileName:testfrom toolbox_insight import *from Queue import Queueimport threadingimport sysnum = int(raw_input(Enter the number of thread:)pnum = int(raw_input(Enter the number of download pages:)mainpage = str(raw_input(The mainpage:)startpage = str(raw_input(Start page:)queue = Queue()key = Queue()inqueue = Queue()list = Newlist()thlist = Flock = threading.RLock()for i in range(num): th = reptile(th + str(i), queue, key, Flock) thlist.append(th)pro = proinsight(key, list, mainpage, inqueue)pro.start()for

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

用python编写网络爬虫.doc

文档简介

温馨提示

最新文档

评论

用python编写网络爬虫.doc

文档简介

温馨提示

最新文档

评论

相关文档