《商务数据采集与处理》课件 第8节:排错与实战_第1页
《商务数据采集与处理》课件 第8节:排错与实战_第2页
《商务数据采集与处理》课件 第8节:排错与实战_第3页
《商务数据采集与处理》课件 第8节:排错与实战_第4页
《商务数据采集与处理》课件 第8节:排错与实战_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务数据采集课程第8节:排错与实战手动排错概览排错技巧1提取数据增加提取网页页码解决问题:帮助我们快速定位数据采集从哪一页开始出现问题示例网址:/house/s/b91/?ctm=1.sz.xf_search.page.1排错技巧2提取数据增加提取网页网址解决问题:提取不到字段时,帮助我们快速检查网页情况,是网页本身的问题(网址失效、本身无此字段),还是八爪鱼问题(无法正常打开网页、XPath定位不准等)示例网址:/?key=%B4%F3%CA%FD%BE%DD&act=inputXpath排错实例1需求:采集所有页列表数据问题:翻页出现问题

示例网址:/house/s/b91/?ctm=1.sz.xf_search.page.1Xpath排错实例2需求:向下滚动10次,采集滚动后的所有数据问题:循环列表定位不到所有的图片示例网址:/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111110&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%9Xpath排错实例3需求:采集每个详情页的数据问题:字段错位,定位不准示例网址:/shop_list/i_1_1001_1_115.htmlL4:实战演练04房源地产02电子商务03社交媒体01新闻资讯新闻资讯案例概览新闻资讯-人民网新闻示例:人民网新闻网址:/需求:进行关键词搜索(“人工智能”,“大模型”),然后采集搜索后的新闻正文等信息。注意,只采集2025年至现在发布的新闻。字段:搜索关键词,标题,发布时间,来源,正文,页面网址。要点:循环文本、添加特殊字段、触发器新闻资讯-人民网资讯示例数据:新闻资讯-人民网新闻(拓展)1、时间日期格式化解决:通过正则表达式得到时间数据,并对其格式化得到诸如“2025-01-23”样式的数据。2、只采集2025至现在发布的新闻解决:设置触发器条件,当时间早于2025年1月1日,即丢弃数据。注:触发器在做时间触发时,需要指定的时间格式。电子商务案例概览电子商务-京东示例:京东商品筛选结果采集网址:/list.html?cat=670,671,673需求:选择某个类目进行筛选,如台式机大类下的联想品牌。然后采集筛选后的商品列表页信息。字段:类目,品牌,商品名称,价格,商品详情页链接,评论数,评论链接,店铺名称,店铺链接,商品图片链接电子商务-京东商品示例数据:电子商务-京东(排错)1.数据遗漏如:部分字段空白;整条遗漏网页每页有60条数据,实际只采到30条。解决:设置向下滚动,以便数据加载完全2.数据错位篡行如:自营字段出现了其他数据“京东物流”解决:根据具体页面情况,调整该字段的xpath电子商务-京东(扩展)1、只采集自营商品解决:设置判断条件,判断当前循环项包含文本“自营”时提取数据2、通过列表页链接设置URL循环采集详情页信息解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论