《商务数据采集与处理》课件 第9节:实战案例_第1页
《商务数据采集与处理》课件 第9节:实战案例_第2页
《商务数据采集与处理》课件 第9节:实战案例_第3页
《商务数据采集与处理》课件 第9节:实战案例_第4页
《商务数据采集与处理》课件 第9节:实战案例_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务数据采集课程第10节:实战案例L4:实战演练04房源地产02电子商务03社交媒体01新闻资讯新闻资讯案例概览新闻资讯-人民网新闻示例:人民网新闻网址:/需求:进行关键词搜索(“人工智能”,“大模型”),然后采集搜索后的新闻正文等信息。注意,只采集2026年至现在发布的新闻。字段:搜索关键词,标题,发布时间,来源,正文,页面网址。要点:循环文本、添加特殊字段、触发器新闻资讯-人民网资讯示例数据:新闻资讯-人民网新闻(拓展)1、时间日期格式化解决:通过正则表达式得到时间数据,并对其格式化得到诸如“2025-01-23”样式的数据。2、只采集2025至现在发布的新闻解决:设置触发器条件,当时间早于2025年1月1日,即丢弃数据。注:触发器在做时间触发时,需要指定的时间格式。电子商务案例概览电子商务-京东示例:京东商品筛选结果采集网址:/list.html?cat=670,671,673需求:选择某个类目进行筛选,如台式机大类下的联想品牌。然后采集筛选后的商品列表页信息。字段:类目,品牌,商品名称,价格,商品详情页链接,评论数,评论链接,店铺名称,店铺链接,商品图片链接电子商务-京东商品示例数据:电子商务-京东(排错)1.数据遗漏如:部分字段空白;整条遗漏网页每页有60条数据,实际只采到30条。解决:设置向下滚动,以便数据加载完全2.数据错位篡行如:自营字段出现了其他数据“京东物流”解决:根据具体页面情况,调整该字段的xpath电子商务-京东(扩展)1、只采集自营商品解决:设置判断条件,判断当前循环项包含文本“自营”时提取数据2、通过列表页链接设置URL循环采集详情页信息解决:采集网址后导出,用网址创建新的采集任务3、在列表页采集页面源码隐藏的 SKU解决:新增字段定位到所有LI标签,并抓取其data-sku属性社交媒体社交媒体-微博示例:新浪微博网址:/需求:进行关键词搜索,关键词为“台风”,只采集原创内容。有展开全文的需展开采集完整的博文信息。采集前5页的数据。字段:搜索关键词,用户名,博文,收藏数,转发数,评论数,点赞数,发文时间,来自,博文详情链接,页面网址要点:登录、关键词检索、Ajax点击社交平台-微博(拓展)1、只采集原创内容解决:善用高级搜索,设置检索条件2、展开全文再采集解决:先展开所有博文,再统一采集;注意XPath和Ajax点击3、只采集前5页数据解决:登录后,将网页切换为旧版微博,以便更好控制翻页(新版微博为下拉滚动,难以控制采集的数据量);对循环翻页设置条件:执行5次后退出循环房源地产房源地产-房天下示例:房天下-二手房网址:/需求:采集某个城市下二手房的房源名称,价格,面积等信息注意:只采集前10页的数据字段:城市,房源,价格,户型,建筑面积,单价,朝向,楼层,装修,页面网址要点:翻页XPath、格式化数据(正则表达式)房源地产-房天下示例数据:房源地产-房天下(拓展)1、房型、面积、楼层、朝向等字段放在一个字段里显示

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论