《各平台数据采集及方法》课件-微博搜索关键词采集_第1页
《各平台数据采集及方法》课件-微博搜索关键词采集_第2页
《各平台数据采集及方法》课件-微博搜索关键词采集_第3页
《各平台数据采集及方法》课件-微博搜索关键词采集_第4页
《各平台数据采集及方法》课件-微博搜索关键词采集_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

微博搜索关键词采集【微博】搜索关键词采集

在微博主页登录后,输入关键词搜索,采集得到的搜索结果列表数据。支持按【高级搜索】中设置的条件进搜索。。【微博】搜索关键词采集在首页搜索框输入微博首页网址然后点【开始采集】,八爪鱼自动打开网页。步骤1打开网页【微博】搜索关键词采集

1、打开浏览器模式点击按钮,打开浏览器模式。在浏览器模式中,点击页面的登录按钮,打开手机微博app扫码登录。步骤2微博登录【微博】搜索关键词采集2、使用Cookie登录微博进入【打开网页】设置界面,勾选【使用指定的Cookie】,点击【获取当前页面Cookie】并保存。这样就获取到了登录后的Cookie,启动时直接以登录状态打开网页步骤2微博登录【微博】搜索关键词采集步骤三、在【高级搜索】中选择搜索条件。

先在浏览器中测试一下。打开微博首页,输入关键词【三体】,在【高级搜索】中选择条件:【原创】【2023-03-0100时至2023-03-3000时】,得到网址:1、获得带有搜索关键词和筛选条件的网址【微博】搜索关键词采集步骤3:XPath轴翻页。2、将1中的网址,输入进八爪鱼中在【打开网页】后,增加一个步骤【打开网页1】。双击进入【打开网页1】设置页面,输入网址,然后保存,八爪鱼自动打开这个网页。【微博】搜索关键词采集步骤四、使用自动识别,自动识别列表页和翻页1、使用自动识别,自动识别列表和翻页网页打开后,点击【自动识别网页内容】,等待一段时间,成功识别了文章列表中的数据和翻页。点击【生成采集设置】,将自动识别出的列表数据和翻页,生成为采集流程,方便我们使用和修改。【微博】搜索关键词采集步骤四、使用自动识别,自动识别列表页和翻页2、修改【循环列表1】和【循环翻页XPath自动识别生成【循环列表】和【循环翻页】存在不通用的情况,需要手动修改。进入【循环翻页】设置页面,修改XPath为://li[@class='cur']/a/../following-sibling::li[1]/a,然后点击【应用】保存。进入【循环列表1】设置页面,修改XPath为://div[@class="card-wrap"and@mid],然后点击【应用】保存。【微博】搜索关键词采集

在【当前页面数据预览】面板中,可删除多余字段,修改字段名,移动字段顺序等。步骤五、编辑字段【微博】搜索关键词采集

1、改【博文内容】字段XPath【博文内容】字段默认的XPath,无法精准定位到展开后的全部博文,需修改XPath。点击【提取列表数据】进入对应的数据预览界面,点击【博文内容】字段右上方的...按钮,选择【修改元素定位】,修改XPath为://div[@class="content"]//*[@class='txt'][last()],然后应用步骤六、优化字段【微博】搜索关键词采集2、格式化字段【转发数】、【评论数】和【点赞数】三个字段,默认会带上转发、评论、赞的文本。如果需要去掉文本,只保留数字,可以通过格式化实现:点击【转发数】字段右上方的【...】按钮,选择【格式化数据】→【添加步骤】→【正则表达式匹配】,输入正则表达式【\d+】后保存。【评论数】、【点赞数】的格式化数据过程相同。步骤六、优化字段【微博】搜索关键词采集1、单击【采集】并【启动本地采集】。启动后八爪鱼开始自动采集数据。步骤七、启动采集【微博】搜索关键词采集2、采集完成后,选择合适的导出方式导出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论