《商务数据采集与处理》课件 第3节:数据处理_第1页
《商务数据采集与处理》课件 第3节:数据处理_第2页
《商务数据采集与处理》课件 第3节:数据处理_第3页
《商务数据采集与处理》课件 第3节:数据处理_第4页
《商务数据采集与处理》课件 第3节:数据处理_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

商务数据采集课程第3节:数据处理课程目标实现一个简单的小目标:1、理解数据处理方式2、学会使用数据格式化--正则匹配目标编辑字段/movie/subject_search?search_text=%E5%BC%A0%E5%9B%BD%E8%8D%A3&cat=1002选中字段,鼠标右键:编辑字段调整字段顺序:选中字段并拖拽修改字段名称:点击字段名修改复制/删除:复制或删除某个字段格式化数据:对数据进行清洗操作元素抓取方式:对字段的提取方式进行设置,如文本、源码、链接等修改元素定位:对字段的定位XPath进行设置,即字段在网页上的位置示例网址:数据清洗/subject/26369699/【添加特殊字段】点击添加页面元素、采集时间、页面网址、固定字段等。便于数据标记和后期排查。【格式化数据】1、在下方数据预览界面,点击字段的【…】按钮,或鼠标右键,选择【格式化数据】2、点击【添加步骤】,选择需要进行的操作:替换、正则替换、正则匹配、去除空格、添加前缀、添加后缀、时间格式化、时间戳转换、时区时间转换等等。示例网址:数据清洗-正则表达式【正则表达式工具】的位置:字段右键-格式化数据,添加步骤,选择正则匹配或正则替换,点击“不懂正则,试试正则表达式”。总结1、如在网页中通过点击生成的采集规则,其采集的数据符合需求,没有问题。则不调整高级选项中的设置,使用默认即可。2、根据具体的网站,按需设置。

3、执行前等待的使用最为频繁。

实战演练:采集豆瓣图书信息数据源网站打开网页后,采集图书的基本信息采集需求【标题】、【作者】、【出版年】、【ISBN】、【当前时间】、【页面网址】、格式要求如右下图所示输出字段Excel表格格式输出格式功能点提示:格式化数据(前后缀、替换、

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论