数据采集 PPT课件_第1页
数据采集 PPT课件_第2页
数据采集 PPT课件_第3页
数据采集 PPT课件_第4页
数据采集 PPT课件_第5页
已阅读5页,还剩63页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

06/182010,扬州腾维信息技术有限公司(腾维呼叫)数据采集培训方案,什么是数据采集数据采集的方式数据意义数据采集的方法数据分析常用的数据采集工具易采网站数据采集系统SoukeyNetget火车头(重点介绍),内容纲要,数据采集,数据采集(DAQ),是指从传感器和其它待测设备等模拟和数字被测单元中自动采非电量或者电量信号,送到上位机中进行分析,处理。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。数据采集,又称数据获取,是利用一种装置,从系统外部采集数据并输入到系统内部的一个接口。数据采数据采集集技术广泛引用在各个领域。比如摄像头,麦克风,都是数据采集工具。在互联网行业快速发展的今天,数据采集已经被广泛应用于互联网及分布式领域,数据采集领域已经发生了重要的变化。国内外各种数据采集机先后问世,将数据采集带入了一个全新的时代。,数据采集方式,是将非结构化的信息从大量的网页中抽取出来保存到结构化的数据库中的过程。在网络信息浩如烟海的今天,如何有效挖掘网络信息富矿,如何收集企业外部信息,对于公司的经营来说至关重要。通过市场调查消费者消费记录以及促销活动的记录,另一方面利用公共记录的数据,如人口统计数据、医院婴儿出生记录、患者记录卡、银行担保卡、信用卡记录等都可以选择性地进人数据库。,数据采集的意义,案例一:海湾战争爆发前期,投资商纷纷撤离当地市场,由战争所导致的社会动荡成为扼杀市场的怪物。国内商人除了关注美伊的军事力量以外,对商业关注者寥寥无几。但长虹集团的老板倪瑞峰却从不停播放的战讯中看出了倪端。10天后,伊拉克电台报道,由于战争即将爆发,石油及附属产品价格跌入谷底,聚苯乙烯的价格也不例外。于是,长虹集团董事会立即制定采购500万吨聚苯乙烯的计划,用做电视机外壳材料。后来,经过成功调运,长虹电视机外壳成本是国内同类产品成本的45%,在利润分成中,长虹依靠这一商业信息决策而获得5000万元的相对收益。,数据采集的意义,开发和利用信息资源的第一步就是对信息进行有效的采集,为了采集的高效性,需要:了解信息采集的目的和需求掌握信息资源的分布规律采集时的遵循的原则,数据采集的意义,信息资源过程管理示意图,数据采集的程序,信息需求是用户为了满足何种目的需要什么信息,表现在5个方面:2.1.1目标用户的确定根据信息用户类型的不同,可以将信息需求分为个人信息需求和组织信息需求。个人信息需求个人信息需求又分为生活信息需求和职业信息需求等。组织信息需求由团体用户产生、为实现其目标和宗旨而形成的一系列信息需求。,数据采集过程,数据采集的程序,2.1.2确定采集内容通过与信息资源采集目标和需求具有一定相关性的信息的特征来确定。2.1.3确定采集的范围采集的时间范围:注重信息的时效性,选择适当的时间范围。采集的空间范围:根据信息的分布特性,选择适当的空间范围,提高信息的相关度和适应度。2.1.4确定采集量采集的信息数量决定采集工作的人力、时间和费用。2.1.5其他因素信息环境、信息的可获取性等。,对数据源的评价,对各种信息的性能、质量进行评价是有效选取和利用信息源的前提。从两个方面评价信息源:信息源本身所能提供的信息价值;从信息收集的角度看信息能否快捷、方便、经济。具体有八个指标:信息量、可靠性、新颖性、及时性、系统性、全面性、易获取性、经济性。,数据采集的意义,数据与呼叫中心的关系呼叫中心的运营管理是一门综合性的学科,它涉及到招聘管理、培训管理、薪酬绩效管理、员工管理、知识管理、部门文化管理等诸多模块,而数据管理在整个运营管理中更是扮演着不可替代的角色、发挥着至关重要的作用。纵观呼叫中心运营管理中的各个模块,数据管理始终贯穿其中,可以说数据体现了运营管理中每一点每一滴的工作,直接印证着工作的过程和成果。在以结果为导向的运营管理中,将数据管理誉为“呼叫中心运营管理的灵魂”一点也不为过。,数据管理呼叫中心运营管理的灵魂,目标设定结果展现趋势预测业务分析反馈问题,目标设定,无论是呼叫中心的整体工作目标(整体KPI),还是以小组为单位或者是以个人为单位的工作目标(个体KPI)的设定,均需要通过专业科学的数据来体现,同时数据还发挥着目标传递和分解的作用。,结果展现,呼叫中心运营管理的过程和结果是以数据来根本体现的,而承载数据的则是用途不同、格式也不尽相同的各类报表,例如:体现个人工作成绩的绩效考核报表,体现整体工作成果的运营KPI报表,用于报送各相关业务部门的业务分析类报表,以及用来体现工作成果的各类总结性报表。对于这些报表的有效管理可参考拙作浅议客服中心的报表管理规范。,趋势预测,趋势预测的方法为:通过对大量历史数据进行分析,来把控未来数据的变化和走势,可根据预测出的未来数据合理配备相应的人力,安排好呼叫中心的招聘规划,也可制定出整体下阶段的运营规划。对于未来数据来讲,历史数据是最具备参考价值的。比如:根据过去三个月每周一的电话总进量和分时段进量,以上下波动5%的范围计算出全天以及各时段需要配比的人力,并以此为依据进行班次的合理安排;以过去某小组或者是某位员工的产能数据为依据,分析预测出未来某阶段所能达到的目标值,以此目标值作为未来配比人力或者是未来承载量的计算依据等等。数据预测的目的不同,方法也不尽相同,需根据所要达成的目标来选择最为合理的预测方法。,业务分析,呼叫中心每天承接的客户信息数据量非常大,在向企业内部各相关部门传递和反馈时,需要根据各部门的需要对数据进行整理和加工,还需要根据各部门的职责和功能设定不同的反馈侧重点。比如:产品部门多关心的是不同产品的客户关注度,产品本身的功能问题,客户对产品使用的意见建议等;而营销部门关心的则是不同的营销方案推出后市场的反映程度,客户对于营销方案的接受程度,以及营销是否取得了应有的效果等。因而,在向各相关部门报送业务分析报表时,需要向不同部门传递他们所关心的数据,这些数据要有不同周期的对比,同时还需要在报表中体现综合分析以及对重大典型性事件的重点分析等内容。,反馈问题,服务品质是呼叫中心的生命线,因而对于体现服务品质的几项重点指标:客户满意度、一次性解决率、质检成绩等是要且必须进行的定期性分析指标。通过分析,数据会告诉我们需要重点改进的问题点在哪里。分析思路为:人员分析:锁定尾端人员及成绩波动较大人员,分析问题加以改进;组别分析:锁定尾端小组及成绩波动较大小组,分析问题加以改进;业务分析:锁定急需加以改进及数据波动较大的业务类型,分析问题加以改进。数据管理作为呼叫中心运营管理中的重要一环,同运营管理本身一样,是需要通过大量的实践、不断的摸索和有效的总结,才能日趋成熟、不断完善,因而这实际上是对呼叫中心管理者提出了更高的要求。首先,需要管理者对数据管理有正确的认识,充分重视其在运营管理中的重要性;其次,需要管理者本身具备良好的数据分析能力,并能够有效指导团队的数据分析工作;最后,更需要的是管理者具备优秀的总结和判断能力,在实践工作中找到最为行之有效的数据管理模式和分析方法,从而真正使数据管理成为提升运营管理水平和工作品质的长效驱动力。,数据采集的方法,3.2.1基于人工的信息资源采集主要有以下9种:直接观察法阅读法访问法问卷调查法:设计问卷、选取样本和实施调查采购交换索取检索复制,案例,20世纪30年代中期,英国作家雅各布发表了一本172页的小册子,上面记载了希特勒军队的组织编制、各军区概况、参谋部人员以及160多名指挥官的姓名、简历,甚至连刚成立不久的装甲师的步兵小队都被披露无疑。为此,希特勒勃然大怒,下令将雅各布抓到盖世太保总部审讯,要他供出窃取德军军事机密的“罪行”。雅各布坦然说:“我都是用卡片摘录下来的,连将军婚礼的报道也不放过。”雅各布利用德国公开报纸的点滴资料,经过分析、综合处理,最后汇集成这本小册子。因此,他理直气壮地说:“我不是间谍!”,数据采集的方法,基于网络检索工具的信息资源采集网络检索工具:搜索引擎、公共联机书目查询系统(OPAC)、站点导航、非www网络采集工具(FTP、Telnet等)、网络数据库等。基于Push技术的信息资源采集Push技术下,服务具有主动性,有效利用网络资源,提高网络吞吐率。基于网页浏览器的信息资源采集基于网络交流工具的信息资源采集,文本挖掘技术,文本挖掘技术是指从大量文本数据中发现和提取隐含模式和知识,它涵盖了文本分析、模式识别、统计学、数据库技术、数据可视化、机器学习、人工智能等多领域技术。是数据挖掘领域的一个分支。数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识,处理过程如图示:,数据处理,确定文本数据源明确挖掘的目标、应用范围、领域背景知识等相关数据。对数据源进行预处理并存入文本特征库选取待分析处理的文本,利用分词技术、文本结构分析技术等抽取出代表文本特征的元数据,存入特征库。选择适当的挖掘分析算法,提取面向特定应用目标的知识和模式。文本挖掘分析技术有:文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析等。利用可视化技术将解释结果提交给用户利用评估指标对获取的知识或模式进行评估,根据需要进行优化处理。,案例,沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用数据挖掘方法对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购买最多的商品竟是啤酒!经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。,数据采集工具,1易采网站数据采集系统2Soukey3locoyspider_setup(火车头),易采网站数据采集系统,易采网站数据采集系统是一款功能全面、准确、稳定、易用的网络信息采集软件。它可以轻松将你想要的网页内容(包括文字、图片、文件、HTML源码等)抓取下来。采集到的数据可以直接导出到EXCEL、也可以按照你定义的模板保存成任何格式的文件(如保存成网页文件、TXT文件等)。也可以在采集的同时,实时保存到数据库、发送到网站服务器、保存到文件。,Soukey功能简介,1、多任务多线程数据采集,支持GET、POST,支持采集Ajax页面,支持Cookie,支持手工登录采集数据;2、数据采集系统会默认保存采集数据,同时系统支持文本、Excel、Access、MSSql、Mysql等格式的数据发布,支持在线发布(Web发布),但为严格测试;3、网页数据采集支持导航,支持下一页自动翻页,同时采集数据支持文件下载,可以采集图片、Flash及其他文件;4、支持采集数据加工,可对已采集的数据进行字符串的加工,包括替换、附前缀后缀、截取等操作,支持正则;5、采集网址支持外部定义参数,通过字典数据可支持网址参数的自定义,同时网址参数支持数字、日期、字母等各种参数,基本满足当前大部分采集有规律网址的需求;6、支持一个任务多实例运行;7、定时任务,可定时(每天、每周)自动执行采集任务,外部可执行文件或数据库存储过程等;8、增加网址导航深度,原来仅支持1级导航,此次修改后,对导航深度不做限制;9、增加任务触发器,可在任务启动或完成时自动触发执行各种任务,包括:Soukey采摘任务、外部可执行文件或存储过程;10、提供任务高级配置:可控制网址出错后重试,可输出出错网址到日志,也可将发布出错的数据输出到日志;11、增加系统配置,但当前系统配置没有太多内容,提供了动态帮助入口,后期扩展帮助文档即可;,火车头,火车采集器(LocoySpider)是一个供各大主流文章系统,论坛系统等使用的多线程内容采集发布程序。使用火车采集器,你可以瞬间建立一个拥有庞大内容的网站。系统支持远程图片下载,图片批量水印,Flash下载,下载文件地址探测,自制作发表的cms模块参数,自定义发表的内容等。此外,丰富的规则制定,内容替换功能,对Access,Mysql,MSsql的数据入库导出的支持,更可令你采集内容的时候得心应手,现在开始你可以抛弃过去重复乏味的手工添加工作了,请马上开始体验瞬间建站的乐趣吧!,火车头采集器的功能特性,1.多任务,多线程2.多页采集3.分页采集4.循环采集5.网站登陆采集6.使用代理服务器采集数据7.下载图片8.列表缩略图及标签采集.9.flash文件下载10.任意格式文件下载功能11.自动提取内容第一张图12.使用自定义规则获取网址13.POST方式采集列表网址或标签14.使用正则采集内容15.使用前后字符串方式采集内容16.html标签排除,火车头采集器的功能特性,17.采集记录筛选18.自动摘要,自动拼音19.任务运行日志20.自定义随机下载文件保存下载文件21.导出采集数据为txt,csv,sql格式22.采集数据后直接发布或导入数据库23.自定义Web发布数据到网站(Web发布模块)24.命令行启动程序25.汉英翻译,简繁体互转26.迅雷和FlashGet的地址解密27.下载支持导出到迅雷,FlashGet28.任务定时自动更新采集功能29.本地任务数据编辑再发布30.使用FTP自动上传文件到网站31.文件自动上传到网站32.自动获取tag(自动提取关键字)33.全局敏感词替换&近义词替换34.扩展插件,支持PHP和C#,火车采集器数据发布原理,火车采集器如何去抓取数据,取决于您的规则。您要获取一个栏目的网页里的所有内容,需要先将这个网页的网址采下来,这就是采网址。程序按您的规则抓取列表页面,从中分析出网址,然后再去抓取获得网址的网页里的内容。再根据您的采集规则,对下载到的网页分析,将标题内容等信息分离开来并保存下来。如果您选择了下载图片等网络资源,程序会对采集到的数据进行分析,找出图片,资源等的下载地址并下载到本地。,火车采集器抓取原理,在我们将数据采集下来后数据默认是保存在本地的,我们可以使用以下几种方式对数据进行处理。1、不做任何处理。因为数据本身是保存在数据库的(access、db3、mysql、sqlserver),您如果只是查看数据,直接用相关软件打开查看即可。2、Web发布到网站。程序会模仿浏览器向您的网站发送数据,可以实现您手工发布的效果。3、直接入数据库。您只需写几个SQL语句,程序会将数据按您的SQL语句导入到数据库中。4、保存为本地文件。程序会读取数据库里的数据,按一定格式保存为本地sql或是文本文件。,数据采集器工作流程,火车采集器采集数据是分成两个步骤的,一是采集数据,二是发布数据。这两个过程是可以分开的。1、采集数据,这个包括采集网址,采集内容。这个过程是获得数据的过程。我们做规则,在采的过程中也算是对内容做了处理。2、发布内容就是将数据发布到自己的论坛,CMS的过程,也是实现数据为已有的过程。可以用WEB在线发布,数据库入库或存为本地文件。具体的使用其实是很灵活的,可以根据实际来决定。比如我可以采集时先采集不发布,有时间了再发布,或是同时采集发布,或是先做发布配置,也可以在采集完了再添加发布配置。总之,具体过程由您而定,火车采集器的强大功能之一也就是体现在灵活中。,采集规则采集规则分为站点规则和任务规则,通常是指任务规则。所谓采集规则就是要采集一个网站时在软件里进行的设置。这个设置可以从软件里导出保存成一个文件并可以再导入到软件里。站点规则文件的后缀名为:.lsite;任务规则文件的后缀名为:.ljob。采集任务采集任务又简称为任务。它是采集规则和发布规则的总和。也是采集规则和发布规则的载体。采集规则和发布规则的设置通过在任务编辑框里进行设置。从采集器里导出的采集规则文件(.ljob后缀的)也可称为任务规则。导入导出任务规则就是指导入导出.ljob文件。,火车采集相关术语介绍,发布模块发布模块又称为发布规则,通常是指数据库发布模块或者WEB发布模块。所谓发布模块就是在需要将已经采集的数据发布到目的地(比如:指定数据库,网站中)时在软件里进行的设置。这个设置可以保存成一个文件并可以导入到采集器里使用。数据库发布模块文件的后缀名为:.jhc;WEB在线发布模块文件的后缀名为:.cwr。(采集规则和发布模块都可以从采集器里导出,也都可以导入到采集器中使用。采集规则负责将网页上的数据采集下来,发布模块负责将采集的数据发布到网站中。可见,采集规则的编写和修改和被采集的网站有关系,而发布模块的编写和修改和要发布数据的网站有关系。如从不同的网站栏目采集数据往同一个网站的某个板块(频道)里发布,需要多个采集规则和一个发布模块。从一个网站栏目采集数据往不同的网站系统里发布,需要一个采集规则和多个发布模块。注意这里的说的采集规则是指采集网站和抓取内容的设置。)。,火车采集相关术语介绍,发布接口发布接口就是一个小的页面程序通常和WEB发布模块配合使用。WEB在线发布(使用WEB发布模块)是将采集的数据以POST方式发送到网站页面程序中由网站程序处理数据。而发布接口就是为了满足特定需求而写的一个网站的页面程序(如:PHP页面,ASP页面等)。然后采集器通过WEB在线发布将数据发送到这个接口文件由这个接口文件处理数据。接口文件通常放在服务器网站某个目录下。简单的说就是采集器将采集的数据发送到接口文件中,接口文件得到数据后去处理数据。使用发布接口用户可以更加灵活自由的处理采集器发送的数据。插件火车采集器里的插件分为PHP插件和.NET插件两种。标准版支持PHP插件,企业版支持PHP插件和.NET插件。插件可以让用户通过自己写PHP程序或者.NET程序放到采集器中对采集的数据进行处理。采集数据数据在四个地方可以使用插件,分别为:采网址时、采内容

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论