计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc_第1页
计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc_第2页
计算机理论论文浅谈基于WEB计算机文本挖掘技术的客户知识管理.doc_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浅谈基于web计算机文本挖掘技术的客户知识管理 一、引言 本毕业论文由毕业论文网搜集与整理。随着知识经济的发展,企业基于信息的竞争优势正在向基于知识创造的竞争优势发展,知识作为一种稀缺资源成为经济发展的核心要素。企业的知识资产不仅可以增加企业的市场竞争力,不断充实企业知识资本,累积企业实力,还能更好的支持企业管理。因此,知识管理作为企业管理的新模式悄然兴起,实施知识管理成为企业的重要战略。 在客户关系管理中,传统的方法是采用客户服务模式处理客户的信息和知识,其核心是建立基于售后服务的客户知识采集、反馈体系。本文以客户知识采集需求为基础,以web文本中的客户知识为采集目标,以web文本挖 掘的相关方法与技术为手段,创建了基于web文本挖掘客户知识采集方法,具有很广的研究和应用价值。 二、基于web文本挖掘的客户知识管理方法 (一)知识管理的概念。世界知识管理之父sveiby博士1986年在世界上首次提出知识管理这个名词。知识管理的概念可从狭义和广义的角度理解:狭义的知识管理主要是针对知识本身的管理,包括对知识的创造、获取、加工、存储、传播和应用的管理;广义的知识管理不仅包括对知识进行管理,而且包括与知识有关的资源和无形资产的管理,涉及知识组织、知识设施、知识资产、知识活动、知识人员的全方位和全过程的管理。 (二)客户知识管理理论。1997年美国学者韦兰与科尔首次完整提出了客户知识管理(简称ckm)。ckm是一种管理策略,它使得企业组织、工作流程、技术支持和客户服务以客户为中心来协调和统一与客户的交互行动,从而达到获取、发展、保留价值客户,挖掘潜在客户,提升客户满意度和忠诚度,最终使客户长期价值最大化,为企业增加盈利。作为解决方案,ckm集合了当今最新的信息技术,包括internet和电子商务、多媒体技术、数据仓库和数据挖掘、专家系统和人工智能、呼叫中心以及相应的硬件环境。 (三)基于web挖掘的知识采集。知识采集作为一个外来词,又名知识获取、知识抽取。本文采用知识采集,主要是为了进一步突出在这个过程中对知识的收集和分类。知识采集也有自己的生命周期。从早期的直接从原始资料(人类专家和书面材料)中采集知识,到中期的从知识素材中提炼规律性知识,再到后期的通过实践检验和修正知识,经历过无数次周而复始的循环。客户知识采集过程体系应包括三项基本功能:(1)数据或信息采集功能;(2)信息到知识的转化功能;(3)知识分类功能。 企业关注客户服务,采集经销商和最终消费者对产品提出的各类问题及意见,这些信息和知识很大一部分存在于分布在全国各地经销商的网站中,知识采集者不可能一一登录网站查看。因此,需要设计面向web页面的知识采集方法,实现自动获取。 (四)web文本挖掘方法。在web文本挖掘中,文本的特征表示挖掘工作的基础,而文本分类和聚类是两种最重要、最基本的挖掘方法。 矢量空间模型(vsm)是近年来应用较多且效果较好的方法之一。在该模型中,文档空间被看作是由一组正交词条矢量所形成的矢量空间,每个文档d表示其中的一个范化特征矢量: v(d)=(t1,w1(d);ti,wi(d);tn,w(d) 其中ti为词条项,wi(d)为ti在d中的权值。可以将d中出现的所有单词作为ti,也可以要求ti是d中出现的所有短语,从而提高内容特征表示的准确性。 wi(d)一般被定义为ti在d中出现频率tfi (d)的函数,即: wi(d )=(tfi(d)(1) 式中常用的有: 布尔函数=1,tf(d)1 0,tf(d)=0 平方根函数= 对象函数=log(tfi(d)1) tfidf函数=tfi(d)logn/ni 其中,n为所有文档的数目,ni为含有词条ti的文档数目。 文本分类是一种典型的有教师机器学习问题,一般分为训练和分类两个阶段,具体过程如下。 1、训练阶段:定义类别集合c=c1,ci,cn,这些类别可以是层次式的或并列式的;给出文档集合s=s1,sj,sn,每个训练文档sj,标上类别标识cj;统计s中所有文档的特征矢量v(sj),确定代表c中每个类别的特征矢量v(cj)。 2、分类阶段:对于测试文档集合t=d1,dk,dt中的每个待分类文档dk,计算其特征矢量v(dk)与每个v(ci)之间的相似度sim(dk,ci);选取相似度最大的一个类别argmaxcisim(dk,ci)作为dk的类别。只要dk与这些类别之间的相似度超过某个预定的阈值,就可以为dk指定多个类别。如果dk与所有类别 的相似度均低于闽值,那么通常将该文档放在一边,由用户来做最终决定。在计算sim(dk,ci)时,最简单的方法是仅考虑两个特征矢量中所包含的词条的重叠程度,即: sim(dk,ci)=n(dk,ci)/n(dk,ci)(2) 其中,n(dk,ci)是v(dk)和v(ci)具有的相同词条数目,n(dk,ci)是v(dk)和v(ci)具有的所有词条数目。最常用的方法是考虑两个特征矢量之间的夹角正弦: sim(dk,ci)=v(dk)-v(ci)/v(dk)v(ci)(3) 文本聚类是一种典型的无教师机器学习问题。对于给定的文档集合d=d1,dk,dn,层次凝聚法的具体过程如下:(1)将d中的每个文档试看作是一个具有单个成员的簇ck=dk,这些簇构成了d的一个聚类c=c1,ci,cn;(2)计算c中每对簇(ci,cj)之间的相似度sim(ci,cj);(3)选取具有最大相似度的簇对arg maxsim(ci,cj)sim(ci,cj),并将ci、cj合并为一个新的簇c=cicj,从而构成了d的一个新的聚类c=c1,ci,cn-1;(4)重复上述步骤,直至c中剩下一个簇为止。 三、基于web文本挖掘的客户知识采集 (一)文本知识采集。web文本知识采集是个复杂的多阶段过程,涉及web文本挖掘、知识发现、问题采集等多个方面。学习阶段根据用户的适当参与产生抽取信息的规则。首先确定需要抽取信息的同类web页面集,从中选定样本页面,并根据实际的需求和样本页面的具体情况定义模式信息,同时对样本页面进行适当的标记得到样本记录放入知识库中;然后利用这些规则,对同类主题的相似页面进行自动信息抽取,将抽取的记录放入信息库中。 (二)获取web页面路径的正则表达式。正则表达式最早是由数学家斯蒂芬克琳于1956年提出,他是在对自然语言的递增研究成果的基础上提出来的。从那时起,正则表达式经过几个时期的发展,现在的标准已经被国际标准组织(iso)批准和被open group组织认定。它并非一门专用语言,但可用于在一个文件或字符里查找和替代文本的一种标准。目前具有两种标准:基本的正则表达式和扩展的正则表达式。 本文中使用的正则表达式包括转义字符、限定符和原子零宽度符。使用一系列的特殊字符构建匹配模式。然后,把匹配模式与目标文本、程序输入以及web页面的表单输入等目标对象进行比较,根据比较对象中是否包含匹配模式,执行相应的程序。 所谓样本文档分析,就是把文档输入html分析器,按照文档对象模型生成一种树型表示。文档对象模型提供了一个标准的对象集合用以表示html或xml文档及其各组成部分之间的关系,并为存取和处理这些对象提供标准编程接口。 (三)客户知识采集模块功能。客户知识采集模块是系统的核心,主要实现的功能包括:将广大特约销售服务店网站上的客户问题和答案采集到本地,存储到xml格式的文件中。对外:通过制成web服务,提供给其他网站调用,方便特约销售服务店和分销商使用;对内:经过分析,获得各类知识,以支持决策。 四、结束语 客户知识管理的实现是一项复杂的系统工程,需要科学合理地、全面地获取采集信息,同时需要做大量的研究和实践。知识采集是知识管理的重要组成部分,国外已有应用,但在国内这方面的研究还比较少。本文将文本挖掘、知识采集用于客户知识管理,为进一步实现分布式知识资源的动态配置与

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论