



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
doi:10.3969/j.issn.1006-6403.2014.09.008 基于关键词规则匹配的企业客户行业分类 研究价值为导向,结合客户的其他信息,如消费信息等来进行分类和研究2。如对客户的消费行为进行分析,客户的忠 诚度分析,流量分析以及客户流失预测等。企业也可以针 对不同行为模式的客户提供不同的产品内容,针对不同消 费心理的客户提供不同的促销手段等,而对客户进行行业 分类就是进行这些有针对性的营销手段的基础。文献3引入关键知识识别(ckr)模型,并对ckr模型 进行改进,克服了原ckr模型只在单一目标下进行知识分 类的局限,改进的ckr模型以企业与顾客/双赢0为理念, 实现双目标下客户知识的分类。文献4设计了一种客户价 值评价指标体系,根据该指标体系的指标特性,选择神 经网络作为评价方法进行客户分类,并对每个类别的客户 特征及其相应的营销策略进行了分析。文献5根据电信的 客户行为提出了一种改进 k均值聚类的电信客户分类算 法,提高了客户分类正确率,大幅度减小误差。文献6采 用决策树方法,对客户交易数据和客户基本信息进行数据 挖掘分析,降低了数据冗余度,提高了数据集准确率。以上文献中的方法均是针对客户的价值进行分类, 通过数据挖掘,机器学习的相关方法结合客户的其他辅助 信息来对客户进行分类,但是这些辅助信息往往非常有 限,甚至在没有这些辅助信息仅仅有公司名称的情况下, 要怎样对客户所属的行业进行分类呢?对于客户的行业分类大多数针对客户价值进行分类 的方法并不适用,传统的对于客户的行业类方法主要采用 人工录入和确认的方法,甚至还需要大量的电话调查和实 地走访,这种方法耗费大量的人力和物力,效率十分的 低,如何针对公司名称实现客户行业的自动化分类时成为 当前亟待解决的问题。通过研究我们发现,公司名称中往往会出现一些比 较明显的可以带有行业特性的词语,如酒店,餐厅等,通 过关键性的词语我们可以判定其所属的行业。本文提出了一种针对公司名称客户基于关键词,剔 除词建立规则的方法来对客户进行行业分类,此种方法可 以对公司名称进行有效的行业分类,有效解决在没有其他 辅助信息的情况下对客户进行管理的难题,为自动化实现客户的行业分类提供了理论基础,同时本文以某电信公司抽样数据为测试集对本方法的可行性进行了测试。图1为关键词分类法的基本分类流程:刘春 刘丽娇企业行业分类信息在crm(客户关系管理)中有着重要的作用,文章提出了一种针对公司名称基于关键词和剔除词进行规则匹配的方法来进行自动行业分 类,有效解决在没有其他辅助信息的情况下对客户进行管理分类的难题,同时文 章以某电信公司客户抽样数据为测试集对本方法的可行性进行了测试,并取到了 较好的效果,大大减少了人工方式采集信息的复杂程度,为企业节省了费用。图1 关键词分类法流程3关键词分类法通过研究发现,公司名称中大多带有明显的行业特征,与文献7中提到的林业特征词相近,这些行业特征可 以发掘出该公司所属的行业,我们把这些行业特征称之为 关键词。所以对公司名称进行结构上的划分以找出关键词 对公司名称的行业分类至关重要。有了关键词的概念,是不是就可以对所有的公司 名称有正确的分类了呢?答案是否定的。假如分类中存在 住宿类和管理类,“酒店”是住宿类的关键词,如*市* 酒店属于住宿类,但是*市*区*酒店设备制造有限公司 则不属于住宿类而属于制造类,所以在分类时,并且在 “酒店”关键词中将“设备制造”剔除。由此我们提出了剔除词的概念,也就是说每个关键 词会对应一个甚至多个剔除词,所以我们有必要对每一类 的关键词库建立一个对应的剔除词库(词库允许为空)。公司名称中除了一般会包含地址信息(*市*区), 公司名以及后缀名(有限公司);所以一个公司名称可以被划分为以下几个部分,如图2。关键词: 行业分类 关键词 规则匹配 刘春男,硕士,中国电信股份有限公司广东研究院,工程师,一直从事数据仓库、 数据挖掘及大数据技术等方面的技术研究工作。刘丽娇女,本科,广州优亿信息科技有限公司,主要研究方向:数据挖掘、知识工程 和软件工程等。1引言以得到更有意义的结果。传统的对于客户的行业类方法主要采用人工录入和 确认的方法,耗时耗力,如何实现自动化分类是当前亟待 解决的问题。公司名称带有明显的行业特征,依照此特征我们可 以对其所属的行业进行分类研究,有效的对客户进行管 理,产生更大的价值,便于有针对性的进行客户营销和管理。客户信息为企业的重要资产,有效的对客户分类不仅仅是实现企业内部对于客户的统一有效识别,也常常用 于指导企业客户管理的战略性资源配置与战术性服务营销 对策应用,支撑企业以客户为中心的个性化服务与专业化 营销。客户分类是基于客户的属性特征所进行的有效性识 别与差异化区分,客户的属性通常有社会属性、行为属性 和价值属性1,而对客户的行业分类通常是依据客户的社 会属性来进行分类。客户的行业分类也是其他客户营销和分析的基础,在分类后的数据中进行挖掘更有针对性,可图2 公司名称划分格式如:*市*区a*n酒店k设备制造t有限公司b;3.1 关键词、剔除词的提取将公司名称进行分词过后,关键词、剔除词语的提 取以及词库的建立是至关重要的。2相关工作目前客户分类主要是根据客户的价值进行分类,以2014.09.广东通信技术新技术新业务新技术新业务3332摘要基于关键词规则匹配的企业客户行业分类研究价值为导向,结合客户的其他信息,如消费信息等来进行分类和研究2。如对客户的消费行为进行分析,客户的忠 诚度分析,流量分析以及客户流失预测等。企业也可以针 对不同行为模式的客户提供不同的产品内容,针对不同消 费心理的客户提供不同的促销手段等,而对客户进行行业 分类就是进行这些有针对性的营销手段的基础。文献3引入关键知识识别(ckr)模型,并对ckr模型 进行改进,克服了原ckr模型只在单一目标下进行知识分 类的局限,改进的ckr模型以企业与顾客/双赢0为理念, 实现双目标下客户知识的分类。文献4设计了一种客户价 值评价指标体系,根据该指标体系的指标特性,选择神 经网络作为评价方法进行客户分类,并对每个类别的客户 特征及其相应的营销策略进行了分析。文献5根据电信的 客户行为提出了一种改进 k均值聚类的电信客户分类算 法,提高了客户分类正确率,大幅度减小误差。文献6采 用决策树方法,对客户交易数据和客户基本信息进行数据 挖掘分析,降低了数据冗余度,提高了数据集准确率。以上文献中的方法均是针对客户的价值进行分类, 通过数据挖掘,机器学习的相关方法结合客户的其他辅助 信息来对客户进行分类,但是这些辅助信息往往非常有 限,甚至在没有这些辅助信息仅仅有公司名称的情况下, 要怎样对客户所属的行业进行分类呢?对于客户的行业分类大多数针对客户价值进行分类 的方法并不适用,传统的对于客户的行业类方法主要采用 人工录入和确认的方法,甚至还需要大量的电话调查和实 地走访,这种方法耗费大量的人力和物力,效率十分的 低,如何针对公司名称实现客户行业的自动化分类时成为 当前亟待解决的问题。通过研究我们发现,公司名称中往往会出现一些比 较明显的可以带有行业特性的词语,如酒店,餐厅等,通 过关键性的词语我们可以判定其所属的行业。本文提出了一种针对公司名称客户基于关键词,剔 除词建立规则的方法来对客户进行行业分类,此种方法可 以对公司名称进行有效的行业分类,有效解决在没有其他 辅助信息的情况下对客户进行管理的难题,为自动化实现客户的行业分类提供了理论基础,同时本文以某电信公司抽样数据为测试集对本方法的可行性进行了测试。图1为关键词分类法的基本分类流程:图1 关键词分类法流程3关键词分类法通过研究发现,公司名称中大多带有明显的行业特征,与文献7中提到的林业特征词相近,这些行业特征可 以发掘出该公司所属的行业,我们把这些行业特征称之为 关键词。所以对公司名称进行结构上的划分以找出关键词 对公司名称的行业分类至关重要。有了关键词的概念,是不是就可以对所有的公司 名称有正确的分类了呢?答案是否定的。假如分类中存在 住宿类和管理类,“酒店”是住宿类的关键词,如*市* 酒店属于住宿类,但是*市*区*酒店设备制造有限公司 则不属于住宿类而属于制造类,所以在分类时,并且在 “酒店”关键词中将“设备制造”剔除。由此我们提出了剔除词的概念,也就是说每个关键 词会对应一个甚至多个剔除词,所以我们有必要对每一类 的关键词库建立一个对应的剔除词库(词库允许为空)。公司名称中除了一般会包含地址信息(*市*区), 公司名以及后缀名(有限公司);所以一个公司名称可以被划分为以下几个部分,如图2。图2 公司名称划分格式如:*市*区a*n酒店k设备制造t有限公司b;3.1 关键词、剔除词的提取将公司名称进行分词过后,关键词、剔除词语的提 取以及词库的建立是至关重要的。2014.09.广东通信技术新 技 术新 业 务33基于关键词规则匹配的企业客户行业分类研究64748表示每个关键词对应的剔除词个k nt n1 t n 2 k t nmci通过以上流程建立起类的关键词和剔除词库形k 1t11 t12t1ak司名称中含有“宾馆”的记录,剔除同时含有“菜馆”、(1)规则的准确性最高。通过规则的建立,我们可以对公司名称的客户进行行业分类,但是以什么样的顺序进行分类将会对分类结果新 技 术新 业 务新技术.新业务本文采用基于统计的方法8来对标注分词完成后的训 n练集进行关键词和剔除词库的建立。具体流程见图3。除词, a, b, ., m具体步骤如下:数。3.2 规则的建立根据建立好的关键词库和剔除词库,本文采用了基 于规则匹配的方法来对公司名称客户进行行业分类,分类 过程中依据分类的优先级次序进行处理,并且提出了类关 联度的概念来确定分类的优先级,同时在分类过程中指定 了相应的原则来对本分类方法进行指导。3.2.1 分类规则关键词库和剔除词库的建立为分类规则的产生以及 基于规则匹配对公司名称进行行业分类提供了好的基础。 本文采用规则匹配的方法,结合关键词和剔除词建立规则来进行分类,规则的形式化表示为公式2: ( ) (2) 举例来说,住宿类有关键词4个,分别为k=酒店, 招待所,宾馆,旅店,“酒店”的剔除词t1=海鲜,用 品 , 设 备 , “ 宾 馆” 的 剔 除 词 t2=菜 馆 , 管 理 , “ 旅店”的剔除词t3= 那么对应的分类规则为:图3 关键词库,剔除词库建立流程c i式如公式1:即公司名称中有“酒店”的记录,剔除同时含有 “海鲜”、“用品”、“设备”记录即分在住宿类中;公k 2 t 21 t 22 k t 2b “管理”的记录即分在住宿类中;而含有“旅店”关键词mm m m m 的公司名称未还有任何剔除词语,均分在住宿类中,此条k n t n1 t n 2 k t nm 3.2.2 类关联度其中, k 1 k 2 l k n 表示类 c i 的 n 个关键 词, t n1t n 2l t nm 表示关键词 k n j的m个剔产生一定的影响,本文提出了类关联度的概念来对每一类 的优先级进行排序。34酒店 and not(海鲜 用品 设备) 住宿类;宾馆 and not(菜馆 管理) 住宿类; 旅店 住宿类;关键词库、剔除词库建立过程:step 1 对标注的训练集(含公司名称以及分类字 段)进行人工标注,分词;step 2 对类ci的所有数据出现的关键词进行词频统 计,超过阀值的关键词存储到ci的关键词库中;step 3 针对每一类的每个关键词kj,找出所有包含 此关键词的所有数据,逐条判断是否包含剔除词,如果 包含,则对其包含的剔除词词频统计及分析,确认剔除 词后存储到kj剔除词库中。类关联度r,用来衡量类与类之间的紧密程度,如果某一类中含有其他类的关键词越多,那么类间的关系就越 紧密,换一句话说就是,某一类中含有的剔除词语越多, 那么与其他类的关联性就越强。第i类的关联度:类,10个大类,分别为b,d,e,f,g,h,i,j,k,z;并且抽取近10万条客户数据作为标准集,来对客户的 公司名称进行分词分类,将关键词阀值设为3,剔除词阀 值设为1;最后找到关键词1 000多个,剔除词2 500多个 覆盖了标准集92%的数据。类关联度,优先级顺序如图4:6447n 448= lg(a + b + k + m)(3)r i在分类过程中,我们把类关联度低的类进行优先处理,以减少和其他类之间的冲突。根据类关联度r的大小 顺序来对各类的优先级进行排序,关联度越小的类,代表 与其他类间的关联性越小,优先级别也就越高。3.3 分类基本原则在基于规则匹配来对公司名称进行行业分类的过程中 会有各种各样的情况会对分类的结果产生影响,为了保持分 类的准确性和一致性,本方法指定了以下分类基本原则:优先级原则: 每一类按照类关联度r从小到大进行优先级排序,r越小优先级越高,对优先级高的类优先进行分类; 每一类的关键词的优先级首先考虑剔除词为0的关键词,未剔除任何词语的关键词优先级最高,其余关键词按 照其词频的大小进行优先级排序,关键词的词频代表该关 键词在此类的重要程度,用此来衡量其在类中的优先级, 词频越大,优先级越高。移出原则: 由于关键词和剔除词汇量较大,难免有关键词间相互冲突的状况发生,这里采用对于已经搜索到推荐关键词 的记录将移出,不再进行搜索。保持原则:将数据库中可以搜索到推荐关键词的记录进行刷 新,未搜索到关键词的记录保持原有的分类不变。图4 各大类类关联度,优先级顺序如图4,10个大类类关联度由小到大为z-b-e-d-f-k- g-j-h-i,即优先级顺序。4.2 分类试验结果随机抽取某电信公司35万数据作为测试数据集进行 分类,原有数据中存在异常分类数据,占50%左右,准确 率仅为26%。应用以上键词库和剔除词库,可以准确识别 并分类数据有30万个,准确率提升到86.8%。图5,6分别为行业小类和行业大类原有记录数,分 类后记录数以及保持不变记录数的示意图,从图中可以看到,分类较原始数据发生了很大的变化。4分类试验效果4.1 关键词库,剔除词库建立本 文 选用 某 电 信 公 司的 行 业 分类 标 准 , 共 48 个 小图5 48个行业小类原有数据,分类后数据数以及不变的数据数2014.09.广东通信技术新 技 术新 业 务35基于关键词规则匹配的企业客户行业分类研究新技术.新业务5结论本文提出了一种基于关键词和剔除词,匹配建立规 则库来对公司名称进行行业分类的方法,并且通过某电信 公司的数据集对本方法进行了相应的测试,分类使得原有 噪声的数据得到了改善,提高了分类的准确性,有效的对 客户进行了自动分类管理,对企业有针对性的进行营销、 管理起到了很好的作用。图6 10个行业大类原有数据,分类后数据数以及不变的通过实验证明目前
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 造价咨询投标技术方案
- 网剧营销招商方案范文
- 产品营销新模式设计方案
- 华为自拍杆营销策划方案
- 离婚抚养费协议:子女成长阶段费用保障及调整机制
- 离婚协议中财产分割与债务承担专项合同
- 离婚后共同持股企业股权分割及退出机制合同
- 篮球场塑胶地面施工、监理、验收与售后服务合同
- 离异抚养费补充协议(子女成长费用追加协议)
- 农产品保鲜库粮仓租赁及粮食质量安全保障合同
- 2025年河南省公开遴选公务员考试(案例分析与对策性论文)历年参考题库含答案详解(5套)
- 溶液计算题目及答案大全
- 光伏施工基本知识培训课件
- 煤矿井下自动隔爆装置(岩粉隔爆装置)专项辨识评估报告
- 挡土墙、围墙施工方案(技术标)
- GB 21256-2025粗钢生产主要工序单位产品能源消耗限额
- 西安殡葬管理办法
- 2024年内蒙古中国神华煤制油化工有限公司招聘真题
- 学校后勤工作管理培训
- 电信营业员聘用合同范本
- 饿了么食品安全管理办法
评论
0/150
提交评论