基于网贷行业新闻的文本数据挖掘.docx_第1页
基于网贷行业新闻的文本数据挖掘.docx_第2页
基于网贷行业新闻的文本数据挖掘.docx_第3页
基于网贷行业新闻的文本数据挖掘.docx_第4页
基于网贷行业新闻的文本数据挖掘.docx_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于网贷行业新闻的文本数据挖掘文/盈灿咨询 袁鑫强文本挖掘,是数据挖掘领域重要的组成部分。简单地说,文本挖掘就是通过NLP、机器学习等方法从大量的文本资料中发掘出有价值的信息。无论是微信聊天记录,还是新闻文章,亦或是古诗词等,文本挖掘的应用领域非常广泛。在网贷行业,舆情分析相对较少。究其原因,绝大多数网贷相关词汇均属于未登录词。通过手动录入的方式可以在一定程度上解决这一问题。但是其工作量巨大,而且对于纷繁复杂的人名、机构名、专业名词无法全面地录入。本文以统计方法生成行业内未登录词,并在此基础上挖掘行业及平台热点。一、新词生成为了便于说明,选取网贷之家网站上2017年4月10日发布的所有新闻,并在剔除所有非中文字符之后将其拼接在一起,生成的文本用T表示。1.建立备选词词库我们假设一段文本中所有长度大于1且不超过L的词均可以独立成词。例如,取L=5,则对于上述51550字的文本材料T就能生成51549+51548+51547+51546=206190个备选词。2.停用词过滤停用词主要是指人类语言当中的一些功能词,例如“的”,“了”等。这类词本身并没有什么实质性信息,但是由于出现频率高,会影响计算效率。结合实际内容,本文中将所有含有“的”字的备选词过滤。3.低频词过滤如果某个文本片段出现频率过低,一方面其成词可能性较小,另一方面其文本特征的偶然性较大,不适合做统计处理。从备选词的频数分布情况看,出现频率为1的词占86.50%,可以将其过滤。4.自由度判断自由度也可以理解为独立性。一个文本片段能够成词需要在上下文中保持独立性,可以自由应用。以“诺诺镑”和“诺诺镑客”为例,“诺诺镑”右邻字只有“客”一种情况。而“诺诺镑客”的右邻字有“名”、“旗”、“的”等6种情况,且各种情况的发生频率较为平均。由此可见,“诺诺镑客”的独立性较强,上下文的丰富程度较高,有更大的成词概率。为了衡量备选词的自由度,我们在这里引入信息熵的概念。简单的说,信息熵就是信息量。信息熵的大小与某一不确定性事件的可能结果数量及发生概率有关。“诺诺镑客”右邻字集的信息熵为1.7479,明显大于“诺诺镑”的0,说明其成词可能性更高。这也与上文通过直接观察所得结论一致。为方便起见,我们将所有左、右邻字信息熵较小值不大于1的备选词过滤。图1 信息熵计算方法资料来源:盈灿咨询5.凝合度分析凝合度被用来形容单词的内部凝固程度。例如,对于语句“大数据、人工智能、区块链等引发的金融科技”而言,“区块链”的凝合度显然高于“等引发”。从条件概率的角度考虑,假设“区块”和“链”在语料中独立随机出现,则在两者都出现的条件下,“区块链”的出现概率约等于“区块链”出现频率除以“区块”与“链”出现频率乘积。因为“区块链”也可以拆分为“区”和“块链”,所以定义凝合度=任意拆分下的最小条件概率*文本长度*100,则“区块链”、“等引发”的凝合度分别为1.8182、0.1515。通过测试,将凝合度不大于1的备选词筛去。6.登录词过滤将通过上述步骤筛选剩余的词与已有登录词匹配,删去重复词,最终得到了53个未登录词。图显示,挖掘出的新词可以分为三类:1)人名:王晓亮、刘旭、陈一菲等;2)机构、公司名称:奥马电器、乐视、天津证监局等;3)互金及网贷行业词:薅羊毛、羊毛党、整改通知等;4)互金平台名:蚂蚁金服、诺诺镑客、鑫合汇等。图2 生成的未登录词资料来源:盈灿咨询二、行业及平台热点挖掘1.行业热点词概览图3 网贷行业热点词分布图资料来源:盈灿咨询基于上述未登录词生成方法和网贷之家4月份新闻舆情数据,可以得到4月份网贷行业热点词分布图。图中彩色点的大小与热点词词频正相关。总体来看,行业型热词数量较多,分布广泛。研究、理财型热词有明显的集群现象。政策型热词数量在四月下旬增长显著。表1 热点区域及相关新闻事件区域新闻事件热点词A网贷之家发布P2P平台银行存管最新名单存管协议、存管指引、监管层、运营时间B保监会发文提39条风控要求 重点防新业务风险保监会、关联交易、切实防范、责任追究C信而富上市环境分析美国上市、信而富、盈利能力、重复借款率D现金贷平台生存要素分析暴力催收、持牌机构、砍头息、薛洪言E中国十年私人银行之路回顾价值主张、零售升级、监管套利、刚性兑付资料来源:盈灿咨询另外,在累计1207个热点词中,人名占比达到16.82%,公司、机构名占比为9.61%,互金及网贷平台名占比达到9.20%,可见上述方法对于名称类的词识别效果显著。表2 部分类型热点词及词频互金平台频数人物频数绿能宝141雪琪65蚂蚁金服117王晓亮59信而富76马艳飞51陆金所67杨家才50e租宝35老曹46精融汇34薛洪言38沐金农34张颖35匹凸匹22施建祥33e路同心22徐勤31聚宝匯18郑禹26资料来源:盈灿咨询2.热点事件观察(1)绿能宝逾期选择上表中词频最高的“绿能宝”为例,为了寻找绿能宝究竟发生了什么,我们以四月份所有含绿能宝的网贷之家新闻为样本,采用上文所提及方法,并为每一个热词贴上时间标签以后,得到结果:图4 绿能宝事件热点词及相关事件资料来源:盈灿咨询利用贝叶斯平均的思想,分析“逾期”一词的热度。由于文本材料的长度不一,我们将“绿能宝”的词频作为基数加入到计算过程中。表3 “逾期”、“绿能宝”词频分布日期4月14日4月17日4月18日4月19日4月25日合计逾期07912331绿能宝3519192316112平均值17.5131417.59.571.5资料来源:盈灿咨询经计算“逾期”的热度在19日最大,其值等于:123131+1231+23112271.531+71.5*10032.37而14日、17日、18日、25日的热度值分别为10.90、20.62、24.82、11.28。(2)校园骗贷事件某高校辅导员利用其特殊身份冒用学生个人信息在网贷平台贷款近百万后失联。这里,我们利用该事件相关新闻文本,尝试着构建关键词网络来刻画。首先,我们还是需要用上文的方法生成一个关键词样本。从中筛选出20个具有特征性的关键词作为节点;以词与词之间的最短距离作为关联性指标,若两词最短距离小于10,则认为两者具有关联关系。另外,考虑到不同句子中的词关联性较弱,我们在句与句之间插入10个字的无关文本,以避免前句句尾词和后句句首词距离过短的情况。图5 校园骗贷事件关键词网络资料来源:盈灿咨询图5中,相关联词用直线连接,粗线表示方向,直线粗端词出现在直线细端词之后。其中,连接次数最多的词是“王晓亮”和“学生”。显然两者就是整个事件的中心人物。另外,通过找寻处于直线或者多边形顶点的关键词以及直线方向,可以发现一系列信息体。例如,“南航-辅导员-王晓亮”反映了“王晓亮”的身份信息。需要注意的是,若关键词的关联方向不一致,则无法形成一个可靠的信息体,比如“受骗-父母-电话”与“电话-受骗”。3.平台热点透析以表2中词频较高的三个互金平台为例:(1)信而富热点词:信而富、美元、借款、发行、普通股、招股书、公司、利率、市值、开盘、王征宇、董事、开盘价、承销商、宜人贷、总股本、纽交所、美国、计提、超额配售权热点分析:4月份涉及信而富的新闻舆情以“上市”为核心话题。围绕“上市”这一主题展开的内容有招股说明书的分析、IPO进程的叙述、股价的变动、前景预测以及与同在纽交所上市的宜人贷的比较。 主要新闻事件:信而富在纽交所上市,开盘涨11%,市值达4.2亿美元。(2)陆金所热点词:陆金所、平台、科技、上市、平安、业务、管理、市场、理财、产品、人士、信息、投资、私募、你我贷、交易、机构、陆金所控股、互联网金融、计葵生、平安大华、理财科技、一站式、三所一惠、平安普惠热点分析:陆金所的新闻热点以业务布局为主。4月份,关于平安大华打破原有“三所一惠”布局并入大陆金所版图的传闻甚嚣尘上。另外,“一站式线上财富管理”、“理财科技”的概念多次出现在新闻舆情中。受到信而富上市的影响,关于陆金所何时何地上市的猜测也是4月舆情的热点之一。主要新闻事件:陆金所全面布局财富管理,转型路径渐渐清晰。(3)e路同心 热点词:金融、e路同心、社区金融、农村金融、农业、平台、银行、互联网金融、信息安全、布局、周年、广东省、机构、业务、百强榜、同心基金、消费金融、社区银行、股东、上市、企业、合作、润民 热点分析:4月18日,e路同心上线两周年。因此与两周年相关的新闻报道较多,附带着大量关于平台国资背景、成交量破七十亿之类的信息。此外,在转型的大背景之下,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论