达观分析文档_第1页
达观分析文档_第2页
达观分析文档_第3页
达观分析文档_第4页
达观分析文档_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、达观数据竞品分析文档、市场背景二、产品分析1、产品简介达观数据专注于人工智能领域的文本挖掘处理,利用NLP (自然语言处理)、机器学习、深 度学习等技术,旨在为应用方提供文本挖掘、搜索引擎、推荐系统、数据采集、数据统计等 大数据技术服务。为企业开发出文字数据处理、企业知识管理的解决方案,提升企业数据 化运营能力和经营业绩。2、产品主要功能及流程2.1达观数据文本挖掘1、文本审核检测:文本自动审核系统利用高复杂的智能算法对文本内容做涉黄涉政检测, 同时给出违规的严重程度,满足相应政策要求,大幅减少人力成本。达观数据提供使用非常便捷的文本审核接口(API),客户网站使用时,只需要将待审 核的文本和

2、相关的信息(比如发弹幕人的昵称、IP、UID、IMEI等信息)作为POST内 容,进行HTTP调用后,达观的系统可以在几十毫秒内能够准确识别文本是否包含违规内 容、违规类型(垃圾广告、色情、粗口等),通知使用方是否需要予以拦截。2、垃圾评论过滤:垃圾评论过滤系统可精准识别垃圾评论,在论坛发言或用户评论中,过 滤文本中的垃圾广告,提升文本总体质量;3、情感倾向分析:对用户评论等文本内容做情感分析,有助于了解产品反馈,指导决策与 运营。情感分基于分词和情感词典,即可以根据人们平时的语言表达习惯设置一些规则来计算 文本的情感倾向,比如每遇到一个正面情感词则+1分,遇到负面情感词则-1分,遇到否定词则

3、乘以-1将情感反转,遇到程度副词则将情感分数乘以一个放大系数。最后根据计算出 的分数判断情感倾向,分数为正数则判断为正面情感,负数则判定为负面情感,正负相抵则 判定为中性。4、自动标签提取:自动提取文本重要内容生成关键性标签,在此基础之上拓展更多功能形 式;5、文本自动分类:通过对文本内容进行分析,给出文本所属的类别和置信度,支持二级分 类,提升文本分类的精度,提高文本数据管理和使用的效率。6、网络舆情分析:针对网络舆论数据进行分析,了解行业动态,跟踪负面信息,协助政府 机构检测敏感事件和舆论热点。7、深度学习a、词语转成词向量使用目前应用最广泛的词向量生成算法google的word2vec算

4、法,包含了 CBOW (ContinuousBag-of-Word)模型和 Skip-gram(ContinuousSkip-gram)模型。CBOW 模型的作 用是已知当前词Wt的上下文环境(Wt-2,Wt-1,Wt+1,Wt+2)来预测当前词,Skip-gram 模型的作用是根据当前词Wt来预测上下文(Wt-2,Wt-1,Wt+1,Wt+2)。b、利用深度学习框架进行训练词转成固定维度的词向量之后,一个文本也就自然而然可以形成一个矩阵。以矩阵作为输入 的深度学习算法,第一个想到的自然是在图像识别领域获得过成功的卷积神经网络(CNN)。 但CNN在文本挖掘领域的运用具有一定局限性,因其每层内部的节点之间是没有连接的, 即又丢失了词与词之间的联系。词语的上下文关系对文本挖掘是至关重要的,尤其对情感分析,情感词(“喜欢”)和否定词(“不”)、程度词(“很”)的搭配会对情感倾向产生 根本性的影响。因此目前比较广泛

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论