版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文本分析的4V特征之一Variety特征引语Variety特征引语/01
在线网络环境中,文本类型数据的分析技术符合典型的大数据技术的基本特征,4V特征。引语Variety特征/02数据分为结构化数据和非结构化数据。相对于以往便储存的以数据库/文本为主的结构变化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等。这些多类型的数据对数据的处理能力提出了更高要求。Variety特征
对结构化数据进行分析,可以直接采用统计推断分析法、机器学习方法、深度学习方法进行处理,这些数据分析方法在相关理论及技术应用当前已经发展得非常成熟。然而,当前非结构化数据分析方法的发展阻力却较大。尤其文本类型数据的复杂性、变化性都很高,当前技术仍主要是将文本类型数据转化成结构化数据,再通过传统的数据挖掘方法进行处理。Variety特征
文本类型数据的核心是人类社会的语言内容,语言则是人的情感及行为的综合体现。因此,文本类型数据本质上就带有大量人为的复杂性因素,其分析难度远远大于一般的结构化数据。将文本类型数据转化成结构化数据时需要一系列复杂、烦琐的技术环节,这导致文本分析技术相对于数据挖掘技术的的发展滞后很多。文本分析技术在未来仍具有充足的探索空间。Variety特征
此外,数据在多样性也要求分析文本数据时需要设计符合其基本特征的算法,这要求数据分析者要关注文本数据的产生过程和具体应用场景。文本类型的数据会涉及不同有知识领域、不同的场景,同时以不同的表达方式呈现给用户。这些特点,都是文本类型数据多样性的具体表现。Variety特征
当考虑数据的多样性设计文本分析方法时,需要根据具体问题、场景有针对性地设计符合领域特征的特定方法,不能一概而论,正是由于这种原因,文本类型数据与结构化数据相比,分析难度更大,分析者往往需要不断地设计对实际问题具备深入的理解,也要对与文本分析技术相关的算法和原理具备强硬
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 巩固劳动制度
- 工作安排与休息制度
- 健康社区考核与奖惩制度
- 公交驾驶员奖惩制度范本
- 公司强迫员工签奖惩制度
- 公司车队驾驶员奖惩制度
- 关于企业班组奖惩制度
- 农产品质量检测奖惩制度
- 初中数学课奖惩制度细则
- 制衣厂质量管理奖惩制度
- 商场运营与安全管理制度
- 2025年广州医科大学辅导员考试参考题库附答案
- 2025年建设工程项目施工指南
- 2026年江西高职单招试题新版
- 妇联内控制度
- 道路基础注浆施工工艺方案
- 碑刻中的水利工程与明清社会治理的关联性课题报告教学研究课题报告
- 脓毒症早期识别与急救护理
- 2026年会计学专业课题研究与报表应用答辩
- 2026年鄂尔多斯职业学院单招职业适应性测试题库及答案详解一套
- 焊接与热切割安全操作规程
评论
0/150
提交评论