



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
关键技术论文关于社会网络大数据框架其关键技术论文范文参考资料 结合网络的数据类型、数据特征以及分析目的,提出了一套社会网络大数据的分析框架,并对其关键和核心技术进行详细描述,该技术策略对广告精准投放、个性化信息推荐、社会管理等方面都具有一定的指导作用和实用价值。 1 社会网络大数据分析框架 社会网络分析技术是一项关键技术,也是一项热门的研究6-7,涵盖了社会学、人类学、社会语言学、地理、社会心理学、通信研究、资讯科学、社会网络分析与探勘、组织研究、经济学以及生物学等多个领域,是一项多学科交叉技术。社会网络又包涵巨大的用户数据、关系数据和信息数据,为了有效地对社会网络的大数据进行分析和挖掘,我们提出了一个层次化的分析框架,如图1所示。 该分析框架包括数据层、分析层、支撑层和结果展示层四大部分。其中数据层是整个框架的基石,分析层和支撑层是整个框架的核心,结果展示层则是技术与应用的桥梁,能友好、简洁、形象地展示分析结果。(1)数据层 数据层包括数据获取、数据预处理和数据存储3个部分,其中数据获取主要通过网络流量方式、应用程序接口(API)方式、非API方式及其他方式进行有效地获取数据。数据预处理包括数据清洗、数据打标和数据关联,能够对为后续存储和分析提供规范化保障。数据存储通过关系型数据库或者非关系型数据库进行多类型数据存储。 (2)分析层 分析层包括了个体分析、群体分析、事件分析和整体分析,从四个维度对社会网络进行分析。 (3)支撑层 支撑层包括机器学习、分布式并行处理、数据挖掘、自然语言处理、流量识别、可视化等多种具有共性的关键技术。 (4)结果展示层 结果展示层与分析层互相映射,包括个体展示、群体展示、事件展示和整体展示。 通过该框架,可以拟合成多种应用,主要包括社会管理、广告精准投放、企业营销、个性化信息推荐、信息态势感知、不良用户和信息发现等。 2 社会网络大数据分析的 关键技术 上述框架的各个层次都拥有大量的关键技术予以保障,下面将详述各层中的不同关键技术。 2.1 数据层 数据层的设计理念是以数据为中心,以数据流向为导向,主要包括数据获取、数据打标和数据关联3个部分。 (1)数据获取 数据获取是社会网络大数据分析的基石,如何快速、有效获取社会网络的数据至关重要。针对这一理由,我们提出了2种社会网络数据获取方式: (a)网络流量方式 对于非加密的社会网络流量而言,可以通过流量的识别和剖析快速获取社会网络数据。首先需要对目标社会网络流量进行分析,抽取目标社会网络流量的强特征,再从背景流量中识别出目标流量;其次,对目标社会网络流量进行剖析,提取用户Profile数据、用户关系数据、发布信息数据、信息转发数据,等等。 (b)API/非API方式 目前大多数社会网络都提供相关API,可以进行数据获取,比较常见的是OAuth 1.0和OAuth 2.0两种用户身份验证和授权方式。但社交网络所提供的API都会存在一定程度的次数和速度的限制,以防止开发者以蛮横、暴力的方式获取数据。因此通过API方式获取数据时,需要进行超限判断,保证数据获取的正常进行。此外,为了规避API方式的限制,也可以采用网页剖析方式,依靠网络爬虫技术模拟用户登录进行数据获取,网页剖析方式的数据获取虽然在一定程度上不受限制,但其缺点是网页剖析的数据类型是有限的,和API方式相比缺乏数据完整性,因此需要两者配合使用。同时,为了批量获取社会网络数据,可以采用分布式爬虫并行爬取。 除上述两种方式外,还需要其他获取方式,以满足不同需求。例如,通过元搜索方式进行定量、定性的数据获取;采用基于用户属性、用户关系、用户信息3层过滤机制,通过特定团体获取方式,获取社会网络上的特定团体;通过增量式爬虫获取增量数据,等等。 (2)数据预处理 通过上述方式获得的社会网络数据往往是有噪音的、杂乱的、非结构化的,无法直接进行数据分析,需要通过数据预处理技术对数据进行清洗、打标及关联。 (a)数据清洗 (b)数据打标 社会网络数据往往十分繁杂,面对实时分析处理的苛刻需求,数据打标的工作势在必行。根据社会网络大数据分析的经验,我们将社会网络数据打
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年电子科技公司招聘笔试预测试题集锦
- 2025年殡葬礼仪师中级考试试题分析及答案
- 2025年徐州市中考地理生物合卷试题卷(含答案及解析)
- 2025年注册验船师资格考试(B级船舶检验法律法规)复习题及答案一
- 2025年残联干事招聘考试行政能力测试题库
- 2025年村级红白理事会招聘考试趋势分析与预测
- 2025年高校教师招聘考试模拟题与备考策略指南
- 2025年物流公司仓储管理员招聘面试技巧与问题解析
- 2025年文化创意产业财务管理准则实战模拟题集详解
- 2025年前端开发进阶之路模拟题集与答案解析
- 度假村项目策划书
- 黑龙江小学生诗词大赛备考试题库400题(一二年级适用)
- 《HSK标准教程1》第4课课件
- 混凝土裂缝处理的讲座
- 物理化学实验:实验一 溶解热的测定
- 茂县生活垃圾资源化综合利用项目环评报告
- 保安员在岗培训法律-2
- 初中英语中考专题训练阅读理解-应用文篇
- GB/T 20671.1-2006非金属垫片材料分类体系及试验方法第1部分:非金属垫片材料分类体系
- 熵权法教学讲解课件
- 医师病理知识定期考核试题与答案
评论
0/150
提交评论