等待钻取的油田:互联网财经大数据_第1页
等待钻取的油田:互联网财经大数据_第2页
等待钻取的油田:互联网财经大数据_第3页
等待钻取的油田:互联网财经大数据_第4页
等待钻取的油田:互联网财经大数据_第5页
已阅读5页,还剩20页未读 继续免费阅读

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

80%,discvertheibeneach 80%,等待钻探的油田, internet金融大数据Sina,a,数据连接所有,大数据Sina金融大数据情况Sina金融大数据类型,大数据和金融创新,大数据,大数据半结构化数据:电子邮件、文字处理文件、网络上大量发布的新闻等都是基于内容的,这也是谷歌和百度存在的原因。非结构化数据:广泛存在于社交网络、事物网络、电子商务中。随着社会网络、移动计算和传感器等新技术的不断出现,有报告称80%以上的数据属于非结构化数据。大容量数据是涉及多种技术的概念,简单地说,是一组在一段时间内无法使用通用软件工具捕获、管理和处理其内容的数据。“大数据”(big data)概念由四个v定义:“体积”(Volume)、“多样性”(Variety)、“速度”(Velocity)和数据的“准确性”(Veracity)。Sina金融大数据、大数据和金融创新、Volume、Sina金融大数据、大数据和金融创新、Velocity、Sina金融大数据、大数据和金融创新、Sina金融大数据、大数据和金融创新、Veracity、 微博汇集了社会力量,集中在新浪金融大数据、大数据和金融创新上,每天有超过100万名媒体和大人物领导提供的内容每天有超过1亿名主要用户通过Sina网络查看全球每天超过40亿页的访问和内容消耗,注册用户超过5亿名1亿多朋友200多名每天超过1.3亿名新微博内容每天超过90分钟。 超过5万名平台开发人员和网站使用微博账户,每天可以从600多万个站点直接登录微博客,导出超过6000万的流量,新浪微博双核关联支持大数据和金融创新、新闻、市场、用户、微博、搜索、股票、b、新浪大数据平台体系结构、标准化,标准化,行为收集,ETL,UDF,群集,报告,报告,API,服务,数据发现,用户(产品),合作伙伴,c,Sina从新浪财经每天出现30万条财经信息,我们能得到什么?大数据和金融创新、新闻数据-主题挖掘-概念潜在语义分析(LSA)、隐含语义分析(LSA)的目的是在文本中以“Topic”或“Concept”查找隐含语义维。在文档的矢量空间模型(VSM)中,文档表示为包含唯一单词发生概率的多维矢量,此方法的优点是可以将查询和文档转换为相同空间下的矢量计算相似性,可以对不同的单词项赋予不同的权重,可以集中在大数据和金融创新上,LSA的概率图形模型:其中d表示文档,z表示隐式类别或主题,w表示观察到的单词在文档中每个主题都遵循所有单词主题的多语种分布,每个文档都遵循所有主题的多语种分布。整个文档的生成过程如下:(1)选择文档作为p()的概率;(2) P(|)选择主题作为概率。(3)以P(|)的概率生成单词。我们能观察到的数据不是(,)数据对,而是变量的嵌套。(,)的联合分布包括P(,)=P()P(|)、P(|)=1P(|)P(|)P(|)、新闻数据案例1-主题挖掘-LSA(概念潜在意义分析)我们使用新闻大数据选择股票,确保大数据的同时,有两个关键因素1。努力量化新闻中个别股票的情感判断。2 .增加PV单击次数。点击次数的增加反映了这条新闻的热度。但是,由于个别股票的PV量级不同,不能简单地将增量用作审查因素,为了衡量进入公司自身公共视野的程度,必须进行“增长”的处理。根据上诉逻辑,在只有好消息的股票中,已筛选出点击次数增长率最大的50家股票,形成了股票池,2014 08 01 2014 11 01的回溯结果如右图所示。新闻数据案例3-大数据和金融创新,大数据产品-大数据I指数,大数据和金融创新,发现侧重大数据应用程序的新词,我们在进行什么有趣的挖掘?大规模数据和金融创新、数据市场示例-使用专利数据进行定量研究、专注于大规模数据和金融创新。 Leadingscore=exp c06 * p06 (-1)发明平均专利寿命C07*P07(-1)实用新型平均专利寿命C08*P08(-1)外观专利平均专利寿命C09*P09 年度实用新型权利要求平均C37*P37(-1)年度发明披露独立权平均C38*P38(-1)年度实用新型单独平均C44*P44(-1)年度实用新型平均(资料来源:Sina financial) Sina financial-大规模数据对金融企业的价值,大数据和金融创新,数据消费-数据共享,用户倾听市场意识,金融企业产品研发,营销企业营销,产业生态企业合作,营销,用户倾听,用户肖像,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论