【新浪财经-冯兆意】等待钻取的油田:互联网财经大数据_第1页
【新浪财经-冯兆意】等待钻取的油田:互联网财经大数据_第2页
【新浪财经-冯兆意】等待钻取的油田:互联网财经大数据_第3页
【新浪财经-冯兆意】等待钻取的油田:互联网财经大数据_第4页
【新浪财经-冯兆意】等待钻取的油田:互联网财经大数据_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Discoverthebeneath80%DiscovertheBeneath80%等待钻取的油田——互联网财经大数据新浪财经冯兆意A、数据连接一切什么是大数据

新浪财经大数据情况新浪财经大数据类型专注于大数据与金融创新什么是大数据专注于大数据与金融创新更广的信息范围新的数据与分析类型实时信息来自新技术的数据非传统形式的媒体大数据量社交媒体数据最新流行词定义大数据*2012年对95个国家中26个行业的1144名专业人员调查结果结构化数据:存在于关系数据库中,多年来一直主导着IT应用;半结构化数据:包括电子邮件、文字处理文件以及大量发布在网络上的新闻等,以内容为根底,这也是谷歌和百度存在的理由;非结构化数据:广泛存在于社交网络、物联网、电子商务之中。伴随着社交网络、移动计算和传感器等新技术不断产生,有报告称,超过80%的数据属于非结构化数据。大数据是一个涵盖多种技术的概念,简单地说,是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。“大数据”理念定义为4个V,即数量〔Volume〕、多样性〔Variety〕、速度〔Velocity〕及数据的准确性〔Veracity〕。新浪财经大数据专注于大数据与金融创新Volume1000+万活跃用户400000+条评论30000+条资讯100万+条财经博文大量1000万,1/7股民新浪财经大数据专注于大数据与金融创新Velocity7*24小时全球市场直播毫秒级更新频率的美股实时行情数据日志分析速度1分钟高速新浪财经大数据专注于大数据与金融创新Variety国内最多用户的沪深互联网行情产品超过200种外汇行情国内首家覆盖美股全市场覆盖场外市场海量视频,文本,博文,数据多样新浪财经大数据专注于大数据与金融创新Veracity670家国内外合作媒体73家境内外行情、数据合作伙伴562个高端专栏作家超20个国家和地区记者站85%+可信度代表投资者总体真实新浪财经大数据类型专注于大数据与金融创新新浪影响主流中国,微博会聚社会力量新浪财经大数据专注于大数据与金融创新社交网络权威媒体开放平台每天超过100万优质媒体及意见领袖贡献内容每天超过1亿主流用户通过新浪网来了解世界每天超过40亿页面访问及内容消费注册用户超过5亿人均好友超过200人每天新发微博内容量超过1.3亿用户每日时长超过90分钟超过34万平台开发者超过5万应用和网站可以使用微博账号直接登录每日超过600万站外分享至微博,超过6000万流量导出新浪+微博双核联动专注于大数据与金融创新新闻行情用户微博搜索股吧B、新浪大数据平台架构大数据平台架构大数据挖掘框架专注于大数据与金融创新专注于大数据与金融创新用户建模的根底准备HTML

JS

META

DW〔标准化、标准化〕行为收集ETLUDF集群报告报表API效劳数据发现用户

(产品)合作

伙伴C、新浪财经大数据应用新闻中的新主题,新概念-MotifInvesting舆情分析与股票正负面-Multi-FactorStrategy

用户浏览行为与投资表现-BehaviorAnalysis专注于大数据与金融创新新闻数据挖掘证券关注度StockAttention新新闻NewNews主题聚类TopicCluster行业聚合IndustryCluster舆情监控MonitoringPublicOpinion事件影响预测EventInfluenceForecast其他Others自然语言是人类最自然最重要的交流工具,也是人类获取信息和表达信息的重要载体,随着线上媒体的不断开展,每天会产生海量信息流。

新浪财经每日产生30000条财经资讯,我们从中可以得到什么?专注于大数据与金融创新新闻数据—话题挖掘—概念潜在语义分析(LSA)LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度——即“Topic”或者“Concept”。我们知道,在文档的向量空间模型〔VSM〕中,文档被表示成由特征词出现概率组成的多维向量,这种方法的好处是可以将query和文档转化成同一空间下的向量计算相似度,可以对不同词项赋予不同的权重专注于大数据与金融创新LSA的概率图模型:

新闻数据案例1—话题挖掘—概念潜在语义分析(LSA)新闻TOPIC聚类—小时频率专注于大数据与金融创新新闻数据案例2—策略因子—新闻大数据策略专注于大数据与金融创新绩效统计统计项新闻大数据策略沪深300三个月收益14.31%8.02%年化收益70.73%36.15%年超额收益34.58%N/A最大回撤(三个月)-4.75%-1.14%夏普比率(三个月)51.77%40.24%ALPHA收益(三个月)0.56%N/A最长盈利区间数54最长亏损区间数22区间数量1212胜率75.00%66.67%新闻对于股市,兼具:根本面/情绪面/大数据,新闻不仅是信息的最初来源,而且记录着传播过程,是投资决策中的重要依据。我们使用新闻大数据进行选股,在保证大数据的前提下,着力量化两个核心要素:1.新闻中个股情感判断。2.PV点击量增速。点击量增速反映该条新闻的热度,但由于不同个股PV量级不同,不能简单用增量作为筛选因子,必须做“增速”的处理后才能衡量公司自身进入公共视野的程度。在基于上诉逻辑中,我们在只有好消息的股票中,筛选点击量增速最大的50只股票,形成股票池,20140801~20141101的回溯结果如右图。新闻数据案例3—新词发现专注于大数据与金融创新大数据产品—大数据i指数专注于大数据与金融创新大数据应用,我们还在做哪些有意思的开掘?专注于大数据与金融创新精准营销在用户需要的时间和地点,推荐合适的金融产品。大数据联盟市场OPENAPI,OPENDATA投资习惯分析根据用户模拟交易流水,分析您的风险偏好与期望收益。用户群体行为分析通过分析用户群体行为,得知投资收益高的这部分用户分析方法的共同点。数据市场案例—利用专利数据进行的量化研究专注于大数据与金融创新LeadingScore=Exp[C0+C06*P06(-1)创造公开平均专利寿命 +C07*P07(-1)实用新型平均专利寿命 +C08*P08(-1)外观专利平均专利寿命 +C09*P09(-1)创造授权平均专利寿命 +C15*P15(-1)当年度创造授权平均审查期 +C19*P19(-1)当年度创造公开IPC分类号平均数 +C20*P20(-1)当年度实用新型IPC分类号平均数 +C25*P25(-1)当年度创造公开平均页数 +C26*P26(-1)当年度实用新型专利说明书平均页数 +C31*P31(-1)当年度创造公开权利要求平均数 +C32*P32(-1)当年度实用新型权利要求平均数 +C37*P37(-1)当年度创造公开独权平均数 +C38*P38(-1)当年度实用新型独权平均数 +C44*P44(-1)当年度实用新型附图平均数] 〔数据来源:新浪财经数据合作伙伴〕数据市场案例—利用专利数据进行的量化研究(续)专注于大数据与金融创新ROE成长的公司数/全部公司数TOP5%绩优股绩效领先大盘一倍预测前5%绩优股预测前10%绩优股预测后5%与10%绩差股大盘平均表现 〔数据来源:新浪财经数据合作伙伴〕新浪财经-大数据对金融企业的价值

专注于大数据与金融创新数据消费-》数据创新-》数据共享用户倾听市场认知金融企业产品研发市场活动企业营销行业生态企业合作市场营销用户倾听用户画像用户分类营销创新指数创新产品市场感知策略研究用户开展数据共享联合创新数据生态互联经济造就了“大数据”时代,惟有那些在数据获取、形成洞察力和将洞察力转化为行动方面表现优秀的企业才能有持

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论