版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、一.大数据方向1.现状分析大数据顾名思义就是数量极其庞大的数据资料大数据的特性有 3 个:大量性多样性, 快速性、易变性,准确性和复杂性。价值本质上是数据被分析后体现出来的有用信息知识的程度随着强大的数据存储,计算平台,及移动互联网的发展,现在的趋势是医疗数据的大量爆发及快速的电子数字化。以上提到的医疗数据都在不同程度上向数字化转化各种健身,健康可穿戴设备的出现,使得血压、心率、体重,血糖,心电图等的监测都变为现实和可能,信息的获取和分析的速度已经从原来的按“天”计算,发展到了按“小时”,按“秒”计算。这种数据的扩展速度和覆盖范围是前所未有的,数据的格式也五花八门, 数据的来源也纷繁复杂,可能
2、来自不同的地区,不同的医疗机构,不同的软件应用。不可否认,一旦理顺了多格式,多源头,呈爆炸性成长的大数据的整合和分析,医疗大数据将对提高医疗质量,强化患者安全,降低风险,降低医疗成本等方面发挥无与伦比的巨大作用。有效的整合和利用数字化的医疗大数据对个体医生,康宝中心,大型医院,和医疗研究机构都有着显著的好处1.1潜在的利益包括 :1.1.1更多更准确的数据使得疾病能在早期被监测到,从而使治疗更容易和有效。1.2.2通过对特定个体或人群的健康管理,快速有效地监测保健诈骗。1.1.3基于大量的历史数据,预测和估计特定疾病或人群的某些未来趋势,比如:预测特定病人的住院时间,哪些病人会选择非急需性手术
3、, 哪些病人不会从手术治疗中受益,哪些病人会更容易出现并发症,等等。1.2医疗大数据的利用可以从以下几方面减少浪费和提高效率1.2.1临床操作: 相对更有效的医学研究,发展出临床相关性更强和成本效益更高的方法用来诊断和治疗病人。1.2.2研究和发展在药品和医疗器械方面,建立更低磨损度,更精简,更快速,更有针对性的研发产品线。统计工具和算法方面,提高临床试验设计和患者的招募,使得治疗方法可以更好地匹配个体患者的病症,从而降低临床试验失败的可能和加快新的治疗方法推向市场。分析临床试验和病人的病历,以确定后续的迹象,并在产品进入市场前发现病人对药物医疗方法的不良反应。1.2.3公共卫生:分析疾病模式
4、和追踪疾病暴发及传播方式途径,提高公共卫生监测和反应速度。更快更准确地研制靶向疫苗,例如:开发每年的流感疫苗1.2.4循证医学结合和分析各种结构化和非结构化数据,电子病历,财务和运营数据,临床资料和基因组数据用以寻找与病症信息相匹配的治疗,预测疾病的高危患者或提供更多高效的医疗服务。1.2.5基因组分析:更有效和低成本的执行基因测序,使基因组分析成为正规医疗保健决策的必要信息并纳入病人病历记录。1.2.6提前裁定欺诈分析快速分析大量的索赔请求,降低欺诈成功率,减少浪费和滥用。1.2.7设备/远程监控从住院和家庭医疗装置采集和分析实时大容量的快速移动数据,用于安全监控和不良反应的预测。1.2.8
5、病人的个人资料分析全面分析病人个人信息(例如,分割和预测模型)从中找到能从特定健保措施中获益的个人。例如,某些疾病的高危患者(如糖尿病)可以从预防措施中受益。这些人如果拥有足够的时间提前有针对性的预防病情,那么大多数的危害可以降到最低程度,甚至可以完全消除。(未完待续索要完整版微信私信278245121)1.3现存问题1.3.1数据处理和数据分析方法及软件受到挑战在大数据时代出现之前,受限于数据量的可获得性和计算能力的有限性,传统的数据管理和分析采用着不同的思路和流程。传统上,对于问题的研究建立在假设的基础上进行验证,进而研究事物的相关因果性,希望能回答“为什么”。而在大数据时代,海量数据的涌
6、现提供了从不同角度更细致更全面观察研究数据的可能,从而打开了人们的好奇心,探索欲望,人们想知道到数据告诉了我什么,而不仅仅是我的猜想是否被数据验证了。人们越来越多地用大数据挖掘各种感兴趣的关联,非关联等相关性,然后再进一步比较,分析,归纳,研究(“为什么”变成一个选项而不是唯一终极目标)。大数据与传统数据思路上的不同导致了分析流程的不同,如图一所示:图一面对海量的数据和不同的分析思路,大数据的管理和分析与传统数据分析的差异日益加大。回答特定问题的单一预设结构化数据库明显不能完全胜任处理大数据的海量及混杂等问题。数据的混杂多样性具体可以从一些调查数据中表现出来。SAS 的一份调查报告显示机构内的
7、非结构化数据最多可以占到总数据量的 85%,而这些非数字,非结构化的数据却必须被量化分析和用到决策分析中大数据的大量性和多样性对数据库和数据管理及处理方法的要求越来越高,也越来越复杂,这样线性处理整个数据变得相当耗费人力,物力,和时间。大数据的快速性,易变性也使得把数据储存在单一的中央数据库变的不太可行在这种情况下,最流行的思路是把数据分割处理,也就是把数据储存到多个储存节点(比如网络数据库),在每个节点单独处理数据(甚至处理完就接着进行初步分析, 但处理的程度依客户具体问题而调整),然后再汇总整合到一起,提供给单个或多个数据库,接着根据需要选择合适的分析方法获取有用结果1.3.2大数据特性对
8、统计应用上的际遇和冲击大数据的独特性对传统的统计方法发出了挑战,刺激着新的,适用于大数据分析的统计方法的发展,传统数据一般来说是样本量远远大于感兴趣的因素,比如一数据有 200 条记录关于个人是否有心血管病,可能相关因素为性别,年龄,血压。这儿只有 4 个因素,但样本量为 200(200>>4)。而大数据则拥有海量的样本及相当多的因素。还是用心血管的例子,现在比如我们有了几万条记录的样本量,但同时也拥有了上百个的因素,各种以前没法收集的因素都收集了,像运动与否,运动量如何,运动类型,饮食习惯,饮食内容,喝酒与否,喝什么酒,喝酒习惯次数等等。这使统计中对数据的研究应用得到了新的际遇同
9、时也面临了新的挑战。1.3.3数据异质性数据异质性,可以简单理解成一个大样本数据里有很多小样本,每个小样本有着不同的数据特征,比如小样本的平均值有高有低,离散程度有密有疏,就好象海洋中有着不同温度,不同密度的各种洋流一样。我们不能简单的只在大样本的层面进行统计分析,这样得出的结果如果被用于对小样本或样本中的个体的估计或预测时就会出现偏差,因为每个小样本可能有着一些它自己独特的特征。在数据样本小的时候,里面的小样本相应的就更小。 这种情况下小样本里的数据记录可能只有一,两个,它们只能被当作异常值处理,无法分析。而在大数据里,这种具有独特特征的数据记录收集出现多了,就拥有了被统计分析的条件,从而使
10、我们更好地探究特定因素的关联性,理解这些数据异质性。比如有些只在特定人群里发生的极其罕见的疾病,大数据使我们得以研究发病原因,发病风险因素;理解为什么有些治疗方法对某些人群有利,而同样的方法对另一人群却有害,等等。同样,由于海量样本和巨多的因素存在于大数据里,信息的复杂度也会增加不少,受复杂度的影响,可能导致统计上的过度拟合。过度拟合就是指我们建立了一个复杂的统计模型,它能很好的描述现有数据的情况,但当我们想把这模型应用到预测新数据时,它的表现却相当差。1.3.4偏差识别分析数据时,我们需要估计或测试很多参数用以建立可靠的统计数据模型。期间不可避免会产生偏差,这些估计中产生的偏差积累,很大程度
11、上受着数据量大小及参数多寡的影响。 在一般小数据时,这问题可以并不显著。但在大数据的情况下,这问题就变的相当值得注意。1.3.5虚假相关虚假相关,我们用一个例子来加以解释说明。这儿还是以前面提到过的心血管数据为例。现在只收集了 200 个记录,但每条记录都有 100 个各方各面因素的信息。这样,我们想看是否这 100 个因素和“是否有心血管病”相关。如此,我们进行两两检验测试: 是否有心血管病和因素一进行检验,是否有心血管病和因素二进行检验是否有心血管病和因素一百进行检验。1.3.6统计学意义每一个检验测试结果只会出现两种情况: 统计学上有意义和统计学上无意义。简单来说就是认为心血管
12、病和该因素有关。统计学上无意义就是认为心血管病和该因素无关。 在此过程中,你可能发现,大约会有 5 次在统计学上被认为与心血管病相关的因素,实际上从常识和现实来判断是没有任何关联的,也就是说统计学上有意义是错误的。这就是虚假相关。1.3.7无意义显著性还有一种情况我们称为无意义的显著性。当我们做两组数据的分析比较时,如果 A 组,B 组各只有 1000 个数据记录,我们测试两组数据的平均值是否一样,结果告诉我们统计学上无意义。也就是说,这两组数据的平均值无统计学上的差异。但当数据记录达到上万上百万时,测试的结果告诉我们统计学上是有意义的了。1.3.8羊群效应大数据时代,我们的社会已经在越来越多
13、的把个人的观点数字化,汇总化,并依赖于此做出决策(比如根据收集到的评分来进行产品或服务的推荐)。这一现象在医疗界也渐渐的变的普遍起来。好多辅助医疗应用软件在移动平台上都会有使用者的评分,人们会根据评分来选择是否使用一下。某些医疗网络平台推出的服务,比如网络问诊,使用者也可以对提供服务的医疗人员进行满意度的评分,进而影响他人决定是否选择此医疗人员来进行问诊咨询。利用这种“众人的智慧”的一个关键要求是个人意见的独立性。然而,在现实的世界中,汇总收集的集体意见却很少是由互不相干的独立的个体意见所组成的。最近的实验研究证明先前已经存在的收集到的意见会歪曲随后个人的决策还有对质量及价值的认知。凸显出了一
14、个根本的差异既: 我们从集体意见感知到的价值和产品本身固有的价值之间的差异。产生这种差异的原因在于“羊群效应” 。羊群效应简单的描述就是个体的从众跟风心理和行为。羊群是一种很散乱的组织,平时在一起也是盲目地左冲右撞,但一旦有一只头羊动起来,其他的羊也会不假思索地一哄而上,全然不顾前 面可能有狼或者不远处有更好的草。因此,“羊群效应”就是比喻一种从众效应,很容易导致盲从,而盲从往往会陷入认知偏差,决策偏差。在大数据时代,虽然数据库等操作建立需要专业计算机人才的贡献,统计专业人员的参与也是必不可少的。数据的管理分析并不仅仅是提取,检索,简单汇总,总结。数据本身的复杂性,使得分析的过程中充满了种种陷
15、阱,误区。没有一定统计方面的理论知识结构,就会出现分析上的偏差,或者低效率的数据利用。在计算机算法的基础上去学习认识数据统计的性质,把算法和统计分析结合起来是未来大数据分析的一个主要方向。1.4.集团现状分析以及建议目前我们下属有二十多家医疗机构各个级别的医院都有,并且覆盖各个省市,这些医疗机构经过长年累月的发展积累了大量的病人各种数据,基于市场情况受制于1.4.1政策环境的影响政策已经逐步开放,政府从国家战略层面提出健康大数据区域信息化,实现数据的互联互通,是一项利国利民的好事,同时更是一项庞大的系统工程,投入巨大,周期漫长,市场概念目前炒作的很火,但是并未有实质性的进展,仅有的稍微成功的案
16、例仅仅停留在用户踪迹的层面并未触及到真正意义的大数据从层面,放开的可能性不大,变现周期相对较长,基于当前形势下大数据的特点,当前建议做好数据的整理工作,1.4.2信息系统梳理各个医院的信息化建设处于起步阶段,信息化是个大工程不管是整个集团层面还是单体医院统一规划分步实施是不变的策略信息化建设是将来医疗资源发挥价值的有效并且强有力的支撑建设周期相对较长,市场前景目前不清晰,和商业的距离较远,变现之路比较漫长2.商业分析医院信息系统的不断建设和完善是目前医疗信息化国家层面的战略要求国家结合等级评审等从政措施促进医院信息化建设不断走向完善,最终为居民健康大数据的统一打下良好的基础做好充分的准备,包括
17、健康管理 远程医疗 家庭医生签约服务等一系列的政府红利刺激之下,不论是各个地区公立部级省级的三甲医院,还是民营医疗机构,甚至传统的医疗信息化公司,医疗互联网公司都跃跃欲试,卯足全力试图占领战略的制高点,符合商业规律中的趋势为先原则。在这一场站在将来看是历史的洪流的发展过程中,哪类公司或者说怎样根据各自具体的情况因地因时制宜是大家共同面临的挑战,以上各个类型的公司中,最具有优势的就是公立医疗机构和民营医疗集团,医疗信息化公司以及互联网公司由于先天是医疗行业外的公司,加上医疗行业自有的封闭性,就算他们这类公司跟上了趋势也注定路不好走。其中直接的原因就是他们天生缺乏流量,这也就是不论是春雨医生也好还
18、是丁香园也好,都纷纷创办属于自己的线下诊所,而我们具备先天的流量优势,我们旗下的医院就是我们的流量入口,有了这个流量的入口不论是我们进行医疗垂直领域的项目开发还是结合医疗本身进行产业链的开垦都是很便利的简单总结流量本身是一门巨大的生意,商业活动中,本质是卖东西,进而决定其中最重要的一个环节即无论你卖什么东西,先得让人知道你在卖啊,世界上有太多的企业都在卖东西而其中绝大多数我们压根就不会知道,而流量让目标客户了解到他们有这么一个消费选择,基于我们基础流量的分析,很容易找到合适的周期较短同时又具备竞争力的商业项目比如,我们的集团下属的医疗机构由于先天自带流量 ,这些流量有病人,亚健康人群,医院职工
19、, 医生,还有合作的第三方,(配送商,服务商等)保险等等有了基础流量做后盾,我们可以自由组合这些流量然后精准分发,流量的价值就会发挥到最大,比如一家肿瘤药物的临床试验需要招募患者,一般这类公司都是找第三方咨询类公司由于这类第三方咨询类公司掌握了大量的线下专家资源,也就是他们自身的流量,所以得以和多家外资公司合作为外资药企提供流量,(他们这种也是给予流量的商业行为)等等不管是基于集团内的医院还是将来拓展到集团之外,也就是流量所达之处,就是我们项目可能盈利的点。流量如何集中然后分发 是我们随后需要长期坚持不断思考和探索的方向,毕竟流量不是万能的,但是没有流量也是万万不能的目前就传统行业而言,中国性
20、价比最高的全网流量大的导入方式是微博和微信公众号,知乎和豆瓣算是第二梯队,(而本地O2O的流量主要掌握在大众点评网和美团手里,微博和微信稍微差一点)而通过医院的流量入口可以通过微信公众号和微博来做,不单单是医院 科室 每个专家都是流量的入口第二点抓住了趋势 有了基础流量的支持,我们的任何项目只要经过包装即可赢得多方合作伙伴的认同,有了基础流量支持,我们可以引进商保机构作为战略合作伙伴,商保伙伴也是天生自带流量的机构,强强联合之后,共同分发流量,如何分发就关系到我们如何包装我们的项目,如何包装针对不同的项目,进行不同的商业包装,原则是基于医疗行业基于医疗专业基于医疗相关领域,如何包装?这就引出了
21、另外一个很重要的问题 我们做什么样的产品,我个人认为,医疗的核心资源是专家资源,目前专家资源由于政策的原因固化在每个大的公立医院,随着医生自由职业之路的拓展可能后来情况会有变化,就目前现状而言,主要是做好迎接新政策放开的准备,即在医生实现自由执业之后,如何能够吸引优质的医生资源上我们的平台,这就关系到我们的产品如何设计的问题,目前有很多维度可以探讨,总的核心还是基于流量,再引入战略合作伙伴共同做流量,进而根据设计的产品分发流量, 核心战略围绕如何和战略合作伙伴共同做大流量池,进而根据设计好的产品来制定流量的分发战略,核心战略(需要紧紧围绕如何做好流量池)需要配备核心的战术做支撑,个人认为核心战术即如何增加平台用户的活跃度,围绕增强活跃度,可以有很多实现的方式 比如 做内容(健康宣教、单病种的科普、中医保健养生类等等)形式可以是文章、视频音频直播等等在产品
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 福建省泉州市实验中学2026届九年级物理第一学期期中联考试题含解析
- 链家买房补充协议书
- 吉林省松原第五中学2026届八年级物理第一学期期末监测模拟试题含解析
- 钢材采购协议合同范本
- 谁出贴现协议书
- 2025年桥梁检测市场调查报告
- 2025家政公司保姆服务合同范本
- 银行从业考试讲义及答案解析
- 2025至2030全球及中国锌颜料行业产业运行态势及投资规划深度研究报告
- 2025瑞丰集合信托产品合同
- 增强营销策略方案
- 十五五规划12项重大部署专题解读
- 交通标识标牌安装工程施工方案方法
- 电信宽带服务协议6篇
- 比亚迪讲解课件
- 人工智能+智能路灯节能减排分析报告
- 湖南单招历史试题及答案
- 2025中国华腾工业有限公司招聘笔试历年参考题库附带答案详解(3卷合一)
- 2025宝鸡社区考试真题及答案
- 医院大型活动安全保卫方案
- 液晶显示器件模组制造工晋升考核试卷及答案
评论
0/150
提交评论