异构大数据的机器学习挑战_第1页
异构大数据的机器学习挑战_第2页
异构大数据的机器学习挑战_第3页
异构大数据的机器学习挑战_第4页
异构大数据的机器学习挑战_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

异构大数据的机器学习挑战,胡清华huqinghua天津大学计算机学院2014-12-12,异构大数据的机器学习报告会,2014.12.14,天津大学25楼C412白栓虎,社交媒体挖掘方法与技术周明,微博的文本挖掘和情感分析董军宇,海洋大数据挖掘初探陈松灿,复杂高维多视图数据的相关分析杨猛,SparseLearningforImageclassification左旺孟,面向非凸稀疏和低秩模型的优化算法孟德宇,EasySamplesFirst:Self-pacedRerankingforZero-ExampleMultimediaSearch纪荣嵘,Structured,Discriminative,3DSceneParsing吴飞,跨媒体深度学习及知识网络构建,提纲,大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用,提纲,大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用,大数据研究和发展计划(2012年3月),召开了以大数据为主题的香山科学会议(2012年5月);科技部、基金委将大数据分别列入973计划和基金申请指南。,大数据和节能计算技术方案(2013年1月),开放数据战略(2011年11月),美国,英国,欧盟,新ICT战略研究计划(2012年7月),大数据引起各国政府高度重视,大数据蕴含的巨大价值引起了科技界、企业界和各国政府的高度重视,诸多国家和国际组织已将大数据研究提升到国家重大战略层面。,6,图像,视频,文本,非结构化多模态信息爆炸性增长,言语,多模态异构数据正在成为信息的主要形式,社交媒体数据,日平均活跃用户数(DAU)为6660万,月平均活跃用户数(MAU)为1.438亿月平均产生信息30多亿条,海量动态微博内容的深层语义理解;多粒度用户兴趣建模与用户关系发现构建基于多模态内容深度语义分析与多粒度用户关系挖掘的精准社会化推荐系统。,8,多模态异构信息,多模态异构数据正在成为信息的主要形式,太阳活动对深空探测、载人航天、卫星运行、电力网络的安全有重要影响。,SDO每秒以10个波段拍摄太阳4096*4096分辨率的图像,每天数据量为1.5T。,天文大数据:太阳观测数据挖掘,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,大规模性,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,多模态性,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,疲劳驾驶,增长性,用户交互性强传播速度快传播行为复杂,大数据往往呈现出大规模、多模态与快速增长等特征,使得传统的数据分析理论、方法与技术面临可计算性、有效性与时效性等严峻挑战。,用户多总量庞大分布广,数据分析的可计算性,数据分析的有效性,数据分析的时效性,数据源多样数据类型多样交互方式多样,多模态异构数据正在成为信息的主要形式,11,2010,Nature:文本、图像、语音、视频等多模态数据混合在一起,将成为未来信息表示的主要形式,2011,Science组织“DealingwithData”专辑:数据的组织和使用体现多模态特征,多源异构大数据不仅在互联网环境涌现,而且广泛出现在医疗、金融,科研,工业监控等领域,2014年973指南“大数据计算的基础研究”:研究多源异构大数据的表示、度量和语义理解方法,2014年863指南“媒体大数据内容理解与智能服务”:实现异构媒体的结构化描述和语义协同,多模态异构数据正在成为信息的主要形式,提纲,大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用,传统学习算法应对多模态数据的挑战,KNN,决策树,LinearSVM,nonlinearSVM,数值数据,异构数据的挑战性问题,图像数据,视频数据,时间序列,文本数据,符号数据,太阳物理,14,如何提取和统一表示不同模态数据中的有用信息是多模态数据知识发现面临的重要科学挑战,多源信息,融合迁移互补,异构信息,表达建模协同,不确定信息,模型推理决策,15,不同型号机组数据的共用相似型号机组信息的复用,声/光/电等多模态信息的全息利用,不确定感知的近似推理,混合数据挖掘,异构大数据,异构数据的挑战性问题,提纲,大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用,我比语音识别器强,研究人脑的多通道感知、学习、推理的机理,构建新型的信息处理方法是应对大数据挑战的有效途径,认知计算:人脑的信息处理机制,认知是为人类认识客观事物、获得知识的活动,包括知觉、记忆、学习、语言、思维和问题解决等过程;认知科学是研究人类感知和思维对信息处理过程的科学,包括从感觉的输入到复杂问题的求解,从人类个体到人类社会的智能活动,以及人类智能和机器智能的性质;如何从复杂的信息碎片中提取知识,实现类似人脑的认知与判断,发现新的关联和模式,从而做出正确的决策。认知计算的研究包括:自然的人机接口;学习能力;探索式问题求解能力。研究认知的机理,建立认知的模型,然后用计算机模拟人类认知的过程来处理实际问题是人工智能领域的重要课题,受到很多研究者的关注。,认知计算:人脑的信息处理机制,视觉方面的研究已取得了大量成果视觉信息包括:亮度、形状、颜色、运动和立体视觉等信息;六类神经元(光感受器细胞、双极细胞、神经节细胞、水平细胞、无足细胞和网间细胞)处理着最初的视觉信息初级视皮层内神经元分为两大类:简单细胞/复杂细胞;简单细胞的感受野窄,复杂细胞的感受野大;形状、颜色、运动和深度视觉信息在视觉系统内的平行、分级处理域。皮层中某个特别区域主管整个图像综合在听觉认知方面:听觉认知处理的早期阶段决定大脑半球优势的因素是声学特性,而不是听觉信号的功能;大脑如何整合视听觉信息尚不清楚?已知具有相互启动效应,认知计算:人脑的信息处理机制,BizleyandCohen.Thewhat,whereandhowofauditory-objectperception.NATURE,2013,认知计算:人脑的信息处理机制,多通道感知,如何通过融合多通道感知机理提升言语识别系统的能力?,提纲,大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用,多模态异构数据的向量表示,多线索融合的描述符学习图像/视频动作识别,多模态异构数据的向量表示,多媒体数据的结构化表示,多模态异构数据的向量表示,面对图像中异构多模态的局部特征属性,如几何属性、颜色/纹理分布和方向梯度等,如何进行有效利用和融合以提升图像识别性能,DiscriminativeGraphlets(判别式Graphlets),Zhang,Han,Yang,etal.IEEETIP,2013,多模态异构数据的结构化向量表示,J.Chen,Y.Han,X.Cao,Q.Tian,ObjectCodingontheSemanticGraphforSceneClassification,ACMInternationalConferenceonMultimedia(ACMMultimedia2013)(CCFA)Y.Han,Y.Yang,X.Zhou.Co-RegularizedEnsembleforFeatureSelection,IJCAI,2013(CCFA),图像场景中的语义上下文通过语义有向无环图(SemanticDAG)进行表达;构建正则化回归模型,通过路径编码(PathCoding)正则化项将图像场景间的语义关联约束加入回归过程。,多模态异构数据的表示,Tao,Li,Hu,Maybank,andWu.SupervisedTensorLearning.ICDM05,201410-YearICDMHighest-ImpactPaperAwardHao,He,Chen,andYang.ALinearSupportHigher-OrderTensorMachineforClassification.IEEETIP2013Signoretto,etal.Learningwithtensors:aframeworkbasedonconvexoptimizationandspectralregularization.MachineLearning,2014,多模态异构数据的张量表示,29,多模态数据建模的关键问题,符号数据,数值数据,时间序列,文本数据,图像数据,视频数据,多模态数据,科学问题-跨模态信息的集成,如何定义多模态数据的距离,Bellet,Habrard,Sebban.ASurveyonMetricLearningforFeatureVectorsandStructuredData.Report,2014,异构数据的距离学习,McFee,Lanckriet.JMLR12(2011)491-523,LearningMulti-modalSimilarity,32,MultipleKernelLearningforDimensionalityReduction,Zhang,Wang,Zhou,Yuan,Shen.NeuroImage55(2011)856867,SparseRepresentationforclassification,Shekhar,Patel,Nasrabadi,Chellappa.IEEETPAMI,2014,JointSparseRepresentationforRobustMultimodalBiometricsRecognition,36,多模态深度学习,Nigiam,Kholsa,Kim,Nam,Ng.MultimodalDeepLearning,ICML,2011Srivastava,Salakhutdinov.MultimodalLearningwithDeepBoltzmannMachines.NIPS2012,多模态异构数据的表示和建模,OnlineMultimodalDeepSimilarityLearningwithApplicationtoImageRetrieval,Wu,Hoi,Xia,Zhao,Wang,Miao.ACMMM,2014,Zhou,Hu,Liu,Jia.CombiningMulti-modalDeepNeuralNetworkswithConditionalRandomFieldsforChineseDialogueActRecognition.Interspeech,2014,序贯决策的多模态深度学习,智能大数据分析:多模态异构数据的表示和建模,提纲,大数据的异构特性异构数据的挑战性问题人脑的多通道感知整合面向异构数据的机器学习方法典型应用,言语碎片,言语碎片,言语碎片,言语碎片,言语碎片,言语碎片,言语碎片,言语碎片,言语碎片,言语碎片,互联网使得知识发现可能变成群体行为,通过互联网环境言语碎片的深度利用,有可能提高从海量复杂数据中获取知识的能力,可能加速科学与工程领域的创新步伐,挑战:如何对互联网环境的言语碎片信息进行表示?如何从庞杂的言语碎片中挖掘其蕴含的知识?,应用一:互联网言语深度理解,中文言语深度理解,言语多通道感知机理,言语信息表示理论,科学问题,大规模语料库及标注系统,言语信息服务平台与应用验证,多言语空间及其映射关系,多言语口语识别,多通道感知机理,研究内容,基于语境的中文言语信息计算模型,言语行为计算理论,应用一:互联网言语深度理解,缺乏综合的客观量化指标,依赖于医生面谈及临床量表,干扰因素多(医生经验水平、环境)。主观隐瞒、怕遭歧视,重视程度差,风险难以主动识别。风险表象不明显、多样化,临床评估缺乏生物、心理等客观量化指标。,应用二:抑郁症的预警与干预,在预警与干预系统方面:,人人网的站内应用系统“大五人格探测器”WebMind浏览器预测用户信息需求、心理状态,并生成推荐信息心导网平台、“走出抑郁”与“克服焦虑”基于中文语境和CBT技术的网络自助心理咨询程序,精神健康计算抑郁症的预警与干预,应用三:基于太阳观测

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论