已阅读5页,还剩27页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据分析师的卓越之道,吴甘沙 英特尔中国研究院,2,Infrastructure,Data,Value,Knowledge Discovery,数据分析的典型场景,Data,Value,改变思维方式 提高技术素养 丰富分析能力,3,基础设施已经改朝换代 分析师也需要与时俱进,新的世界观:不确定的世界,4,大数据的测不准,5,科学:大数据傲慢,自然:测不准,6,Collection,Analytics,Interpretation Evaluation,Preparation,Hypotheses,数据分析方法论的升级,7,Collection,Analytics,Interpretation Evaluation,Preparation,Hypotheses,数据分析方法论的升级,8,Hypotheses,机械地发掘相关性和假设 直觉,拿侦探小说练手 阅读广泛涉猎 跨界思维碰撞 融入业务部门 防止数据采集与分析、业务与数据分析的脱节,9,Collection,Analytics,Interpretation Evaluation,Preparation,Hypotheses,数据分析方法论的升级,10,数据!数据!数据!,n=All ! Enterprise Data Warehouse Enterprise Data Hub/Data Lake External data sources Structured semi-structured unstructured Log analysis Text analysis Image/video Data with geo and temporal tags Networks and graphs,11,数据?数据?数据?,n=All ? More data vs. sampling “Raw data” is an oxymoron Signals and noises Sampling bias Data exchange and sharing Data rights, data pricing Data lifecycle management Provenance capture, representation, and querying Sometimes data are not assets, but costs,12,Collection,Analytics,Interpretation Evaluation,Preparation,Hypotheses,数据分析方法论的升级,13,数据质量:重中之重,Noisy, biased and polluted data are unavoidable Goal: models = components for noise + relatively complex models for signal Cleansing, validation, Can it start with a small subset? Can the process be automated? Work together with visualization, machine learning Curation, Wrangling, Automated learning to discover structure, resolve entities, and transform data,14,数据表示,Reduce compute and communication complexity Sparse, compressed data structure Approximate computation Reduce statistical complexity Dimensionality reduction, clustering Sampling Non-random sampling, compressive sensing, Choose best representation for specific computational methods E.g. tables for data parallelism, networks/graphs for graph parallelism,UIMA: Unstructured Information Management Architecture,15,Collection,Analytics,Interpretation Evaluation,Preparation,Hypotheses,数据分析方法论的升级,16,Source: ,Computational Science,17,检查自身装备,18,检查自身装备,19,ML Pipeline,Scikit-learn style pipelines,20,拥抱云的世界,21,all models are wrong, but some are useful,刺猬(一招鲜吃遍天) vs. 狐狸(一把钥匙开一把锁) 模型的复杂度与问题匹配:奥卡姆剃刀原理 如何做到数据越多、边际收益越大? 数据不可名状的功效:简单模型+大数据 复杂模型+小数据 ? Ensemble 混合模型 Non-parametric vs. Parametric Linear vs. Non-Linear Discriminative vs. Generative 感知长尾信号 Exponential assumption vs. long tail PCA/LDA/pLSA vs. 分级训练、模型组合、概率图模型、深度神经网络,22,Velocity,Interactive query 流计算 如时空数据 在线/流式/增量学习 增量训练,模型异步更新,快速部署 当又大又快时,你必须懂系统 Big Learning System:并行化/分布式化,系统调优,Deep Learning,23,从语音识别,到图像理解,到自然语言理解 领域特化:如医学图像分析 进军“非认知”任务 搜索,广告,推荐, ,visuo-motor skills, drug discovery Automated laboratory Open Source Collaborative Open Computer Science Pylearn2, Theano, Caffe GitXiv = arXiv + Github + Links + Discussion,Sparse Coding,24,A strong tool to deal with low SNR and poor veracity,Source: HT Kung,缺乏标注数据下的学习,25,Source: Andrew Ng,人的角色 Human Machine Intelligence,26,人的工作不断被取代 特征工程 比如以MLBase和VizDeck为代表的自动化分析和可视化 人与机器搭配获得最佳性能 比如Exploratory analytics/visualization 大规模人人、人机协作分析 外包Kaggle,众包CrowdDB,协作DataHub, 人类计算Duolingo,27,Collection,Analytics,Interpretation Evaluation,Preparation,Hypotheses,数据分析方法论的升级,28,STEM STEAM,29,Story telling and “ideas worth
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年儿童艺术考试题及答案
- 深度解析(2026)《GBT 30082-2013硫化铜、硫化铅和硫化锌精矿 批料中金属质量的测定》
- 深度解析(2026)《GBT 30013-2013城市轨道交通试运营基本条件》
- 深度解析(2026)《GBT 29886-2013棉包回潮率试验方法 微波法》
- 深度解析(2026)《GBT 29856-2013半导体性单壁碳纳米管的近红外光致发光光谱表征方法》
- 《GBT 8309-2013茶 水溶性灰分碱度测定》(2026年)合规红线与避坑实操手册
- 2026年湿地绿化服务合同协议
- 四川省巴中市巴州区川2024-2025学年六年级下学期英语期中测试试卷(4月)(含答案)
- 【五年级上册语文】课内阅读理解答题技巧
- 2025北京八十中高二12月月考化学试题及答案
- 摩根士丹利 -半导体:中国AI加速器-谁有望胜出 China's AI Accelerators – Who's Poised to Win
- 2026年公路养护工职业技能考试题库(新版)
- 2026中国广播影视出版社有限公司高校毕业生招聘3人备考题库含答案详解(完整版)
- 宜宾市筠连县国资国企系统2026年春季公开招聘管理培训生农业考试模拟试题及答案解析
- 2025-2030非洲智能汽车零部件行业市场供需理解及投资潜力规划分析研究报告
- 2026季华实验室管理部门招聘3人(广东)建设笔试模拟试题及答案解析
- 2025重庆联交所集团所属单位招聘1人笔试历年难易错考点试卷带答案解析
- 广东省广州市2026年中考模拟数学试题七套附答案
- 《眼科临床诊疗指南(2025版)》
- 无人机防汛巡查监管规范
- 三年级数学下册第一单元两位数乘两位数导学案教学计划教案教学设计(2025-2026学年)
评论
0/150
提交评论