什么是数据分析和数据挖掘.doc_第1页
什么是数据分析和数据挖掘.doc_第2页
什么是数据分析和数据挖掘.doc_第3页
什么是数据分析和数据挖掘.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

什么是数据分析和数据挖掘 上午嘉宾的讲课,讲的东西大部分是给管理阶层和领导阶层说的。我是讲给学生,给年轻人听的。如果你管理阶层再好,你找不到人也什么都没有,而对于每个人来说最重要的就是把自己的价值提高,而不是地位。 一、数据科学的前途 这是一些调查的结果,数据科学家的年薪是多少,这是美国的。 程序员的平均年薪不是我们的目标,也不是成功的标志,这是一种价值的标志。怎么样才能有价值?我说的可能有点过分,但是我必须这么说,现在的统计,特别数据统计问题很严重。 美国的一个调查报告说人才缺口很大,说明在美国培养这样的人数也不够,可以用大数据来做的缺少得更多。美国是这样,中国将来肯定也是这样,现在实际上有很多缺口。现在就怕跳槽,怕找不着(工作),我们的成功不是要通过关系,不是通过老子有个什么样的头衔,我们要有能力,这样谁都想要你,这才是价值。我们要的是价值,而不是所谓的成功。 如果你擅长数学,有很清晰的逻辑思维能力(文科的人是没有的,但是可以训练,因为大部分知识都是自学的),并且对某个行业了如指掌,如果你有这样的技能组合,就可能当上数据科学家。曾经LinkedIn有个投票显示,数据分析和数据挖掘是最大的求职法宝。那些高科技团队都有自己的数据科学团队,而那些非科技公司和大公司也需要做这些东西,他们现在需要的是人才,你们就是要把自己做变成被需要的人才。 数据科学家专业人才干什么呢?对公司来说,他们可以挖掘新的信息,帮助公司开源节流,所以它需要的是人才,关键是人才。我们说数据科学,科学意味着没有权威,不要迷信那些权威,中国人喜欢崇拜权威。任何科学研究的目的是基于数据,颠覆理论,这样才能往前进。中国人从小学会的就是听老师话,听爸爸妈妈话,听家长话,古人什么都好,现代人什么都不好,这样一代不如一代,所以你必须要有科学精神。诺贝尔物理奖没有一个是承认过去怎么样的,而是推翻过去的事情,这是科学,是颠覆性的。 数据科学有很多很多定义,最基本的定义就是这个,就是Computerscience,还有数学、统计、目标、知识,这是最基本的,再说多了就过分了。 二、数据科学家所需的技能 对于现在的你们来说,一般不会细到那种程度。我们应该变成一个通才,哪个公司都应该愿意要我们。清华大学之所以现在变成这个样子,就是因为在1952年院系调整的时候,每一个专业就是一个生产线,弄的很细很细,没有一个更宽广的视野。 主要是三部分:数学、统计、知识。 1.数学关键是逻辑而不是具体的方法,不是你怎么求多项式的根,而是它的基本逻辑,它的数学语言,这一点要懂。数学逻辑是各种学科当中最严格的逻辑,无论你是学逻辑的,学物理的,学什么的,文科学逻辑的肯定是不如学物理的,学物理的逻辑肯定不如学数学的,所以你要跟学数学的辩论的话就很困难。文理分科造成没有逻辑的文章,没有逻辑的法官,现在法官错判率那么高,他们中学平面几何没学好,基本的常识,基本的逻辑推理都不会。 2.统计学的是批判性思维。你们在统计学课本上学到的是70年前、100年前的知识,是前计算机时代的东西。那时候没有那么多计算机,数据量不大,所以他做什么都用假定来做结论。中国在数据统计方面的研究大部分还是遵循着70年前、100年前的东西来做,你不能假定地球是方的,然后得出结论去发表,这没有什么意义的,你必须根据现实生活的意义来做。 所以我们要学的也不是基于无法验证的假定而形成的假设检验和区间估计。就像我说的你假设检验,什么显著,0.05就是显著。亲子鉴定100个人有5个鉴定错了,能接受吗?能认为这是小概率吗?区间估计就更难说了。 我们所要学习和了解的,是最近20年发展而且仍然在发展的最新的经济学方法,这是最根本的。像我现在正在寻找经典方法,比经济学好的方法,我每天都在算数据,我就想找这样的例子。我举个例子,对于做出贡献性的方法,回归什么的那一大堆方法,我如果做的话,我没找到一个例子说用这些方法比神经网络做的更好的。所以说你不能从理论出发,不能从你在数学杂志上发表出发,一定要从数据出发。 有一个瑞士人到科学院讲课,就讲这些东西,底下科研的学究们,研究生们说,这个系数有什么意义啊?他说贡献的变量的系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论