人工智能,机器学习,模式识别,数据挖掘,信息检索.docx_第1页
人工智能,机器学习,模式识别,数据挖掘,信息检索.docx_第2页
人工智能,机器学习,模式识别,数据挖掘,信息检索.docx_第3页
人工智能,机器学习,模式识别,数据挖掘,信息检索.docx_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能(Artificial Intelligence,AI)、机器学习(Machine Learning,ML)、模式识别(Pattern Recognition,PR)、数据挖掘(Data Mining,DM)、信息检索(Information Retrieval,IR)我想起之前在BeBeyond的一个同学,我说我做ML的,他说“我做DM的,我们都是搞计算机的呢!”后来我才明白,ML和DM根本就没有多大区别。其实,上面列的这些学科本质上都没有太大区别,只不过它们要解决的核心问题不同,而运用的数学模型如出一辙。 先说AI。这个词大众比较熟悉,通常一个电子游戏的AI直接决定了游戏的可玩性。简单的AI比如超级玛丽里会扔刺猬的云怪,复杂的AI比如红色警戒中需要操纵整个国家的电脑敌人。我很小的时候就在想这些算法得有多么复杂。慢慢地我意识到电脑控制方式与我不一样。我是单线程的,在一个时间点上要么控制坦克进攻,要么控制基地建设;而电脑的每个单位都有独立的思考能力和通信能力。这些是通过设计逻辑来实现的(难怪在98年买的电脑上跑一点也不卡),比如坦克的逻辑可能是“IF附近的友军收到攻击,THEN前去支援”,矿车的逻辑可能是“IF受到攻击,THEN向基地撤退”等等。 AI其实就是计算机自动做决策。做决策的原则可以是上面简单的条件判断,可以是穷举,也可以是多个因素连接成的网络,比如下图(称为贝叶斯网络,Bayesian Network),这是一个通过判断是否有地震和盗窃的简单的智能系统。 用贝叶斯网络做决策,需要设置的参数都是概率形式的,比如地震发生的概率是2.6%,盗窃发生的概率是12.4%,地震发生时警报响的概率是72%等等。这些参数有了之后,当有一天警报响起,系统就能够回溯地计算出警报响是由地震发生还是盗窃发生引起的。 下面说ML。ML是最可怕的部分。上面说的AI系统的规则都是人为设定的,所以它的表现绝大多数情况在人们的期待以内。而ML算法可能使系统变得过分地聪明。一个绝佳的ML例子见以下链接。 / 这是一个网络小游戏,你在心中想一个人物,然后算法会问你一系列的一般疑问句(比如“这个人是科学家吗?”)你回答Yes或者No。若干个问题后,算法会知道你心中的人物是谁了(通常比你预计的要快)。 之所以说这是一个ML系统,是因为它不仅做决策下一个问题该问什么、已经问的问题和答案能推出什么结果,它还在不断地自我改进。比如说,我心中想的人物是亚运会的吉祥物阿和(几年前这个游戏推出时它肯定不知道阿和是谁),于是在很多个问题过后,这个ML算法猜成喜羊羊了,然后我告诉它“你猜错了,我想的是阿和”,于是,它会更新它的决策网络,增加阿和这个节点,改变各个概率值。下次有人想阿和的,它就可能猜中了。 所以,从上面的例子可以看出,ML重点研究的是算法的学习过程,强调的是一个反馈的框架。一开始系统可能很弱智,但是经过长期训练后它能做出很高超的决策。 举个我的例子。比如说,我老板希望能做一个自动作曲的系统,要求能做莫扎特风格的钢琴奏鸣曲,而听起来不能像海顿和贝多芬。想一想这个决策规则就复杂得看似不可能实现,也许10000个IF.THEN.也不能实现。但是从ML的角度来思考,就变得有可能了。我可以把莫扎特已有的乐谱输入给系统,告诉它这是好结果;再把海顿和贝多芬的给系统,告诉它这是坏结果。然后就期待这个系统能够学到点什么。当然,真正实现起来设计这个学习框架是有难度的,不过ML是正确的思路。 接下来说的是PR。我本科时北邮的课程就叫模式识别。PR充满了工程的思维方式,“解决问题是关键,不关心系统在理论上是否最优”。比如人脸识别、癌细胞识别、语言识别、入侵检测等等,拿各种分类器(SVM、神经网络神马的)一个一个试,用最好的那个分类器来应用就OK了。 然后是DM。DM是一项应运而生的科学,正因为互联网蓬勃发展,才吸引那么多人研究DM。个人认为Google之所以比百度聪明,就是因为Google的DM牛。对于成千上万个网页(看做是众多单词组成的序列),DM算法可能发现“新闻”、“报导”、“记者”等词语是具有关联性的,于是用户在搜索“新闻”这个关键词时,与“新闻”相关的词也可能提供对用户有价值的信息。总之,DM是从数据中挖掘出高层的语义关联信息。 再举个我的例子。我前一段时间做了一个音乐结构分段的算法,旨在将音乐中主歌、副歌这些结构单元自动分离。DM中就有一个热门的算法能够达到我的目的,如下图,把Creep分解成为两个部分。技术细节就省略吧。 最后,提一提IR。IR的目的希望互联网能够变得更加人性化。比如你在搜索引擎中输入“推荐个便宜的可以玩桌游的地方”,IR算法一方面从这句话中提取(retrieve)出有用的信息:是个地方,要可以玩桌游,便不便宜自己看着办;另一方面从网络上取出(retrieve)合理的网页给用户。 总结一下吧。只要跟决策有关系的都能叫AI,所以说PR、DM、IR属于AI的具体应用应该没有问题。ML研究的东西则不太一样,强调自我完善的过程。Anyway,这些学科都是相通的,Google也是越来越聪明的,不是么。 前一段时间看到关于机器阅卷比人工靠谱的消息。也许在不久的将来会有一大批人失业,机器会代替会记、医生、甚至程序员。也许,机器的智能会产生很多很多的争议,但是我们必须承认,在不太需要创造性的工作中,我们真的比不上机器的。 最好的方式大概就是机器与人协同合作。CCRMA的Jonathan Berger来北京演讲,他提到的sonification给我挺大的启发。他说:“我们买西瓜时拍一拍就知道西瓜是否熟了,因为人耳对于这种音色可以做决策,而机器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论