互联网应用技术概论_第1页
互联网应用技术概论_第2页
互联网应用技术概论_第3页
互联网应用技术概论_第4页
互联网应用技术概论_第5页
已阅读5页,还剩56页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

互联网应用技术概论第1页/共61页2自我介绍主讲老师:王斌,中科院计算所博士毕业,副研究员,博士生导师。现为中科院计算所前瞻研究实验室信息检索课题组负责人。北大软件学院兼职教师。先后从事和承担信息检索、自然语言处理相关的国家级研发项目10余项,发表相关论文100余篇。培养研究生20余名。计算机学会高级会员,ACM、IEEE、中文信息学会会员,中文信息学会信息检索专委会委员,《中文信息学报》编委。/~wangbin/

wangbin@办公电话:62601350第2页/共61页3提纲互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法第3页/共61页4提纲互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法第4页/共61页5搜索引擎搜索推荐推荐第5页/共61页6更多的搜索引擎第6页/共61页7GoogleKiller?2009-05-18推出2008-07-28推出第7页/共61页8Email搜索分类第8页/共61页9Email分类搜索推荐第9页/共61页10分类目录搜索分类第10页/共61页11电子商务推荐第11页/共61页12BBS推荐搜索第12页/共61页13社区网站-豆瓣网推荐推荐搜索第13页/共61页14社区网站--校内网第14页/共61页15博客推荐第15页/共61页16以上应用的共同特征基于内容的应用内容是互联网应用的生命线包括几个主要共同的技术搜索分类/聚类过滤/推荐第16页/共61页17提纲互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法第17页/共61页18搜索(Search)搜索:从大量文档(Document)集合(Collection)中根据用户的需求(UserInformationNeed)返回相关(Relevant)文档集合并排序(Ranking)的应用。主要特点:用户的需求动态变化,文档集合相对静态事先下载,事先组织,在线搜索应用例子:搜索引擎站内搜索第18页/共61页19搜索技术信息的获取技术信息的组织和整理技术相关度计算和排序技术结果呈现技术相关反馈、查询扩展技术搜索的评估第19页/共61页20搜索系统的组成框架文档集合管理器索引文档表示查询处理查找排序排序文档用户反馈文本处理用户界面结果文档查询文本查询表示爬虫Internet第20页/共61页21信息分类(Classification)信息分类:根据已有的类别体系(如:体育、经济、军事…)和训练文档(每个类别对应若干文档),对一篇新的文档判断其所属类别。属于有监督的机器学习主要特点:类别体系静态,但是需要分类的文档动态变化事先训练,在线分类需要大量训练文档集合应用例子:垃圾邮件/网页分类第21页/共61页22第22页/共61页23信息聚类(Clustering)聚类:从大量文档集合中自动聚团的过程,属于无监督的机器学习主要特点:事先无类别体系需要事后进行解释应用例子:检索结果聚类话题发现第23页/共61页24第24页/共61页25文本分类系统的组成框架文本表示训练过程分类过程训练文本统计统计量特征表示学习分类器新文本特征表示类别第25页/共61页26信息过滤信息过滤:从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态)。主要特点:用户兴趣静态,数据动态对用户兴趣建模应用例子:广告推荐/商品推荐第26页/共61页27信息过滤系统的组成框架(d)学习器用户信息提供者(b)过滤器(a)数据分析器(c)用户建模更新反馈相关数据项数据表示项数据项个人信息用户模型第27页/共61页28提纲互联网应用的例子基于内容的互联网应用的基本技术搜索技术信息分类和聚类技术信息过滤和推荐技术考核方法第28页/共61页29考核方法技术专题讨论(20%)学生分小组,选定一技术专题,共同读资料学习技术,并在课上交流。阅读(30%)阅读1篇论文SIGIR2008/2009,针对每篇文章写出至少阅读报告(含评论)评论要有自己的见解,不要简单翻译原文的摘要和结论评论主要着眼于文章的主要创新点和对自己启发最大的地方,以及可能的下一步研究工作课程项目(50%)2到3名同学一组完成可以演示的具有一定创新的课堂项目可从建议的项目列表中选项目,也可自己拟定项目(但需要与任课教师协商,取得任课教师的认可)。第29页/共61页30论文阅读ACMSIGIRConference第30页/共61页31课程项目(一)、检索型:(1)垂直搜索:选择2个或以上的餐馆网站进行爬行(餐馆记录不少于5000条),实现基于关键词的餐馆搜索,爬虫能够及时更新。(2)论文搜索:下载全部SIGIR论文,实现对论文的标题、摘要及全文的搜索,并实现论文之间的关系链接图,分析作者的共现关系并以图的方式显示。(3)桌面搜索:能够实现本机PPT文件的抽取及搜索,不少于1000篇PPT文件。能够自动抽取PPT的标题、目录等信息。第31页/共61页32课程项目(续)(二)、文本分类型:(1)文本分类:分类体系为:财经、科技、汽车、房产、体育、娱乐、其它类,利用网站的新闻主页,训练一个分类器(训练集合不能少于2000篇文档)。能够实现新的网页的分类。(2)文本倾向性分析:下载餐馆的评论信息进行训练,最后对餐馆的评论进行文本倾向性分析,分析对餐馆的评价(包括总评和细评,细评包括价格、味道、环境三个方面)是褒还是贬。(3)层次分类:PascalChallengeonLargeScaleHierarchicalTextClassification,http://lshtc.iit.demokritos.gr/node/1。提交ShortPaper。时间表:Startoftesting:July10,2009.Endoftesting,submissionofexecutables:November16,2009.Endofscalabilitytestandannouncementofresults:December14,2009.Submissionofshortpapers:December21,2009.第32页/共61页33课程项目(续)(三)、其他型:(1)、问答系统:实现奥运知识的问答系统。奥运知识不少于1万条语句或记录。(2)、歌曲检索:通过哼曲调的方法实现mp3歌曲的检索。mp3歌曲不少于200个。(3)广告搜索:搜集不少于1000个广告,实现对它们的搜索,搜索时不止是关键词匹配。(四)、自选型:学生可以自行设计和选择本课程相关的其他题目,但是需要经过任课老师同意。第33页/共61页34为什么要开这门课?互联网内容应用的核心技术是信息检索技术第34页/共61页35市场发展的需求用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易公司需要信息检索技术:搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、数字图书馆工程等都需要信息检索技术人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天是不是泡沫:2000年左右出现的网络泡沫和现在的互联网有什么不同,搜索引擎在其中占什么位置?第35页/共61页36几个应用需求手机搜索产品搜索专利搜索广告推荐消费行为分析网络评论分析SEO营销……第36页/共61页37对相关专业研究生的基本要求信息检索技术是内容应用特别是互联网内容应用的核心技术,可以说在这些应用中无处不在信息检索将会成为一门计算机专业的基础学科搜索(狭义的信息检索)的三个层次(个人观点)第37页/共61页38应用层次:搜索是一项非常重要的应用!第38页/共61页39中间层次:搜索是极其重要的API第39页/共61页40www.G第40页/共61页41介绍一本有趣的书!第41页/共61页42核心层次:搜索是未来操作系统的重要组成部分!第42页/共61页43相关研究人物和资源第43页/共61页44国际著名研究机构和代表人物美国康奈尔大学Salton(1927-1995)现代信息检索的奠基人SMART的完成人第一任Salton奖得主,ACMFellow英国剑桥大学SparckJones(1935-2007)概率检索模型的提出者之一NLP和IR中的先辈曾获ACL终身成就奖和Salton奖第44页/共61页45国际著名研究机构和代表人物美国UMassCIIRW.B.Croft,ACMFellow基于统计语言建模IR模型的提出者和倡导者和CMU共同开发了Lemur工具Salton奖得主英国Glasgow大学Rijsbergen,ACMFellow信息检索逻辑推理学派的提出者和倡导者现在试图用量子物理的方法解决IR问题Salton奖得主英国微软剑桥研究院、伦敦城市大学Robertson概率检索模型的倡导者开发了OKAPISalton奖得主第45页/共61页46第46页/共61页47第47页/共61页48国际著名研究机构和代表人物美国CMU美国UIUC微软研究院IBM研究院Google研究院Yahoo研究院第48页/共61页49一些活跃的华裔学者加拿大蒙特利尔大学聂建云教授跨语言检索IR模型美国UIUCChengxiangZhai博士IR模型美国CMUYimingYang教授文本分类第49页/共61页50一些活跃的华裔学者台湾中研院简立峰号称“中文搜索”第一人加入Google研究院第50页/共61页51国内一些相关研究机构北京大学复旦大学清华大学哈尔滨工业大学上海交通大学中科院计算所中科院软件所中科院自动化所……第51页/共61页52重要会议国际会议(COLING2010、SIGIR2011将在北京举行):SIGIR、ACL、WWW、SIGKDD、WSDM、ICMLCIKM、EMNLP、COLINGTRECAIRS、ECIR国内会议:全国信息检索学术会议(1年一届,下半年今年11月在上海交大举行)全国计算语言学联合会议(2年一届)搜索引擎和WEB挖掘学术会议(1年一届,上半年)第52页/共61页53ACMSIGIRACM:美国计算机学会SIGIR:specialinterestgrouponinformationretrieval,特定兴趣组ACMSIGIRConference:IR领域的最重要会议,起始于1971年,2009年是第31届。第53页/共61页54IR及相关研究领域重要会议ACMSIGIRVLDB,PODS,ICDEASISLearning/MiningNLPApplicationsStatisticsSoftware/systemsCOLING,EMNLP,ANLPHLTNIPS,UAIRECOMB,PSBJCDLInfo.ScienceInfoRetrievalACMCIKMDatabasesACMSIGMODACLICMLAAAIACMSIGKDDISMBWWWSOSPOSDITREC第54页/共61页55重要期刊国际:ACMTransactionsonInformationSystems(TOIS)ACMTransactionsonAsianLanguageInformationProcessing(TALIP)InformationProcessing&Management(IP&M)InformationRetrieval国内中文信息学报情报学报第55页/共61页56重要工具Lemur:包含各种IR模型的实验平台,C++SMART:向量空间模型工具,C编写Weka:分类工具,Java编写Lucene:开源检索工具,各种语言编写的版本Larbin:采集工具,C++Firtex:检索平台,C++,计算所开发第56页/共61页57参考书籍及文献ChristopherD.Manning,PrabhakarRaghavan&HinrichSchütze,IntroductiontoInformationRetrieval,CambridgeUniversityPress2008Electronicversion(draft)canbedownloadedfrom/~hinrich/information-retrieval-book.html

Baeza-Yates,R.&B.Ribeiro-Neto.eds.ModernInformationRetrieval.ACMPress,19

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论