




免费预览已结束,剩余55页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京大学软件与微电子学院2009度课程,1,第七章 互联网应用技术概述,2010年11月,北京大学软件与微电子学院2009度课程,2,自我介绍,主讲老师:王斌,中科院计算所博士毕业,副研究员,博士生导师。现为中科院计算所前瞻研究实验室信息检索课题组负责人。北大软件学院兼职教师。先后从事和承担信息检索、自然语言处理相关的国家级研发项目10余项,发表相关论文100余篇。培养研究生20余名。计算机学会高级会员,acm、ieee、中文信息学会会员,中文信息学会信息检索专委会委员,中文信息学报编委。 /wangbin/ 办公电话:62601350,北京大学软件与微电子学院2009度课程,3,提纲,互联网应用的例子 基于内容的互联网应用的基本技术 搜索技术 信息分类和聚类技术 信息过滤和推荐技术 考核方法,北京大学软件与微电子学院2009度课程,4,提纲,互联网应用的例子 基于内容的互联网应用的基本技术 搜索技术 信息分类和聚类技术 信息过滤和推荐技术 考核方法,北京大学软件与微电子学院2009度课程,5,搜索引擎,搜索,推荐,推荐,北京大学软件与微电子学院2009度课程,6,更多的搜索引擎,北京大学软件与微电子学院2009度课程,7,google killer?,2009-05-18推出,2008-07-28推出,北京大学软件与微电子学院2009度课程,8,email,搜索,分类,北京大学软件与微电子学院2009度课程,9,email,分类,搜索,推荐,北京大学软件与微电子学院2009度课程,10,分类目录,搜索,分类,北京大学软件与微电子学院2009度课程,11,电子商务,推荐,北京大学软件与微电子学院2009度课程,12,bbs,推荐,搜索,北京大学软件与微电子学院2009度课程,13,社区网站-豆瓣网,推荐,推荐,搜索,北京大学软件与微电子学院2009度课程,14,社区网站-校内网,北京大学软件与微电子学院2009度课程,15,博客,推荐,北京大学软件与微电子学院2009度课程,16,以上应用的共同特征,基于内容的应用 内容是互联网应用的生命线 包括几个主要共同的技术 搜索 分类/聚类 过滤/推荐,北京大学软件与微电子学院2009度课程,17,提纲,互联网应用的例子 基于内容的互联网应用的基本技术 搜索技术 信息分类和聚类技术 信息过滤和推荐技术 考核方法,北京大学软件与微电子学院2009度课程,18,搜索(search),搜索:从大量文档(document)集合(collection)中根据用户的需求(user information need)返回相关(relevant)文档集合并排序(ranking)的应用。 主要特点: 用户的需求动态变化,文档集合相对静态 事先下载,事先组织,在线搜索 应用例子: 搜索引擎 站内搜索,北京大学软件与微电子学院2009度课程,19,搜索技术,信息的获取技术 信息的组织和整理技术 相关度计算和排序技术 结果呈现技术 相关反馈、查询扩展技术 搜索的评估,北京大学软件与微电子学院2009度课程,20,搜索系统的组成框架,文档集合,管理器,索引,文档表示,查询处理,查找,排序,排序文档,用户反馈,文本处理,用户界面,结果文档,查询,文本,查询表示,爬虫,internet,北京大学软件与微电子学院2009度课程,21,信息分类(classification),信息分类:根据已有的类别体系(如:体育、经济、军事)和训练文档(每个类别对应若干文档),对一篇新的文档判断其所属类别。属于有监督的机器学习 主要特点: 类别体系静态,但是需要分类的文档动态变化 事先训练,在线分类 需要大量训练文档集合 应用例子: 垃圾邮件/网页分类,北京大学软件与微电子学院2009度课程,22,北京大学软件与微电子学院2009度课程,23,信息聚类(clustering),聚类:从大量文档集合中自动聚团的过程,属于无监督的机器学习 主要特点: 事先无类别体系 需要事后进行解释 应用例子: 检索结果聚类 话题发现,北京大学软件与微电子学院2009度课程,24,北京大学软件与微电子学院2009度课程,25,文本分类系统的组成框架,文本表示,训练过程,分类过程,训练文本,统计,统计量,特征表示,学习,分类器,新文本,特征表示,类别,北京大学软件与微电子学院2009度课程,26,信息过滤,信息过滤:从动态的信息流中将满足用户兴趣的信息挑选出来,用户的兴趣一般在较长一段时间内比较稳定不会改变(静态)。 主要特点: 用户兴趣静态,数据动态 对用户兴趣建模 应用例子: 广告推荐/商品推荐,北京大学软件与微电子学院2009度课程,27,信息过滤系统的组成框架,(d) 学习器,用户,信息提供者,(b) 过滤器,(a) 数据分析器,(c) 用户建模,更新,反馈,相关数据项,数据表示项,数据项,个人信息,用户模型,北京大学软件与微电子学院2009度课程,28,提纲,互联网应用的例子 基于内容的互联网应用的基本技术 搜索技术 信息分类和聚类技术 信息过滤和推荐技术 考核方法,北京大学软件与微电子学院2009度课程,29,考核方法,技术专题讨论(20%) 学生分小组,选定一技术专题,共同读资料学习技术,并在课上交流。 阅读(30%) 阅读1篇论文sigir2008/2009,针对每篇文章写出至少阅读报告(含评论) 评论要有自己的见解,不要简单翻译原文的摘要和结论 评论主要着眼于文章的主要创新点和对自己启发最大的地方,以及可能的下一步研究工作 课程项目(50%) 2到3名同学一组 完成可以演示的具有一定创新的课堂项目 可从建议的项目列表中选项目,也可自己拟定项目(但需要与任课教师协商,取得任课教师的认可)。,北京大学软件与微电子学院2009度课程,30,论文阅读,acm sigir conference,北京大学软件与微电子学院2009度课程,31,课程项目,(一)、检索型: (1) 垂直搜索:选择2个或以上的餐馆网站进行爬行(餐馆记录不少于5000条),实现基于关键词的餐馆搜索,爬虫能够及时更新。 (2) 论文搜索:下载全部sigir论文,实现对论文的标题、摘要及全文的搜索,并实现论文之间的关系链接图,分析作者的共现关系并以图的方式显示。 (3) 桌面搜索:能够实现本机ppt文件的抽取及搜索,不少于1000篇ppt文件。能够自动抽取ppt的标题、目录等信息。,北京大学软件与微电子学院2009度课程,32,课程项目(续),(二)、文本分类型: (1) 文本分类:分类体系为:财经、科技、汽车、房产、体育、娱乐、其它类,利用网站的新闻主页,训练一个分类器(训练集合不能少于2000篇文档)。能够实现新的网页的分类。 (2) 文本倾向性分析:下载餐馆的评论信息进行训练,最后对餐馆的评论进行文本倾向性分析,分析对餐馆的评价(包括总评和细评,细评包括价格、味道、环境三个方面)是褒还是贬。 (3) 层次分类:pascal challenge on large scale hierarchical text classification,http:/lshtc.iit.demokritos.gr/node/1。提交short paper。时间表: start of testing: july 10, 2009. end of testing, submission of executables: november 16, 2009. end of scalability test and announcement of results: december 14, 2009. submission of short papers: december 21, 2009.,北京大学软件与微电子学院2009度课程,33,课程项目(续),(三)、其他型: (1)、问答系统:实现奥运知识的问答系统。奥运知识不少于1万条语句或记录。 (2)、歌曲检索:通过哼曲调的方法实现mp3歌曲的检索。mp3歌曲不少于200个。 (3) 广告搜索:搜集不少于1000个广告,实现对它们的搜索,搜索时不止是关键词匹配。 (四)、自选型: 学生可以自行设计和选择本课程相关的其他题目,但是需要经过任课老师同意。,北京大学软件与微电子学院2009度课程,34,为什么要开这门课?,互联网内容应用的核心技术是信息检索技术,北京大学软件与微电子学院2009度课程,35,市场发展的需求,用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易 公司需要信息检索技术:搜索引擎改变了很多传统的生活方式,yahoo、google、baidu,还有一些公司如microsoft、sina、sohu、tecent、netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、数字图书馆工程等都需要信息检索技术 人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天 是不是泡沫:2000年左右出现的网络泡沫和现在的互联网有什么不同,搜索引擎在其中占什么位置?,北京大学软件与微电子学院2009度课程,36,几个应用需求,手机搜索 产品搜索 专利搜索 广告推荐 消费行为分析 网络评论分析 seo营销 ,北京大学软件与微电子学院2009度课程,37,对相关专业研究生的基本要求,信息检索技术是内容应用特别是互联网内容应用的核心技术,可以说在这些应用中无处不在 信息检索将会成为一门计算机专业的基础学科 搜索(狭义的信息检索)的三个层次(个人观点),北京大学软件与微电子学院2009度课程,38,应用层次:搜索是一项非常重要的应用!,北京大学软件与微电子学院2009度课程,39,中间层次:搜索是极其重要的api,北京大学软件与微电子学院2009度课程,40,www.g,北京大学软件与微电子学院2009度课程,41,介绍一本有趣的书!,北京大学软件与微电子学院2009度课程,42,核心层次:搜索是未来操作系统的重要组成部分!,北京大学软件与微电子学院2009度课程,43,相关研究人物和资源,北京大学软件与微电子学院2009度课程,44,国际著名研究机构和代表人物,美国康奈尔大学 salton (1927-1995) 现代信息检索的奠基人 smart的完成人 第一任salton奖得主,acm fellow 英国剑桥大学 sparck jones (1935-2007) 概率检索模型的提出者之一 nlp和ir中的先辈 曾获acl终身成就奖和salton奖,北京大学软件与微电子学院2009度课程,45,国际著名研究机构和代表人物,美国 umass ciir w. b. croft,acm fellow 基于统计语言建模ir模型的提出者和倡导者 和cmu共同开发了lemur工具 salton奖得主 英国glasgow大学 rijsbergen, acm fellow 信息检索逻辑推理学派的提出者和倡导者 现在试图用量子物理的方法解决ir问题 salton奖得主 英国微软剑桥研究院、伦敦城市大学 robertson 概率检索模型的倡导者 开发了okapi salton奖得主,北京大学软件与微电子学院2009度课程,46,北京大学软件与微电子学院2009度课程,47,北京大学软件与微电子学院2009度课程,48,国际著名研究机构和代表人物,美国cmu 美国uiuc 微软研究院 ibm研究院 google研究院 yahoo研究院,北京大学软件与微电子学院2009度课程,49,一些活跃的华裔学者,加拿大蒙特利尔大学聂建云教授 跨语言检索 ir模型 美国uiuc chengxiang zhai博士 ir模型 美国cmu yiming yang教授 文本分类,北京大学软件与微电子学院2009度课程,50,一些活跃的华裔学者,台湾中研院 简立峰 号称“中文搜索”第一人 加入google研究院,北京大学软件与微电子学院2009度课程,51,国内一些相关研究机构,北京大学 复旦大学 清华大学 哈尔滨工业大学 上海交通大学 中科院计算所 中科院软件所 中科院自动化所 ,北京大学软件与微电子学院2009度课程,52,重要会议,国际会议(coling2010、sigir2011将在北京举行): sigir、acl、www、sigkdd、wsdm、icml cikm、emnlp、coling trec airs、ecir 国内会议: 全国信息检索学术会议(1年一届,下半年今年11月在上海交大举行) 全国计算语言学联合会议(2年一届) 搜索引擎和web挖掘学术会议(1年一届,上半年),北京大学软件与微电子学院2009度课程,53,acm sigir,acm:美国计算机学会 sigir:special interest group on information retrieval,特定兴趣组 acm sigir conference:ir领域的最重要会议,起始于1971年,2009年是第31届。,北京大学软件与微电子学院2009度课程,54,ir及相关研究领域重要会议,acm sigir,vldb, pods, icde,asis,learning/mining,nlp,applications,statistics,software/systems,coling, emnlp, anlp,hlt,nips, uai,recomb, psb,jcdl,info. science,info retrieval,acm cikm,databases,acm sigmod,acl,icml,aaai,acm sigkdd,ismb,www,sosp,osdi,trec,北京大学软件与微电子学院2009度课程,55,重要期刊,国际: acm transactions on information systems (tois) acm transactions on asian language information processing (talip) information processing & management (ip&m) information retrieval 国内 中文信息学报 情报学报,北京大学软件与微电子学院2009度课程,56,重要工具,lemur:包含各种ir模型的实验平台,c+ smart:向量空间模型工具, c编写 weka:分类工具,java编写 lucene:开源检索工具,各种语言编写的版本 larbin:采集工具,c+ firtex:检索平台,c+,计算所开发,北京大学软件与微电子学院2009度课程,57,参考书籍及文献,christopher d. manning, prabhakar raghavan & hinrich schtze, introduction to information retrieval, cambridge university press 2008 electronic version (draft) can be downloaded from /hinrich/information-retrieval-book.html baeza-yates, r. & b. ribeiro-neto. eds. modern i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 热镀锌天棚施工方案编制
- 房屋排查宣传方案范本
- 钢结构厂房施工方案简单
- 开票应收工作总结
- 水井供水改造方案范本
- 工程提成方案制定实务指南
- 2025护理学导论题库及答案解析
- 昆明汗蒸房地暖施工方案
- 食堂规划经营方案范本
- 售楼部保洁工作总结和建议
- 统编版八年级上册道德与法治第三课 共建网络美好家园 课件
- 【里斯】年轻一代新能源汽车消费洞察与预测 -新物种 新理念 新趋势(2024-2025)
- 企业数据安全管理制度与操作规程
- 2025年合肥市公安局第一批招聘430名警务辅助人员笔试模拟试题带答案详解
- 矿山技术管理课件
- 宣传委员竞选课件
- 隧道施工安全教育
- 临床气管切开患者堵管护理
- 法律谈判教学课件
- 网约车驾驶员安全驾驶培训
- 肠内营养病例临床实践分享
评论
0/150
提交评论