




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、文件:课题管理规定三级文件一、基本信息表1.1分课题信息表3课题名称互联网数据建模及新一代搜索引擎分课题编号2011ZX01042-001-001-002承担形式分课题密级公开课题实施期限年起始时间2011 年 1 月终止时间2011 年 12 月课题阶段跨度阶段*-阶段*起始阶段要求不低于级,70%WBS 不低于级资助方式前补助后补助(不预拨)后补助(预拨)30(建议比例)分课题活动类型应用基础研究应用开发开发示范工程其他创新类型原始创新集成创新引进消化吸收再创新预期成果类型专利技术标准新(或农业新品种)新工艺新装置新材料计算机软件 论著其他预期知识产权获得国外发明专利项,国内发明专利项,其
2、他项。预期技术标准制定国际标准标准行业标准企业标准产学研是否参加分课题人数193 人。其中:高级11 人,中级 2 人,初级 6 人,其他174人博士 17人,40人,学士 87人,其他 49 人投入人月数1894 人月(本课题满月度工作量数)分课题经费来源(万元)总经费818.70财政专项资金818.70地方财政配套资金承担自筹资金其他分课题 主要研究内容(200 字以内)本分课题按照“基于框计算的新一代搜索引擎与浏览器”项目的总体要求,研究面向互联网数据的新一代搜索引擎 ,包括:1)Web 文本搜索技术。重点研究建立新的网络信息结构模型,分析用户需求和行为特征,高性能索引结构等;2)Web
3、 多 搜索技术。重点研究富 、多形态数据综合分析和融合等;3)搜索引擎开放评测平台技术。目的是推动新一代搜索引擎不断优化,促进搜索引擎在中国研发与产业的繁荣和 式发展。文件:课题管理规定三级文件1.2(1)(应与申报书一致)课题承担4课题申报(1) 信息名称组织机构代码40000225-9通讯地址北京市海淀区路 5 号所在地区北京100871成立时间1898 年 5 月 4 日传真号码工商北京海淀西区名称0性质事业型研究其他事业大专院校 转制为企业的科研院所国有企业 集体所有制企业合资企业 外商投资企业台投资企业 其他企业代码主管部门教育部代码国资委企业是 否“211 工程”大是 否法人代表信
4、息周其凤男 女最高学位博士学士其他出生日期1947.11.20高级中级初级其他从事专业教师移动固定62756476电子信箱qfzhou传真号码627565813证件号码证件类型分课题 组长信息李晓明男 女最高学位博士学士其他出生日期1957.5.6高级中级初级其他从事专业教师移动固定62756589电子信箱lxm传真号码627565813证件号码230103570506031证件类型财务负责人 信息闫敏男 女最高学位博士学士其他出生日期1956.4.13高级中级初级其他从事专业财务管理移动固定62751039电子信箱ym传真号码627565813证件号码证件类型已承担“核高基”专项课题的情况序
5、号课题编号课题名称牵头/是否通过验收12009ZX01043-国产中间件参考实现及平台否22009ZX01032-智能移动SOC否32009ZX01043集成化中间件套件研发及产业否42009ZX01034-高速串并转换电路(SERDES)设计否52009ZX01039-面向新型网络应用模式的网络化操否62009ZX01036-国产 CPU 编译系统及工具链否文件:课题管理规定三级文件5分课题简介(简要说明分课题立项的必要性、在课题的作用、分课题目标、技术方案、筹资方案、组织方式、相关基础条件等,500 字)分课题必要性:按照总课题“基于框计算的新一代搜索引擎与浏览器”的设计思想,本项目分为
6、工程实施和前沿 技术研发两个有一定重叠但重心不同的部分。我们从三个方面来看本分课题的必要性。第一,经过过去十多年的发展,人们对 Web 1.0 环境下搜索引擎的体系结构、执行机制和关键环节的技术已经有比较成认识,其中许多也可以直接用于新一代搜索引擎的开发。但是,面对Web 2.0 的信息环境,在新一代搜索引擎中必须采用若干创新的技术,才能满足网络用户日益增强和复杂化的信息需求。“框计算”概念就是若干潜在创新技术的一个抓手。在这个概念下,总课题一方面能够展开系统的实施,尽快形成一个系统结构先进、模块化强的整体运行框架,另一方面也可以加快推进若干新兴的研究, 从而在课题的后期结合到系统中去。第二,
7、本分课题项目组在搜索引擎技术方面已有多年积累,尤其是在索引结构、大规模消重技术,以及搜索效果评测方面有独特的优势,经过一定的工程化工作,可以直接用于下一代搜索引擎的构建。第三,本项目的周期比较短,主要目标是尽快推出一个有中国创造精神和优势的新一代搜索引擎,随之一定会需要不断的优化和完善,本分课题的工作成果也将为它们形成积累,从而有助于中国搜索引擎产业的可持续发展。在课题的作用:如前所述,本分课题在课题中的作用有三个方面。一是通过课题的开展, 与其他分课题 交流,将已有的特色技术(索引、消重、评测等)积累转移到基于框计算的新一代搜索引擎中;二是通过开展对 Web 信息建模、用户行为分析、网络多
8、信息分析与挖掘的研究,为基于框计算的新一代搜索引擎提供可替换的优化模块;三是通过大型搜索引擎开放评测平台技术的研究,为搜索引擎技术研究和产业在中国的繁荣和持续发展打好基础。文件:课题管理规定三级文件6目标:本分课题的目标有四个方面第一,通过完善和工程化改造已有的优势技术,研究 Web 2.0 的新特点, 对新一代搜索引擎与浏览器有直接的贡献。(前面已经提过一些 ,随着研究的进展,会有新的成果出来。)第二,积累一批前瞻性新技术。新一代搜索引擎需要不断发展,其中一个重要的方向就是要面向未来可能成气候的 Web 3.0。因此,我们的目标之一是在这方面形成实质性的积累,占据未来的制高点。第三,建设一个
9、搜索引擎技术开放评测平台,它将包含大规模硬件设施、开放共享软件、海量网络信息等实质内容,面向 教学和科研机构研究搜索引擎技术的第四,培养一批有新一代搜索引擎研发实际经验的 。以北大天网为代表的业界培养了大批人才,与搜索相关的公司几乎都有我们的毕业生;不仅如此,我们的 中也涌现出多个在网络搜索领域的优秀创业者(刘建国,雷鸣,陈华, 张志刚等),不仅在中国搜索产业的版图上添新加彩,而且也为业机会。这个项目的实施,无疑会使我们在搜索技术培养方面跨上一个新的台阶。技术方案:“基于框计算的新一代搜索引擎与浏览器研究”课题的需要,面向当前互联网搜索中的典型问题和难点,本分课题分解为 3 个研究任务,在 W
10、eb 文本搜索、Web 多 搜索、和搜索引擎开放评测平台等方面展开研究。重点研究内容包括:Web 建模、Web 数据挖掘、新一代索引结构、 网络、语音识别与检索、图像概念识别与检索、搜索引擎开放评测平台技术。在 Web 建模方面, 重点 Web 2.0 现象(例如大量用户生成的内容,UGC)所带来 Web 信息结构的变化,从而有可能指导搜索引擎数据搜集的策略,结果返回排序算法等文件:课题管理规定三级文件7在 Web 数据挖掘方面,我们除了考虑 Web 2.0 数据的特征外,还要考虑Web 3.0 的数据特征,例如 研究大规模图在云计算平台上的划分算法(这是能否高效搜索 Web 3.0 信息的技
11、术基础)。在新一代索引结构方面, 特别综合考虑多 信息的索引问题,高维数据的降维问题,以及索引对于在时空 上 Web 数据挖掘和信息提取算法的支持。增量索 数据索引,支持实时搜索,也将是我们特别关注的。在 网络方面,目标是基于实际网络中和网页内容中的实体为研究对象, 结合内容分析和 分析,以便更好地对于真实网络进行表示、分析和挖掘。在语音识别与检索, 网络语音中说话人变化、内容主题多样、数据量大等特点进行语音识别算法研究,提出高效、鲁棒的适用于互联网的语音识别与检索方法。在图像概念识别与检索,探索具有描述能力和区分能力的图像特征,研究统一的视觉表示与计算模型,自动识别图像概念,并以此为基础设计
12、图像检索系统,为用户提供实例检索和概念检索等不同的 。在搜索引擎开放评测平台技术方面, 结合云计算平台技术,开放源码精神、政策和技术,发动有意愿参与的各方计算机软件技术 共同开发, 共同 。为此,我们特别向学校申请 200 平方米机房空间,用于平台开发和运行。筹资方案:申请国拨资金 818.70 万元。组织方式:本分课题将组织北大天网、数据库技术 、 智能 、计算语言学 、互联 情分析技术 , 搜索引擎行为 (北大- )等研究团队协力攻关,整个队伍将包括约 200 名教师和学生。这些人员先前已有多方面的合作基础,将在本分课题任务的统一要求下进一步凝聚力量,实现课题目标。文件:课题管理规定三级文
13、件8相关基础条件:本分课题项目组成员多年从事相关领域的研究工作,在系统平台、技术开发、信息 、学术研究、 队伍诸方面均形成了丰厚的积累:l 系统平台:1997 年,我们推出了北大天网,在其后几年里一直是中国最大最好的搜索引擎之一。北大天网的重要意义在于它证明了在 学环境下不仅可以研究出先进的技术,而且也可以开发、部署、运行得到广大用户好评的大系统。尽管由于随着互联网信息 量的 性增加,在大学维护一个容纳上百亿网页,每天响应上千万用户请求的全功能搜索引擎不再现实,但北大天网培养出的 遍布各大搜索引擎公司,为搜索引擎技术和产业在中国的蓬勃发展做出了显著贡献。作为北大天网发展的一个方向, 2001
14、年,在天网搜索技术基础上,我们推出了“中国 Web 信息博物馆”,全面搜集并保存中国互联网上的信息,经过近十年努力,已经 最大的互联网历史信息管理平台。l 技术开发:在构建上述平台的过程中,若干与搜索引擎和网络信息挖掘相关的 在 多个课题组中积淀下来,它们包括:大规模网页爬取技术,网页去噪技术,技术, 缓冲技术等。它们不仅存在于师生的存在于经过实际检验的、我们l 信息 :在我们拥有的“中国 Web 信息博物馆”中,已经收藏有 40 亿中国互联网历史网页信息;同时我们还建立了“中 络数字 库”,包含除网页外的约 10TB,超过千万件各类网络多 信息 。这些 不仅本身具有很高的价值,对它们的管理也
15、使我们积累了处理 TB 量级网络信息的宝贵经验。l 学术研究:在上述搜集、技术开发和平台系统建设过程中,我们在互联网信息模型,搜索引擎技术与体系结构,网络信息挖掘等方面形成了一批相关学术研究成果,在 SIGMOD,SIGIR,AAAI,EMNLP,WWW, CIKM,ICDE,TOIS,TKDE,Journal of Software and System,Journal of Computer Networks,等高水平学术会议和期刊上(见“附件-北大课题组文件:课题管理规定三级文件9的与课题内容相关的部分.doc”),同时参加了多次国际系统评测,名列前茅。l 队伍:北大天网和相关研究群体除
16、了不断向搜索引擎市场输送深受欢迎的毕业生外,在教师队伍中也形成了优化的知识和学术背景结构,例如: 闫宏飞和彭波是天网 2.0 的骨干,毕业留校后一直从事搜索引擎技术研发工作,黄连恩和谢正茂是“中国 Web 信息博物馆”的主要设计和实现者, 对海量网络信息的处理有丰富的经验,崔斌、张岩和万小军在高维数据分析和建模方面不断有创新性成果,吴玺宏、王厚峰和王继民则是在网络多数据分析和自然语言理解等方面多有建树,等等。上述工作积累是多年来在各种项目支持下形成的,包括 973,863, 自然科学基金等,总投入约 2000 万。文件:课题管理规定三级文件二、分课题立项的必要性分析102.1 分课题与课题目标
17、和任务的相关性(简要说明分课题在完成课题目标和任务中的作用)根据 2011 年核高基专项基础软件方向的“课题 5 新一代搜索引擎与浏览器”的指南精神,本课题“基于框计算的新一代搜索引擎与浏览器研 究”的目标和主要研究内容确定为:海量互联网信息多模态、非结构化、不确定性、动态时空演化等特点,研制基于框计算的新一代搜索引擎与浏览器, 完成形态研究、体系结构设计、升级及应用验证、应用模式与策略优化等,并最终带动我国互联网行业的发展和产业结构优化,并助推中国企业和技术的。基于框计算的新一代搜索引擎和浏览器,强调对互联网用户需求的响应, 其中不仅仅包括信息,还有各种应用,旨在为用户提供基于互联网的一站式
18、服务。其涉及到海量数据处理、用户生成内容的整合、暗网信息挖掘与整合、浏览器、中文为的多语言处理、翻译、语音技术和智能人机交互等多个方面。实施本课题的时间为一年。在本课题实施中所用到的各种 ,基本上都是多年研究积累的成果,不是旦夕之间就能够做出来的。为了让“基于框计算的新一代搜索引擎和浏览器”能够长足发展,在“十二五”乃至更长的时间里都具备先进性,真正走出国门, 世界,能够在世界上一半以上的 里成为家喻户晓的品牌,必须对一些关键任务进行前瞻性研究。为此,我们确定本分课题的目标是: 当前互联网海量信息的诸多典型特点,探索多 资源建模分析及新一代搜索引擎 ,完成理论基础研究、算法设计、模型构建、体系
19、结构设计、原型系统开发、数据测试与应用验证等,为新一代搜索引擎与浏览器的 实现提供技术支持,为其长久保持活力和领先性提供创新源泉,同时也培养一批有新一代搜索引擎实际研发经验的 。本分课题的作用主要有两个。首先,把一些既有的、积累多年的、相对成技术,经整合、完善后提供给总课题使用,为“基于框计算的新一代搜索引擎和浏览器”的建设和实施提供支持。例如运用自然语言处理技术、用户行为分析技术和用户意图分析技术,对用户需求进行分析理解,通过合理的搜索文件:课题管理规定三级文件11引导和导航来帮助用户更便捷地找到所求;运用语义分析技术和基于内容的音检索技术,整合文本信息及多 信息,并根据用户需求,有 性地呈
20、现内容更为丰富的结果页。其次,依托 多年来在互联网搜索、用户分析、 网络、多 信息处理等方面的理论与技术积累, 当前互联网搜索的典型问题和难点,特别地,在 Web 建模、Web 数据挖掘、新一代索引结构、 网络分析、语音识别与检索、图像概念识别与检索等方向开展前瞻研究,进行理论基础调研、模型构建和算法设计,为保证“基于框计算的新一代搜索引擎和浏览器”在未来十年的长足发展做下铺垫。分课题任务的完成,对于整个课题任务和目标的完美达成,具有现实和未来的双重保障意义。2.2 分课题与示范工程,以及其他课题的关系(简要说明,如已承担本专项课题且尚未验收,必须详细说明本课题与已承担课题之间的关系)本次的核
21、高基专项中,“基础软件”部分共有 4 个课题,其中课题 3“新型网络计算操作系统”和课题 4“网络化应用支撑工具”是基础,对其他两个课题形成支撑,指南中明确要求对二者进行集成整合。课题 5“新一代搜索引擎与浏览器”是互联网的下一个制高点,它与课题 6“智能海量数据中心”是共生共荣关系,课题 5 为课题 6 的发现提供帮助,而课题 6的建设显然为课题 5 提供了基础支撑。这 4 个课题紧密配合,为把互联网打造成一个更为合理的 系统,为在互联网 的下一轮快速发展中抢占先机奠定了基础。本分课题“互联网数据建模及新一代搜索引擎 ”作为课题 5 的重要组成部分,它不但为课题 5 的完成提供了一些很关键的
22、 技术,同时它的研究对课题 6 的完成提供了部分保障,对课题 3 和课题 4 也产生了有益的促进作用。下图展现了它的这种作用。文件:课题管理规定三级文件12课题 6 中,数据 的发现和高效利用是其两个关键,而本分课题将对Web 信息发现与收集、用户需求分析、 网络挖掘等方面进行重点研究, 研究成果将对课题 6 的这两个关键问题的解决提供一定的支持和保障。课题 3 和课题 4 的主要目标之一就是实现 次的 管理与共享,支撑多样性和灵活性服务,这些需要建立在对各种数据 、计算 、服务 等的快速定位和有效应用上。从这个角度来看,本分课题中的研究,如基于内容的网络语音检索、基于内容的网络图像与 检索、
23、搜索引擎新索引结构等,这些互联网信息和 的多模态、不确定性、海量性、动态时空演化等特点所做的努力,将对课题 3 和课题 4 产生非常好的促进作用。2.3 分课题预期解决的问题(简要说明)分课题将 当前互联网海量信息多模态、非结构化、不确定性、动态时空演化等特点,通过对互联网信息处理技术的不断研究与完善,为新一代搜索引擎与浏览器的 实现提供技术支持和科研储备,以便更好的响应用户需求,为用户提供多模态、精准的检索结果。分课题预期解决的 问题包括以下几个方面。(1) Web 文本搜索技术研究a) 面对 Web 2.0 的信息环境,利用数据采样技术研究海量网络信息的性质,研究 Web 演化规律与基本特
24、征,并利用 Web 建模获得的规律指导Web 信息搜集过程,提出 Web 信息搜集的新模式和方法,以适应海量互联网信息动态时空演化的特性,解决在 Web2.0 环境下,对于超大规模、高度动态信息的有效搜集问题。文件:课题管理规定三级文件13b) 通过分析 Web 用户行为,包括群体分析、个性化分析和小众分析,在不用户隐私的前提下,最大程度地理解用户 与浏览需求,在对用户行为进行深入分析的基础上进行智能引导,帮助新一代搜索引擎适应互联网信息海量性和不确定性的特点,为用户提 准的内容。同时研究搜索引擎评测技术,帮助搜索引擎在 理解、搜索排名和结果展现等方面进行有效的自适应调整,提供更好的结果。c)
25、 通过设计支持快速灵活检索的新索引结构,获得更高的索引库效率,解决海量信息(特别是海量非结构化信息)的数据冗余和快速检索之间的。解决新索引结构对数据和流数据的支持问题,兼顾对数据挖掘任务的支持,为设计和实现支持超大规模的 Web 数据整合与搜索的体系结构提供支撑。d) 基于内容分析和 分析,以实际网络中和网页内容中的实体为研究对象,对真实网络进行表示、分析和挖掘,提出具有普适性的 网络信息搜集模式,解决 Web 网络信息的高效、实时搜集问题。同时, 通过对 网络的研究,特别是其中人和信息关系的研究,更好地对用户行为进行 分析,解决通过用户 行为和 词对用户需求进行准确理解的问题,帮助搜索引擎更
26、好地响应用户 需求,为用户提供更为精准的 结果。(2)Web 多搜索技术研究a) 网络语音中说话人变化、主题多样、数据量大等特点进行大词汇量语音识别算法研究,提出高效、鲁棒的适用于互联网的语音识别与检索方法, 实现基于内容的网络语音检索,同时为用户提供更灵活友好、更人性化的交互方式。b) 探索具有描述能力和区分能力的图像特征,通过研究统一的图像表示与计算模型,自动识别图像与 中的概念,为用户提供实例检索和概念检索等不同的 ,实现基于内容的网络图像与 检索。(3)搜索引擎开放评测平台研究文件:课题管理规定三级文件14a) 建设搜索引擎开放评测平台,该平台是一个集海量 Web 数据与相关软硬件为一
27、体的综合系统。从基础设施体系结构的视角出发,该平台以设施拟提供的基本服务设计为 ,向下追求实现的高性能,向上追求对应用支持的有效性,其工作将涉及基础设施体系结构、数据模型、数据组织三个部分。文件:课题管理规定三级文件三、分课题的目标和任务153.1 分课题目标, 指标(1000 字以内,依据总本的目标和指标展开和细化。包括目标 的性能参数和可靠性指标; 指标是指课题验收时 批量销售的数量和金额,应符合课题申报指南的规定或提出更为细化的指标; 培养情况,包括引进情况;预期获得的技术成果,指课题实施过程中 的 、申请的专利、 和批准的标准等)本分课题目标是立民和发展对搜索引擎技术的需求, 当前互联
28、网海量信息多模态、非结构化、不确定性、动态时空演化等特点,基于最新的互联网信息处理技术进行前瞻性研究,探索多建模分析及新一代搜索引擎,完成理论基础研究、算法设计、模型构建、体系结构设计、原型系统开发、数据测试与应用验证等,并最终为新一代搜索引擎与浏览器的实现提供技术支持。在课题研究过程中,坚持创新,形成一批有知识产权的专利、标准和技术,逐步建立适应未来搜索引擎与浏览器发展趋势的体系结构和算法模型的理论体系,使我国进入本领域的前沿科学技术先进行列,为未来信息化发展做出贡献。l 分课题总体目标、指标(1) 在新一代搜索引擎和浏览器研得理论、方法和的突破,并在实验系统上进行验证,获得对实际具有指导价
29、值的成果, 同时为搜索引擎未来发展优化提供技术储备和实验环境。(2) 为主课题提供若干能直接应用于搜索引擎和浏览器开发的新技术和方法,比如优化的索引结构来支持大规模的索引,搜索结果评测的标准和新技术等等。(3) 建设一个支持搜索引擎开放评测平台,即一个集海量 Web 数据与相关软硬件为一体的综合系统,支 内高校和科研机构的培养和研究开展。本平台的建设从基础设施体系结构的视角出发, 以设施拟提供的基本服务设计为,向下追求实现的高性能, 向上追求对应用支持的有效性。(4) 培养和建立一支学术水平高、创新能力强的研究队伍,使我国在该领域的研究进入国际领先行列。文件:课题管理规定三级文件16l 主要标
30、志性成果和示范内容理论创新和技术成果解决本分课题提出的一系列科学问题。(1) 利用数据采样技术研究 Web 2.0 演化规律,探索 Web 信息动态时空演化等特征,提出 Web 信息搜集的新模式和方法,解决超大规模环境下对于 Web 高度动态信息的有效搜集问题。(2) 利用搜索引擎日志和浏览器日志,分析 Web 用户行为,包括群体分析、个性化分析和小众分析,获知用户的 和浏览需求,提出新的用户信息需求感知的内容提供和 发现新理论与方法, 帮助新一代搜索引擎和浏览器根据用户需求提 准的内容。(3) 基于 Web2.0 技术发展而出现的用户生成内容信息特征, 探索Web 环境中海量异构数据的特性,
31、分析结构化数据、半结构化数据以及非结构化数据等之间的信息关联和冗余,整合超大规模Web 异构关联信息,提出新的索引结构以支持快速灵活的检索。(4) 利用实际网络中和网页内容中的实体为研究对象,结合内容分析和 分析,提出一系列对于真实网络进行表示、分析和挖掘的方法。通过对 网络、用户生产数据以及用户数据关联等方面的研究,为用户需求分析理解和索引特征选择等提供技术支持。(5) 网络语音中说话人变化、主题多样、语音质量不稳定等特点进行大词汇量大数据量语音识别算法研究,提出高效的适用于互联网的语音识别与检索方法,设计灵活友好、人性化的交互方式、实现基于内容的网络语音检索,为新一代搜索引擎设计提供新盈的
32、搜索平台。(6) 探索具有描述能力和区分能力的图像特征,基于多 数据对象的多模态语义融合分析关联图像 和文本信息,研究统一的图像表示与计算模型,自动识别图像与 中的概念,为用户提供实例检索和概念检索等不同的 ,实现基于内容的 Web 图像与文件:课题管理规定三级文件17检索。(7) 建设一个支持搜索引擎研究的基础设施的实验系统,作为一个集海量 Web 数据与相关软硬件为一体的一个综合系统,其包括具有大规模 的机群系统和包含有 100 亿网页的海量数据,以及它们的特征关联表示和索引,提供一个基本数据 接口以及常用的工具集。知识产权成果以完成高水平的研究和发明专利为主,具体指标包括:(1) 本分课
33、题将在信息检索、互联网、多 、数据管理挖掘等研究领域提出一批创新方法和 ,在 ACM/IEEE 重要学术 和重要学术会议(如 SIGIR、WWW、ACM MM、SIGMOD、AAAI、等)学术30 篇。(2) 根据本课题研究方面提出的一系列新技术和方法,申请国内外发明专利 10 项,具体方向包括 Web 动态信息收集新策略、新型索引结构设计、 网络和关联数据挖掘新方法、多 数据(语音、图像、)识别和检索新算法等。 培养将在本 的支持下,培养博士后 4 人,博士生 40 人, 生87 人,预计项目结束前将有 2 名博士后出站、5 名博士生毕业、20 名 生毕业。我们开设规模数据处理课程,并邀请国
34、外著名教授翟来北大开设信息检索课程。为我们合作示范基地鉴于以上课题实施目标,课题承担 在充分共享已有设备的同时,必须 部分 于课题任务的大型磁盘 介质、各种类型服务器及相应配套设备。本分课题涉及到 3 个子任务。共计 200 平方米面积,拥有上百个节点的机群系统和 0.5PB 的数据 规模。3.1.1 分课题任务分解(采用 WBS 方法,不超过三级。按 “分任务”“子任文件:课题管理规定三级文件18务”“模块”分解,“模块”之后不再细分。 申报课题无“分任务”级)图:本分课题 WBS 分解图3.1.2 任务分解说明(按 WBS 编号,逐个简述其任务的交付物,承担、目标等)。(2-1)Web 文
35、本搜索技术研究承担。重点研究 Web 建模、Web 数据挖掘、新一代索引结构、和 网络。 指标为:(1)完成 Web 建模算法研究及原型系统开发,提交 ;(2) 12-20 篇;(3)申请专利 4-8 项;(4)培养博士生8 人, 生 16 人。(2-2)Web 多 搜索技术研究承担。 网络语音中说话人变化、主题多样、数据量大等特点进行大词汇量语音识别算法研究。通过研究统一的图像表示与计算模型,文件:课题管理规定三级文件19自动识别图像与 中的概念。 指标为:(1)完成语音及图像的识别与检索算法研究及原型系统开发,提交 ;(2) 6-12 篇;(3)申请专利 2-4 项;(4)培养博士生 4
36、人, 生 12 人。(2-3)搜索引擎开放评测平台承担。工作涉及基础设施体系结构、数据模型、数据组织、和基本服务。 指标为:(1)提供大规模 的机群系统,其中包含有 100亿网页的海量数据,以及它们的某种中间表示和索引。提供一个基本数据访问接口以及常用的工具集。(2) 3-5 篇;(3)申请专利 1-2 项;(4)培养博士生 2 人, 生 5 人。文件:课题管理规定三级文件指标(分课题实施期限一般在 3 年以内;年度任务3.2.1 分课题年度任务和是指在课题实施期限内,每年应该完成的任务,年度指标要量化)说明:表中“重要任务的时间节点”见课题交付物阶段划分指南中的要求。20年度年度任务年度指标
37、重要任务的时间节点2011年Web 文本搜索技术研究 2.1.1(1)完成 Web 建模算法研究及原型系统开发,提交 ;(2) 12-20篇;(3)申请专利 4-8项;(4)培养博士生 8人,生 16 人第一、二季度完成资料收集、设计、建模, 第三、四季度实现、测试、形成李晓明Web 多搜索技术研究2.1.2(1)完成语音及图像的识别与检索算法研究及原型系统开发, 提交 ;(2)6-12 篇;(3)申请专利 2-4 项;(4)培养博士生 4 人,硕士生 12 人第一、二季度完成语 音及图像识别与检索算法资料收集、设计、建模,第三、四季度实现、测试、形成研究报告吴玺宏搜索引擎开放评测平台技术研究
38、 2.1.3(1)提供大规模的机群系统,其中包含有100亿网页的海量数据,以及它们的某种中间表示和索 引。提供一个基本数据接口以及常用的工具集。(2)3-5篇;(3)申请专利1-2项;(4) 培养博士生2人, 生5人第一、二季度建设搜索引擎开放评测平 台,完成机房改造, 设备到位,安装;第三季度部署100亿网页到平台中;第四季度实现、测试、形成闫宏飞文件:课题管理规定三级文件213.2.2分 课 题 实 施 期 任 务 汇 总 表单位研究内容2011年度任务1季度2季度3季度4季度北京大学、Web文本搜索技术研究Web建模资料收集、设计;对Web用户行为进行分析,特别是小众分析的研究;搜索引擎
39、索引结构资料收集、设 计;以实际网络中和网页内容中的实体为研究对象,结合内容分析和分析.方法设计、建模完成算法、原型系统开发形成,相关研究,并完成专利申请、Web多搜索技术研究语音、图像概念识别与检索资料收集、设计.方法设计、建模完成算法、原型系统开发形成,相关研究,并完成专利申请、搜索引擎开放评测平台建设设搜索引擎开放评测平台基地完成机房改造,设备到位,安装部署100亿网页到平形成,相关研究,并完成专利申请说明:1、灰色表示课题研究内容所占时间。 2、季度栏可用“批注”方式标注该季度对应的关键节点。3、课题实施期依据承担的课题而定。4、图中内容为示范,承担按照课题实际填写。文件:课题管理规定
40、三级文件3.2.320××年分课题任务分解情况(按 WBS 展开)说明:1此表是年度任务与目标、指标的细化;2分课题执行期内,一年一表;3此表所列任务是预算编制的依据。22编号任务名称任务研究内容指标重要任务的时间节点(阶段等级)经费预算(万元)2-1Web 文本搜索技术研究李晓明重点研究 Web 建模、Web 数据挖掘、新一代索引结构、和网络。(1)完成 Web 建模算法研究及原型系统开发, 提交 ;(2)发表 12-20 篇;(3)申请专利 4-8 项;(4)培养博士生 8 人,生 16人第一、二季度完成资料收集、设计、建模,第三、四季度实现、测试、形成研究报告314.
41、622-2Web 多搜索技术研究吴玺宏网络语音中说话人变化、主题多样、数据量大等特点进行大词汇量语音识别算法研究。通过研究统一的图像表示与计算模型,自动识别图像与 中的概念。(1)完成语音及图像的识别与检索算法研究及原型系统开发,提交研究报告;(2)6-12 篇;(3)申请专利2-4 项;(4)培养博士生4 人,生 12 人第一、二季度完成语音及图像识别与检索算法资料收集、设计、建模,第三、四季度实现、测试、形成研究报告181.312-3搜索引擎开放评测平台技术研究闫宏飞工作涉及基础设施体系结构、数据模型、数据组织、和基本服务。(1)提供大规模的机群系统,其中包含有100 亿网页的海量数据,
42、以及它们的某种中间表示和索引。提供一个基本数据接口以及常用的工具集。(2)3-5 篇;(3)申请专利 1-2 项;(4)培养博士生 2 人,生 5 人第一、二季度建设搜索引擎开放评测平台,完成机房改造,设备到位,安装;第三季度部署 100 亿网页到平台中;第四季度实现、测试、形成322.77文件:课题管理规定三级文件四、分课题技术方案234.1 分课题技术路线及其先进性和可行性分析(含已有、外来和创新内容的集成可行性含技术引进消化吸收方案。在 3.1.1/3.1.2 基础上,详细说明本分课题技术方案)要求:1、按“分任务”“子任务”“模块”分解,分解到“模块”后不再向下分解; 2、“模块”按“
43、已有”、“创新”、“外来”分类(可以有缺项),分别标注已经达到的阶段等级,建议采用图形方式;3、对各类模块分别予以说明。具体见课题阶段划分指南要求。注:1、“已有”表示申报现有积累并可应用于任务(交付物)中的内容;应说明现处阶段等级和评估说明;2、“外来”表示非申报拥有、可合法获得应用于任务(交付物)中的内容,应说明现处阶段等级和评估说明;3、“创新”表示任务(交付物)中拟研制创新的内容。说明现在所处的阶段等级, 重点说明后期研发过程。4、课题预算由多个“子任务”预算,“子任务”预算着“模块”阶段等级的升级来编制。根据前面本分课题 WBS 分解图,本分课题包括三个子任务:Web 文本搜索技术研
44、究(2-1)、Web 多 搜索技术研究(2-2)、和搜索引擎开放评测平台技术研究(2-3)。在子任务(2-1)中包括 Web 建模(2-1-1)、Web 数据挖掘(2-1-2)、新一代索引结构(2-1-3)、和 网络(2-1-4)。在子任务(2-2)中包括语音识别与检索研究 (2-2-1)、图像概念识别与检索研究 (2-2-2)。子任务(2-3)是评测平台搭建,不用进一步划分。4.1.1 分课题的技术路线及技术方案Web 建模(2-1-1)(1) 研究 Web 信息的演变。以信息的生存周期为主线,结合对内容的分析,研究不同种类 Web 信息的出现、存在、 、更新和消失的现象,以及哪些现象对 W
45、eb 信息结构的演化造成的影响,包括在不同层次结构意义下Web 信息的变化(即不仅考虑网页的增减,也考虑 和机构的出现和消亡)。(2) 研究 Web 信息的搜集策略。研究信息搜集过程模型,尤其是增量搜集的模型,包括搜集过程 的选取,进展顺序以及对不同类型信息搜集的频度 。对所搜集到的数据集合的总体性质能够有科学的评价,在增量意义上,文件:课题管理规定三级文件24还要考虑减少重复搜集,提高所获得信息的时新率。Web 建模研究方案将体现两个特点:(1)理论研究与大规模数据实验相结合将是本项目研究方案的基本特点。(2)子问题的设计相辅相成,在研究过程中相互促进,亦即对 Web 信息的演变的研究将伴随
46、有大量的信息搜集活动,而信息搜集活动的有效性也取决于对 Web 信息的演变认识的程度。 通过新的数据分析来 在 Web 环境下各种已有结论的参数(或者结论本身)的变化;采用随机过程的方 定信息搜集策略。Web 数据挖掘(2-1-2)Web 用户行为宏观分析。通过 Web 用户行为的宏观分析,可以了解 Web 用户群体的整体行为特征。这些行为特征包括:用户使用 Web 的时间和地域信息,用户浏览网页的分布情况,用户对网页中内嵌 的点击情况,用户搜索网页的 串提交、结果点击情况等。利用这些行为特征,可以优化 建设,优化搜索引擎的交互界面和排序算法,优化浏览器的设计。Web 用户的个性化分析。根据
47、Web 用户的长期和短期的行为分析,可以推测出用户当前的信息需求。用户长期和短期的行为包括:用户浏览过的、网页以及在各个网页(以及内部的内容块)停留浏览的时间,用户点击过的网页,用户过的串以及对搜索结果的点击查看情况等。我们希望能够把行为特征和其他特征纳入一个 学习的模型,从而获得综合的最优方式。此外单个用户的行为特征往往是包含很多噪音信息的,通过多个用户行为特征的合并,可以有效地减少这种噪音信息。基于用户行为分析的 发现,我们研究利用用户提交的关键 词来发现热点 ,和利用用户点击浏览的网页来发现热点 。用户提交关键词,其信息需求的来源可能是从 Web 的文本中获得的,也可能从现实生活中真正需
48、要的。因此,通过分析提交的 词,可以发现 讨论的热点 和热点话题。此外用户也会通过 其浏览器收藏夹内的 ,并且以此为通过点击网页上的超 在 Web 上游走。可以通过浏览器 的日志发现用户关心的热点 。更进一步,我们希望发现 信息通过 Web 的普遍规律。利用 Web 信息的 规律,可以设计促进或者组织 信息的有效方式。文件:课题管理规定三级文件25基于社交文本流的 发现,关键问题是 确定和 建模。首先研究如何确定在网络用户产生的内容中,哪些 值得关注。然而,要精确的确定是依赖于特定应用的,所以我们在开展研究中,会有集体讨论和与潜在 监测系统用户的讨论。我们拟采用基于统计生成模型的方法,并设计一
49、个新的概率主题模型用于刻画网上社区的报告和讨论。该模型中将包含主题内容,时间和 网络方面信息。满足了某些条件的主题,就会被确认为值得关注的 。新一代索引结构(2-1-3)我们计划使用基于位置的索引结构结果来构建支持搜索引擎检索的倒排文件,每个词的倒排表只包含位置信息,不再是传统索引的三元组(<d,f,p>, d 是文档号,f 是出现次数,p 是位置)。即把整个文档集看成一个词序列,每个词都有一个其相对于序列开始的绝对位置值。每个被索引词对应的倒排表只包含这个词在序列中出现的位置。同时,使用文档边界数组保存每个文档在词序列中的边界位置,便于把位置信息转成文档号时使用。在位置索引结构,
50、如果文档集很大,那么这些文档拼接后产生的序列的长度也会变的很长,往往超过 32 数表示的范围。这导致在解压数据时,需要从CPU 到内存多传输数据量。考虑倒排表中的数字是进行 d-gap 的,真正需要用64 位的情况很少。所以需要一种更加紧凑的表示形式来表示每个偏移位置。在检索的过程中,我们 的内容是文档号,出现的位置,所以我们需要把位置信息快速的转成对应的文档号。当文档边界数组非常巨大时,如何高效地把位置转文档是一个非常关键的问题。这个问题可以转化为一个更常见搜索问题:给定一个正整数 p 和一个有序数组 T,找出在 T 中第一个大于等于 p 的元素的下标 k。网络(2-1-4)对于一个应用系统
51、,如果要对其构建网络关系建模,首先就需要确定网络中的节点和建立 关系的规则。实体发现、分类、标注和排序等等是构建网络中确定节点关系的重要组成部分;社区发现、 、信息 等等是构建网络中确定网络 关系的重要组成部分。由于当前网络中内容和 关系的并存,因此如何更好地对于网络建模,同时包含进内容分析和 分析将是文件:课题管理规定三级文件26未来研究的难点与热点。当前对于网络内容建模的主要模型有:空间向量模型、语言模型、话题模型等等,如何拓展这些模型可以加入关系因子是一个可选的研究方法;同时,借助内容分析来帮助确立关系也是一个可选的研究方法。语音识别与检索研究 (2-2-1)为了能够高效准确地从汉语语音
52、文档中提取内容信息和编制索引,语音识别系统的性能必须有充分的保证。而对于互联网中的语音数据而言,由于来源并不统一,存在着说话人变化、内容主题多样、数据量大等特点,大大增加了语音识别的难度。因此,为了开发有效的语音检索系统,必须考虑互联网语音的特点,一方面进行语音识别自身的技术研究,提高语音识别算法的性能和效率;另一方面 语音检索技术进行研究,设计鲁棒的索引结构和排序准则。(1) 设计能适应不同说话人发音特点的潜说话人声学模型:在声学模型训练阶段,通过引入潜说话人信息构建不同的发音子空间,最终基于单一的通用式声学模型对各种说话人子空间进行覆盖,在识别过程中根据上下文关联信息,由 器自动选择相应的模型子空间进行组合计算,以避免说话人变化的问题。(2) 设计能适应网络语言环境的主题语言模型:在语言模型建模过程中,通过潜狄立克莱分布等主题模型引入主题信息,将其与传统的 N 元文
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度环保型防盗窗产品定制、安装与环保认证协议
- 2025电商企业品牌策划与传播合作协议范本
- 2025年特色商业街区租赁定金合同书
- 2025年度基础设施建设项目承包工程资料审核协议
- 2025版数字经济产业发展认筹协议书范本下载
- 2025年度创业投资入股合作协议书样本
- 2025版新型沙土建材生产合作协议书
- 2025版智能制造企业试用期员工劳动合同范本细则
- 2025版环保型建筑项目施工合同范本下载
- 2025年特色小吃街餐饮项目合作协议范本
- 《月下过小修净绿堂试吴客所饷松萝茶》赏析
- 数据中心负荷计算方法
- 水箱拆除专项施工方案
- YY/T 1851-2022用于增材制造的医用纯钽粉末
- GB/T 20858-2007玻璃容器用重量法测定容量试验方法
- 纪委案件审理课件教材
- 生活中的会计课件
- 辽宁大学学生手册
- 湘美版美术一年级上册全册课件
- 酒水购销合同范本(3篇)
- 师说一等奖优秀课件师说优质课一等奖
评论
0/150
提交评论