




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多 语 言 翻 译 搜 索 引 擎商业计划开发者:刘 姝 施 澍 黄嘉露 赵 雅 2004年12月(一) 项目综述1项目背景: 在信息爆炸的今天,如何从网络上快速、准确地获取所需要的信息已经成为人们越来越关注的话题。搜索引擎的诞生正是为了解决这个问题。通过使用搜索引擎,我们只需要输入少量的关键字,就可以在数秒时间内得到所需的信息结果集,从而大大提高我们的工作效率。但是就目前的搜索引擎而言,存在的问题还有很多,比如:如何提高搜索的精确度和结果的有效性,如何提高搜索引擎的效率和性能,如何构建具有智能代理的信息过滤和个性化服务,如何适应交叉语言在搜索中的使用等等。因此,搜索引擎已经成为了一个新的研究、开发领域,由于对它的研究需要涉及到信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以极具综合性和挑战性。又由于搜索引擎有大量的用户,有很好的经济价值,所以引起了世界各国计算机科学界和信息产业界的高度关注,目前的研究、开发十分活跃。 通过研究目前搜索引擎的发展趋势,我们把注意力集中到了如何开发搜索引擎处理交叉语言的能力之上。交叉语言信息检索是指用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检索,返回能够回答用户问题的所有语言的文档。如果再加上机器翻译,返回结果可以用母语显示。这对于经济全球化、互联网跨越国界的今天,无疑具有很重要的意义,但是由于语言之间在表达方式和语义对应上的不确定性,这个方向的研究还处于初步阶段,是挑战但更是机遇,我们认为开发一个具备交叉语言处理能力的搜索引擎是势在必行的。2项目内容: 我们计划构建一个带有多语言翻译功能的搜索引擎。它使用中文关键词作为输入,同时返回不同语言的结果文档集合。 基本的处理模块如下图所示:多种语言的翻译模块搜索引擎查找关键字结果集合的处理模块关键词处理模块结果集合中文关键词各个模块主要完成以下功能:关键字处理模块:该部分对中文关键字进行处理,如果关键词是短语或词组,需要进行切词等操作,以得到翻译模块的合适输入多种语言翻译模块:该部分进行基于词典的多种语言翻译的工作,将关键词翻译成目标语言搜索引擎查找模块:构建高效的搜索引擎寻找和目标语言相关的文档集合结果集合的处理模块:检验结果是否符合要求,机是否是目标语言的文档集合等等为了验证项目的可行性,我们希望通过以往的积累,快速开发出一个可以用于演示的原型系统,支持最基本的双语翻译功能(中-英),提供专用名词类的查询,并且评估它的测试效果,给出评估报告和可行的改进方案。(二) 商务意义 本项目可以运用在国内还没有提供多语言支持的现有搜索系统上(如百度),也可以用在提供搜索功能的门户网站上。因此可以把客户定位到这两个方面。(三) 市场分析 目前国内比较有名的搜索引擎包括几下几个: 百度搜索 GOOGLE搜索 天网 网易(163)搜索 新浪搜索 搜狐搜索 雅虎搜索 我们来分析这些搜索引擎使用的核心技术和特点,作为与我们的系统开发的参考: 百度: 百度一直以开发最符合中国人使用习惯的搜索引擎为己任,经过三年努力,百度搜索引擎已成为世界上最强大的中文搜索引擎。 核心技术:超链分析 超链分析技术,是新一代搜索引擎的关键技术,已为世界各大搜索引擎普遍采用,百度总裁李彦宏就是超链分析专利的唯一持有人。在学术界,一篇论文被引用得越多就说明其越好,学术价值就越高。超链分析就是通过分析链接网站的多少来评价被链接的网站质量,这保证了用户在百度搜索时,越受用户欢迎的内容排名越靠前。 更大、更新、更快 百度在中文互联网拥有天然优势,支持搜索1亿3千万中文网页,是世界上最大的中文搜索引擎。 并且,百度每天都在增加几十万新网页,对重要中文网页实现每天更新,用户通过百度搜索引擎可以搜到世界上最新最全的中文信息。百度在中国各地分布的服务器,能直接从最近的服务器上,把所搜索信息返回给当地用户,使用户享受极快的搜索传输速度。 为中文用户度身定做 百度深刻理解中文用户搜索习惯,开发出关键词自动提示:用户输入拼音,就能获得中文关键词正确提示。 百度还开发出中文搜索自动纠错;如果用户误输入错别字,可以自动给出正确关键词提示。 GOOGLE搜索 Google成立于1997年,几年间迅速发展成为目前规模最大的搜索引擎,是目前 最优秀的支持多语种的搜索引擎之一,并向Yahoo、AOL等其他目录索引和搜索引擎提供后台网页查询服务。目前Google每天处理的搜索请求已达2亿次!而且这一数字还在不断增长。Google数据库存有约3,083,324,652亿个Web文件。属于全文(Full Text)搜索引擎,提供网站、图像、新闻组等多种资源的查询。 Google 的使命就是要为您提供网上最好的查询服务,促进全球信息的交流。 Google 开发出了世界上最大的搜索引擎,提供了最便捷的网上信息查询方法。通过对 30 多亿网页进行整理,Google 可为世界各地的用户提供适需的搜索结果,而且搜索时间通常不到半秒。 Google提供常规及高级搜索功能。在高级搜索中,用户可限制某一搜索必须包含或排除特定的关键词或短语。该引擎允许用户定制搜索结果页面所含信息条目数量,可从到条任选。提供网站内部查询和横向相关查询。Google还提供特别主题搜索,如:Apple Macintosh, BSD Unix, Linux和大学院校搜索等。Google允许以多种语言进行搜索,在操作界面中提供多达余种语言选择,包括英语、主要欧洲国家语言(含种东欧语言)、日语、中文简繁体、朝语等。同时还可以在多达多个国别专属引擎中进行选择。 搜索规则:以关键词搜索时,返回结果中包含全部及部分关键词;短语搜索时默认以精确匹配方式进行;不支持单词多形态(Word Stemming)和断词(Word Truncation)查询;字母无大小写之分,默认全部为小写。 搜索结果显示网页标题,链接(URL)及网页字节数,匹配的关键词以粗体显示。其他特色功能包括“网页快照”(Snap Shot),即直接从数据库缓存(Cache)中调出该页面的存档文件,而不实际连接到网页所在的网站(图象等多媒体元素仍需从目标网站下载),方便用户在预览网页内容后决定是否访问该网站,或者在网页被删除或暂时无法连接时,方便用户查看原网页的内容(注:国内用户目前暂时无法使用Google的网页快照)。 Google借用Dmoz的目录索引提供分类目录查询,但默认网站排列顺序并非按照字母顺序,而是根据网站PageRank的分值高低排列。Google的“蜘蛛”程序名为“Googlebot”,属于非常活跃的网站扫描工具。Google一般每隔天派出“蜘蛛”程序检索现有网站一定IP地址范围内的新网站。登录Google的周期一般为个星期(从提交网站到被索引)。天网 天网系统由北京大学计算机系网络研究室设计开发。目前已收录了1.05亿网页和大量的新闻组文章,更新较快,功能规范;反馈内容完整,包括网页标题、日期、长度和代码;可在反馈结果中进一步检索;支持电子邮件查询。 天网提供的服务还包括“天网目录”和“天网主题”。前者利用天网课题组自行开发的中文网页的自动分类技术,将网页分类组织成层次结构;后者则包括了几个极具特色的栏目,如“北京大学校内搜索”、“北京化工大学校内搜索”、“新闻搜索”、“美国1000所大学搜索”、“Unix相关搜索”。 天网搜索引擎的特点 在文件格式上即支持www文件传输格式,也支持FTP文件传输格式。天网将FTP文件分成电影、动画片,mp3音乐,程序下载,开发资源共四大类,用户可以象目录导航式搜索引擎那样层层点击下去查找自己需要的FTP文件。网易(163)搜索 网易公司(NASDAQ: NTES)是中国领先的互联网技术公司,在开发互联网应用、服务及其它技术方面,网易始终保持国内业界的领先地位。网易对中国互联网的发展具有强烈的使命感,网易利用最先进的互联网技术,加强人与人之间信息的交流和共享,实现“网聚人的力量”。 自1997年6月创立以来,凭借先进的技术和优质的服务,网易深受广大网民的欢迎,目前注册用户已达133,000,000人,日访问量达315,000,000,曾两次被中国互联网络信息中心(CNNIC)评选为中国十佳网站之首。 在开发互联网应用、服务及其它技术方面,网易始终保持业界的领先地位,并取得了中国互联网业的多项第一:第一家中文全文检索,第一个大容量免费个人主页基地,第一个免费电子贺卡站,第一个网上虚拟社区,第一个网上拍卖平台。所有这些成绩将载入中国互联网发展的史册。 通过不懈的技术创新和敏锐的市场观察,网易正在成为一个集丰富的网上内容,活跃的虚拟社区和大规模的电子商务平台於一身的精彩网站。 网易具有全面而精彩的网上内容。我们开发、组织并推出了18个各具特色的网上内容频道,为用户提供国内国际时事、财经报道、生活资讯、流行时尚、影视动态、环保话题、体坛赛事等信息。我们同国内外100多家网上内容供应商建立了合作关系,以确保网上内容的丰富性和独特性。网易的45种免费电子杂志,目前拥有15000000份的订阅量。网易是中国第一家能让用户根据自己的兴趣和爱好创建“个性窗口”的网站,这一服务也叫“在线个性化服务”。同时,网易还是中国第一家免费为用户提供主页空间的网站。 网易是中国首家提供在线互动式社区服务的互联网公司。我们的虚拟社区提供了1,800个论坛,主题包罗万像,大到时事评论,小到厨艺交流,人们可以根据自己的兴趣,张贴信息和文章,发表意见,并对别人的意见作出评价。 网易还提供了多种类型的社区聊天室,最高峰时甚至有55476人同时在线进行聊天,注册社区成员可以在聊天室聊天,叁与调查,并且可以向其他注册成员递送即时信息。 网易也是中国首家提供在线拍卖业务的互联网公司。我们推出了永久性“商家对消费者”的拍卖服务。我们的电子商务平台能支持各种网上支付形式,包括网上信用卡和记帐卡,用户还可以用支票支付或选择现金快递支付。此外,我们还同物流供应商结盟,以使在电子商务平台上进行交易的卖主能以低价进行货品交易。 2000年11月份,网易推出网易商城,它为电子交易商务供应商和传统企业客户提供了在线电子商务平台。 作为中国网站的领先者,网易公司致力於电子商务及IT产业的持续发展,同时也在努力促进中国人民的数字化生活。为了这个目标,网易正在通过广阔的虚拟社区,把千百万的中国人民聚集在一起,实现最新资讯的共享。网易公司将继续开发最先进的技术,为用户提供更好的服务,为他们创造更愉悦的在线体验。 网易全面实行收费网站登录,网易搜索引擎登录可以分为经济型登录500元/年、超值型登录2500元/年、扩展型登录4500元/年和固定排名第一到到五位按关键词不同收费。新浪搜索 新浪(NASDAQ: SINA)是一家服务于中国大陆及全球华人社群的领先在线媒体及增值资讯娱乐服务提供商。新浪拥有十五家地区性网站,以服务大中华地区与海外华人为己任,通过旗下三大业务主线:即提供网络媒体及娱乐服务的新浪网(SINA.com)、提供用户付费在线及无线增值服务的新浪无线(SINA Online)以及向中小型企业提供增值服务的新浪企业服务(SINA.net),提供包括门户网站、收费邮箱、无线短信、虚拟ISP、搜索引擎、分类信息、在线游戏、电子商务、网络教学、企业电子解决方案在内的一系列服务。 新浪在全球范围内拥有超过8328万注册用户,各种付费服务的常用用户超过1000万,是中国大陆及全球华人社群中最受推崇的互联网品牌。 新浪将业务重点放在中国大陆,其营业收入的96% 即来自这一地区。据中国互联网络信息中心(CNNIC)公布的中国互联网络发展状况显示,中国目前拥有6800万互联网用户,居世界第二位。同1997年10月第一次调查结果62万上网用户人数相比,现在的上网用户人数已是当初的109.7倍。随着中国经济的迅猛发展,作为中国最大的网络媒体公司,新浪将直接受惠于这一巨大的成长空间。 新浪于2001年陆续推广出竞价排名、中国搜索联盟推荐、快速登录、推广增值服务、固定排名、港台北美三地网站推广、一点通、图片搜索排名、免费登录。搜狐搜索 搜狐国内最著名的门户网站,也是国内最早提供搜索服务的站点。互联网概念在国内的普及,搜狐功不可没。在2001年年初由CNAZ(中文网站评估认证网)举办的搜索引擎网络专项功能排名调查中,搜狐名列第一。 搜狐设有独立的目录索引,并采用百度搜索引擎技术,提供网站、网页、类目、新闻、黄页、中文网址、软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。 搜索规则:网站搜索(默认)时,范围仅限于自身目录中的注册网站。但在目录中没有相应记录的情况下,自动转为网页搜索。网页搜索时则调用百度进行检索。此外,用户还可以选择“综合”搜索同时查找匹配的网站和网页,返回的结果中网站链接显示在页面上半部,而来自百度搜索引擎的网页结果则列于页面下半部。 登录搜狐的周期一般为3个工作日,工作人员会Email通知你登录的结果。搜狐是网站最重要的访问来源之一,因此是国内搜索引擎登录的首选。雅虎搜索 雅虎公司是一家全球性的互联网通讯、商贸及媒体公司。其网络每月为全球超过一亿八千万用户提供多元化的网上服务。雅虎是全球第一家提供互联网导航服务的网站,不论在浏览量、网上广告、家庭或商业用户接触面上,都居于领导地位,也是最为人熟悉及最有价值的互联网品牌之一,在全球消费者品牌排名中位居第38位。雅虎还在网站上提供各种商务及企业服务,以帮助客户提高生产力及网络使用率,其中包括广受欢迎的为企业提供定制化网站解决方案的雅虎企业内部网;影音播放、商店网站存储和管理;以及其他网站工具及服务等。 通过对这些资料的仔细研究,发现现有的很多搜索引擎都没有很好地使用多语言交叉查询支持。国内各大搜索引擎只支持中文搜索,而著名的google搜索引擎虽然有多语言结果的返回,但是没有很好的整理这些不同语言的资料,无法直接返回用户希望的某种特定语言的结果集合,所以也不能说在这个方面做得足够好。所以从这点出发我们的搜索引擎有其特色所在,和现有的搜索引擎所关注的技术重点不同,反而能更好地获得市场。而且也能够通过将我们的技术渗透到其它搜索引擎中而和其它的搜索引擎建立合作发展关系。 (四) 技术分析,支持多语翻译的搜索引擎主要是在用于输入中文的情况下,根据需要转换成其他语中的关键词进行查询,除了通用的搜索引擎技术外,主要技术难点还包括以下几个方面:1. 中文词的翻译用户输入的中文查询词转换到相应的其他语言的查查询词是多语翻译搜索引擎的关键部分。有两种方法: 建立语料库通过自然语言处理的方法,找出较为匹配的词语。使用这种方法的难点在于预料库的建立和词语匹配方法。预料库必须考虑到各种专业词汇,从现在哈尔滨工业大学等提供的预料库看,对专业词汇的支持比较有限。 利用已有的翻译技术使用现有的翻译工具,通过其返回的翻译页面提取词语。使用该方法需要利用文本信息检索的方法对翻译页面做适当处理,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论