TRS全文数据库介绍_第1页
TRS全文数据库介绍_第2页
TRS全文数据库介绍_第3页
TRS全文数据库介绍_第4页
TRS全文数据库介绍_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TRSDataBaseServer

全文数据库北京拓尔思信息技术股份有限公司什么是全文数据库数据库存储在计算机内的有组织的数据集合

网状层状关系型关系型数据库全文型数据库集结构化与非结构化检索于一体的数据库

百度GoogleTRS全文型数据库是以结构化及非结构化数据检索为关注视角(而非实体间如何组织)的数据库技术各实体与实体之间的联系均用关系模型来表示 OracleSQLServerDB2结构化与非结构区别全文数据库的定位与关系型数据库相比与关系型数据库相比没有触发器,没有事务,没有实体间的关系有全文索引机制,支持海量数据检索,支持高并发和快速检索响应,支持相关度排序全文数据库工作机制第一步第三步使用采集工具采集数据,装入全文数据库全文数据库通过接口接收到检索请求,进行处理第二步全文数据库建立索引第四步返回命中结果集检索结果展现全文数据库细分互联网级搜索引擎企业级搜索引擎允许有一定的更新延迟需要快速响应,但只求查准,不求查全需要能主动发现新的网页不允许有延迟既要查准,也要查全采集源类型广泛(企业内各型数据)百度GoogleTRS融合互联网搜索和企业搜索互联网搜索和企业搜索并非一回事典型搜索引擎方案系统架构异构数据统一管理,非结构化和结构化数据联合检索Oracle,DB2,SQLServer…Notes,邮件服务器FileSystem:Word,PDF,EXLWeb:HTML,XMLMail,NewsAudio,VideoFlash

结构化数据:SQL查询非结构化数据:全文检索和搜索引擎但用户的数据在很多情况下是结构化数据+非结构化数据+半结构化数据北京拓尔思信息技术有限公司CoreIndexingServerContentCapture&IndexDATABASESQLSERVERORACLESYBASEDB2LotusDominoWebsite&PortalEIPERPSPSKMCISFile&DocumentMicrosoftOfficeAdobePDFRTFTEXTXMLMulti-MediaVideoAudioFlashMovieSEARCHSearchApplicationServices性能测试数据量PCServer数目速度(秒)1000万1关键词检索*0.075逻辑表达式**0.3092000万2关键词检索0.076逻辑表达式0.3144000万4关键词检索0.103逻辑表达式0.377测试环境:Dell

2850(2xCPU,4G内存,10000转硬盘,RedhatAS4.0)性能测试数据量并发数速度(秒)1000万1关键词检索0.08逻辑表达式0.3110关键词检索0.25逻辑表达式0.5750关键词检索1.26逻辑表达式4.75100关键词检索2.50逻辑表达式13.12TRS全文数据库集群跨平台支持,多种开发接口平台:OS:Windows,Linux,Unix。DB:Oracle,DB2,SQLServer,Sybase应用服务器:IBM,BEA,Tomcat等Web服务器:各种Http服务器开发接口:C/C++J2EE.NETTRS搜索引擎行业地位公司是中文全文检索技术的创始者公司在2000年首先在国内提出中文内容管理理念和技术赛迪顾问2008年独立调查数据表明TRS是国内:企业搜索软件第一名主要竞争对手均为国际知名厂商2007年中国企业搜索产品

市场主力厂商份额结构深厚的科研基础和积累拥有自主核心技术和知识产权,研发力量强大在信息检索、知识挖掘和中文信息处理方面具有国内外领先的研究能力和研究成果承担多项国家863项目获得国家科技进步二等奖,电子工业部科技进步一等奖2001年国家推荐的12个优秀软件产品之一拥有UNDP援建的中文信息处理研究中心和国内外多所大学、研究机构建立了长期合作研究关系清华大学(中文智能语言处理)香港中文大学(信息检索)美国VirginiaTech.(数字图书馆和信息检索)“TRShasthebesttechnologyinChineseTextRetrievalareainChina.ItisoneofthestrongestsoftwaredevelopmentfirmsinChina.”-Dr.KaifuLi,VPofMicrosoft,andformerlyManagingDirectorofMicrosoftResearchInstitute.TRS获得国家科技进步奖国网搜索引擎

--融合互联网搜索与企业搜索于一体的搜索应用每天可支持1000万的访问次数国网搜索引擎

--融合互联网搜索与企业搜索于一体的搜索应用主要功能(二)——信息检索本站检索网站群检索服务检索文档检索国务院公报检索文件检索图片检索联合检索引导式智能检索国防部网站搜索引擎国内最大规模的多媒体、多文种新闻信息综合性数据库新华社多媒体数据库

“新华搜索”系统

实现全方位新闻搜索

2008年北京奥运会前夕,“新搜”系统正式上线,先期推出了新华网文字、图片、网页等搜索功能,为全球网民了解北京奥运会的精彩内容提供了专业的搜索服务,受到网民欢迎。奥运会结束之后,新华网技术平台加紧开发建设,不断完善“新搜”系统,新推出了视频搜索、多语种搜索和新华网地方频道搜索功能,功能更为强大、实用。背景信息涉及政治、外交、经济、文教、科技、法律等各个领域并具有信息量大、权威、准确、及时、丰富等特点,不仅为国内外的新闻机构和企事业单位提供大量的新闻素材,同时也承担国家重大活动的新闻报道工作新华社多媒体数据库始建于1999年,采用TRS全文检索的核心技术,2002年,TRS公司与新华社技术局再次合作实施了新华社多媒体数据库英文检索引擎的提速改造,2008-2009年再次扩容升级。目前,多媒体数据库中已经存储了上亿条多媒体信息,数据容量超过20T,内容涵盖中、英、法、西、阿、俄等9大主流语种,以文字信息为主,包含图片、图表和音视频信息。26专利信息服务平台试验系统26项目待检索文本数据总数据量约1-2亿条记录。每条记录20-80个字段不等。其中,专利文摘检索数据8000万条,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论