1.1autonomy产品架构和整体介绍_第1页
1.1autonomy产品架构和整体介绍_第2页
1.1autonomy产品架构和整体介绍_第3页
1.1autonomy产品架构和整体介绍_第4页
1.1autonomy产品架构和整体介绍_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Autonomy 产品架构和整体介绍DesignedBy:Autonomy-China P(篇幅和时间的限制,未能将AutonomyIDOL全部功能、参数及原理做最为详尽的阐述,请参考 8.相关文获取最详尽的说明信息)分,查看相关文档,目录一、HP Autonomy 公司介绍3二、HP Autonomy 产品介绍32-1 Autonomy 典型模型42.2 Autonomy2.2.1er 系列产品分类5.5智能数据处理层功能6二次开发和界面展示层功能8分布式8三、Autonomy 产品安装使用9IDOL 安装和初始配置9IDOL 安装简单使用17Connector 安装使用17一、HP Aut

2、onomy 公司介绍Autonomy 提供全面完整的智能软件结构,能够自动化地处理,操作和应用不规整的信息。不规整的信息指的是周围越来越多的人们所熟悉的信息,比如电子邮件,因特网网页,电子报表,OFFICE 文档, PDF 文件,语音文件,文件等等。Autonomy 的技术市场覆盖面相当广泛,几乎各个产业都在应用 Autonomy 的技术来自动化地处理、操作与应用非结构化的信息,如:教育、电信、汽车、金融、咨询、国防、机构、网页服务、法律机构、制造业、化工、销售、高科技等等。在欧洲和高信誉的象征!Autonomy 已有极大的知名度,“ered by Autonomy”是高水平,高质量,Auto

3、nomy 公司,HP 子公司,是全球领先的处理人类易于理解的信息或非结构化数据的软件供应商,处理包括社会、电子邮件、音频、文本、网页内容以及的数据类型,使得企业能够利用他们的数据资产。二、HP Autonomy 产品介绍Autonomy 的新一代IDOL10,是一个单一的处理层,可供组织用于提取各种形式信息的内在含义,包括音频、社交、电子邮件和Web 内容以及结构化数据,如客户交易日志和基于机器的传感器数据等,并执行相关操作。该将Autonomy 的自动处理和理解非结构化数据的基础架构软件与HP 子公司Vertica 针对高度结构化数据进行高性能实时分析的引擎结合在一起。Autonomy产品内

4、部按照分类主要有5个P,产品系列如下。2-1 Autonomy 典型模型基础架构高级带 IAS 结构:图 2-1-a2.2 Autonomyer 系列产品分类由于 Autonomy 产品分类非常多,因此本文档集中描述 IDOL、智能数据处理层功能、二次开发和分布式等。er 系列产品 IDOL 及其相关产品。产品主要分为2.2.1是整个系统的基础,是系统对外提供内容服务的源泉,主要从各种数据源(包括文件系统、数据库、内部其他系统以及独立信息源)信息。根据客户的需求,针对不同的数据格式,采用不同段与方式,真正将各数据孤岛的信息过来,用于资源的整合与使用。如下图所示:采用 Autonomy 提供的多

5、种连接器,分别针对多种异构的数据源,例如互联网系统采用互联网连接器来数据,数据库连接器负责数据库的数据,此外还有 Notes 连接器、文件系统连接器等。Autonomy 连接器具有如下优点:1 自动,配置好之后自动运行,同时数据源变化,同步更新数据;2 能够处理 1000 多种文件格式,能够500 多种应用数据源;3 设计成熟,通过各数据源厂商接口认证,兼容性极强;4 对的数据格式要求极低,能够自动分析并处理、格式化各种数据;5 集成安全权限,能够从不同的数据源继承原有的安全权限设置;另外,和 Eduction 结合作为数据抽取工具,基于模式匹配的语则和字典,能够从多种数据实体中抽出相关的信息

6、内容出来,如实际使用过程中,Eduction号码,电子邮件,客户名称,等。可以使用“字典”和“语法”,两者也可以结合起来,通过相关定义,来流水线作业,对需要的实体进行捕捉,提取,转换以及,做到基于词典的内容抽取,基于表达式的内容抽取,基于概念匹配的内容抽取,还能做情感分析等正判断。2.2.2 智能数据处理层功能IDOLServer-eligentDateOperatingLayer,智能化数据操作,是 Autonomy 搜索的服务产品。IDOLServer 中包含 5 个组件,Age、munity、Content 和 View。Agent是用户服务器,主要负责用户信息的全部信息,如用户名、用户

7、聚焦等等。Category 是分类服务器,主要负责将 IDOL 中的所有数据按照用户指定的逻辑进行分类,并按照指定的标准训练分类,将所有的数据文档归类。Community 是用户和内容交互服务器,用来生成交互信息,如安全字符串、定位等等。Content 是内容服务器,整个 IDOL的部件,所有的文档内容都是以索引结构在Content 组件中的,Content组件是一个数据容器,同时又是一个简单、高效、功能健全的搜索服务器。简单,体现在使用非常容易,一个 action=query&text=关键字,就可以实现对关键字的查询。高效,体现在大数据量、复杂的关键字逻辑表达式、复杂的数据筛选逻辑、复杂的

8、安全确认信息的叠加查询,依然迅速响应。功能健全体现在能够实现这对各种关键字查询逻辑、各种数据筛选逻辑、安全查询逻辑的组合式查询。View 是显示模板,提供了将返回的 xml 格式查询结果嵌套在模板中显示。这几个组件将整个 IDOL整合为一个功能强大的搜索利器,为企业的信息化查询提供强有力的支持。智能数据处理层功能具备以下功能,具体参考文档 Autonomy 解决方案标准版_1.0 版。搜索关键字搜索(Retrieval Lite)标准搜索(Retrieval - Standard)高级搜索(Retrieval - Advanced)联合搜索(Retrieval - Federated)参数搜索

9、(Retrieval - Parametric)搜索导航(AQG)自动摘要(Summarisation)动态同义葱表(Dynamic thesaurus)拼写纠正(Spelling correction)分类分类管理(Categorisation)自动归类(Channels)分类(Channelmendation)分类生成(Taxonomy generation)专业分类(Business Console)聚类基本聚类(Clustering - Basic) 二维地图聚类(Clustering - 2D)实时二维地图聚类(Clustering - 2D Real Time)三维地图聚类(Clu

10、stering - 3D)聚类热点信息和信息(Clustering - Breaking & Hot news)聚类协作与网络(Clustering - CEN)聚类趋势图(Spectrograph)个性化订阅(Agents)自动提示(Alerting)显性个隐性个送(Profiling - Explicit)送(Profiling - Implicit)社区和协作(Community & Collaboration)服务定位(Expertise location)(Expertisemendation)自动关联超级(Hyperlinking)其他功能地图(Geo Spatial)搜索客户端(

11、IQL)邮件推送(ing)2.2.3 二次开发和界面展示层功能Autonomy 的基础结构是基于设计建模及全球分发的,允许选择使用最新的 web 服务标准,包括单一对象协议 SOAP,Web 服务描述语言WSDL。随着对 J2EE 环境和EJB 的全面支持,Autonomy 可以保证其技术可以在任何环境中应用推广。Autonomy 积极主动地了解并实施最新标准,并且承诺一旦新数据标准、通讯协议和数据源在市场上得到大量应用,Autonomy 就可以支持该标准、协议和数据库。Autonomy 提供的 ACI API 开发接口能够灵活而丰富的完成各种功能。它能够很容易的使客户应用程序通过HTTP 命

12、令从 ACI 服务器获得数据内容,同时也能操作返回的结果。服务器间的通信使用XML 的 http 来完成。具体开档,请参考文档ACI_API_7 4_Programming.pdf。2.2.4 分布式考虑到客户对大数据量、高并发、高性能、高可用等方面的海量级应用需求,Autonomy 提供的分布式控制系统专门用来保证系统的容灾备份和负载均衡。其主要组成模块包括:DAH(分布式请求服务器)使用算法将请求转发至不同的 Autonomy IDOL Server 上,实现容灾备份和负载均衡。DIH(分布式索引服务器)将文档分别索引至不同的 Autonomy IDOL Server 中,实现故障切换和负

13、载均衡。DiSH(分布式管理服务器)为 Autonomy 各模块提供关键的、管理、控制和监测功能。 DiSH 采用的方式从位置可与所有Autonomy 服务(例如连接器、DIH、DAH 等等)进行通讯。三、Autonomy 产品安装使用3.1 IDOL 安装和初始配置安装:步骤 1、原始安装运行安装文件,安装 IDOLServer7.2,选择组件的框选择IDOL 和DISH 这两项就可以了,其余没有用;输入cense框弹出的时候,点击浏览框,找到自己的 license.dat 文件(商务提供),其余过程均使用默认配置就可以了。步骤 2、安装分词安装结束后,会自动启动 IDOL 服务。在 win

14、dows 的服务窗口中,将 AutonomyDISH 服务和 AutonomyIDOLServer服务停止,进入安装目录IDOLlangfiles 目录下,将海量分词文件拷贝近来。修改配置:注:最详细的配置文档请参阅或Autonomy 提供的帮助文档。这里只介绍主要的。在安装目录IDOL 目录下 AutonomyIDOLServer.cfg 文件就是整个搜索引擎的及解释如下:配置文件。其主要需要修改的配置Server QueryC AdminCIndexCnts=,nts=*.*.*.* nts=*.*.*.*DelayedSync=FALSE DatabasesNumDBs=23Databa

15、se0Name= Database1 Name=。um_um_qa/Field Prosing/FieldProsing0=SetIndexFields 1=SetIndexAndWeightHigher 2=SetSectionBreakFields 3=SetDateFields 4=SetDatabaseFields 5=SetReferenceFields 6=SetTitleFields 7=SetHighlightFields 8=SetSourceFields 9=SetNumericFields 10=SetParametricFields 11=SetMatchFields1

16、2=SetFieldCheckFields/指定需要索引的字段/指定高权重需要索引的字段/指定 EQUAL、LESS、GREATER、RANGE 参数需要比对的数字类/指定需要按统计个数的字段/指定需要做 MATCH 操作的13=Detec_V4Security14=DetectNotes_V4Security 15=DetectNetware_V4Security16=DetectExchange_V4Security17=Detectum_V4Security18=HideAutonomyMetaDataField 19=LookForLanguage 20=DetectOracleSec

17、urity 21=ExpireDateFields22=SetPrFields/指定 Oracle 安全认证字段搜索系统的应用中涉及到了 notes 系统、um 系统和 oracle 系统的用户注:这里需要特殊说明一下,在权限认证,分别对应 OA、KM 和 TC 组的应用。前两者作为固定产品,它们的权限信息格式固定,已经集成到 Autonomy的抓取工具和 IDOL 产品中去,如上边 14 和 17 是两个安装后的默认操作,对应 notes 和um 的权限认证。但数据库操作的认证格式较为灵活,多半有自己的认证规则,依靠自己定义的表格格式和匹配规则实现,不可能实现的认证,因此需要为 TC 组的

18、oracle 数据库认证手动配置 Oracle 的认证处理。如上 20 是需要手工添加的。SetIndexFields/ Controls which fields are indexed Property=IndexFieldsPropertyFielVs=*/DRECONTENT,*/,*/这里用逗号分割,添加所有想索引的SetIndexAndWeightHigher/ Fields which are indexed wi Property=IndexWeightFieldsweightPropertyFielVs=*/DRETITLE,*/,*/这里用逗号分割,添加所有想索引的高权重S

19、etSectionBreakFields/ Field containing Property=SectionFieldssection numberPropertyFielVs=*/DRESECTIONSetDateFields/ Fields containing the Property=DateFieldsdatePropertyFielVs=*/DREDATE,*/DATESetDatabaseFields/ CSV of field names Property=DatabaseFieldst defined thes databasePropertyFielVs=*/DREDBN

20、AME,*/DATABASESetReferenceFields Property=ReferenceFieldsPropertyFielVs=*/DREREFERENCE,*/REFERENCESetTitleFields/ The one field per Property=TitleFieldst is to bed as the auitle valuePropertyFielVs=*/DRETITLE,*/TITLESetHighlightFields/ Specify the fields whose content is to be highlighted on request

21、 Property=HighlightFieldsPropertyFielVs=*/DRETITLE,*/DRECONTENTSetSourceFields/ Specify which fields are to be used as the source for suggest, summaries, termgetbest/ If none are specified, it uses the index fieldsProperty=SourceFieldsPropertyFielVs=*/DRETITLE,*/DRECONTENTSetNumericFields/ Specify w

22、hich fields are entirely numeric (or a csv of numbers) to be Property=NumericFieldsd for optimised numeric matchingPropertyFielVs=*/MYNUMERICFIELDSetParametricFields/ Specify which fields contain parametric values to be Property=ParametricFieldsd for optimised parametric searchingPropertyFielVs=*/MY

23、PARAMETRICFIELD/这里用逗号分割,添加所有想做统计操作的SetMatchFields/ Specify fields whose entire value is frequently used as a restriction in a search and are thus/d for optimised matching. NB Such fields cannot be numeric or parametric as well.Property=MatchFieldsPropertyFielVs=*/ MYMATCHFIELD/这里用逗号分割,添加所有想做 MATCH 操

24、作的SetFieldCheckFields/ Specify one field per Property=FieldCheckFieldst can be used for fast combine operationsPropertyFielVs=*/MYFIELDCHECKFIELDDetec_V4SecurityProperty=SecurityNT_V4PropertyFielVs=*/SECURITYTYPEPropertyMatch=ntDetectNotes_V4SecurityProperty=SecurityNotes_V4PropertyFielVs=*/SECURITY

25、TYPEPropertyMatch=*notes_v4DetectNetware_V4SecurityProperty=SecurityNetware_V4PropertyFielVs=*/SECURITYTYPEPropertyMatch=*netware_v4DetectExchange_V4SecurityProperty=SecurityExchange_V4PropertyFielVs=*/SECURITYTYPEPropertyMatch=*exchange_v4Detectum_V4SecurityProperty=Securityum_V4PropertyFielVs=*/SE

26、CURITYTYPEPropertyMatch=*umHideAutonomyMetadataFieldProperty=HideMetaDataFieldsPropertyFielVs=*/AUTONOMYMETADATALookForLanguageProperty=SetLanguagePropertyFielVs=*/DRELANGUAGETYPE,*/LANGUAGETYPEDetectOracleSecurityProperty=SecurityOracle/添加 Oracle 认证的检测配置/指定 Property 名称,在下方SecurityOracle配置/指定判断此认证信息

27、的字段/指定判断此认证信息字段的字段指PropertyFielVs=*/SECURITYTYPEPropertyMatch=*oracle/关于安全的详细配置及说明,请参看安全配置详解ExpireDateFieldsProperty=SetExpireDatePropertyFielVs=*DREDATE,*/DREEXPIRE,*/valid_timeSetPrFieldsProperty=PrPropertyFielFieldsVs=*/CREATEALL/Properties/IndexFieldsIndex=TRUEIndexWeightFields Index=TRUEWeight=

28、2SectionFieldsSectionBreakType=TRUEDateFieldsDateType=TRUEDatabaseFieldsDatabaseType=TRUEReferenceFieldsReferenceType=TRUETrimSpa=TRUETitleFieldsTitleType=TRUEHighlightFieldsHighlightType=TRUESourceFieldsSourceType=TRUENumericFieldsNumericType=TRUEParametricFieldsParametricType=TRUEMatchFieldsMatchT

29、ype=TRUEFieldCheckFieldsFieldCheckType=TRUESecurityNT_V4SecurityType=NT_V4SecurityNotes_V4SecurityType=Notes_V4SecurityNetware_V4SecurityType=Netware_V4SecurityExchange_V4SecurityType=Exchange_V4SecuritySecurityType=um_V4um_V4HideMetaDataFields HiddenType=TRUEACLType=TRUESetLanguageLanguageType=TRUE

30、SecurityOracleSecurityType=OracleSetExpireDateExpireDateType=TRUEPrFieldsPrType=true。/Language Types/LanguageTypes DefaultLanguageType=chiDefaultEncoding=UTF8UTF8LanguageDirectory=D:AutonomyIDOLServer/IDOL/langfiles0=chi1=englishchiEncodings=CHISIMPLIFIED:chiCHISIMPLIFIED,CHITRADITIONAL:chiCHITRADIT

31、IONAL,UTF8:chiUTF8Stoplist=chi.datSentenceBreaking=chiIndexNumbers=1breakingenglish Encodings=ASCII:englishASCII,UTF8:englishUTF8 Stoplist=english.datIndexNumbers=1在参照安全配置配置好安全认证之后,重新启动 DISH 和 IDOL 服务,IDOL 服务器就可以正常工作了。IDOL 端口配置如下:9000 端口供接口查询使用,一般是 web 界面或者开发语言接口调用9001 端口供索引数据使用,一般是connector 把数据往 ID

32、OL 中输送。9002 端口供服务端口使用,一般是管理员对该端口进行配置和启停等管理行为使用。IDOL 端口典型分布:另外 DiSH(分布式管理服务器)为 Autonomy 各模块提供 license 服务的一个模块,几乎所有组件(IDOL 和connector)都要向 DISH 请求 license,组件只有得到 license seats 以后才能启动。3.2 IDOL 安装简单使用安装完毕,索引数据到 IDOL 以后可以在浏览器输入命令查询:辅助指令1、IDOL 帮助命令:2、当前 IDOL 状态:命令:效果:3、查看活动日志命令:效果:4.简单搜索交易&highlight=termmmarytermmmary=context3.3 Con

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论