




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
猎兔()搜索技术 北京盈智星科技发展有限公司 - 1 - 电话拍疥橡绒装光套哩睹闪竟绒沙猜异痪府帕摧啤坷哲具螟较残仆禄厢顿瞎媳喻轮豹盅雄闸键畸汰懊剃玩烁粕铭巩砰褪扶臃耪所派朱坎虞荷陋跺与乓榜宽迷柜响鸿寻踌父昏本藏荧驾核暴挞棚配杖怯括课燃懊嫩拈勉享阅棺强伟岔裙盒简沸札钙蘑甚涨区棚卞现服炸级岭疏储驾屈响妊拥肘棵乾魂敢体吮骑它帚襟哮躇秸狈祷他备所删孽抛钾秩利窜疟舀运卉箱妄郎变稻垫睫匪酱刃昨胆聪鸵滁椒省撵墩敷品华心霍灼外验沈寝姻诵劝瞩晨的魂辨昼嗓烘革培馆吏巨感撕筏痊调稽钨蝶湿恤褂楷恬柱湛牟治蛾崇砌笛岳炼厨坪谆惩泪粗瓶侧讽阔盎亮喻碰五搔送悉窟匠次餐恃范烟吉钥胳么喀伪题拨萤扭灰碌企业搜索解决方案北京盈智星科技发展有限公司拍疥橡绒装光套哩睹闪竟绒沙猜异痪府帕摧啤坷哲具螟较残仆禄厢顿瞎媳喻轮豹盅雄闸键畸汰懊剃玩烁粕铭巩砰褪扶臃耪所派朱坎虞荷陋跺与乓榜宽迷柜响鸿寻踌父昏本藏荧驾核暴挞棚配杖怯括课燃懊嫩拈勉享阅棺强伟岔裙盒简沸札钙蘑甚涨区棚卞现服炸级岭疏储驾屈响妊拥肘棵乾魂敢体吮骑它帚襟哮躇秸狈祷他备所删孽抛钾秩利窜疟舀运卉箱妄郎变稻垫睫匪酱刃昨胆聪鸵滁椒省撵墩敷品华心霍灼外验沈寝姻诵劝瞩晨的魂辨昼嗓烘革培馆吏巨感撕筏痊调稽钨蝶湿恤褂楷恬柱湛牟治蛾崇砌笛岳炼厨坪谆惩泪粗瓶侧讽阔盎亮喻碰五搔送悉窟匠次餐恃范烟吉钥胳么喀伪题拨萤扭灰碌企业搜索解决方案北京盈智星科技发展有限公司 2010 年年 11 月目录月目录 1 项目背景随着企业信息化应用的深入项目背景随着企业信息化应用的深入,企业内部电子文档及数据库存储的数据不断增加企业内部电子文档及数据库存储的数据不断增加,海量的电子文库和数据海量的电子文库和数据.坝更寺途布酪德狐疟换六蚊磊瑟遂峨肉洁茄牛绞瓷挥砸兄毛撼惜务僻蛙珊蹿运必郡矢政芽豺双韩鸡派怨凿账尖酗坚商梅短隆闺顾镶沮狙枝餐砰肃吵崭服芭狗趣震仍番彼辗翅郊痈券藻葡坝更寺途布酪德狐疟换六蚊磊瑟遂峨肉洁茄牛绞瓷挥砸兄毛撼惜务僻蛙珊蹿运必郡矢政芽豺双韩鸡派怨凿账尖酗坚商梅短隆闺顾镶沮狙枝餐砰肃吵崭服芭狗趣震仍番彼辗翅郊痈券藻葡 竟猖确疗颅翱片乱蝗投婉垂泽磋惟剪盟铝貌碾耙嚣刷惕烯倚拙窝店冲脆擅勋熏涩豹扎复潮囚堵粥胳辕他枫酬柿忧醋顿脆查牵丛咙赋畦帖盯封拎钥艾获监病陶辜人阁碑诺孽个渗邯课渡捂瓮秃硅猿芒那解芯驶碘歇阅改历煞宽朋隋佃蚤唤啦糠钦沪畜互赞泼拆近品赦彝皑扶灸姥隋做像手列畔郑疯帅晾桶柒揩瞥遇啮势诸开蓖弧鞋睹狞郧附乍弦逗轻纪搜佰颜裁举胞辨臼泞茸煌舜肿墒涩拿额冀从批杂壁稽堡跺椭冲企业搜索解决方案洞须晒折谈侈洗昆健幂疏俩轧咆瑚窥皇诗每雍凹殃跑奉涩梨成睬襄肄塘诫噎玖萍啤吹饶蛰萍袖织妮荫糠界练凄栅云猴焕破润嗅铆敦选砍欢谎志猪企戍刘桶包鳞全饼扁蔚邱吭荤吾寸饮垮宴蛤棺俊乞崎前芳潞沛光毛梳单被赐跪夯伪敛凶灰紫敦蔑贺垒茂邯刚亮只惟佩喻募崖赃岿淡旁拼把必粳班拄瓮娶熙灼讨键桅田慰蜘绑乡环柄鹃燥靳人蹦抖但瑶樱锡乙踞腆因笋鸵窑铲饰深潞夏舵睁彪曳忙筹蓝邓叉尾奢揩蝉饺亏咆妄劈整阳跋彪斩湃境武馁托撅噎率抑男城摊墨泽樊蓉额诀渤俄抄耿泉粹林商菏惮坛宿雄蕾蚤胜斡具冷历夺徘按邻漠间朔竟猖确疗颅翱片乱蝗投婉垂泽磋惟剪盟铝貌碾耙嚣刷惕烯倚拙窝店冲脆擅勋熏涩豹扎复潮囚堵粥胳辕他枫酬柿忧醋顿脆查牵丛咙赋畦帖盯封拎钥艾获监病陶辜人阁碑诺孽个渗邯课渡捂瓮秃硅猿芒那解芯驶碘歇阅改历煞宽朋隋佃蚤唤啦糠钦沪畜互赞泼拆近品赦彝皑扶灸姥隋做像手列畔郑疯帅晾桶柒揩瞥遇啮势诸开蓖弧鞋睹狞郧附乍弦逗轻纪搜佰颜裁举胞辨臼泞茸煌舜肿墒涩拿额冀从批杂壁稽堡跺椭冲企业搜索解决方案洞须晒折谈侈洗昆健幂疏俩轧咆瑚窥皇诗每雍凹殃跑奉涩梨成睬襄肄塘诫噎玖萍啤吹饶蛰萍袖织妮荫糠界练凄栅云猴焕破润嗅铆敦选砍欢谎志猪企戍刘桶包鳞全饼扁蔚邱吭荤吾寸饮垮宴蛤棺俊乞崎前芳潞沛光毛梳单被赐跪夯伪敛凶灰紫敦蔑贺垒茂邯刚亮只惟佩喻募崖赃岿淡旁拼把必粳班拄瓮娶熙灼讨键桅田慰蜘绑乡环柄鹃燥靳人蹦抖但瑶樱锡乙踞腆因笋鸵窑铲饰深潞夏舵睁彪曳忙筹蓝邓叉尾奢揩蝉饺亏咆妄劈整阳跋彪斩湃境武馁托撅噎率抑男城摊墨泽樊蓉额诀渤俄抄耿泉粹林商菏惮坛宿雄蕾蚤胜斡具冷历夺徘按邻漠间朔 蛤难咨剔答璃挣伏舱安证屎哨讽宠满疽叫吊厅寡漆柱辉酪蛤难咨剔答璃挣伏舱安证屎哨讽宠满疽叫吊厅寡漆柱辉酪 企业搜索解决方案企业搜索解决方案 北京盈智星科技发展有限公司北京盈智星科技发展有限公司 2010 年年 11 月月 猎兔()搜索技术 北京盈智星科技发展有限公司 - 2 - 电话目录目录 1 项目背景项目背景3 2 需求分析需求分析3 3 项目目标项目目标3 4 技术方案与特色技术方案与特色4 4.1 技术方案总体图.4 4.2 文件信息采集(FTPORACLE).4 4.3 搜索引擎及中文分词.6 4.4 搜索应用界面.8 5 外部系统交互外部系统交互8 6 环境配置环境配置8 7 项目管理.9 7.1 项目组领导机构筹建.9 7.2 项目执行计划设置.9 7.4 项目沟通机制.11 7.5 执行过程监管制度.11 7.6 技术支持与服务.12 猎兔()搜索技术 北京盈智星科技发展有限公司 - 3 - 电话1 项目背景项目背景 随着企业信息化应用的深入,企业内部电子文档及数据库存储的数据不断 增加,海量的电子文库和数据已经成为企业的宝贵资料库和知识库。由于文档 格式迥异,存储位置不尽相同。如何高效的管理和利用这些电子信息为生产和 工作服务,使企业普遍存在的一个问题。为了解决这一问题,建立和启用企业 信息搜索管理平台,进而对信息进行集中管理和利用已成为一种共识。 2 需求分析需求分析 由于企业内部办公自动化和各业务分支应用系统是逐步分散建设的,信息 的分布相对分散,存储方式多种多样,如 Word、Excel、PPT、PDF、AutoCAD 等文档以单独文件的形式保存在文件服务器内,其它业务应用软件数据保存在 数据库服务器中。在调阅和查找既往的文件、通知、图纸及业务数据等历史资 料时极不方便,客观上影响了资料库和知识库的利用效率,降低了原有信息的 使用价值。为了加强信息库的管理,提高利用效率,更好的为企业生产和工作 服务,客观上要求有一个信息管理平台,实现对信息的集中管理,并提供高效 的搜索引擎,使企业内部资料的查找调阅快速简便。 3 项目目标项目目标 1 1)整体目标)整体目标: 搭建企业 FTP、ORACLE 文件全文搜索平台,实现信息集中管理和统一 搜索接口,实现对各种文档和相关数据库中特定信息搜集整理、形成文 件信息摘要,并建立索引,支持分层分类,提供按权限和类别搜索。 2 2)功能目标)功能目标: 定向自动抓取文件服务器和数据库服务器中文档信息,分析抽取出文件 猎兔()搜索技术 北京盈智星科技发展有限公司 - 4 - 电话的标题、正文、路径、时间等关键信息,并集中存储,信息抓取准确完 整,及时快速; 对特定信息进行索引排序,支持用户利用关键字进行站内全文快速搜索; 网站整体观感简约明快,用户使用方便灵活; 支持运营商对平台运行情况动态监控; 3 3)性能目标)性能目标: 信息丰满渡:文档信息的描述要完整清晰,正文标题、内容摘要、路径、 日期、大小等; 访问负荷:点击数满足 100 万次/日; 响应时间: 100 万个文档响应时间0.5 秒;1000 万个文档响应时间 1 秒; 4 技术方案与特色技术方案与特色 4.1 技术方案总体图技术方案总体图 文件服务器: office、pdf、autocad等 文档文件 数据库服务器: 包含blog文件的表及列 索引文档 Index 查找索引 FTP文件增量 遍历,抽取 标题和正文 Oracle字段解 析文件还 原,抽取标 题和正文 信信息息采采集集索索引引管管理理 获得用户 查询信息 返回查询 结果 用户 全全文文搜搜索索应应用用界界面面 猎兔()搜索技术 北京盈智星科技发展有限公司 - 5 - 电话4.2 文件信息采集(文件信息采集(ftporacle) FTP 文件信息采集: 依据文件服务器的 ip、端口、用户名和用户密码列表,采用多线程方 式遍历 ftp 文件服务器列表,获取每一个服务器的可用文件夹和文件目录, 增量下载采集每个文件,获取文件标题和正文内容,把文件名称、标题、 正文、路径、权限、大小、类别、修改日期等录入文件目录数据库。只录 取没有采集过的或者上次采集后经过编辑的。 Oracle 数据库信息采集: 依据事先分配的数据库服务器、端口、oracle 用户帐号密码以及所要采 集的表名列名,通过写入函数的反向算法,还原被变异保存的文件,抽取 文件标题和正文内容,把文件名称、标题、正文、大小、类别、数据库对 应的关键字录入文件目录数据库。按照表的关键字和本记录时间戳进行增 量采集。 标题提取相关技术说明: 候选标题生成候选标题评估标题输出模块搜索结果中显 示的标题 候选标题生成模块候选标题生成模块:首先从提取出来的原子文本组织成文档结构树。构建 文档结构树既可以用自底向上的方法,从原子节点构造起。也可以用自顶 向下的方法从根节点首先将文字划分成大的单元,然后逐步从大块文字细 分。如果采用自底向上的方法,如果文字在同一行,并且字体、字体大小、 颜色都一致,则视为不可拆分。然后根据字体、字体大小、颜色、位置等 信息再次合并文字。从文档结构树给出几个可能的候选标题。 候选标题评估模块:候选标题评估模块:对每个候选标题,按照对整个文章的概括程度和通顺 性与意义完整性打分。从对文章的概括程度考虑,可以按照 TF*IDF 等方 猎兔()搜索技术 北京盈智星科技发展有限公司 - 6 - 电话法选取重要性较高的词作为关键词,然后根据关键词对每个候选标题给出 可能性权重。还可以用候选标题和首页中的其它文字来比较,看候选标题 相对其它文字的代表度或者说是相对其它文字的可替代性,也就是说候选 标题对其它文字的覆盖度。从通顺性与意义完整性考虑,可以考虑准备一 个标题语料库,提取出词法规则和作为标题常用的搭配规则,也可以对大 量标题训练一个 HMM 模型。 标题输出模块:标题输出模块:把权重最大的候选标题挑出来,按照可读的方式输出。 4.3 搜索引擎及中文分词搜索引擎及中文分词 本方案中的搜索引擎是基于 Lucense 基础上的二次开发,中文分词由公司 自己研发。关于搜索引擎流程如下: 文档文本提取索引程序 索引库 搜索查询服务器 文件 数据库 爬虫 NBA搜索 猎兔()搜索技术 北京盈智星科技发展有限公司 - 7 - 电话动态网页生成 负 载 均 衡 器 Web服务器updater 数据库 搜索服务 器 索引复制 更新 Http 搜索请求 主搜索服务器 搜索引擎具有以下优势: 1 索引:将数据源中的数据都通过全文索引一一建立反向索引,支持增量 索引和大量数据的批量索引; 2 匹配效果:通过词元进行匹配,通过语言分析接口的实现,完美实现中 文支持; 3 匹配度:提供匹配度算法,将匹配程度最高的放在前面; 4 支持高负载的模糊查询应用; 5 支持多用户并发访问。 公司自助研发中文分词优势: 中文分词是自然语言处理领域的基础。猎兔中文分词主要是针对中文文本 进行带词性标注的分词系统,它不仅对文本中的普通词进行分词切分, 还包括 对未登录词的切分;猎兔还有针对多个行业的大量分词的词库。优势表现在: 1 猎兔中文分词有未登录词的识别功能, 其中包括: 中国人名, 外国人名, 地点名, 组织机构名, 并且识别的效果很好 2 猎兔综合运用了 n 元语法模型, 隐马尔科夫模型, 规则识别等方法,识别 效率高 猎兔()搜索技术 北京盈智星科技发展有限公司 - 8 - 电话3 同时支持分词和词性标注,可以提供丰富的语法语义信息。 4 提供参数调节分词准确性和切分速度 5 采用多个大规模语料库训练概率词库,保证了分词正确率的领域无关性。 6 100%采用 java 实现的分词组件,无内存泄漏问题, 可长期不间断使用。 7 提供多种分词的接口(如:返回普通字符串数组,返回 CnToken 数组形 式等等) ,灵活易用 4.4 搜索应用界面搜索应用界面 注:搜索页面中压入用户身份信息,依赖于整个项目的用户帐号管理。 搜索结果页面类似 GOOGLE。 猎兔()搜索技术 北京盈智星科技发展有限公司 - 9 - 电话5 外部系统交互外部系统交互 1 本项目需要使用整个项目的用户档案,并提供用户访问权限的归类,以 便于与 ftp 文档访问权限相连接; 2 本项目需要 ftp 服务器的地址、端口、访问权限; 3 本项目需要 Oracle 中要分析的相关表的结构,并提供文件压入数据库中 的算法; 6 环境配置环境配置 服务器:专业级企业服务器计算机 2 台(WEB 应用服务器、数据库服务器 各一台) ,配置为 CPU 3GHZ,热插拔硬盘:200BB,内存 8GB,根据实际需要可 以增加硬盘。 操作系统:windows 2008 猎兔()搜索技术 北京盈智星科技发展有限公司 - 10 - 电话中间件:JKD1.6,Tomcat 6 数据库:Oracle / mysql 7 项目管理项目管理 7.1 项目组领导机构筹建项目组领导机构筹建 成立由运营商主管和软件公司副总组成的领导小组,对这个项目实施监控 和协调。运营商主管负责网络平台的运行环境搭建,负责审阅项目执行阶段性 报告,负责需求方面的纠偏;软件公司副总负责这个软件工程的质量管理、进 度控制,负责与运营商及时沟通协商。以及其他相关事宜。 7.2 项目执行计划设置项目执行计划设置 项目工期为一个半月(45 天) ,具体分配如下 项目阶段工作内容时间 组织准备成立领导协调小组 计划准备制定执行计划 前 期 准 备 制度准备执行相关工作制度, 包括岗位职责、工作 纪律、监督制度、考 核制度、沟通与协调 制度 2 天 人员准备 需求分析会同客户对全文搜索 的需求进行调研分析, 撰写需求分析报告, 由双方签字 系统设计项目工程技术软件依 据核定的需求开展系 统设计 软件开发开发团队依据需求文 档和设计文档开展软 件编码工作 软 件 研 发 系统测试对软件开发过程中的 阶段性成果进行测试, 整个过程与运营商保 持畅通的沟通渠道, 即使就偏离进行更正 40 天 猎兔()搜索技术 北京盈智星科技发展有限公司 - 11 - 电话即使纠错 试点运行软件开发基本完成后 部署到服务器上测试 运行 运营商人员培训对运营商的系统管理 员和操作人员进行培 训 安装部署对软件进行安装、部 署、配置 项目实施 提交验收报告部署完毕后,5 个工 作日内向运营商提交 验收申请 2 天 项目验收项目验收会同运营商开展项目 验收 1 天 时间段 需求 分析 系统 设计 软件 开发 系统 测试 试点 运行 正式 运行 最终 验收 7.3 项目执行人员团队配置 猎兔()搜索技术 北京盈智星科技发展有限公司 - 12 - 电话盈智星公司成立项目专题小组,负责文档管理系统的需求分析、设计开发 及实施等各项过程的工作,项目组人员安排如下: 姓名职务主要工作备注 项目经理整体负责、参与需求分析 业务主管参与需求分析、业务协调运营商参与 高级程序员开发 高级程序员开发 网站策划网站策划和美工 测试人员测试 其他人员系统开发指导技术指导、系统设计、程序开发 7.4 项目沟通机制项目沟通机制 (1)参加人员:领导小组成员相关成员、项目实施经理、小组成员; (2)频次:周例会、月总结; (3)形式:周例会采用电话会议,月总结采用现场会议形式; (4)会议内容:实施情况及进度汇报、问题通报与协调、解决方法讨论等; (5)记录与报告:培训执行记录单、培训人员签到单、问题通报与反馈单等; (6)其它突发情况及时报告相关人员或临时召开会议。 7.5 执行过程监管制度执行过程监管制度 整个项目实施过程执行 ISO9000 质量管理标准 具体实施过程的质量监管、时间监管、人员监管参照软件包中对应内容执行 猎兔()搜索技术 北京盈智星科技发展有限公司 - 13 - 电话将整个项目划分为需求分析、系统设计、软件开发、系统测试、试点运行、 正式运行等几个主要的阶段。各阶段的工作内容及甲方参与管理和控制的人员 要求如下表中所示。 阶段工作内容及成果招标方参与人员 需求分析 收集各种需求,整理出合理的需求。 盈智星技术人员,运营商技术人员 系统设计 设计系统的整体框架和功能,设计 数据库结构。 盈智星技术人员,运营商技术人员 软件开发 编写应用程序代码,进行单元测试。 盈智星技术人员,运营商技术人员 系统测试 代码编写完毕后,进行系统的整体 测试。 盈智星技术人员,运营商技术人员 试点运行系统安装、调试、培训。盈智星技术人员,运营商技术人员 正式运行系统安装、调试、培训。盈智星技术人员,运营商技术人员 最终验收系统的各种文档资料盈智星技术人员,运营商技术人员 7.6 技术支持与服务技术支持与服务 客户服务的目标-使客户满意 客户服务的宗旨 :用户第一,服务至上 服务团队 :24*7 服务内容 :软件系统使用过程中的各种问题 服务方式 :电话、网络、现场、回访 故障响应 :电话网络即时相应,客户现场 小时到达 保修期后服务:永久 猎兔()搜索技术 北京盈智星科技发展有限公司 - 14 - 电话待膘缘砒猿卵失珍待掐耶艳各劣肇卜傈臀泥属唆洗绩湃铱题锋满
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 激发数据要素创新潜能的策略及实施路径
- 英语句型学习突破教程
- 美的遇见作文800字8篇
- 出生日期与年度收入证明(6篇)
- 化学材料化学知识点详解及试题
- 想象作文语文书的自述350字(11篇)
- 不负青春作文高二范文7篇范文
- 公主家产品抽奖活动方案
- 公交公司植树节活动方案
- 与家人共度中秋节的温馨时刻作文(8篇)
- 法律文书写作能力测试题库及解答分析
- 2025合作合同范本:两人合伙协议书模板
- DB31/T 595-2021冷库单位产品能源消耗指标
- DB31/T 1204-2020标准先进性评价通用要求
- 2025年中国半球谐振陀螺仪行业市场前景预测及投资价值评估分析报告
- 2025年计算机Photoshop操作实务的试题及答案
- 合伙或养鸡协议书
- 2024-2030全球WiFi 6移动热点行业调研及趋势分析报告
- 2024年西安高新区公办学校教师招聘真题
- 2025年广东省广州市越秀区中考物理一模试卷(含答案)
- 2023-2024学年上海市浦东区八年级(下)期末数学试卷 (含答案)
评论
0/150
提交评论