


下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、基于的化学构造搜索方法初探【摘要】化学标记语言l已得到广泛应用,目前eb上存在着大量的以l表示的化学构造信息,ggle、百度等eb搜索引擎只能实现对文本的检索,无法实现对化学构造的检索。本文在分析l特点的根底上,介绍了提取与验证eb上l表示的化学构造信息的方法。利用daylight公司的thr-erlin化学信息数据库系统,提出一种化学构造搜索引擎的设计方案。【关键词】化学标记语言化学构造检索化学构造数据库系统1引言化学标记语言l(heialarkuplanguage)最初于1995年由peterurray-rust等人基于htl2.0开发,尝试解决在internet上进展化学信息交换的问题。
2、1998年2月3发布了xl:可扩展标记语言推荐标准1.0版。化学标记语言l也根据xl的标准进展了更改和修订,成为根据xl的标准重新定义的一种标记语言,是xl的一个应用。l目前的应用已相当广泛,如aterialsgrid、spetra等工程都采用了l,eb上也存在着大量的以l表示的化学构造信息。由于化学学科的专业性和内容的相对独立性,目前化学信息的检索都是基于特定的数据库,如sifinder、hebank、zin、pubhe、hedb、heine等化学数据库。本文提出一种设计方案,将l转换为siles,利用daylight公司的thr-erlin系统,建立针对eb上大量存在的l表示的化学构造的e
3、b搜索引擎。2系统设计框架2.1文档的采集与内容分析文档采集即页面抓取工作,由raler来完成。由一组种子url开场,从种子集url中取出一个url,确定相应的主机ip地址,发出抓取页面恳求。对非重复文档提取出包含于其中的链接,根据制定的过滤策略(相对链接转为绝对链接,并判断链接是否需要下载),把过滤后的url存入url集中。同时对抓取的网页的内容进展简单的分析,保存包含l内容的网页。最终的thr数据库中并不保存整个网页的内容,而只是保存含有l内容的网页url。l表示的化学构造信息具有区别于网页其它内容的显明特征,它以标记开场,以标记来完毕。与标记没有本质的意义,只是起到容器的作用,作为l内容
4、的根,用来告诉其它l处理程序在文档中存在化学内容。与之间可以是任何内容,而且可以嵌套。但是目前看到的一些l文档并未在化学构造信息的最外层加注与标记,而是直接以与表示最外层。在对文档内容分析时要考虑到这两种情况。可以采用形式匹配来分析抓取的网页内容。2.2文档l内容的抓取与有效性验证经过raler的简单过滤,文档内容存储器中的文档都含有l内容。将文档中l内容复制到单独的文件中。文档url与文档产生的l文件具有一对n关系,n为l文件的个数。l内容的有效性验证分三步2,3。第一步确定l内容是否由与标记或与标记所包含。这在2.1节中的文档内容分析时已采用,目的是过滤掉确定不含l内容的文档。第二步,由于
5、l严格遵守xl标准,可以采用ldtd与lshea对l内容进展验证(l1.x采用dtd)。第三步采用基于xslt的验证方法,对l的内容进展分析。比方可以通过xslt来判断l中的原子化合价是否合法,化合物中两个原子之间的间隔 是法合法等。2.3l至siles的转换与siles的存储siles是一种线性的用asii码来表示原子和化学键的化学语言。和其它化学构造表示方法相比,siles简短易读。同一种化学构造用siles来表示要比用连接表(nnetintable)节省50%至%70的存储空间。典范siles可以保证每个化学构造的siles具有唯一性,因此常被作为化学数据库中的索引关键字。l到siles
6、的转换,本设计采用开源软件penbabel提供的api函数。bnversin为转换类,转换伪码如下:bnversinnv(in,ut);if(nv.setinandutfrats(“si,“l)bll;if(nv.read(l).anipulateleulenv-rite(l);thrserver是一后台程序,不允许用户直接对其操作,用户必须通过thrlient对thrserver进展操作。用户通过thrlient将l转换后的siles及l所在的文档url、当前访问时间等存入thr数据库,并以siles作为记录的主关键字。本系统根据daylight提供的thr-erlintlkit来编写lie
7、nt。lient通过server来对thr数据库进展操作。2.4用户界面设计初探用户可以直接输入要检索的化学构造的siles码,或者根据提供的je(je是由peterertl开发的javaapplet,用于在网页上直接描绘化学构造)画出要检索的2d化学构造图,并指定构造检索的类型,je会自动把用户画出的化学构造转化为siles码进展检索。3总结本文提出了一种化学构造搜索引擎的设计方案,针对eb上大量存在的l表示的化学构造进展检索。但是由于l出现的时间相比照拟晚,eb上还有许多以其它格式存储的化学构造信息,下一步要研究提取与验证eb上以其它格式表示的化学构造信息,以便对更多的化学构造进展检索。参考文献:1p.urray-rust,hsrzepa.heialarkup,xlandtherldideeb.1.basipriniples.j.he.inf.put.si,1999,39(6):928-942.2p.urray-rust,hsrzepa.heialarkup,xlandtherldideeb.4.lshea.j.he.inf.put.si,2022,43(3):757-772.3gkutsgv,ern
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 保险中介(代理)AI应用行业深度调研及发展项目商业计划书
- 高精度超声诊断仪行业跨境出海项目商业计划书
- 高精度粉料筛分机行业跨境出海项目商业计划书
- 某年度畜牧业产业分析报告
- 某年度抗高血压药物市场分析及竞争策略分析报告
- 耐冲击塑料安全护栏型材行业深度调研及发展项目商业计划书
- 2025年电影产业票房潜力挖掘与制作发行模式创新策略报告
- 2025-2030中国肉酱行业市场现状供需分析及投资评估规划分析研究报告
- 基于人工智能的2025年工业互联网平台入侵检测系统优化研究报告
- 2025-2030中国联运集装箱行业市场现状供需分析及投资评估规划分析研究报告
- 2025-2030年少儿艺术培训行业发展分析及前景趋势与投资研究报告
- 2025AI智算中心基础设施方案白皮书
- 儿童轮状病毒胃肠炎免疫预防专家共识(2024年版)解读
- 花卉栽培高级工复习考试题库(含答案)
- 2025辽宁中考:英语必考知识点
- BIM技术在建筑行业工程项目施工质量改进与持续改进报告
- 2025年中考物理仿真模拟试卷刷题卷 5套(含答案解析)
- 工程质量管理文件
- 2025“背锅”第一案!宁夏兴尔泰化工集团有限公司“12·2”事故调查报告课件
- 监理部年度安全生产管理工作考核暨安全管理自查报告
- 《古代汉语》否定句否定词课件
评论
0/150
提交评论