




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、DBpedia知识库系统在金属材料中的应用摘要关联数据在不同领域中发展迅速并越来越重要。DBpedia作为一个相对全面的关联数据知识库项目,知识库项目已有包含数十亿的三元组,这些条目涉及不同领域的多个类目。本文旨在利用在DBpedia中的金属材料的知识,为材料专家提供更多有用的服务。一个设计能够以算法从DBpedia中提取金属材料的知识为当地的知识基础。然后,我们建议开发了基于语义距离计算金属材料信息的的实验样机。实验结果表明,该系统可以帮助用户源于DBpedia中快速,方便的找回金属知识。I. 引言语义网的迅速发展,可以根据从WWW的数据来产生大量的RDF数据,大大改进了WWW(万维网)的搜
2、索和导航。 2007年,LOD(链接开放数据)云图只包含12个数据集。然而,已经迅速增加至338的数据集,2013 1 2。LOD云图是在DBpedia中,这是从维基百科中提取的数据集。DBpedia中构造的类别层次结构有529类,这些类目有2333不同的属性描述。所述DBpedia中数据集包含多个数据文件,并且不同的文件包含从维基提取不同数据的信息。 DBpedia中含有大量的领域知识的数据,因此我们所面临的的是如何从庞大的数据集中提取特定领域的知识。维基百科是自然语言,所以它没有语义3。但DBpedia中的数据集,使通过属性产生语义关系。本文的组织结构如下。第2节讨论关于DBpedia中的
3、数据集的相关工作第3节描述了问题定义和目标.第 4节引入了提取算法。第5节给出实验结果,并演示了推荐系统的原型。第6节总结全文,并给出了今后的工作。II相关工作在最近这几年,大量的研究集中在DBpedia中的应用。Alexandre Passant 5使用DBpedia中的数据完成了音乐推荐系统。他们有限的所有实例:音乐家和DBpedia,乐队来自DBpedia, 在这个实验中,语义距离被测量,因此它们不具有其自己的本地数据。莱曼等人6应用大量的实例搜索工具DBpedia数据集的关系找到工具作为语义网知识库中两个对象之间的关系查找。它提供了一种新方法来分析本体源之间的关系。苏查内克等人。 7亚
4、戈的数据应用到飞行计划。该系统能够找到出发城市机场和目的城市机场之间的所有封闭的飞行。关于航班的信息可以从维基百科中提取机场。贝歇尔11提出DBpedia移动应用程序是用于DBpedia中移动设备的位置的中心。客户端地图视图是由RDF三元组获得的SPARQL查询发送到服务器的数据应用到飞行计划。III。目标和方法DBpedia数据集是一个巨大的集成数据集主要从维基百科中提取,提取和数据存储根据不同的文件的属性分类。从官方网站下载的数据集超过10 GB,我们想从庞大的数据中提取相关金属材料的数据集。关于我们如何找到与到特定的金属材料的实体最近距离的相关金属材料的信息,然后将它们推荐给用户。我们是
5、从类文件中提取金属材料实例,从不同的属性文件中提取相应的属性。金属材料通过属性联系其他金属材料。因此这些数据组成金属材料部分知识库。这个实验的基本方法是图1所示,主要分为4个步骤。类别数据包含SKOS类别文件和文章类别文件。属性数据包含抽象文件、类别标签文件,外部链接文件,等等。步骤1。一个算法用于从DBpedia数据集中提取金属材料知识。步骤2。我们与进一步优化提取的数据集,并消除冗余和不相关的数据。步骤3。匹配每个实体的属性提取相应的的数据集。步骤4。通过计算与其他实体LDSD特定的金属物质实体的语义距离(关联数据的语义距离)算法,相关金属材料的信息可以被推荐给用户。IV。提取算法DBpe
6、dia日期集包含许多数据文件和文件包含不同分类数据信息。DBpedia提取框架采用各种提取用于翻译的维基百科页面RDF语句的不同部分。分析关于DBpedia中的数据的后3 4中, 我们发现,当我们提取DBpedia中金属材料的数据11的数据文件可以使用。表I示出了我们的方法,这些文件的使用情况和例子。构建金属材料的推荐系统中,递归算法被设计成获得本地数据集。我们限制递归提取分别从类别开始:钢材,类别:合金,类别:金属。数据提取步骤安排如下:步骤1.实体从类别文件提取。我们先从一个任意对象(类:钢材,类别:合金,类别:金属)。例如,我们可以用分类开始:钢材,我们找出其中涉及到所有类别的实体:钢材
7、。然后,这些实体投入列表集合。步骤2.递归算法应用到每个实体,并且所有实体都存储在列表集合。如果达到迭代的层号,算法终止。表1使用dbpedia查找金属材料的的数据文件文件名描述用法例如SKOS 类别概念是一个类别和如何使用SKOS词汇相关的类别金属材料的实例。dbr:Category:Weathering_steel skos:broader dbr:Category:Steels文章类别本文提取的分类类别.金属材料的实例。dbr:Alloy_20 dcterms:subject Dbr:category:Nickel_alloys文摘第一行的维基百科文章提取。金属材料的描述。dbr:All
8、oy_20 dbo:abstract “Alloy 20 is a nickel-chromium-molybdenum ”类别标签分类标签提取。金属材料的标签。Dbr:Alloy_20 rdfs:label “Alloy 20”图像维基百科页面提取的第一印象。金属材料的形象。dbr:Damascus_steel foaf:depiction <http:/./Watered_pattern_on_sword_blade 1.Iran.JPG>原始信息框属性所有属性提取哪些来自维基百科所有信息框。金属材料的一些性质。Dbr:British_Steel dbp:foundation
9、“1967”不同语言间的链接Interwiki提取链接。信息,使用不同的语言来描述相同的材料。dbr:Alloy_steel owl:sameAs dbes:Acero_aleado页面ID文章提取页面id。金属材料的wiki页面的ID。dbr:Alloy_steel dbo:wikiPageID "6186026 " .重定向重定向,维基百科上的文章都是提取之间的联系。金属材料的wiki页面重定向。dbr:Alloy_steel dbo:wikiPageRedirects dbr:High_alloy_steel修订ID维基百科文章提取的修订ID。金属材料的wiki页面修
10、订ID。dbr:Alloy_steel dbo:wikiPageRevisionID “547258385”Wiki页面相应的文章的链接在维基百科中提取。金属材料在维基百科上的文章的链接。dbr:British_Steel foaf:isPrimaryTopicOf < /wiki/Alloy_steel l>图二:金属材料局部图步骤3。收集不同属性列表数据和实体匹配。然后将三重数据主题相匹配的实体进行比赛。金属材料的数据被获得。算法1显示了我们如何在DBpedia中提取实体。在CLIST列表每个实体与三重数据文件类别匹配,并且新的实体放
11、入CLIST。由新实体调用递归算法,我们可以得到所有实体金属材料。金属材料的数据提取主要包括金属材料和金属材料公司的实例,和不同的实例属性。提取的实例可以通过不同的属性,连接在一起,形成一个当地的知识地图。图2是连锁图的一部分金属材料的数据。类别类型:钢材由RDF发现:type属性,我们使用抽取算法来寻找其中涉及到合金钢,例如实例:低合金钢和Eramet公司。有关该公司的信息可以通过不同的属性文件中找到。表2提取金属材料算法算法1:ExtractME(StmtIterator categoryFile,列表CLIST)输入:categoryFile,CLIST输出:CLIST1.如果CLIST
12、是空的则返回CLIST2. ELSE FOR CLIST中的每个实体3.在categoryFile EACH统计4. IF(stat.subject等于实体)THEN5. stat.object加CLIST;6. IF(stat.object等于实体)THEN7. stat.subject加CLIST;8. END FOR8. ExtractME(categoryFile,newclist);9. END FOR10.END IFV.金属材料的推荐系统图3。原型系统A计算语义距离算法的使用通常,我们可以直接查询我们想要的结果,但没有推荐。DBpedia官方网站提供了在线查询功能,可以查询相关信
13、息的金属材料SPRAQL9。但SPARQL查询没有推荐功能。例如:前缀dbpedia:< /resource/ >SELECT *在 dbpedia:Alloy_steel ?本文?非公有objcet。它只可以查询一些属性Alloy_steel的信息。它不能推荐我们其他金属材料与Alloy_steel公司协会。维基百科网站也没有推荐,它只提供了一些信息Alloy_steel10。而不是依靠一个完整的DBpedia数据集,我们旨在建立金属材料根据提取的数据集从DBpedia推荐。例如,Alloy_steel之间的语义距离可以计算和其他金属材料。我们可
14、以得到一些其他金属材料实体(High-alloy_steel,Low-alloy_steel等等)与Alloy_steel,和一些公司名称(镍、等等)。有许多类型的语义距离算法,本文使用语义距离计算公式如公式1所示8。之间的语义距离的值是0,1。在公式中,如果有一个实体的李从实体ra实体rb,Cd(ra,rb)等于1;否则Cd(ra,rb)等于0。如果有一个实体n满足(ra,n)和(rb,n),Cio(ra,rb)等于1;否则Cio(ra,rb)等于0。如果有一个实体n满足(n,ra)和(n,rb),本次(ra,rb)等于1;否则Cii(ra,rb)等于0。Cd(li, ra, rb)Cd(l
15、i, ra, rb)LDSDcw(ra, rb) =1/(1 +åi +åi1+log(Cd(li, ra, n)1+log(Cd(li, rb, n)Cii(li, ra, rb)Cio(li, ra, rb)+åi+åi)1+log(Cii(li, ra, n) 1+log(Cio(li, ra, n) 公式1。LDSD措施B.实验原型系统从DBpedia的实体在金属材料之间的联系。这些知识地图形成了一个局部的金属材料知识基础,以及如何利用这些宝贵的知识应该考虑。如图3所示, 我们已经开发了一个实验性质的原型系统,适用于金属材料的信息建议。用户可以选
16、择金属材料的名称来查询详细的相应信息。例如,当Alloy_steel被选择时,用户可以查询该金属材料的性质:描述信息(DBO:摘要),图像信息(DBP:hasPhotoCollection),维基ID信息(DBPO:wikiPageID)等。另外,这些信息sameAs的属性:由各种语言由DBP描述,并且可以发现Alloy_steel的不同语言描述的URL。然后,用户可以通过语义距离计算Alloy_steel找到其他语义相关的金属材料和公司名称,用户可以分别查询推荐资源的详细信息。VI.结论在本文中,有关基于DBpedia中领域知识的提取和应用的方式呈现。一种算法设计成从DBpedia中提取金属
17、的材料的知识和语义距离计算用于推荐相关的信息为金属材料。实验样机已经初步展示了我们方法的有效性。在未来中,提取算法将进一步改善,以获取有关金属材料更完整的认识。此外,所提取的知识将被填充到正被开发出一种新设计的金属本体。致谢这项工作是由中国国家自然科学基金项目(No.51271033),河北省自然科学基金(No.F2013208107),河北省教育厅(No.QN20131138,No.ZD2014027)科学基金会的支持。参考1(2011)链接开放数据云图。 在线 LOD社区:HTTP:/ LOD云。净/2 A.霍根A.哈思,A.帕桑特,S.德克尔和A. Polleres,“编织迂腐网络”,在
18、第三届国际研讨会关联数据在网络上(LDOW2010)在WWW2010,2010。3 PN门德斯,M.雅各布和C. Bizer,“DBpedia中:一个多语种的跨域知识库”中LREC,2012年,第1813至1817年。4 J.莱曼,R. Isele,M.雅各布,A. Jentzsch,等人,“DBpedia中-A大规模,多语言的知识基础,从维基百科中提取,”语义Web,第2210-4968,2014年11月。5 A.帕桑特,“使用DBpedia中Dbrec音乐的建议,”斯普林格柏林海德堡,第一卷。 6497,第209-224,2010年11月。6 J.莱曼,J.Schüppel和S.奥尔,“发现未知的连接,在DBpedia中关系Finder中,”在慈善社,2007年,造纸113,第99-110。7 FM苏查内克,J. Hoffart,E. Kuzey和E.刘易斯 - 凯勒姆,“YAGO2s:模块化高质量的信息提取与应用程序进行飞行计划,”在BTW,2013年,515-518页。8 A.帕桑特,在AAAI春季研讨会“测量距离的语
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 护理管理艺术
- 企业合规考察课件
- 2025五指山市南圣镇社区工作者考试真题
- 2025台州市天台县洪畴镇社区工作者考试真题
- 塑料盆注塑模具设计图
- 奥数课件及教案
- 学前教育学课程诊改报告
- 插件网络请求的效率优化方案
- 2024-2025生产经营负责人安全培训考试试题【考点提分】
- 2025年公司主要负责人安全培训考试试题答案高清
- ERP项目可行性研究报告(可编辑)
- (完整版)信号与系统(吴大正)-完整版答案-纠错修改后版本
- 2025标准新版装修合同范本
- 足球俱乐部青训管理制度
- 《质量成本培训教材》课件
- 人教版-八年级数学上册-竞赛专题分式方程(含答案)
- DB31∕723-2019 铝塑复合板单位产品能源消耗限额
- 【MOOC】宋词经典-浙江大学 中国大学慕课MOOC答案
- 公司内部审计制度模版(2篇)
- Charlson合并症指数诊断ICD-10编码表
- 联通新员工培训
评论
0/150
提交评论