信息技术 电子文档语义元数据嵌入规范_第1页
信息技术 电子文档语义元数据嵌入规范_第2页
信息技术 电子文档语义元数据嵌入规范_第3页
信息技术 电子文档语义元数据嵌入规范_第4页
信息技术 电子文档语义元数据嵌入规范_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1信息技术电子文档语义元数据嵌入规范本文件给出了在基于XML的电子文档中嵌入语义元数据的方法,便于机器识别在电子文档中记录和标注语义元数据,用于文档的高效检索和信息提取等智能化处理。本文件适用电子文档系统的开发者与使用者。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T18793—2002信息技术可扩展置标语言(XML)1.0GB/T20916—2007中文办公软件文档格式规范GB/T25100—2010信息与文献都柏林核心元数据元素集GB/T33190电子文件存储与交换版式文档3术语和定义下列术语和定义适用于本文件。3.1语义元数据semanticmetadata表示文档语义的元数。3.2命名实体namedentity所有可用名称标识的事物。3.3资源描述框架resourcedescriptionframeworkRDF用于描述Web资源的特性,及资源与资源之间的关系的语法。3.4RDF属性集resourcedescriptionframeworkattributeW3C(WorldWideWebConsortium)标准,为XHTML扩充某些支持RDF的属性,可将RDF的三元组嵌入在XHTML文档中,或从文件中提取出RDF三元组。3.5流式文档re-flowabledocument版面随阅读环境和内容而变化的一类文档。23.6固定版式文档fixed-layoutdocument版面固定的一类文档。3.7文档对象objectindocument文档的组成单元。4缩略语下列缩略语适用于本文件。OBF开放电子书格式(OpenBookFormat)OFD开放固定版式文档格式(OpenFixed-layoutDocumentformat)RDF资源描述框架(ResourceDescriptionFramework)RDFaRDF属性集(RDFattribute)UOF统一办公文档格式(UnifiedOfficeFormat)XHTML可扩展超文本置标语言(eXtensibleHyperTextMarkupLanguage)XML可扩展置标语言(ExtensibleMarkupLanguage)XSDXML大纲定义(XMLSchemaDefinition)5概述本文件用于在XML描述的文档格式中,嵌入语义元数据。这些元数据可以支持全文或文档局部出现的关键词及词频、编辑时间、摘要、各类命名实体以及其他对象。本文件与具体行业词汇表及具体文档格式无关。用户可以将任何命名空间定义的元数据词汇嵌入任何基于XML的文档格式,如固定版式文档OFD,或流式文档UOF或HTML之中。在本文件的规范性附录中,给出了最基本的语义元数据XMLSchema词汇表。在资料性附录中分别给出了在UOF和OFD文档中嵌入语义元数据的示例。6语义元数据描述框架语义元数据与各种领域相关,通常表示为行业词汇表。本文件采用类似XHTML+RDFa[1-2]的机制,将行业元数据与XML表示的文档片段关联起来。RDFa已经在Web中得到了广泛的使用,本文件将其应用于基于XML的电子文档中(如UOF、OFD或OBF)。在这些元数据可以嵌入到不同级别的内容文件中,例如,在UOF和OFD的Content.xml文件中或其中的某个文档对象之中。7语义元数据7.1概述本文件支持的语义元数据包括:基本的文档元数据、词频、编辑时间、摘要、实体以及图片等对象。7.2文档语义元数据词汇表3本文件规定文档语义元数据词汇表如下:<?xmlversion="1.0"encodi<xs:schemaxmlns:xs="/2001/XMLSchema"xmlns="http://document-semaxmlns:vc="/2007/XMLSchema-versioning"elementFormDefault="qualified"attributeFormDefault="unqualified"vc:minVersi<xs:elementname="metadata"type="x该词汇表的命名空间为:http://document-semantic-metadata。该词汇表中仅有一个XSD元素即“metadata”。命名空间前缀宜取为“dsm:”。在该命名空间中,采用RDFa方式定义文档语义元数据词汇见表1。表1文档语义元数据词汇表该词汇表仅定义最小的元数据词汇,其他词汇(例如实体)可以引用其他的词汇表,例如:都柏林核心元数据集(/specifications/dublin-core/dcmi-terms/)或S()。8语义元数据嵌入方式8.1基本文档元数据基本的文档元数据应符合GB/T25100—2010中的要求,且已经被文档格式规范所支持,例如:UOF中的标题、主题、创建者、作者、最后作者、摘要、创建日期、编辑次数、编辑时间、创建应用程序、创建应用程序版本号、分类、文档模板、关键字集、用户自定义元数据集、公司名称、经理名称、页数、字数、英文字符数、中文字符数、行数、段落数、对象数,以及OFD中的标题、作者、主题、摘要、创建日期、修改时间、用途、封面、关键词、创建者、创建应用程序版本号、用户自定义元数据集等等。本文件对这部分元数据不做规定。详见资料性附录B。8.2词与词频词频表示基于可见文本内容的词在某个特定文档范围内出现的次数。这些词可以由文档作者指定,也可以通过TF-IDF等算法自动获得。词频由文档编辑工具自动统计得出。用户可规定关键词数量在N个以内,可规定去除停用词。可以记录出现不同的层次上的词频,如整个文档、某一分节、某一段落或某一页面。详见资料性附录B。词频信息用“[词][出现次数],[词][出现次数],…”方式进行记录。示例:在图B1对应的UOF文档中整个文档层面上的词频信息如下:4<?xmlversion="1.0"encoding="UTF-8"standal<字:文字处理文档_4225xmlns:字="/cn/2009/wordproc"xmlns:uof="/cn/2009/uof"xmlns:图="/cn/2009xmlns:xsi="/2001/XMLSchema-inxmlns:rdfa="/TR/2015/REC-rdfa-core-20150317/"xmlns:dsm="http://document-semantic-met<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="文档"rdfa:property="词频"></dsm:metadata><字:段落属性_419B式样引用_419<字:对齐_417D水平对齐_421<字:字体_4128西文字体引用_4129="font_00004"中文字体引用_412A="font_00004"是否西文绘<字:文本串_415B>蝗灾肆虐</字<字:文本串_415B>数十年罕见:东非多国遭大量蝗虫入侵</字又如:在图B1对应的UOF文档中第5个段落上的词频信息如下:<?xmlversion="1.0"encoding="UTF-8"standal<字:文字处理文档_4225xmlns:字="/cn/2009/wordproc"xmlns:uof="/cn/2009/uof"xmlns:图="/cn/2009xmlns:xsi="/2001/XMLSchema-inxmlns:rdfa="/TR/2015/REC-rdfa-core-20150317/"xmlns:dsm="http://document-semantic-met5<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="段落"<字:段落属性_419B式样引用_419C<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="Organization"rdfa:property="name">中新网</dsm:met<dsm:metadatardfa:vocab="http://document-semantic-metadata"r<字:文本串_415Brdfa:vocab="http://document-semantic-metadata"rdf<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:property="name">埃塞俄比<dsm:metadatardfa:vocab="<dsm:metadatardfa:typeof="Event"rdfa:property="name">蝗灾</8.3编辑时间编辑时间反映的是编辑整个文档或文档某一部分的编辑时间总和。可规定不同的层次上的编辑时间,如整个文档、某一分节、某一段落等等。该元数据不适合版式文档。词频编辑时间以秒为单元进行记录。示例:在图B1对应的UOF文档中整个文档层面上的编辑时间和在第5个段落上的编辑时间表示如下:6<?xmlversion="1.0"encoding="UTF-8"standal<字:文字处理文档_4225xmlns:字="/cn/2009/wordproc"xmlns:uof="/cn/2009/uof"xmlns:图="/cn/2009xmlns:xsi="/2001/XMLSchema-inxmlns:rdfa="/TR/2015/REC-rdfa-core-20150317/"xmlns:dsm="http://document-semantic-met<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="文本"rdfa:property="编辑时间">300</dsm:metadata><dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="文本"rdfa:property="编辑时间">120</dsm:metadata><字:段落属性_419B式样引用_419C8.4摘要与文档格式中的“摘要”元数据不同,这里规定在文档中标注摘要信息的方式。在图B1对应的UOF文档中,如将第5个段落标注为摘要,方式如下:<字:段落属性_419B式样引用_419C<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="Organization"rdfa:property="name">中新网</dsm:met<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typ7<字:文本串_415Brdfa:vocab="http://document-semantic-metadata"rdfa:typeof="文本"rdfa:property="摘要">据8.5命名实体命名实体的类型包括机构名称、地点名称、人员名称、事件名称、特殊名称和时间等。本文件中并不规定具体的命名实体类型,可以借用外部的词汇表,例如中定义的词汇表示命名实体。示例:在图B1对应的UOF文档中,第5表2某段落出现的命名实体中新网、“中央社”其标注方式如下:<字:段落属性_419B式样引用_419C<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="Organization"rdfa:property="name">中新网</dsm:metadata><dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="Event"<字:文本串_415Brdfa:vocab="http://document-semantic-metadata"rdfa:typeof="文本"rdfa:property="摘要">据<dsm:metadatardfa:vocab=""rdfa:typeof="Organization"rdfa:property="name">“中央社”</dsm:metadata>报道,位于8<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:property="name">东非</dsm:metadata>的<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:property="name">埃塞俄比亚</dsm:metadata>南部、<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:property="name">肯尼亚</dsm:metadata>部分地区正遭受<dsm:metadatardfa:typeof="Event"rdfa:property="name">蝗灾</dsm:metadata>8.6其他对象可以采用与前面章节类似的方法标注文档中的多媒体对象。示例:在图B1对应的UOF文档中的插图,可以将其来源标识为:<字:段落属性_419B式样引用_419Crdfa:property="contentUrl"rdfa:content="/photo/"><uof:绝对_4107值_4108="2<uof:大小_C621长_C604="263.4"宽_C60<uof:绕排_C622环绕文字_C6<uof:边距_C628左_C608="12.0"上_C609="0.0"右_C60A="12.0"下_<uof:是否锁定_C629>false</uo<uof:是否允许重叠_C62B>true</uof:是否9应用程序实现指南9支持本文件的应用程序在实现中应满足以下方面:a)在保证文档格式良好(well-formed)的前提下,允许在文档中的任何地方出现元素“dsm:metada”。b)能够在当前使用的文档格式基础上支持RDFa标准。c)尽可能自动化地或与用户交互式地填写语义元数据的内容,例如计算词频和进行命名实体标注。d)语义元数据应该通过权威部门或人员的审核,保证其准确性,并通过注释说明元数据的添加者,并通过对语义元数据签名保证其真实性。e)在打开带有语义元数据的文档时,应该正确解析语义元数据,并在文档编辑之后尽可能保留这些元数据。f)在编辑带有语义元数据的文档时,应该能够在保存时更新相关的元数据内容,例如词频、编辑时间和实体标注等。g)应通过环境设置允许或不允许用户加入语义元数据,以及设置加入元数据的数量,例如计算词频的词的个数。(规范性)文档语义元数据词汇表命名空间“http://document-semantic-metadata”的定义如下。<?xmlversion="1.0"encodi<xs:schemaxmlns:xs="/2001/XMLSchema"xmlns="http://document-semantxmlns:vc="/2007/XMLSchema-versioning"elementFormDefault="qualified"attributeFormDefault="unqualified"vc:minVersion<xs:elementname="metadata"type="x(资料性)一个新闻样例图B1是一个新闻样例,后文将基于该样例给出语义元数据的示例。图B1:新闻示例在图B1的例子中,全文出现频率最高的10个词见表B1。表B1全文的词频词词6在22这2可2饱121与21在以下段落中:“中新网2月14日电据“中央社”报道,位于东非的埃塞俄比亚南部、肯尼亚部分地区正遭受蝗灾入侵,蝗虫数量庞大数十年仅见,眼见数十亿蝗虫大军逼进当地粮仓,却只有零星8架飞机可喷药,让专家急得像热锅上的蚂蚁。”出现频率最高的10个词见表B2。表B2某段落的词频词词21数1111111电1(资料性)一个在UOF2.0文档中嵌入语义元数据的例子UOF2.0打包文件中的Content.xml文件内容如下:<?xmlversion="1.0"encoding="UTF-8"stand<字:文字处理文档_4225xmlns:字="/cn/2009/wordproc"xmlns:uof="/cn/2009/uof"xmlns:图="/cn/20xmlns:xsi="/2001/XMLSchema-inxmlns:rdfa="/TR/2015/REC-rdfa-core-20150317/"xmlns:dsm="http://document-semantic-met<!--元数据标注者:LiNing@2020,BISTU-<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="文本"rdfa:property="编辑<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="文档"<字:节类型_41EA>new<字:页边距_41EB左_C608="90.0"上_C609="72.0"右_C60A="90.0"下_<字:纸张_41EC长_C604="841.95"宽_C6<字:是否奇偶页页眉页脚不同_41ED>false</字:是否奇偶页<字:是否首页页眉页脚不同_41EE>false</字:是否首页<字:页眉位置_41EF距边界_41<字:装订线_41FB位置_4150="left"距边界<字:纸张方向_41FF>portrait<<字:行号设置_420A是否使用行号_420B="false"编号方式_4153="page"起始编号_420C="1"距边界 _4228="39"行数_4210="44"是否显示网格_4211="false"是否打印网格_4212<字:垂直对齐方式_4213>top</字:<字:文字排列方向_4214>t2b-l2r-0e-0w</字:<字:段落属性_419B式样引用_419<字:对齐_417D水平对齐_421<字:字体_4128西文字体引用_4129="font_00004"中文字体引用_412A="font_00004"是否西文绘<字:文本串_415B>蝗灾肆虐</字<字:文本串_415B>数十年罕见:东非多国遭大量蝗虫入侵</字<字:段落属性_419B式样引用_419C<字:段落属性_419B式样引用_419C<字:区域开始_4165标识符_4100="bk_0"名称_4166="_GoBack"类型_413B="<字:区域结束_4167标识符引用_4<字:段落属性_419B式样引用_419C<字:文本串_415B>来源:中国新闻网</字<字:段落属性_419B式样引用_419C<字:文本串_415B></字<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="文本"rdfa:property="<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdf<字:段落属性_419B式样引用_419C<字:段落属性_419B式样引用_419C<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="Organization"rdfa:property="name">中新网</dsm:met<dsm:metadatardfa:vocab="http://document-semantic-metadata"r<字:文本串_415Brdfa:vocab="http://document-semantic-metadata"rdf<dsm:metadatardfa:vocab="schema<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:property="name">埃塞俄比<dsm:metadatardfa:vocab="<dsm:metadatardfa:typeof="Event"rdfa:property="name">蝗灾</<字:段落属性_419B式样引用_419C<字:段落属性_419B式样引用_419C<uof:锚点_C644图形引用_C62E="Obj00001"rdfa:vocab=""rdfa:typeof="VideoObject"rdfa:property="contentUrl"rdfa:content="/pho<uof:绝对_4107值_4108="2<uof:大小_C621长_C604="263.4"宽_C60<uof:绕排_C622环绕文字_C6<uof:边距_C628左_C608="12.0"上_C609="0.0"右_C60A="12.0"下_<uof:是否锁定_C629>false</uo<uof:是否允许重叠_C62B>true</uof:是否<字:段落属性_419B式样引用_419<字:对齐_417D水平对齐_421<dsm:metadatardfa:vocab="http://document-semantic-metadata"<dsm:metadatardfa:vocab="schema.oArchersPost</dsm:metadat<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:property="name">拉里索罗<字:段落属性_419B式样引用_419<字:段落属性_419B式样引用_419</dsm:metadata>报道称,这批蝗虫远看像是滚滚浓烟,接近后这数<字:段落属性_419B式样引用_419<dsm:metadatardfa:vocab=""</dsm:metadata>,政府控制区外的地带成了蝗虫<dsm:metadatardfa:typeof="Event"rdfa:property="name">厄尔尼诺现象节异常的降雨,让这个区域更利蝗虫滋长。蝗虫吞噬农田、市场无物可<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:property="name">非洲东部<字:段落属性_419B式样引用_419<字:段落属性_419B式样引用_419rdfa:property="name">李弘宇</dsm:meta(资料性)一个在OFD文档中嵌入语义元数据的例子OFD打包文件中,Doc_0\Pages\Page_0\Content.xml文件如下。<?xmlversion="1.0"encodi<ofd:Pagexmlns:ofd="http://www.ofdspxmlns:rdfa="/TR/2015/REC-rdfa-core-20150317/"xmlns:dsm="http://document-semantic-met<ofd:PhysicalBox>00210297</ofd<!--元数据标注者:LiNing@2020,BISTU-<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdf<ofd:LayerID="108"<ofd:TextObjectID="2"Boundary="51.851124.<ofd:TextCodeDeltaX="5.08g24.87">蝗灾肆虐</<ofd:TextObjectID="4"<ofd:TextObjectID="6"Boundary="74.072924>数十年罕见:东非多国遭大量蝗虫入侵<<ofd:TextObjectID="8"Boundary="31.745541.58669.<ofd:TextCodeDeltaX="<ofd:TextObjectID="10"Boundary="39.999441.58664<ofd:TextObjectID="12"Boundary="44.6554<ofd:TextCodeDeltaX="1.9">02</o<ofd:TextObjectID="14"Boundary="49.311441.58664<ofd:TextObjectID="16"Boundary="53.9674<ofd:TextCodeDeltaX="1.9">14</o<ofd:TextObjectID="18"Boundary="58.623441.58664<ofd:TextObjectID="20"Bounda<ofd:TextCode></of<ofd:TextObjectID="22"Boundary="64.12641.58669.<ofd:TextCodeDeltaX="g21.<ofd:TextObjectID="24"Boundary="31.745547.089230.<ofd:TextCodeDeltaX="3.813.63.813.63.8<ofd:TextObjectID="26"Boundary<ofd:TextCodeDeltaX="<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:typeof="Organization"rdfa:property="name">中新网</dsm:me<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:tyrdfa:priperty="startDate"rdfa:content="2月1<ofd:TextObjectID="28"Boundary="43.5972<ofd:TextObjectID="30"Boundary="46.348<ofd:TextObjectID="32"Boundary="50.7929<ofd:TextCodeDeltaX="1.9">14</o<ofd:TextObjectID="34"Boundary="55.4489<ofd:TextCodeDeltaX="3.6">日电</<ofd:TextObjectID="36"Bounda<ofd:TextObjectID="38"Boundary="64.760<ofd:TextObjectID="40"Boundary="68.3587<ofd:TextObjectID="42"Bounda<ofd:TextCodeDeltaX<dsm:metadatardfa:vocab=""rdfa:typeof="O<ofd:TextObjectID="44"Boundary="81.057<ofd:TextObjectID="46"Boundary="82.7501<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:prop<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:prop<ofd:TextObjectID="48"Boundary="134.177858.094346.13<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:pro<ofd:TextObjectID="50"Boundary="<dsm:metadatardfa:typeof="Event"rdfa:property="name">蝗灾</<ofd:TextObjectID="52"Boundary="145.183<ofd:TextCodeDeltaX="g53.813.63.81">粮仓,却只有零星</o<ofd:TextObjectID="54"Boundary="176.505263.59682.<ofd:TextObjectID="56"Boundary="31.7455>架飞机可喷药,让专家急得像热锅上的蚂蚁。</of<ofd:ImageObjectID="58"Boundary="31.745580.8453145.606292.9CTM="145.610.00.092.910.0rdfa:vocab=""rdfa:typeof="VideoObject"rdfa:property="conterdfa:content="/ph<ofd:PathID="59"Boundary=-0.0003C</ofd:Abbreviate<ofd:TextObjectID="60"Boundary="35.7667<ofd:TextCodeDeltaX="g73.17">资料图:当地时间</o<dsm:metadatardfa:vocab="http://document-semantic-metadata"rdfa:rdfa:priperty="startDate"rdfa:content="2020年1<ofd:TextObjectID="62"Boundary<ofd:TextCodeDeltaX="1.481.691.48">2020</o<ofd:TextObjectID="64"Boundary<ofd:TextObjectID="66"Boundary="73.0148<ofd:TextObjectID="68"Boundary<ofd:TextObjectID="70"Boundary="79.3639<ofd:TextCodeDeltaX="1.69">21</o<ofd:TextObjectID="<ofd:TextCodeDeltaX="g53.<dsm:metadatardfa:vocab=""rdfa:typeof="Place"rdfa:prop亚ArchersPost</dsm<ofd:TextObjectID="74<ofd:TextCodeDeltaX="1<ofd:TextObjectID="76"Boundary="112.80251<ofd:TextCodeDeltaX="1.27g2<ofd:TextObjectID="78"Boundary="120.20981<dsm:metadata

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论