(计算机应用技术专业论文)html转换到xml格式以及不同xml标准格式之间的转换.pdf_第1页
(计算机应用技术专业论文)html转换到xml格式以及不同xml标准格式之间的转换.pdf_第2页
(计算机应用技术专业论文)html转换到xml格式以及不同xml标准格式之间的转换.pdf_第3页
(计算机应用技术专业论文)html转换到xml格式以及不同xml标准格式之间的转换.pdf_第4页
(计算机应用技术专业论文)html转换到xml格式以及不同xml标准格式之间的转换.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(计算机应用技术专业论文)html转换到xml格式以及不同xml标准格式之间的转换.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海交通大学 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本 论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本 文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。 本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 日期:年月日 上海交通大学 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定, 同意学校保留并向国家有关部门或机构送交论文的复印件和电子版, 允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的 全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫 描等复制手段保存和汇编本学位论文。 保密口,在一年解密后适用本授权书。 本学位论文属于 不保密口。 ( 请在以上方框内打“”) 学位论文作者签名:指导教师签名: 日期:年月日 日期:年月日 h t m l 转换到x 札格式以及不尚x m l 标准格式之间的转换 摘要 当今是信息时代,信息如爆炸般地产生,由于i n t e m e t 的普 及,更把信息带到全球。但这些信息不仅文种各异,而且格式杂 乱纷繁。如何整理这些信息? 如何使信息的表示尽可能地实现规 范化,尽可能地容易处理? 这已成为很多人关心的问题。早期, 人们提供了h t m l 语言,它可以较好地表示网上的信息。但是, 随着实践的拓广与深入,h t m l 的弊病逐日明显与突出。它已阻 碍了信息在网上的进一步传播与加工。于是,开创一种更新更富 于表达也更易于识别加工的网络信息表达格式,即x m l ,已成 为时代的研发热点。为了统一规范,很多人都在研发x m l 的标 准。标准不仅要受到权威单位的认可,更重要的是要得到广大用 户的认同与使用。在这方面我国还相对滞后。为此,首先,我在 导师的指导下,抓紧时机,抢先研发标准,以促进我国权威部门 的先行,并做其参考;其次,我们研究了如何完成h t m l 格式到 x m l 格式的转化,如何在不同的x m l 格式间进行信息的转换等 等问题,并取得了初步进展。在本文中,我将对它们进行逐一地 汇报。 本文主要讲述了将h t m l 格式转化成x m l 格式,以及不同 x m l 标准格式之间转换的基本工作过程与关键技术。我们以新 浪网新闻h t m l 作为测试数据,研究将其转化的具体工作方法。 在此基础上,总结出把一般的h t m l 转换到x m l 格式的基本方 法。 具体的工作分别为制定相应网上新闻信息的x m l 标准,把 h t m l 转换成x m l 标准格式;机器辅助编写x s l t 实现不同x m l 标准信息之间的转换。网上新闻信息的x m l 标准是根据网上新 闻特点,参考其它主要新闻的x m l 标准制定的。根据新浪网的 新闻内容组织格式与特点,总结出分析与提取出相应信息的规 律。据此编写了程序,测试效果良好。比较结构相同但属于不同 x m l 的标准的文档,我们编写的程序可以自动生成x s l t ,以完 成x m l 标准文档之间的转换。为此,我们实现了将新浪网上的 h t m l 新闻中的有用信息转化到不同的x m l 标准文档。 总的来说,我的贡献在于: 第一,针对所要处理的信息选用或制定了相应的x m l 标 准。根据要处理信息的特点,采用现有的x m l 标准或制定适用的 ) 咖。标准。既要考虑到实用性,又要与其他主要现有标准兼容或 能方便转换。 第二, 转换h t 札信息到制定的x d l 标准。主要是分析利用 h t b t l 中的格式信息、位置信息与内容,从中挖掘出规律,并编写 程序将h t m l 信息转换到x 地标准格式的文档。 第三, 使用x s l t 转换把我们的x m l 标准转换到其它的x m l 标准。x s l t 可以自动生成,或在其自动生成的基础上进行修改。 关键字:x m l ,h t n l ,转换,x s l t c o n v e r th t m lt ox m lf o r m a t t e din f o r m a t io n a n dt r a n s l t i o nb e t w e e nd i f f e r e n tx m l f o r m a t t e dfn f o r m a t10 n a b s t r a c t t o d a yi si n f o r m a t i o ne m j u s tl i k ee x p l o s i o n ,i n f o r m a t i o nf l o o d w o r l dv i ai n t e r a c t a l lk i n d so fi n f o r m a t i o na l en o to n l yd i f f e r e n ti n l a n g u a g e ,b u ta l s od i f f e r e n ti nf o r m a t p e o p l ec o n c e n t r a t eo nf i n d i n g t h e w a y t o p r o c e s si n f o r m a t i o ne a s i l y e a r l y , p e o p l eu s e h t m l b y a n d b y , p e o p l ef i n d t h a th t m lc a n tm e e tw i t ht o d a y s r e q u i r e m e n t s t o d a y , x m li s t h ew a yt os o l v et h i s p r o b l e m d e v e l o p i n gx m l s t a n d a r di st h eh o t s p o t as t a n d a r dn e e d st ob ea p p r o v e db yt h e a u t h o r i t i e s t h em o r e i m p o r t a n t i st h a ts t a n d a r dn e e d s t ob e w i d e l y u s e d b yc u s t o m e r s s o ,w i t ht h eg u i d eo f m y t u t o r , id e v e l o pt h es t a n d a r di n a d v a n c e t h es t a n d a r dc o u l db ear e f e r e n c ew h e no u r 缸h o t a t i v e d e p a r t m e n t s d e f i n er e l m e ds t a n d a r d s a n dw er e s e a r c ho nc o n v e r t h 眦t ox m 吐a n dt r a n s i t i o nb e t w e e nd i f f e r e n tx 匝s t a n d a r d s f o r m a t s w eg e ts o m ea c h i e v e m e n t si nt h ef i e l d 1w i l li l l u s t r a t et h e m i nt h i sa r t i c l e t h i sa r t i c l ee x p l o r e s p r o c e d u r e t oe x t r a c ti n f o r m a t i o nf r o mh t m l a n dc o n v e r tt ox m lf o r m a t t e dd a t a a n da l s oe x p l o r e st h ew a yt o t r a n s f o r i l ld i f f e r e n tx m ls t a n d a r df o r m a t t e dd o c u m e n t s w et a k es i n a h t m ln e w sa ss a m p l ea n dw o r ko nc o n v e r s i o n b a s e do n t h e s ew o r k , w em a k eac o n c l u s i o no nt h em e t h o d t oc o n v e r t g e n e r a lh t m l w ed i v i d et h ew o r ki n t ot h r e e p a r t s ,d e f m et h ec o r r e s p o n d i n g i n t e r n e tn e w sx m l s t a n d a r d , c o n v e r th t m l t ot h i sx m ls t a n d a r d f o r m a t t e di n f o r m a t i o n , c o m p u t e ra s s i s tg e n e r a t ex s l tf o rt r a n s i t i o n b e t w e e nd i f f e r e n tx m ls t a n d a r d d o c u m e n t s a c c o r d i n g t ot h e c h a r a c t e r so fi n t e r a c tn e w sa n do t h e rn e w sx m l s t a n d a r d s ,w ed e f i n e i n t e m e tn e w si n f o r m a t i o nx m l s t a n d a r d a c c o r d i n g t ot h ec h a r a c t e r s o fs i n an e w s ,w ef i n dt h er u l e st oa n a l y s i sa n d e x t r a c tt h ei n f o r m a t i o n f r o mn e w s a f t e r t h a t ,m a k et h ep r o g r a m f o re x a m i n a t i o n t h er e s u l ti s v e r yg o o d a l s od e v e l o pap r o g r a m , w h i c hc a nm a k ec o m p a r i s o n b e t w e e ns a n l es t r u c t u r e db u td i f f e r e n tx m l s t a n d a r dd o c u m e n t s ,a n d t h e n g e n e r a t et h ex s l t f i l ef o rt r a n s i t i o n f i n a l l y , w ef i n dt h ew a y t o c o n v e r ts i n ah t m ln e w st o d i f f e r e n tx m ls t a n d a r df o r m a t t e d i n f o r m a t i o n i ng e n e r a l ,m yw o r ki st h ef o l l o w i n g f i r s t , c h o o s eo rd e f i n ep r o p e rx m l s t a n d a r d s h o u l db eu s a b l e a n d c o m p a t i b l e s e c o n d ,u s ef o r m a ti n f o r m a t i o n , p o s i t i o ni n f o r m a t i o na n dc o n t e n t t of m d r u l e s ,w h i c hc a l lb eu s e dt oc o n v e r th i q v i i t ox m l f o r m a t t e d i n f o r m a t i o n t h e nm a k e p r o g r a m b a s e do nt h er u l e s t h el a s to n e ,w eu s ex s l tt om a k et r a n s i t i o nb e t w e e nd i f f e r e n t x m es t a n d a r df o r m a t t e di n f o r m a t i o n k e yw o r d s :x m l ,h t m l ,c o n v e r t ,x s l t 第1 节背景 第一章概述 ( 1 ) h t m l 与x m l 标准 i n t e r n e t 提供了全球范围的网络互连与通信功能,w e b 技术的发展更是日新 月异,其丰富的信息资源给人们的学习和生活带来了极大的便利。特别是应运而 生的h 1 姐l 】( 超文本置标语言) ,以简单易学、灵活通用的特性,使人们发布、 检索、交流信息都变得非常简单,从而使w e b 成了最大的信息资源库。然面。电 子商务、电子出版、远程教育等基于w e b 的新兴领域的全面兴起使得传统的w e b 资源更加复杂化、多样化,数据量的日趋庞大对网络的传输能力也提出更高的要 求。同时,人们对w e b 服务功能的需求也达到更高的标准,比如:用户需要对w e b 进行智能化的语义搜索和对数据按照不同的需求进行多样化显示等个性化服务: 公司和企业要为客户创建和分发大量有价值的文档信息,以降低生产成本,以及 对不同平台、不同格式的数据源进行数据集成和数据转化等等,这些需求变得越 来越广泛和迫切。 传统的h t m l 由于自身特点的限制,不能有效地解决上述问题:作为一种简单 的表示性语言,它只能显示内容而无法表达数据内容。而这一点恰恰是电子商务、 智能搜索引擎所必需的。另外,h t m l 语言不能描述矢量图形、数学公式、化学符 号等特殊对象,在数据显示方面的描述能力也不尽如入意。最重要的是:h t m l 只 是s g m l ( s t a n d a r dg e n e r a l i z e dm a r k u pl a n g u a g e ,标准通用置标语言) 的一个 实例化的子集,可扩展性差,用户根本不能自定义有意义的置标供他人使用。这 一切都成为w e b 技术进一步发展的障碍。以一篇网上新闻为例,去掉不必要的一 些标注及文字后为: 鲍威尔称法美关系已遭损害但不至于无法修复 h t t p :w w w s i n a c o m a l l2 0 0 3 年0 4 月2 6 日2 0 :3 5 中国日报网站 中国日报网站消息:美国国务卿鲍威尔近日接受英国广播公司采访时称, 由于法国反对美国对伊拉克动武,法美关系已经被损害了,但是两国关系不 会就此崩溃。鲍威尔同时对联合国和北约的未来充满信心。 想第一时间得知美伊 战争消息吗? 马上订阅短信新闻冲浪! 不上网了解美伊最新 进展? 彩信w a p p d a 给你最及时的新闻! 例1 - 1 网上新闻样本 在例卜l 中,我们可以看到,标识标题用 标签是比较容易理解和恰当 的;但是像发行时间就主要是由在文章中的位置与一般表示时间的格式来确定 的;而报道的来源“中国日报网站”就是由字体的颜色与在文中的位置标识出; 标签标识的不止有正文还有其他广告信息。由此可见h t m l 标识网上信息,很 大程度上是表现格式加上人们的经验来进行区分,这样很不利于计算机对信息的 自动化处理。人们为此提出了x m l 。 提到x m l 就不能不提到s g m l 。s g m l 是一种通用的文档结构描述置标语言,为 语法置标提供了异常强大的工具,同时具有极好的扩展性,因此在数据分类和索 引中非常有用。但s g m l 复杂度太高,不适合网络的日常应用,加上开发成本高、 不被主流浏览器所支持等原因,使得s g m l 在w e b 上的推,。受到阻碍。 x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展置标语言) 【2 】是由w 3 c 于1 9 9 8 年2 月发布的一种标准。它同样是s g m l 的一个简化子集,它将s g m l 的丰富功能 与h t m l 的易用性结合到w e b 的应用中,以一种开放的自我描述方式定义了数据 结构,在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系。 这样所组织的数据对于应用程序和用户都是友好的、可操作的。 ( 2 ) 瑚l 标准简介以及与h i l l 相比的优点 沮,文档的基本结构由序言部分和一个根元素组成。序言包括了) m 几声明 和d t d ( 或者是x m ls c h e m a ) ,d t d ( d o c u m e n t t y p ed e f i n e ,文档定义类型) 和x m ls c h e m a 都是用来描述儿文档结构的,也就是描述元素和属性是如何 联系在一起的。 一个x m l 文档中有且仅有一个根元素,其他所有的元素都是它的子元素。 一个x m l 文档首先应当是“格式良好的”( w e l l - f o r m e d ) ,“格式良好的 x m l 文档除了要满足根元素唯一的特性之外,还包括: 口 起始标签和结束标签应当匹配,结束标签是必不可少的。 口 大小写应一致:x m l 对字母的大小写是敏感的, $ 是完全不 同的两个标签,所以结束标签在匹配时一定要注意大小写一致。 口 元素应当正确嵌套:子元素应当完全包括在父辈元素中。 口属性必须包括在引号中。 口元素中的属性是不允许重复的。 x m l 文档的“有效性”是指一个x m l 文档应当遵守d t d 文件或是s c h e m a 的 规定,即x m l 文档应当符合语义方面的规范。对x m l 文档有效性的检查称为 对x m l 的验证”( 、w i d a t i o n ) 。 d t d 可以定义x m l 文档的词汇和语法。利用正则表达式,d t d 除了可以说 明x m l 文件中哪些元素是必需的、哪些是可选的、元素所能包含的属性等元素 本身信息外,还可以描绘元素之间的结构信息。比如,某个元素可以嵌套哪些子 元素、子元素的个数以及出现次序、是否可选等等。 典型的d t d 格式如下: 1 7 以d o c t y p e 声明为起始标志,告诉解析器以下内容属于d t d 。 口位于d o c t y p e 后的d t d 名称,必须与x 2 v l l 文档中的根元素完全一致,后 面再跟着一个“, 号,接下来才是d t d 正文。 x m l 的优势之一是它允许各个组织、个人建立适合自己需要的置标集合,并 且这些置标可以迅速地投入使用。这一特征使得蹦l 可以在电子商务、政府文档、 司法、出版、c a d c a m 、保险机构、厂商和中介组织信息交换等领域中一展身手, 针对不同的系统、厂商提供各具特色的独立解决方案。 x m l 的最大优点在于它的数据存储格式不受显示格式的制约。一般来说,一 篇文档包括三个要素:数据、结构以及显示方式。对于h t m l 来说,显示方式内 嵌在数据中,这样在创建文本时,要时时考虑输出格式,如果因为需求不同而需 要对同样的内容进行不同风格的显示时,要从头创建一个全新的文档,重复工作 量很大。此外h t m l 缺乏对数据结构的描述,对于应用程序理解文档内容、抽取 语义信息都有诸多不便。 x m l 把文档的三要素独立开来,分别处理。首先把显示格式从数据内容中独 立出来,保存在样式单文件( s t y l es h e e t ) 中,这样如果需要改变文档的显示 方式,只要修改样式单文件就行了。x m l 的自我描述性质能够很好地表现许多复 杂的数据关系,使得基于x m l 的应用程序可以在x m l 文件中准确高效地搜索相关 的数据内容,忽略其他不相关部分。x m l 还有其他许多优点,比如它有利于不同 系统之间的信息交流,完全可以充当网际语言,并有希望成为数据和文档交换的 标准机制。 同样以上面例子中的新闻信息作为示范,以本文后面提到的网上新闻x m l 标 准来标识。结果如下: h t t p :w w s i n a e o m c n 2 0 0 3 年0 4 月2 6 日2 0 :3 5 鲍威尔称法美关系已遭损害但不至于无法修复 中国日报网站 中国日报网站消息:美国国务卿鲍威尔近日接受英国广播 公司采访时称,由于法国反对美国对伊拉克动武,法美关系已经被损 害了,但是两国关系不会就此崩溃。鲍威尔同时对联合国和北约的未 来充满信心。 饲1 - 2 网上新闻舭样拳 e x a m p l e l 一2 n t e r n e tn e w sx m ls a m p l e 我们可以看出上面的x m l 文档就是完全以内容为基础进行标识的。经过标 识后的文档直观,结构清晰,容易理解。不同的领域的信息可以制定不同的x m l 标准来进行标识。这样的x m l 文档就便于计算机的自动化处理了。 ( 3 ) 存在的问题 h t m l 是偏向于信息内容的表现形式,而不是信息内容的划分与标记。这样 网上数据的整理和挖掘就很不方便。随着x m l 的推广,人们制定不同的x m l 标准来对信息内容进行标记。但一个标准的制订与广泛使用是有时问差的。在一 个x m l 标准推广使用之前,仍然会有人使用h t m l 发布信息,加上以前就存在 的大量的m m l 形式的信息。需要有方法能对m m i ,进行处理。 现在各个行业中由于缺乏统一的标准制定组织,加之标准的制定往往牵涉多 方的利益,所以统一x m l 标准的制定往往费时长,而且在推出统一的x m l 标准前 很有可能会同时有几个不同的x m l 标准在使用。所以同样的数据在不同的系统或 行业也可能会有不同的标准来存储和处理。随着社会的进步与发展,特别是互联 网在世界各地的广泛应用,越来越多的系统之间需要联系和协作。即使是以前孤 立的系统也不例外。这时不同的x m l 标准给不同系统之闻的通信带来了不便。 因此需要能实现不同x m l 标准的文档之间实现转换。现在虽然有多种方式可以 实现不同x m l 标准的文档之间实现转换,但是在很大程度上都是要人工编写转 换规则。因此如果能实现转换规则的自动化或半自动化生成,就会节省大量的资 源。 可以看出,为了实现处理信息自动化,使人们高效使用信息。我们需要将i t t m l 格式的信息转换到x m l 格式的信息,并使不同x m l 标准的同类信息可以相互转换。 现在的主要问题是要制定合适的x 札标准来标识内容;要找到合适的方法实现 h t m l 格式信息转换到x m l 格式信息;实现不同x k l l 标准的文档之间高效转换。 第2 节研究课题的意义 如前所述,如果能将非标准的h t m l 信息转换为标准的x m l 信息,这将大 大有助于信息的处理。使人们彻底摆脱人工整理网上信息的繁杂劳动。而且能极 大地提高信息处理的效率。本文中的非标准与标准是指是否将信息按内容分类进 行标记与划分。 在今天,标准的制定往往是一个国家或组织的实力体现,而且标准与国家利益 或组织利益也是休戚相关的。所以推行自己的标准成为国际标准时,各个国家与 组织往往不遗余力。可以看到,一个标准能否成为国际标准,有以下几个因素。 制定标准的科学性与合理性,这是标准能否成功的前提;能否被用户接受,一个 标准是否成功的关键就是要得到广大用户的认可;国家或组织的实力,实力的强 弱可以影响标准的制定与选择;推出标准的时间,推出时间早的标准,往往因为 有第三方的使用与支持,从而容易成为主流标准,进而成为国际标准。随着我国 改革开放的深化,综合国力的增强,我国也会越来越积极地参与国际标准的制定。 研究制定x m l 标准应注意的方面具有非常现实的意义。网上新闻是一个非常重 要的应用。国外有几种主流新闻x m l 标准,国内有关方面也在酝酿国家标准的 制定。因此选择研究制定网上新闻x m l 标准,一是为了研究制定x m l 标准应 注意的方面,二是希望能为国家新闻x m l 标准的制定尽一些绵薄之力。 人们已经为x m l 标准的相互转换提供了相应方法,那就是x s l t t 珂x s l t 可 以将一个x m l 标准的文档转换成另一个x m l 标准的文档但是现在x s l t 的编 写仍然处于人工阶段,现有的辅助工具并不能提高多少效率这远远不能满足需 要。归根到底,要实现不同x m l 标准的转换,其关键之处在于有用作转换的 x s l t ,而耍高效地生成x s l t , 就不可缺少一个好的x s l t 生成方法与工具。这 也是研究的课题及方向之一。即如何利用计算机技术实现x s l t 的自动和半自动 生成从而实现不同x m l 标准之间的转换。 第3 节主要研究成果与章节安排 研究的工作与创新主要有以下几点: 1 通过比较与研究现在主要的新闻x m l 标准基础,针对网上新闻特点,制定网 上新闻x m l 标准。考虑到具体要求,制定出的标准与其他新闻x m l 标准有 所不同。 2 在上面研究的基础上,根据转换h t m l 信息到x m l 标准的一般特性,提出 制定用于转换的x m l 标准所要注意的基本方面。 3 针对研究新浪网新闻的h t m l 到x m l 标准信息的转换,提出了一套转换算 法,并用计算机程序验证其可行性与效率。 4 通过研究其他的h t m l 信息,在上面针对新浪网新闻的算法基础上进行抽象, 提出一套通用的算法。 5 不同x m l 标准之间的转换,实现了自动生成同结构x m l 标准的x s l t 。 6 综合整个研究,提出在h r m l 格式信息转换到x m l 格式信息过程中关键的 工作方法。 本文共分为六章,第一章主要讲述了本课题的研究意义。第二章概要讲述研 究工作的基本情况。第三章主要讲述制定的网上新闻x m l 标准,推广到其他x m l 标准的制定,讲述其中需要注意的方面。第四章讲述了转换新浪网新闻h t m l 信息到网上新闻x m l 标准信息的算法。同时概括与抽象这个算法,使其适用于 其他h t m l 信息到x m l 信息的转换。第五章描述了比较同结构x m l 标准文档, 自动生成x s l t 的方法,高效地实现不同x m l 标准信息之间的转换。第六章对 上述研究工作进行了总结,并展望未来研究方向。 第4 节研究工作简介 ( 1 ) 研究工作的划分 网上h t m l 信息内容和表现形式是多种多样的,我们不可能在很短的时间内 找到能处理所有网上h t m l 信息的办法并加以一一验证。但我们可以通过研究 某一种具有代表性的h t m l 信息的处理,找到解决这个具体问题的具体方法, 并加以验证。然后将具体方法抽象归纳成可以适用于其他情况的基本方法,确定 其可行性,从而可以将这种基本方法推广应用到其他h t m l 信息的处理。 在现实生活中,新闻是人的认知能力的延伸,而网络新闻则是人的认知能力 的进一步延伸州,因此网上新闻是一个非常重要的应用。在实际应用中对处理新 闻的实时性要求与内容划分要求也往往较高,所以处理新闻h t m l 信息具有代 表性。因此选择新闻类h t m l 信息进行具体研究工作。 根据研究工作的内容,划分为三个目标或重点。 a 制定x m l 标准。 根据网上新闻信息的一般特点以及参考相应新闻x m l 标准,制定一套可行的 新闻x v l l 标准。 通过上述具体工作,总结出制定x m l 标准需要注意的基本方面。 b h t m l 到x m l 格式的转换。 分析网上具体网站的新闻h t m l ,研究可行算法生成相应x m l 标准格式。 同时研究如何将该算法应用于其他网站的h t m l 新闻信息转换,验证其通用 性。最后归纳总结得到适用于一般h t l v l l 信息转换到x m l 信息基本算法。 c 不同x m l 标准之间的转换。 标记同一内容的不同x m l 标准之间的转换自动化工具的研究。 综合上面所有的研究成果,总结出将h t m l 信息转换到x m l 信息的基本工 作流程中各个关键点的工作方法。 ( 2 ) 研究工作的进展 a 根据网上新闻信息的一般特点以及参考相应新闻x m l 标准,提出一套可行的 网上新闻沮。标准。已经完成并且用于后面的研究。具体标准定义见附录1 。 根据制定网上新闻x m l 标准的具体工作过程,推广到其他x m l 标准的制定, 总结出制定x m l 标准需要注意的几个基本方面。详细情况见第三章。 b 通过分析网上新闻信息,生成相应x m l 标准的信息。选择新浪网上的新闻信 息进行分析与整理。生成了相应的符合制定的x m l 标准的信息。并编制了相 应的程序进行验证。算法与实验数据介绍在第四章。主要源代码与可执行程 序附盘。 在上面的基础上,结合其他网站,提出如何应用到其他网站新闻h t m l 信息 进行转换。然后进一步抽象出适用一般h t m l 信息转换的方法。具体情况见 第四章。 c 标记同一内容的不同x m l 标准之间的转换自动化工具的研究。通过比较用不 同x m l 标准标记的相同信息,自动得到x s l t 。详细过程在第五章内进行讲 述。源代码与可执行程序附盘。 综合上面的研究工作,进行了总结与对未来的展望,具体内容在第六章。 第二章制定新闻潮l 标准的建议 第1 节现有新闻x n l 标准 ( 1 ) n i t f n i t f ( n e w s i n d u s t r y t e x t f o r m a t ) 口田是新闻工业领域中一种用来描述信息的、 设备无关的文本格式。由i y f c ( i n t e r n a t i o n a lf r e s st e l e c o m m u n i c a t i o n sc o u r t c i l ) 制定。9 0 年代初开始制定。现在版本是3 1 。n i t fd t d 是新闻行业中两个主要 的标准组织多年努力的结果。它的出现是为了替代现存的新闻工业文本格式: a n p a8 9 - 3 和i p t c 7 9 0 1 。这两种格式都是很早以前为了适应印刷出版的需要而 设计的。随着网络和i n t e m e t 的蓬勃发展,新闻出版己不再仅仅局限于印刷,因 此,对新闻工业使用的文本格式提出了新的需求。n i t f 就是为了满足这种需求 而设计出的新的文本格式。 n i t f 支持大量新闻特性,比如新闻经常提到的5 个w 口、v h o 谁拥有版权,谁可以再次印刷,是有关谁的新闻。 口w h a t 报道什么主题,组织,事件。 口 w h e n 什么时候报道,什么时候发行以及什么时候修改的。 口w h e r o 在哪里写的,发生在哪里,在哪发行。 r n w h y为什么有新闻价值及相应的新闻分析。 ( 2 ) n e w 酬l n e w s m l r t $ 同样也是由i p t c 发布的新闻工业标准。n e w s m l 是一个比n i t f 要年 轻得多的标准。n e w s - l l 是为了解决在新闻条目传输过程中的媒体无关性的问题, 而对新闻内容进行结构化封装的一种格式。2 0 0 0 1 0 推出n e w s m ll - 0 版本。 2 0 0 2 1 0 1 8 推出1 1 版。 如果说n i t f 是为了替代i p t c 7 9 0 1 而出现的,那么,n e w s m l 则是为了弥补 i i m 的不足而提出的。n e w s m l 是继i p t c 的i i m 标准之后推出的一个基于x m l 的标准。下面是n e w s m l 己支持的核心特征: 1 支持多种媒体类型 n e w s m l 的一个显著特点就是媒体无关性,它并不关心新闻对象所包含的媒体 类型、格式以及编码,在一篇n e w s m l 文档中可以包含文本、视频、音频、图形、 照片以及其它任何媒体类型或各种媒体类型的组合。n e w s m l 强大的描述能力,使 得同一篇n e w s m l 文档可以同时面向电视、广播、报纸、i n t e r n e t 、无线设备、p d a 、 数据资料库等多种系统。 2 便于新闻栏目采编 n e w s m l 对修改提供了强大的支持,可以允许对新闻随时进行修改。这是因为 一条新闻的不同部分制作完成的时间是不同的,需要对新闻内容能灵活地修改添 加。 3 支持多语言、多格式 从读者的角度看,n e w s m l 让他们可以选择以不同语言阅读同一段消息、观看 以不同格式保存的图像片断、或者下载不同清晰度的新闻图片。从新闻发布者的 角度看,新闻发布者可以更轻松地根据不同需要,在不同播放途径发布不同语言 报道的新闻、不同格式的图片。 4 融合多条新闻于一体 n e w s m l 支持信息深加工,可以围绕同一新闻主题,用文字、图片、图表等编 发包括通讯、综述、评论、背景资料等在内的各种题材信息。 5 灵活的新闻关联方式 n e w s m l 允许有关联的新闻组合为一个系列报道。同时,n e w s m l 也可以单独指 定某条新闻和其它新闻之问的关联关系。 6 丰富的元数据信息 n e w s m l 中强大的元数据描述能力,一方面为市场分析提供了统计和考核数据, 包括新闻种类、数量、时效、稿件质量、采用率、编辑次数、刊印状况、版权资 料等。另一方面也为新闻内容的监管提供了有效的支持,包括流程控制、权限管 理、版本跟踪等。 7 高度结构化 n e w s m l 通过标识细化了新闻中的数据信息和元信息,为新闻描述提供了更高 的粒度,这就意味着电脑程序可以自动处理n e w s m l 的内容,可以正确区分n e w s m l 中所提供的信息。同时,新闻粒度的提高,也为检索的准确、高效打下了坚实的 基础。 ( 3 ) p r i s 一 由一些内容提供商,信息集成公司与软件开发商组成工作组,从1 9 9 9 年6 月 开始商议标准。现在的版本是1 2 。 定义了一个x m l 元数据词典用于交换( s y n d i c a t i o n ) ,后期处理多种类的杂 志,新闻,目录,书,主流期刊内容。e r i s l f g j 为交换和保存内容与元数据提供了 一个框架,一个描述内容元素的集合,以及一套列举元素值的词汇表。p r i s m 主 要面向出版业,使用范围较广。 元数据包括: 1 整个资源总的用途描述。 2 资源与其他资源联系的定义。 3 知识产权与许可的定义。 4 。内嵌标识。 主要利用现有的成熟的一些标准,加上自己定义的一些词汇构成。使用起来 十分灵活,可以适应多种应用的需要。 ( 4 ) r s s r s s 为一个轻型的多用途可扩展元数据描述和交换( s y n d i c a t i o n ) 方式。是 一个x m l 的应用标准,遵照w 3 c 的r d f 标准。r s s0 9 在1 9 9 9 年由n e t s c a p e 提 出,作为m yn e t s c a p e n e t w o r k ( 删n ) 门户站点的频道框架和内容采集机制。r s s 被用于作为一个轻型的交换( s y n d i c a t i o n ) 格式的x m l 标准。在某些场合,i c e ( 另一种交换协议) 可能由于过于庞大导致不适用,而r s s 这时可以作为i c e 的 替代。2 0 0 0 - 1 2 - 0 9 推出1 0 版r s s 标准规范f l o 】。 ( 5 ) x m l n e w s x m l n e w s 1 u 1 9 9 9 年春天开始开发,分为两个部分,x m l n e w s s t o r y ,是n i t f 的 子集。x m l n e w s m e t a 是一个简单的基于w 3 c 的r d f 元数据格式。一个x m l n e w s m e t a 记录提供n e w s s t o r y 或其他资源的信息。x m l n e w s m e t a 包括标识,信息头,里程 碑,出处,版权,主题,链接。与r d f 不同的是,x m l n e - s m e t a 的根元素是r e s o u r c e , 在文件中只允许存在一个资源描述。所有属性必须是x m l 元素的方式,所有属性 值为文字类型。 ( 6 ) i c e i c e f l 刁设计用于所有范围的内容交换。它有很多商业上的应用,特别是在分发 或聚集资料给合作伙伴。i c e 协议在1 9 9 8 年1 0 月被提交。现在版本为1 1 。正在 开发i c e 2 。i c e 的主要功能有: 传送任意的内容格式,包括网页。 支持推( p u s h ) 与拉( p u l l ) 信息。 对信息访问权限的控制以及定制内容。 支持完全更新与增量更新,提供更新的原子操作来实现错误恢复。 传送内嵌的内容或引用的内容。 传送的确认。 i c e 操作的审计。 i c e 传送的多种安排策略。 元数据与知识产权,使用权,版权相关。 自动协调传送的参数。 可扩展性。 交换协议。 第2 节制定的网上新闻x u l 标准的建议 ( 1 ) 月上新闻特点 在周勇闯m 1 的一篇文章中对网上新闻的特点做了如下归纳 1 新闻信息跨空间流动加速 新闻信息可以在瞬间传遍全球。如果说世界已成为一个地球村的话,那么新闻信 息的快速流动,已使得我们这个村落中各个国家的居民不再有空间距离上的意 义。 2 新闻信息的价值共享 新闻信息在空间上的高速流动,使得我们能非常方便地在同一瞬间捕捉或掌握到 周一新闻信息,因而,新闻信息的价值共享成为现实,各个媒体中自行手工操作 的剪报时代宣告结束,除非这种剪报本身具有收藏的价值。 3 新闻信息非产权转移 信息交换可以商品交换的形式出现,但与一般的商品交换不同之处在于,信息可 以无限复制,因而在信息交换出去以后,信息拥有者仍然拥有原来的信息,即依 然拥有自己信息的产权。这使得信息交换非常容易地达到“双赢”或“多赢”的境 界。 4 新闻信息积累与积聚 新闻信息必须积累,只有经过长时间的积累,才能建立具有自身特色且具有价值 的数据库;然而在网络时代中,以最快的速度从众多的数据库、信息源中采集信 息,即通过信息积聚的方式扩大信息量,是一种更有效率的信息扩张。 5 新闻信息的组合与联合 信息共享、信息交换、信息积聚都是新闻信息流的组合方式,丽这静组合必定对 新闻信息流及新闻信息机构之间的合作与联合提出相应的要求。 6 新闻信息普遍性与秘密性 具有共享性的新闻信息,它的作用是普遍的,即是一种“普照的光”;但是任何一 家媒体,不仅需要普遍性的叛闻信息,同对需要特殊的、专供的、独占的新闻信 息,以体现媒体的独特性。这就要在普遍的新闻信息以外,注意捕捉和提供专有 的、秘密的新闻信息。 7 新闻信息市场细分 新闻信息的篑求是多类型、多层次的,因而新闻信息市场也是细分的。企图提供 大而全的信息服务,满足多方面、多层次、全方位的需要,只能是一种奢望。 8 新闻信息整合产生新的价值 信息流中有表象信息、孤立信息、相关信息。信息整合就是要通过信息表蒙,对 信息本质进行开掘,这是新闻信息工作的真正价值所在。 9 新闻信息服务日益发展成为相对独立的产品 数据库、信息服务网,专建资料等等,都是为新闻工作服务的,是为记者、编辑 提供“嫁衣裳”。但随着信息整合、信息深度加工等大量智力劳动的投入,更多的 “嫁衣裳”将愈益成为相对独立的信息产品。 1 0 新闻信息滞后服务逐步向信息超前导弓l 转变 新闻信息是对新闻事件的反映,因此相对新闻事件来说,新闻信息总是滞后的: 而传统的新闻资料工作是对新闻信息的储存、搜集、整理,因此相对于新闻信息 来说,又是滞后的。在网络时代中,通过对新闻信息的整合和开掘,有可能探寻 出新闻信息的发展和演变趋势,从而实现信息服务向超前导引转变。 ( 2 ) 制定标准的建议 在研究第一节所述与新闻有关的标准,结合上面所列举的网上新闻特点后,决 定以n e v 幅m l 和n i t f 为主要参考,同时根据网上新闻信息的特点,在制定中注意 以下几点: ( a ) 实时性强,更新快,注重时效。所以在网上新闻标准中要能描述新闻制 作的发行时间和失效时问。 ( b ) 为了实现各种检索以方便人们查找,网上新闻标准需要能划分新闻类别, 重要程度,作者,甚至于能标识新闻正文内容中重要的部分,如人,单 位等等。 ( c ) 现在网上新闻表现手段多,充分利用多媒体来报道新闻。因此在网上新 闻标准中不仅要支持文本数据,还要有对其他类型数据的支持。 ( d ) 要求与主流新闻x i v i l 标准的转换简便。 ( e ) 要求易于扩展,由于现在科技与人们的需求进步很快,因此标准的制定 要求能方便地扩充以免刚制定出就落伍。 ( 3 ) 详细说明与标准特点 根据上面所述的网上新闻的特点以及网上新闻标准的建议,结合实际研究工 作的需要,制定了一套网上新闻x m l 标准,下面就主要几个地方做一下具体说明。 整个标准的主要结构如下图所示: 图3 - 1 网上新闻也标准结构 f i g u r e 3 一ii n t e r n e tn e w sx m ls t a n d a r df r a m e w o r k - 2 2 其中新闻内容元素的定义如下图所示 图3 2 网上新闻x m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论