附件州信用门户网站信息发布规范-湖南发改委_第1页
附件州信用门户网站信息发布规范-湖南发改委_第2页
附件州信用门户网站信息发布规范-湖南发改委_第3页
附件州信用门户网站信息发布规范-湖南发改委_第4页
附件州信用门户网站信息发布规范-湖南发改委_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1附件4市州信用门户网站信息发布规范一、制定背景信用湖南门户网站的地市动态主要来源于各市州信用平台子网站。省级信用门户网站整合湖南省各市州信用子网站内容的手段主要有网上抓取、信息报送和网站链接等方式。其中网上抓取是“信用湖南”门户网站从各级子网站获取内容的主要方式之一。网上抓取所面临的问题是,市州信用子网站缺乏统一的内容格式规范,网站内容的变动缺少统一格式的索引,不利于采集工具自动抓取和分析信息,部分属性缺少或不易准确提取。为了更准确地采集和分析下属子网站的信息,需要规范网站的页面内容格式,并为网站内容的变更添加统一的索引。市州子网站按照统一要求经过规范化设计后,信用湖南门户网站可以通过内容整合系统准确地实现网上信息自动抓取。二、名词解释网站内容整合本规范所指的网站内容整合,仅限于对湖南省各市州信用子网站发布的底层静态网页内容的抓取,不包含对信用信息发布、信用信息查询等应用服务系统中数据内容的整合。2RSS标准RSS(“RICHSITESUMMARY”或“REALLYSIMPLESYNDICATION”的首字母缩写)中文称作“简易信息聚合”,是信息聚合的国际标准。内容变更索引文件记录网站每个小时内容变更情况的XML文件,标准格式为HNCREDIT_RSSYYYYMMDDHHXML。当网站内容发生增、删、改等变化时,该时段的内容变更索引文件将同步更改。三、制定目标本规范围绕信息采集和网页分析功能,在保持现有网站建设模式、不增加信息通道的前提下,使符合规范的网站发布的网页内容可被“信用湖南”门户网站内容整合系统自动识别、采集,并实现网页属性信息和内容字段信息的自动引用,最大限度减少人工介入。本规范结合“信用湖南”门户网站内容整合系统,实现以下目标1、及时发现并收集网站的信息变更情况;2、准确分析网页属性信息;3、准确定位内容信息;4、实现门户网站与子网站之间内容的自动同步;为了实现上述目标,本标准制定了四方面条款,具体含义和作用说明如下1、内容字段信息规范要实现内容整合,首先应明确每3一类信息内容必须包含的字段,以及各字段所定义的各项内容的书写规范,确保内容的完整和格式的统一;2、内容字段标注规范对信息内容按规定的字段进行标注,使内容整合系统在抓取信息后,能将各字段下的信息准确定位到市州信用子网站对应网页的对应区域;3、页面属性标注规范一个内容网页中包含着标题、正文、作者、发表日期、正文、来源、唯一标识等基本属性,如果没有格式规范,内容整合系统很难确分析这些信息。通过制定统一的格式规范,可以实现网页属性信息的准确提取,并为分类检索打下基础;4、索引文件发布规范用于标记网站单位时间内信息变更情况,通过对索引文件的分析,可以使内容整合系统程序判断哪些内容需要抓取,并获得这些内容的链接地址。四、适用对象本规范适用于湖南省各市州信用子网站,信用湖南门户网站内容整合系统将全面支持本标准,实现对符合标准的信用子网站的准确数据采集。具体类别及内容界定如下机构设置市州信用机构名称、联系方式、工作职能等;法规文件市州有关信用的法律、政府规章、规范性文件;讲话文论市州信用机构领导发表的重要讲话与文章;4规划公报市州出台的或关于本市州信用的发展规划、政府公报动态信息市州发生的关于信用的重要动态信息;公告公示市州信用机构公开发布的公告或公示信息;五、制定原理本规范结合了RSS标准的基本规则与信用湖南门户网站信息内容的特性。实现规范的基本方法是,在网页HTML中,嵌入特定意义的标识信息,用于标注各项有意义的内容,这些嵌入的标识信息采用HTML的META和特殊注释语句置标,在实现属性标注功能的同时,不影响网页的显示效果。构成网页的HTML文件逻辑上可以分为内容(CONTENT)和页面展示(STYLE)两部分,内容部分包括网页的标题、日期、正文、作者等数据元素,它决定了网页所包含的信息;页面展示部分包括每个元素的位置、字体、大小、颜色等,它决定了网页在浏览器中的显示效果。HTML文件能够将内容和页面展示有机地结合为一体。本规范的制定主要从网页内容标注入手,从内容层面对网页进行标注,而忽略页面展示层面。具体方法是,利用HTML文件的特性,在不影响网页展示效果的前提下,加入各类属性置标,规定网站发布内容必须包含的信息。例如,在网页中标注网站信息、栏目信息、标题、日期、作者、来源等元数据内容,从根本上保证其它应用对该网页属性的准确识别和提取。5六、规范条款61内容字段信息规范说明为第4部分“适用对象”中规定的信用信息定义基本的内容字段和信息填写格式,各子网站发布的相应内容,必须包含该类别的基本字段,并按规范格式填写。用途保证子网站与“信用湖南”门户网站内容的一致性,保证被整合的各类内容包含了门户网站所需的基本信息,且内容格式统一。各信息类别包含的基本字段名称及填写规范如下(注字段内容中未标“可为空”的为必填项)1、机构设置名称填写本市州信用机构名称的全称;地址填写本市州信用机构办公地址和邮政编码,格式为办公地址(邮政编码);公开电话填写本市州信用机构的公开电话,保留区号,格式为(区号)电话号码;监督电话填写本市州信用机构的监督电话,保留区号,格式为(区号)电话号码;电子邮件填写本市州信用机构的公开电子邮件;网址填写本市州信用机构网站主页网址;必须包含HTTP/;主要职责填写本市州信用机构的主要职责。2、法规文件6标题填写法规或文件的标题,不保留发文单位;文号填写文件的规范文号;正文填写内容,包含发文范围、附件,附件应在正文中展开或在标题上做超链接,超链接必须是绝对地址;发布机构填写文件所有发文机构的全称;发布时间填写文件发布日期,格式为YYYYMMDD;主题词填写文件主题词。3、讲话文论标题填写讲话稿或文章标题;作者填写讲话稿或文章发表人姓名;发布日期填写讲话稿或文章发表日期,格式为YYYYMMDD;正文填写讲话稿或文章正文,附件应在正文中展开或在标题上做超链接,超链接必须是绝对地址。4、规划公报标题填写规划或公报的标题;发布机构填写规划或公报发布单位名称;发布日期填写规划或公报发布日期,格式为YYYYMMDD;正文填写规划或公报正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址。5、动态信息7标题填写信息标题;作者填写信息作者姓名(可为空);发布日期填写信息发布日期,格式为YYYYMMDD;正文填写信息正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址;来源填写信息的原始发布单位。6、公告公示标题填写公告或公示标题;发布机构填写公告或公示发布机构全称;发布日期填写公告或公示发布日期,格式为YYYYMMDD;正文填写公告或公示正文,附件应在正文中展开或在附件标题上做超链接,超链接必须是绝对地址。62内容字段标注规范说明在正文内容中,使用特殊定义的置标对条款61定义的各内容字段的信息进行标注。用途使内容整合系统在抓取信息后,能将各字段内容准确定位到市州信用子网站对应网页的对应区域,实现信息的自动同步。在有关内容页面HTML代码的BODY中对内容字段信息作如下标示BEGIN8字段信息END下面以范例形式给出各类别内容的字段信息标注格式1、机构设置BEGINEND地址BEGIN()END公开电话BEGINEND监督电话BEGINEND9电子邮件BEGINZJGOVCNEND网址BEGINHTTP/WWWGOVCNENDBEGIN1;2;3END102、法规文件BEGINENDBEGIN发号ENDBEGIN。附件END11BEGINENDBEGINEND3、讲话文论此类信息内容基本字段不在页面的BODY中标注,标注方式请参见63页面属性标注规范中的部分条款。4、规划公报此类信息内容基本字段不在页面的BODY中标注,标注方式请参见63页面属性标注规范中的部分条款。5、动态信息此类信息内容基本字段不在页面的BODY中标注,标注方式请参见63页面属性标注规范中的部分条款。6、公告公示此类信息内容基本字段不在页面的BODY中标注,标注方式请参见63页面属性标注规范中的部分条款。63页面属性标注标准说明在各网站的内容页面中,标注标题、正文、作者、发表日期、正文、来源、唯一标识等基本属性。12用途使内容整合系统程序能准确地分析所抓取网页的属性。在HTML的头区中,以META的形式将等网站名称、所属部门等基本属性以及该内容页面的标题、描述、作者、分类、变更时间、唯一标识、有效期、重要性、来源、语种等信息进行标注,在正文内容前后,使用特殊定义的置标进行标注。具体含义如下“网站名称”指网页所在子网站的名称;“地区”指子网站所属地区的代码,参见“字典表”“地区”一栏;“标题”指该时段内发生变更的每一个内容网页的标题;“描述”是对信息内容的说明,内容可为空;“作者”指信息内容的作者,内容可为空;“分类”指信息内容类别代码,参见“字典表”“信息内容分类”一栏;“变更时间”指该信息的增、删、改操作发生的时间,要求格式为YYYYMMDDHHSS如20160228201557;“唯一标识”指该内容页面在政府门户网站群中的唯一识别代码,组成格式如下地区代码(6位)信息内容分类3位年4位稿件ID(7位)稿件ID是指各子网站用一串数字作为稿件在本网站的唯一标识,不够7位时在前面加0;注本规范要求所有适用的政府网站必须为每个内容页面13生成一个唯一的稿件ID。“有效期”指该内容页面的有效时间,以天为单位,默认0为永远有效;“稿件来源”指该内容页面的初始来源,内容可为空;“正文内容”指该内容页面的正文和有效内容。页面属性标注格式描述如下14正文内容64内容变更索引文件发布标准说明在子网站固定目录下,以小时为单位生成一个XML格式的索引文件,将网站在每一时间段内发布、删除、修改的内容页面的相关信息标注到对应的变更索引文件中。用途使“信用湖南”政府门户网站的内容整合系统程序能及时、快捷、准确地获取子网站内容变更信息,并捕获变更内容的链接地址。每个变更索引文件中包含网站名称、主页URL、地区、部门等基本信息以及该时段内发生变更的每一个内容页面的标题、URL、描述、作者、分类、变更状态、变更时间、唯一标识、备注等信息。具体含义如下“网站名称”指子网站的名称”;“主页URL”指网站的域名,必须填写完整的网站域名,即HTTP/;“地区”指网站所属政府部门所在地区代码,参见“字典表”15“地区”一栏。“标题”指该时段内发生变更的每一个内容网页的标题;“URL”指该内容网页的URL,即HTTP/;“描述”是对信息内容的说明,可为空;“作者”是指信息内容的作者,可为空;“分类”是指信息内容类别名称,参见“字典表”“信息内容分类/名称”一栏);“变更状态”是指信息的变更状态,0新增,1撤稿,2修改;“变更时间”是指该信息的增、删、操作发生的时间,要求格式为YYYYMMDDHHSS如20050619201557;“唯一标识”指该内容页面在网站群中的唯一识别代码,组成格式如下地区代码(6位)部门代码3位信息内容分类3位年4位稿件ID(7位)稿件ID是指各子网站用一串数字作为稿件在本网站的唯一标识,不够7位时在前面加0;“备注”为扩展字段,内容可为空。内容变更索引文件的命名格式如下HNCREDIT_RSSYYYYMMDDHHXML。即HNCREDIT_RSS年4位月2位日2位小时2位XML,如HNCREDIT_RSS2016022814XML。如该时间段没有发生信息变更情况,可以不生成索引文件。16内容变更索引文件的存放路径如下HTTP/HOSTNAME/GB/HNCREDIT_RSS/HNCREDIT_RSSYYYYMMDDHHXML。内容变更索引文件格式描述如下网站名称主页URL地区代码内容网页1标题URL描述作者分类变更状态变更时间唯一标识备注17内容网页2标题URL描述作者分类变更状态变更时间唯一标识备注65信用查询服务索引文件发布标准说明在网站固定目录下,以天为单位生成一个XML格式的索引文件,将网站中的信用信息查询服务中发布、删除、修改的服务内容标注到对应的变更索引文件中。用途使“信用湖南”政府门户网站的内容整合系统程序能及时、快捷、准确地获取子网站的信用信息查询服务变更信息,并捕获变更内容的链接地址。每个变更索引文件中包含网站名称、主页URL、地区等基本信息以及该时段内发生变更的每一个事项的标题、URL、描述、变更状态、变更时间、备注等信息。具体含义如下注本18索引文件无类别信用信息查询服务变更索引文件的命名格式如下HNCREDIT_CX_RSSYYYYMMDDHHXML。即HNCREDIT_CX_RSS年4位月2位日2位小时2位XML,如HNCREDIT_CX_RSS2008030214XML。如该时间段没有发生信息变更情况,可以不生成索引文件。信息查询服务变更索引文件格式描述如下网站名称主页URL行政区划企业信用信息查询HTTP/WWWXXXXXXGOVCN/SITE/GWXX/INDEXJSP您可通过本查询服务,查询到XX市州企业信用信息。020160319201557备注19附件字典表附件字典表表1信息内容分类代码机构职能法规文件讲

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论