信息组织学 第9章 信息组织技术.ppt_第1页
信息组织学 第9章 信息组织技术.ppt_第2页
信息组织学 第9章 信息组织技术.ppt_第3页
信息组织学 第9章 信息组织技术.ppt_第4页
信息组织学 第9章 信息组织技术.ppt_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第九章 信息组织技术,组织技术包含的种类很多,本章主要介绍一般性的信息组织技术,如代码和编码技术、分词和标引技术、数据库技术、数据仓库技术,以及适合于数字资源组织的超文本技术和用于构建数字空间的虚拟现实技术。,9.1代码与编码技术,9.1.1 代码 1代码的概念 代码是符号的一种,它与语言文字、图形、数字符号一样,可以用来代表或描述特定的信息,它不是通常的符号,而是指那些为便于信息组织、传播、存贮检索和加工处理而设计的非常规的符号。,9.1.1代码, 2代码的功能 (1)代码能够简明、精确地描述信息。 (2)代码可以反映信息的类别特征 (3)代码有利于信息组织 (4)代码可以服务于特殊的信息处

2、理需求。,9.1.1 代码(续), 3代码的类型 (1)按代码构成成分不同,代码可分为单纯代码和混合代码。 (2)按照代码组织功能不同,可以将其划分成排序码和无序码。 (3)按代码组合的方式不同,可分成层次码、特征组合码和镶嵌式组合码。,9.1.1代码(续),3代码的类型-镶嵌式组合码 ISBN(国际标准书号) International Standard Book Number 由十位数字组成。被三条短横线分为四段,组号出版者号书序号校验号 第一个号码段是地区号,又叫组号 (Group Identifier),大体上兼顾文种、国别和地区。把全世界自愿申请参加国际标准书号体系的国家和地区,划分

3、成若干地区,各有固定的编码.,9.1.1代码(续),3代码的类型-镶嵌式组合码 地区号: 0、1代表英语,使用的国家有:澳大利亚、加拿大、爱尔兰、新西兰、波多黎各、南非、英国、美国、津巴布韦等; 2代表法语,法国、卢森堡以及比利时、加拿大和瑞士的法语区使用该代码; 3代表德语,德国、奥地利和瑞士德语区使用该代码; 4是日本出版物的代码; 5是俄罗斯出版物的代码; 7是中国出版物使用的代码。,9.1.1代码(续),3代码的类型-镶嵌式组合码 第二段号码是出版社代码(Publisher Identifier),由其隶属的国家或地区ISBN中心分配,允许取值范围为25位数字。出版社的规模越大,出书越

4、多,其号码就越短。 第三个段是书序号(Title Identifier)由出版社自己给出,而且每个出版社的书序号是定长的。最短的一位,最长的六位。出版社的规模越大,出书越多,序号越长。,9.1.1代码(续),3代码的类型-镶嵌式组合码 第十位是电子计算机的校验码(Check Digit)。固定一位,起止号为010,10由X代替;11,用“0”表示 检验位是用来检验前9位代码是否正确,计算方法是,用10,9,8,7,6,5,4,3,2分别乘以ISBN的前9位数字,所得乘积相加之和除以11,用11减去所得余数即为校验码。 如国际经济学一书的ISBN号为: ISBN 7300029043/F892,

5、9.1.2信息编码(续),(4) 按代码的主要用途,可以区分为信息识别组织代码和信息传输/交换代码。 BIG5是台湾计算机界实行的繁体汉字编码字符集。它包含了 420 个图形符号和 13070 个汉字(不包含简化汉字),9.1.2信息编码(续),(4) 按代码的主要用途,可以区分为信息识别组织代码和信息传输/交换代码 GB (国标编码)是中华人民共和国信息交换汉字编码标准(GB231280), 在此标准中制定了每一个汉字及非汉字符号的编码。规定将汉字字符分为87个区, 每个区有94个汉字(94位),因此共制定了87x948178个汉字、字符。 每一个字符的编码由2个字节(Byte, 一个字节有

6、8位-Bit, 可以有256种不同表示)构 成(分别称为高字节和低字节),其值分别为其区位码值各加上32(既16进制的20H),如中国的“中”字位于54区48位,其国标码就是5650H。,9.1.2信息编码(续),(4) 按代码的主要用途,可以区分为信息识别组织代码和信息传输/交换代码。 当想在由西方人发明的计算机中使用汉字时,由于国标码的范围与计算机中使用的 ASCII 码(American Standard Code for Information Interchange,美国信息交换标准码)重叠,于是规定将国标码的高低 字节的最高位均置1(Set the MSB,相当于加上128-16进

7、制的80H),来使之区分于 ASCII 码。这样,在计算机中使用的汉字编码实际上是真正的国标码的高位置1后的变形 码(以后称此码为 GB 码),前面的“中”字 的 GB 码就是0D6D0H。,9.1.2信息编码(续), (4) 按代码的主要用途,可以区分为信息识别组织代码和信息传输/交换代码。 GBK字集是简繁字集,包括了GB字集、BIG5字集和一些符号,共包括21003个字符。 GB18030是国家制定的一个强制性大字集标准,全称为GB18030-2000,凡在中国大陆销售的国内外中文电脑,都必须能够处理27533个汉字,否则将不准销售。它的推出使我国港台地区及其他国家使用的汉字集有了一个大

8、一统的标准。,9.1.2信息编码(续),4信息代码的设计 C=Sn C: 代码数量 S:代码基数 n:代码位数,9.1.2信息编码(续),在信息组织中,信息编码应具有如下一些基本功能 (1) 能简化信息表达,便于信息的识别、记忆、组织、传播、存贮和检索。需要设计各种代码,使信息变得更加简明、有序,易于记忆存贮和识别检索。 (2) 在要求保密的情况下,能弥补基本符号不易保密的缺陷。,9.1.2信息编码(续), PCM(脉冲编码调制) (1)采样,以采样频率Fs把模拟信号的值采出; (2)量化,使连续模拟信号变为时间轴上的离散值; 编码,将离散值变成一定位数的二进制数码。,9.1.3条形码,9.1

9、.3条形码,条形码是由一组粗细不一、相互平行的黑白条符组成并按一定编码规则组织起来,用来表示字母、数字、甚至汉字等信息。由于黑白条符对光的反射率不同,用光扫描器扫描条形码时,反射率不同的黑白条符转化成高低不同的电信号,据此,计算机读入了有关条码信息。,9.1.3条形码(续),1条形码发展概论 2条形码技术的特点 (1)信息输入速度快 (2)信息输入准确性高 (3)信息的保持性高 (4)信息采集量大,9.1.3条形码(续),3条形码设计的注意事项 (1)条码字符集: 代码可用的全部字符的集合 (2)条码符号的密度: 单位长度上所表示的条形码字符的个数,构成条形码各个单元的密度越小,条形码符号的密

10、度就越高,扫描出错的可能性就越大。 (3)条码的结构:,9.1.3条形码(续),3条形码设计的注意事项 编码方法: 宽度调节法:利用条形码符号黑白条符的宽度差别,分别表示不同的二进制数字,多个条形码符号的宽窄变化,就能表达条形码字符集中的字符。 模块组配法:细致分割,形成基本单位,黑条符代表1,白条符代表0 编码容量: 宽度调节法:Cnk n:每一条码字符中所包含的单元总数,k为宽单元或窄单元的数量。,9.1.3条形码(续),3条形码设计的注意事项 6)条码的连续性与非连续性: 7)条码的长度: 8)条码识读的方向性: 单向与双向 9)条码的纠错能力: 具有自校验功能,9.1.4密码,2密码的

11、类型 1)替代密码: 2)伪文密码: 3)隐式密码: 4)移置密码: 5)公开密钥密码和仿真密码:,9.1.4密码(续),pleasetransferonemilliondollarstomyswissbankaccountsixtwotwo进行加密,加密过程如下: m e g a b u c k 7 4 5 1 2 8 3 6 p l e a s e t r a n s f e r o n e m i l l i o n d o l l a r s t o m y s w i s s b a n k a c c o u n t s i x t w o t w o a b c d 加密时依字母

12、顺序按列书写,上述加密后的密文是: afllsksoselawaiatoossctclnmomantesilyntwrnntsowdpaedobuoeriricxb,9.1.4密码(续),3密码三要素 1)明文: 通信双方要传递信息的真实内容 2)密钥: 加密算法或变换规则 3)密文: 替代匹配明文在通信过程中使第三方无法解读的一种特殊的语言。,9.2自动分词与标引技术,9.2.1自动分词 目前常用的汉语分词技术有: (1)词典分词法: 扫描文本,将读出的信息与计算机内的词典按匹配标准匹配。 (2)切分标记法: 用词首字、 词尾字、独立字等构成字典。 (3)单汉字标引: 直接利用单个汉字 (4

13、)智能分词法: 建立分词库,对词义歧义的地方加标点符号,9.2.2自动标引,自动标引是以计算机代替人工,自动生成表达信息对象内容特征的主题、分类或其它有意义的标识,它是标引技术与计算机结合的产物,是信息组织自动化的基础。,9.2.2自动标引(续),扫描结果的三种处理方式: 利用存入的词表选择,即受控方式 利用各种数据模型和算法计算出候选词的权值,再根据权值的大小选词。 利用各种数据模型和算法分析,构造信息对象的特征库,9.2.2自动标引(续),基于内容的信息检索 (CBR:Content-based Retrieval) 则是指根据媒体对象的语义和上下文联系进行检索,是基于内容的多媒体自动标引

14、的目的。基于内容的多媒体自动标引直接从媒体中提取信息线索,以某种标识近似表示信息内容。,9.2.3自动分类,自动分类通常包括自动聚类、自动归类 (1) 自动聚类 通常以文献相似度矩阵计算,定义方法有欧氏距离法、数量积法、相关系数法、指数相似矩阵法,9.2.3自动分类(续),(2) 自动归类 自动归类是指计算机通过词频统计、语法分析和语义分析等途径得到代表文献内容的类主题词,然后按照某一分类表将文献划分到某个类目的过程。,9.2.3自动分类(续),归类一般过程包括: 对文献的题目或文摘进行分词,同时从词典中取出词法和语文知识赋予每个词。采用词频统计,语法和语义分析方法时,进行主题分析,选出类主题

15、,然后利用一个能够反映类主题目之间相应关系的主题词进行归类,并转换为类号。,9.2.3自动分类(续),由此可见,自动归类和自动标引,采用技术和方法上有共同之处。例如需要词语切分,利用词频统计,位置加权,语法和语义分析等,但是自动归类的目的不是选定关键词而是通过分类表和知识库选出类主题词并转换为类号。,9.3数据库技术,9.3.1数据管理的发展与数据库技术的出现 1数据管理 数据是描述事物的符号记录,数据本身不能完全表达内容,需要经过语义解释。数据管理就是对数据进行分类、组织、编码、存贮、检索和维护。,9.3.1数据管理的发展与数据库技术的出现,计算机描述数据经历了三个环节 信息组织 信息组织

16、现实世界信息世界机器世界 (报表、物体、人) (实体、属性、链) (字段、记录、文件、键),9.3.1数据管理的发展与数据库技术的出现,2数据库技术出现及意义 数据库技术是计算机软件的一个重要分支,产生于60年代末, 1969年美国IBM公司推出了层次模型的IMS数据库系统。 1969年10月,提出COBOL语言的美国CODASYL组织的数据库任务(DBTG)发表了网状数据库系统的标准文本, 1970年美国的IBM公司的高级研究员E.F.Cod提出了关系模型。 这三件事奠定了数据库系统的基础。,9.3.1数据管理的发展与数据库技术的出现,在信息数字化、知识经济化、决策科学化、管理现代化、资源网

17、络化的数字经济时代,数据库是使用相当普遍的信息组织方式。 3数据库及数据模型 数据库(Database,DB)是存储在一起的相关数据的集合。,9.3.1数据管理的发展与数据库技术的出现,4数据库的结构 外模式 模式 内模式 5数据库管理系统 数据库的定义功能 数据定义语言(DDL) 定义数据库三级结构 数据库的操纵功能 数据库操纵语言(DML)查询和更新(插入删除修改) 数据库的保护功能 恢复 并发控制 完整性控制 安全性控制 数据库维护功能 数据装载 备份 文件重新组织 性能监控,9.3.2数据库系统的设计,1系统开发方法 1)自顶向下(top-down)的方法 2)生命周期法(life c

18、ycle), 3)需求分析法(requirement analysis), 4)原型法(prototyping) 5)OO法,9.3.2数据库系统的设计(续),2数据库系统设计步骤 (1)需求调查 (2)系统分析与概念结构设计 (3)逻辑结构设计与物理结构设计 (4)数据库的实现与维护,9.3.3 数据库建设中的信息组织问题,这些错误出现的主要原因有: (1)人为输入错误 (2)由于记录符号及格式方面的非规范化导致的。 (3)数据采集滞后、失真导致的。 (4)数据标引方面的问题导致的。如错标漏标、标引深度不统一等等。因此,在数据库建设中就严格加强标准化和规范化控制,充分做好信息的组织工作。,9

19、.4数据仓库技术,9.4.1数据仓库技术的产生和发展 1数据仓库技术的起源 90年代初,W.H.Inmon在其里程碑式的著作建立数据仓库中提出了“数据仓库”的概念,从此数据仓库的研究和应用得到了广泛关注。 2数据仓库的定义 数据仓库是支持决策过程的、面向主题的、集成化的、稳定的、不同时间的数据集合。这个定义体现了数据仓库作为信息组织技术和工具的鲜明特征,如主题性、有序性等。,9.4.1数据仓库技术的产生和发展,3数据仓库的特征 (1)数据量巨大。 (2)数据按主题归类。 (3)数据具有集成性和有序性。 (4)数据具有稳定性。 (5)数据具有一定的时限。,9.4.2数据仓库的系统结构,1数据仓库

20、的逻辑结构和物理结构 原始数据基本数据综合数据 多维数据库存储 基于关系表存储 2数据仓库系统 1) 源数据。 2) 仓库管理 3) 分析工具,9.4.2数据仓库的系统结构,3数据仓库应用的C/S结构形式 数据仓库应用是一个典型的C/S结构,其客户端的工作包括客户交互、格式化查询及结果和报表生成等。 4数据集市 规模较小,面向某种特定应用的部门级数据仓库,9.5超文本技术,9.6.1超文本的概念 起源: 与超文本相关的术语最早可追溯到1704年数学家F.Klein 提出的“hyperspace”。1945年,美国科学家V.Bush在大西洋月刊杂志上发表了一篇题为“As We May Think

21、”的文章,在这篇文章中,Bush设想了一种他称之为“Memex”的专门存储户籍、档案和信件的机械,并可模仿人的联想记忆能力进行快速灵活的查询和检索。,9.5.1超文本的概念,60年代,计算机科学家Ted Nelson提出了超文本(Hyper text)这一名词,进入70年代超文本研究稳步发展,1987年的专题会议hyper text87将超文本的发展推向了一个高潮。同年,Apple公司首次推出具有深远意义的HyperCard软件,标志着超文本从实际阶段走向市场。 从原理上讲,超文本技术在印刷型文献中早已使用,脚注、页注、引文、参考文献,9.5.1超文本的概念(续),从技术角度看,超文本是收集、

22、存储和浏览离散信息,以建立和表示信息之间关系的技术; 从网络的拓朴性质上看,超文本是一个由若干个结点(node)及结点间的链构成的语义网络; 从信息组织方法上看,超文本是运用超链接组织起来的信息。,9.5.2超文本的三要素,超文本三要素: 1结点(node) 表达信息的基本单位 2链(link) 将结点联系起来的中介 3. 网络 有向图 超文本: 综合概念 便于浏览 人工智能:表示知识 便于推理,9.5.2超文本的三要素(续),链的结构一般可分为三部分: (1)链源: 结点信息迁移的原因 (2)链宿:链的目的所在 链的属性: 索引链 实现结点中点、域之间的链接 结构链 对层次性父子结点信息进行

23、操作,树状 隐形关键字 链本身作为关键字,9.5.3超文本的基本特征(续),(1)非线性组织结构 (2)单元(或信息块)是超文本信息组织的对象 (3)信息的层次性 (4)交互界友好 (5)具有检索(retrieval)功能。,9.5.4超文本的体系结构,在超文本方面较著名的模型有CampbellGooelman模型及Dexter模型。两个模型基本类似,它们将超文本体系分为三个层次(以CampbellGooelmen模型为例),这三个层次分别为用户接口层、超文本抽象机层、数据库层。,9.6.4超文本的体系结构(续),用户接口层 用户界面 超文本抽象机 确定超文本系统中结点和链的基本特性及维护它们

24、之间的联系 数据库层 存放显示的实际数据,9.5.5超文本信息组织过程,(1) 获取任务信息 (2) 任务信息的理解和分析 (3)组织成超文本 (4) 用户界面设计,9.6多媒体制作技术,9.6.1二维图像处理Photoshop 9.6.2二维动画制作Flash 9.6.3三维动画制作3D Studio MAX 9.6.4多媒体课件制作Authorware,9.7虚拟现实技术,虚拟现实(Virtual Reality,简称为VR)就是利用计算机和其它的专用硬件和软件产生一种境界的仿真,参与者可以通过视觉、听觉和触觉等感觉与仿真的内容交互操作,达到一种“真实”的感觉。,9.7.1虚拟现实系统的发展过程,虚拟现实研究涉及到如下几个方面:仿真(模拟)、计算机图形、人机接口、体视学(从三维观察物体)以及人造现实(artificial reality)。,9.7.2虚拟现实系统的组成,1虚拟现实显示设备 2音频系统 3虚拟环境发生器 4虚拟现实输入输出设备,9.7.3虚拟现实建模语言(VRML),1、VRML概述 描述三维物体及其行为,可以构建虚拟境界,集成文本、 图像、音响、MPEG影像等多种媒体素材。 2、VRML编程简介 使用场景图数据结构来建立3D实境,其解释、执行和呈现通过浏览器实现。,9.8网络信息组织技术,9.8.1网页编写软件 FrontPageDreamweave

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论