




已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章 现代信息科学与药学信息技术第一节 现代信息科学概述1狭义信息论的产生 1948年,香农发表了著名论文通信的数学理论。差不多同时,维纳发表了专著控制论动物和机器中的通信与控制问题。1949年,香农又发表了另一篇论文噪声中的通信。这几篇论文的相继发表,标志着信息论的正式诞生。由于早期香农等人的信息论仅限于研究通信领域的信息问题,因此往往又被称为狭义信息论。2狭义信息的概念 具有不确定性的信息称为随机信息,由于它的运动遵循概率统计规律,所以又称为随机概率信息。狭义信息论研究的就是这种概率信息。3狭义信息论的局限 只考虑了信息的形式方面,不考虑其含义及价值方面而在信息处理和利用领域中不能回避信息的语义和语用问题。它把信息局限于消除随机不定型的范畴,把理论建立在概率论基础上。它只考虑了统计信息,没考虑更更广范更重要的其他信息过程的原理和规律。4广义信息论的数学定义 1972年,德鲁卡和特米尼提出了用来测度模糊时间的信息量的模糊信息熵公式。1982年我国学者钟义信先生针对香农信息论的熵公式只能度量概率信息的缺陷,提出了一种广义信息函数试图用来描述概率信息和非概率信息。5哲学范畴的广义信息 辩证唯物主义认为,宇宙万物的存在是不以人的意志为转移的。而宇宙万物又都以信息的形式显示着自身的方式和状态。这种显示客观事物自身存在的方式和状态的信息称为本体信息。6现代信息科学的概念 信息科学是以信息为主要研究对象,以信息的性质、运动规律和利用为研究内容,以计算机和通信网络等为主要技术工具,以提高人类获取和利用信息的能力为主要目标的一门新兴的横断学科。7信息科学的内容范围 研究信息传输基本理论的信息论、通信理论研究系统内的信息反馈和控制与调节问题以及系统优化问题的控制论、系统论研究信息处理工具计算机的计算机科学研究信息作业的基本技术手段的电子学研究信息的加工处理、传播与利用等问题的情报科学信息管理学和传播学研究生物体中信息传递和基因信息的生物信息学研究人脑中的信息过程的智能科学。8现代信息科学理论 全信息理论、信息科学基本原理以及信息科学方法论,构成了信息科学理论的三大支柱。信息科学是包括香农信息论、全信息理论、识别轮、智能论、控制论、信息系统论的统一理论。9现代信息科学方法论 现代信息科学方法论包括两个基本准则和三个基本方法物质、能量、信息三位一体准则结构、功能、行为、辩证相依准则信息分析法信息综合方法信息进化方法第二节 现代信息技术概述1现代信息技术的概念 从技术的本质来说,信息技术是指能够扩展和延伸人类信息器官功能的技术的总称。应用与信息加工和处理中的科学、技术与工程训练方法和管理技巧;上述方法和技巧的应用;计算机及其与人、机的相互作用;与之相应的社会、经济和文化等诸种事物。2现代信息技术的特点高度的战略地位巨大的渗透能力发展速度快高投入、高风险。3现代信息技术的分类 分类体系结构包括:信息基础技术、信息系统和信息应用技术。4信息基础技术是有关新材料、新能源、新器件的开发或制造技术,是整个信息技术的基础。5信息系统技术 是信息技术体系的核心和主体,是有关信息的获取、传输、处理、控制的设备和系统的技术,主要包括4个单元信息获取技术:传感技术、遥测技术、遥感技术信息处理技术:应用计算机硬件、软件及数字传输网,对信息进行文字、图形、特征识别以及信息加工和积累的技术信息传输技术信息控制技术。6信息应用技术 是针对各种使用目的而发展起来的具体的技术群体,是信息技术开发的根本目的。7现代信息技术的发展趋势高速化计算机技术是现代信息科学技术的核心,是最活跃、发展最快的技术通信技术今后世界通信技术的发展趋势是在数字化、综合化的基础上,向高速化、宽带化、智能化和个人化的方向发展。信息储存技术 发展主要表现在半导体存储技术和光学存储技术两个方面交叉融合 是指随着技术和业务的发展,原先各自独立发展的部分逐渐交叉、渗透,直至融合 计算机与通信技术的融合交叉学科和综合技术的发展高渗透性 主要是指信息技术应用时的特点和发展趋势。第三节 药学信息技术概述1药学信息技术的概念和特点概念 所谓药学信息技术,目前还不是一个固定的专有名词,而是泛指在药学领域中使用的信息技术群特点 药学信息技术的主体是信息系统技术药学信息技术的归宿是信息应用技术。2药学信息技术的作用 促进药学产业经济的增长促进药学领域生产方式的变革推动药学信息产业的发展促进药品流通方式的改变促进药学科学实践的进步提出新的课题 提供新的研究手段 变革药学科学研究的组织体制 促进药学科研成果的转化推动药学科学知识的普及 引导药学教育方式的变革 信息技术承担传播知识的部分功能 信息技术的教学手段丰富 信息技术突破传统教育在时间上和空间上的限制 信息技术要求改革教育内容信息技术改变教育者和被教育者之间的关系信息技术扩展教育对象的范围 推动药学观念的演进 突出以人为本的药学科研和服务观念 强调信息知识在药学人员知识结构中的重要地位 提高信息意识不可忽视。第二章 药学信息获取技术文献检索第一节药学文献的基本概念1情报 是动态知识,是一切最新的、经过加工和传递的信息,具有知识性、传递性和效用性。2文献 是记录有信息和知识的载体,这些信息和知识载体被人们利用时就转化为情报。3药学文献 人们用文字、图形、符号、声频、视频等手段将其记录在各种载体上,这种记录着有关药学知识的一切载体即称为药学文献。4药学文献检索 利用检索工具,准确、全面地查询与特定研究课题有关的药学文献资料的过程就是药学文献检索。5药学文献的特点 历史悠久,版本众多数量激增,类型复杂 语种多样,译文增加出版分散,交叉重复发展迅速,老化加快。6文献的级别 一次文献 即原始文献,通常指作者的原始创作。这类文献记录内容具体、系统、详尽、有新意、有创造性,是文献检索的主要对象。二次文献 通常检索工具,是对一次文献进行压缩,将分散无序的一次文献收集整理加工编制而成的。它为查找、利用一次文献提供线索与方便,被视为文献检索的主要工具与手段。 三次文献 一般是在广泛利用二次文献的基础上,选用大量的一次文献,经过阅读研究,并浓缩提炼而成。年鉴、进展、述评、综述都属于三次文献。零次文献 这是近30年来出现的一个概念。通常认为是形成于一次文献之前的信息、知识、情报,即未公开的最原始的文献,如书信、手稿、笔记、记录,甚至口头交流、实际操作的方法等等。7文献的类型 按文献载体分印刷型 压缩型视听型机读型按文献出版形式:图书、期刊、会议记录、科技报告、政府出版物、学位论文、标准文献、专利文献、产品资料和病历档案等10多个类型。第二节 药学信息获取原则1主动、及时的原则 信息采集应能及时反映药学发展的最新动态,方能使信息的效用得到最大发挥。2真实、可靠的原则 真实可靠的药学信息是进行药学研究和选题的重要保证。3针对、适用的原则 明确药学信息采集的目的和所采集到的信息的用途,弄清药学信息需求人员的研究方向、任务、水平和环境等条件,是保证信息适用性的重要条件。4系统、连续的原则 就是指药学信息采集空间上的完整性要求和时间上的连续性要求。5经济、适度的原则 现代药学信息环境十分复杂,如果不加限制地滥采信息,不仅会造成人力、财力和物力上的极大浪费,而且将使主次不分、真伪不明的药学信息混杂在一起,重要信息泯没于大量无用信息之中。6计划、预见的原则 一方面要注意广辟药学信息来源,灵活地、有计划、有侧重地收集那些对将来发展有重要指导意义的预测性信息;另一方面又要持之以恒,日积月累,把药学信息采集作为一项长期的、连续不断的工作,在科学预见性基础上做到灵活性与计划性的统一。第三节 药学信息获取途径1药学信息获取途径 包括个人信息源、实物信息源、文献信息源、数据库信息源和组织机构信息源。2个人信息源 人既是药学信息的创造者,又是药学信息的使用者。能不断的创造与传播各种最新信息,是最富活力的信息源。特点:及时性新颖性主观随意性强化感知性瞬时性3实物信息源 无论是原药材,代谢产物还是人工合成化合物,均可视为实物信息源。特点:直观性真实性隐蔽性零散性4文献信息源 这是指用一定的记录手段,将系统化的药学信息内容储存在纸张、胶片、磁带、磁盘和光盘等物质载体上而形成的一类信息。特点:系统性稳定性易用性可控性时滞性5数据库信息源 所谓数据库,就是在一定的计算机硬件技术支持下,按照一定的方式和结构组织起来的,具有最小冗余度和较高独立性的大量相关数据的集合。特点:多用性动态管理性技术依赖性6组织机构信息源 组织是社会有机体充满生命活力的细胞,各级各类组织结构主要是通过内外信息交换来发挥其控制功能,从而实现组织目标。特点:权威性垄断性第四节 现代药学信息获取方法1计算机检索 简单说来就是利用电子计算机对信息和数据的高速处理能力来存储数据,并从中查找、取出数据的过程。2计算机信息检索系统的组成 硬件 计算机硬件是指进行信息输入、输出、存储、运算和传递的实体。软件 计算机软件又叫计算机程序,是指控制计算机进行各种作业的一系列指令和进行人机对话及各种数据存储和传输的翻译规则。数据库 数据库是指以特定的组织方式将相互关联的数据集合和存储在一起的总汇,它将各种数据中的信息单元经过有序处理、组织,可以按通常的方法进行维护和检索。3计算机检索方式 光盘检索:单机检索、局域网检索。Internet检索 是一个集合各个专业、各个领域、各种资源为一体的供网上用户共享的信息资源网。4Internet信息检索的特点 信息检索空间拓宽交互式作业方式用户界面友好且操作方便。5Internet信息检索的一般方法 浏览:偶然发现,顺链而行通过网络资源指南来查找信息:其任务就是方便对互联网信息资源的智能性获取。局限性在于,由于管理和维护常常跟不上网络信息的增长速度,导致其收录范围不够全面,新颖性和及时性可能不够强,且还受到管理者分类思想的影响。利用搜索引擎进行信息检索。6Internet信息检索工具 是指互联网上专门提供信息检索服务的计算机系统,其检索的对象是存在于互联网信息空间中各种类型的网络信息资源,Usenet新闻组资源的waist、搜索FTP资源的Archei等。7Internet信息检索工具的原理 通过自动索引程序Robot来广泛搜集Internet信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供检索用的数据库,创建目标索引,并大多以Web页面的形式为用户提供有关的资源导航、目录索引及检索界面。8Internet信息检索工具的类型 非Web检索工具:即以非Web资源为检索对象的检索工具,如Archei、Veronic、WAIS等。Web检索工具:所谓Web检索工具,是指利用超文本技术在Internet上建立的一种提供网上信息资源导航和检索服务的专门Web服务器或网站。9Web检索工具的类型 目录型检索工具:是由信息管理专业人员在广泛收集网络资源和加工整理的基础上,按照某种主体分类体系编制的一种可供检索的登记结构式目录。搜索引擎:其特点由自动索引软件生成数据库,收录、加工信息的范围广、速度快,能及时向用户提供新增信息。多元搜索引擎:又称为集合式搜索引擎,它是将多个搜索引擎集成在一起,并提供一个统一的检索界面,它可分为搜索引擎目录和多元搜索引擎两种类型。10搜索引擎目录 可称为搜索工具的检索工具,它将主要的搜索引擎集中起来,按类型或检索问题等编排组织检索工具,通过组织、检索界面,帮助用户选择适用的检索工具。11多元搜索引擎 是将多个引擎集成在一起,提供一个统一的检索界面,将一个检索提问同时发送给多个搜索引擎,同时检索多个数据库,经过聚合之后输出检索结果。12internet信息检索技巧 明确检索目的和要求,确定查询策略选择合适的Internet检索工具提高检索的精度、准确性扩大检索范围加快检索速度,降低检所耗费。第五节 Internet中的药学信息1Internet文献检索系统 是指通过联机方式,根据用户提供的信息给出相关的文献信息,如论文题目、期刊名称、卷、页、摘要甚至全文等。2UnCover系统 它是一个在线文献检索系统和邮寄系统,它的数据库包括了不同学科的17000种杂志,优点是免费检索,只有要求索取原文时才收费。3PubMed系统 是由美国NLM的生物技术信息中心提供的免费数据库检索系统该检索系统与NCBI提供的其他几个免费数据库共同使用同一个检索系统Entrez.优点是通过其任何一个数据库入口检索,都可在其他数据库中找到相关信息。4Web of Sclence系统 是科技情报研究所建立的电子信息检索系统,其文献数据库收录了16000余种国际杂志,书籍以及各专业会议论文集,每年大约增加1400000篇文献内容。5Internet专利信息 美国专利数据库IBM知识产权信息QPAT-USPCT国际专利世界知识产权组织的IPDL欧洲及欧洲各国专利中国专利信息网第三章 药学知识发现技术数据挖掘第一节数据挖掘概述1数据 数据的概念不再是指普通意义上的数,而是泛指对客观事物的数量、属性、位置及其相互关系的抽象表示,以适合用于人工或自然的方式进行保存、传递和处理。2信息和知识 信息经过加工改造形成知识,知识是人类在长期的社会生活实践、科学研究实践中积累起来的对客观世界的认识和经验。3知识的特性 相对正确性 只是是人类对客观世界认识的结晶,受到长期实践的检验。不确定性 知识是相关信息关联在一起形成的信息结构。依附性 知识可用适当的形式表示出来,表示的形式称为载体。共享性 知识在反复使用过程中可为人类共享,但为了鼓励知识创新,最新的技术知识受到知识产权法的保护,使用者只有支付了一定费用,才能获得这种知识的使用权。4知识的分类 按作用范围不同可分为常识性知识和领域知识知识按作用和表示可分为实时性知识、过程性知识和控制性知识按确定性不同可分为确定性知识和不确定性知识,按结构及表现形式不同可分为逻辑性知识和形象性知识。5数据挖掘的产生 数据挖掘技术是人们长期对数据库技术惊醒研究开发的结果,它使数据库技术进入了一个更高级的阶段,不仅能对历史数据进行查询,而且能够找出历史数据之间的潜在联系,促进信息的传递,进而自动帮助人们发现新的知识。6数据挖掘的概念 数据挖掘是从数据集中识别出有效的、新颖的、潜在有用的、最终能理解的模式的非平凡过程。7数据集 是指有关事实的集合,记录与事实有关的原始信息,比如大型数据库或数据仓库。8数据挖掘的过程 确定业务对象 挖掘的最后结果是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而挖掘带有盲目性,难以成功。数据准备 数据的选择、数据的预处理、数据的转换数据挖掘 对所得到的经过转化的数据进行挖掘结果分析 解释并评估结果,使用的分析方法一般应视数据挖掘操作而定,通常会用到可视化技术。知识的同化 将分析所得到的知识集成到业务信息系统的组织结构中去。9数据挖掘过程分步实现 业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。数据分析人员:精通数据分析技术,并对统计学较熟练。10数据挖掘的对象 原则上讲,数据挖掘可以在任何类型的数据上进行,可以使用社会科学、自然科学处理产生的数据或者卫星观测得到的数据。当然数据挖掘的难度和采用的技术也因数据存储系统而异。11关系数据库 数据库系统由一组内部相关的数据和一组管理和存取数据的软件程序组成,人们常常将数据库系统简称为数据库,关系数据库目前应用最为普遍,药学领域应用的数据库绝大多数都是关系数据库。12文本数据库 文本书库属于高级数据库,它存储的数据主要是对对象的文字描述,而且这种文字描述不是简单的关键词,而是句子或短文,如药品介绍、理论报告、笔记或其他文档。13Web信息Web信息挖掘技术应运而生,它根据互联网分布式信息资源的特点,设定模式抽取,不仅能查到分布式信息资源中已存在的信息,还能识别出数据中隐含的有效的规律。14多媒体数据库 多媒体数据库存放图像、音频和视频数据,因此必须支持大对象,需要特殊的存储和搜索技术。15数据挖掘的方法 按挖掘任务分:分类和预测、数据总和、聚类分析、关联规则发现、序列模式发现、依赖关系或模型发现、异常和趋势发现。按挖掘方法分:统计方法、机器学习、神经网络方法、数据库方法。按挖掘对象分。第二节数据挖掘的常用技术1数据准备 可以分为3个步骤:数据选择。数据预处理。数据转换2数据选择 在明确了数据挖掘任务后,首先要确定挖掘任务的操作对象,即目标数据。数据选择就是根据任务需要从原始数据集中抽取必要的数据,确定为目标数据。3数据预处理一般包括消除噪声推导计算空缺值数据消除重复记录完成数据类型。4数据清理 目的是去掉数据中的噪声,纠正不一致数据。方法是填充空缺值、识别孤立点、消除噪声、纠正数据中的不一致。5数据集成 是将多个数据源中的数据结合起来存放在一个一致的数据存储中。数据集成时需要重点考虑3个问题,即实体识别,冗余或重复,数据冲突。6数据转换 是将数据转换成适合挖掘的形式,主要目的是减少数据维数,即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。7规范化 即将属性数据按比例缩小或放大,使之落入一个小的特定空间。8数据规约 通过数据规约可以得到数据量小得多的数据集的压缩表示,但却能够得到同样的或几乎同样的挖掘结果。9维规约 用于数据挖掘的数据可能包括很多属性,其中大部分属性与挖掘任务不相关或弱相关。维规约通过删除这些不相关或弱相关的属性来减少数据量。基本方法:对属性逐步向前选择逐步向后删除两者集合起来用决策树归纳的方法来选择属性子集。10数据压缩 采用数据编码或变换来得到原始数据的规约或压缩表示,称为数据压缩。11数据库方法 主要指采用数据库的数据抽取技术来挖掘知识。数据抽取的目的是对数据进行浓缩,给出它的紧凑描述。12数据泛化 是把数据库中的有关数据从低层次向高层次抽象的过程。数据泛化目前主要有两种技术:多维数据分析和面向属性的归纳方法。13多维数据分析 是一种重要的数据仓库技术,也称作联机分析处理或数据立方体方法。14多维数据模型 该模型将数据视为数据立方体形式。数据立方体维事实多维数据模型:目前主要有星型模式、雪花模式、事实星座模式的形式存在。15多维数据分析的种类 MOLAP:在多维数据库上实现的OLAP称为MOLAP。多维数据库在数据存储和综合上优于关系数据库,操作简明,效率较高ROLP:数据立方体建立在传统的关系型模型之上,通过建立星型或雪花型模式,将多维请求动态转化为关系查询,实现多维操作。HOLP:即混合式OLAP,是近来发展出来的多维数据分析,它结合了MOLAP和ROLAP的各自优点,ROLAP的灵活性和MOLAP的快速运算。16联机分析挖掘 基于OLAP的数据挖掘称为OLAP挖掘或联机分析挖掘,它将联机分析处理与数据挖掘以及在多维数据库中发现知识集成在一起,强调交互式和探测式。17面向属性的归纳方法 面向属性的归纳方法,不是像多维数据分析那样预先存储好泛化数据,而是直接对用户感兴趣的数据视图进行泛化。基本思路:首先使用关系数据库查询收集与任务有关的数据,然后通过考察这些数据中每个属性的不同值的个数,进行概化。数据概化有两种方法:属性删除与属性概化。处理过程:数据聚焦、查询转化、属性删除、属性概化、属性概化控制。18分类分析 主要是建立一个分类函数或分类模型,该模型能把数据集中的数据项映射到某一个给定类别中。19分类器的构造方法 统计方法机器学习方法神经网络方法20分类器的评价标准 预测的准确度计算的复杂度模型描述的简洁度强壮性21贝叶斯网络 是一种对概率关系的有向图解描述,适用于具有不确定性和概率性的事物,应用于有条件地依赖多种控制因素的决策。22贝叶斯学习理论 利用先验信息和调查得到的样本数据来估计未知样本。采取贝叶斯方法进行问题求解的基本步骤:定义随机变量 将要求解的未知样本参数看做随机变量,设为确定先验分布P()利用贝叶斯定理计算后验分布利用计算得到的后验分布对所求问题进行推断如果得到后验分布,即对样本信息的初步推断不够准确,则将此后验分布作为新一轮计算的先验分布,用贝叶斯定理与进一步得到的样本信息进行综合。23简单贝叶斯分类 将贝叶斯定理用于分类分析有两种方法:一种是简单贝叶斯分类,一种是贝叶斯网络。24决策树法 是一种发展较早的、较为成熟的归纳学习算法。25机器学习 就是要使计算机能模拟人的学习行为,自动地通过学习获取知识和技能,不断地改善性能,进行自我完善。26归纳学习 是从特殊情况推导一般规则的学习方法。27示例学习 又称为实例学习,它是通过从环境取得若干与某概念有关的例子,经归纳得出一般性概念的一种学习方法。28决策树法 着眼于从一组无次序、无规则的事例中推理出决策树表示的分类规则。最大优点就是它在学习过程中不需要用户了解很多背景知识,只要训练例子能够用属性结论式的方式表达出来,就能使用该算法。29决策树的构造 在一棵决策树中,结点对应于待分类对象的属性,由某一结点引出的弧对应于这一属性可能取的值,叫结点对应于分类的结果。30ID3算法 基础是逐步形成完整决策树的迭代思想,首先随机选择若干实例构成一个训练窗口,然后重复执行下列步骤:对窗口内的实例集构造其决策树寻找决策树的一个反例如果反例存在,就将其加入到训练窗口中,并返回到,否则返回得到的决策树。31聚类分析 就是通过分析数据库中的记录数据,根据一定的分类规则,合理地划分记录集合,确定每个记录所在类别。32主要的聚类方法 包括统计方法、机器学习法、神经网络方法和面向数据库的方法。33聚类分析的主要算法分割法:给定一个n对象或元祖的数据库,一个分割法构件数据的k个分组 ,每个组表示一个聚簇,并且kn分层法:对给定数据对象集合进行层次的分解密度法:只要邻近区域的密度超过某个域值,就继续聚类网格法:利用空间量子化方法把数据分到有限个单元进行聚类,形成一个网格结构,所有的聚类操作都在这个网格结构上进行模型法:为每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。34关联分析 利用关联规则进行数据挖掘。在数据挖掘领域,对于关联分析的研究较多,较为深入,而且在实际应用中也最为广泛。35关联分析的一般步骤 找出所有频繁项集:在事物数据库中找出所有需要的物品集X,这些物品集X的支持度不小于用户给定的最小支持度,程X为频繁项集所有频繁项集产生强关联规则:根据定义,这些规则必须满足最小支持度和最小可信度,如果需要,还可对这些规则附加别的限制要求。36关联规则的分类 根据规则处理的值的类型,可将关联规则分为两类:一类反映离散对象之间的联系,称为布尔关联规则;另一类反映动态离散化的数值属性或分类属性之间的联系,称为量化关联规则。根据规则中的数据的维,可将关联规则分为两类:一类数据只涉及一个谓语,则称单维关联规则,反映的是属性内的联系,即同一个属性或维内的联系;另一个涉及多个谓语或维,则称为多维关联规则,反映的是属性间的联系。37关联分析的算法 经典的关联规则挖掘算法包括Aprior算法、抽样算法、DIC算法。38关联分析的应用 在实际应用中,由于数据的稀疏性,在低层的或原始层数据之间难以找出强关联规则,而在较高的概念层上发现的强关联规则可能提供普遍意义的知识。第三节数据挖掘工具1数据挖掘工具 主要有两类:特定领域的数据挖掘工具和通用的数据挖掘工具。2数据挖掘系统 与数据挖掘工具在概念上没有本质不同,都是为了完成某一项或某一类挖掘任务而设计采用的一整套解决方案。3数据挖掘系统的应用限制 要想应用数据系统获得最多、最有价值的结果,必须要有用户对数据挖掘过程进行干预和指导。现实的做法是:用户通过数据挖掘语言与数据挖掘系统通信,说明用户希望挖掘的数据库、要挖掘的知识类型、背景知识、对发现结果的显示和评价要求等。用户应该在数据挖掘的全过程中与数据挖掘系统进行交互通信,从不同角度和深度审查挖掘结果。4数据挖掘系统的机构 结构模式 数据挖掘系统与挖掘对象的结构模式有不同耦合、松散耦合、半紧密耦合和紧密耦合等4种MSMiner的体系结构:采用任务驱动模型组织挖掘过程,以源数据为系统管理中心,实现数据仓库与数据挖掘的有机继承和数据挖掘算法与挖掘任务的平滑连接。DBMiner的体系结构:它紧密集成联机分析处理和各种数据挖掘功能,形成了一种新的数据挖掘方法联机分析挖掘。5数据挖掘工具的评价标准产生的模式种类解决复杂问题的能力数据存取能力可视化扩展化易操作性与其他产品的接口6数据挖掘工具的类型 传统主观导向系统传统统计分析神经网络技术决策树进化式程序设计基于事例的推理方法遗传算法非线性回归方法。7几种重要的挖掘工具传统主观导向系统MineSetsanDBMinerMSMiner8QUEST 是IBM公司研究中心开发的一个多任务数据挖掘系统,目的是为新一代决策支持系统的应用开发提供高效的数据挖掘部件。系统具有特点:提供了专门在大型数据库上进行各种挖掘的功能各种挖掘算法可以近似性地计算复杂度,可适用于任意大小的数据库。算法具有找全性,即能将所有满足指定类型的模式全部寻找出来为各种发现功能设计了相应的并行算法。9MineSet 集成了多种数据挖掘算法和可视化工具,帮助用户直观地、实时地发掘和理解大量数据背后的知识。其特点:具有先进的可视化显示方法提供多种数据挖掘模式。支持多种数据库,可以直接从Oracle的表中读取数据,也可以通过SQL命令执行查询。多种数据转换功能,在进行挖掘前,MineSet可以去除不必要的数据项。操作简单,支持国际字符,可以直接发布到Web。10DBMiner 该系统设计的目的是把关系数据库和数据挖掘集成在一起,以面向属性的多级概念为基础发现各种知识。特点:能完成多重知识的发现综合了多种数据挖掘技术。提出了一种交互式的类SQL语言。能与关系数据库平滑集成。实现了基于客户服务器体系结构的Unix和PC两个版本的系统。11MSMiner 由中科院计算技术研究智能信息处理重点实验室开发的一种多策略数据挖掘系统,能够提供多种数据挖掘方法。其特点:提出了一种面向对象的元数据结构设计实现了一种简单有效的数据仓库平台提出了一种面向对象的数据挖掘任务模型。设计了一种可扩展算法库。第四节数据挖掘在药学领域中的应用1数据挖掘在生物信息学中的应用 用于生物信息数据库的建立与查询,包括基因与基因组数据库、蛋白质数据库、以及功能数据库。用于序列比对,即蛋白质序列之间或核酸序列之间的比对。核酸与蛋白质结构和功能的预测分析。基因组序列信息分析。功能基因组相关分析。2药品销售中的数据挖掘 数据挖掘有助于分析顾客购买行为,发现顾客购买模式和趋势,改善服务质量,提高顾客满意度,设计更好的商品运输与销售策略,增加销售量,减少销售成本。如何应用药品销售中的数据挖掘结构来调整药品生产和新药研发的方向也是一个值得关注的课题。3化学数据挖掘 本质上是多学科交叉的研究领域,需要一整套的方法,包括统计学、数据库管理、Bayesian网络、机器学习和决策树、图示和人工智能。4Web挖掘 Web上有海量的数据信息,怎样对这些数据进行复杂的应用成了当今数据库技术的研究热点,充分利用有用的数据,废弃无用的数据,是数据挖掘的重要的应用。5 Web挖掘的环境 异构数据库环境半结构化的数据结构解决半结构化的数据源问题。6 Web挖掘任务 Web内容挖掘对Web上大量文档集合的内容进行摘要、分类、聚类和关联分析,构造多层Web数据库从而方便Internet上的资源发现和多维分析。Web结构挖掘 揭示Web文档结构信息中的有用模式,挖掘Web链接结构,从而识别出权威Web页面。Web使用记录挖掘 通过挖掘Web日志记录,分析其中的规律,发现用户Web页面的模式,识别Web网站的潜在用户和电子商务的潜在用户,进而改进Web服务器系统的性能。第四章 药学信息存储技术光盘刻录第一节 光盘刻录技术简介1CD-ROM CD-ROM技术的中文名称是只读光盘或固定型光盘,其中的信息事先制作到光盘上,用户不能擦除也不能再次写入,只能读出盘中的信息。2 CD-ROM的结构 一般由印刷层、反射层、保护层和透明盘基层4层组成。3 CD-ROM的工作原理 一般由厂商在其反射层上通过激光以环绕方式刻出无数凹坑,这些凹坑代表计算机中的二进制数0,而没有通过激光记录的平坦部分代表二进制数1.4CD-R 中文名称是可录光盘,代表一种允许对光盘进行一次性刻写的特殊存储技术,它通常既指CD-R刻录机,也指CD-R光盘。5 CD-R刻录机 使用CD-R刻录机刻录光盘后,光盘内的数据不可变更,光盘也是一次性的。6 CD-R光盘 也叫迫记型光盘或只写一次式光盘,它可由用户将所需信息写入光盘,但写过之后不能擦除,也不能修改已经写好的数据,只能读出。7CD-R的结构 由标签层、反射层、保护层、塑料层和透明盘基层5层组成.8 CD-R光盘的工作原理 CD-R光盘比CD-ROM多了一层塑料层,CD-R光盘就是依靠塑料层来记忆数据的。当用户使用刻录机将数据写入CD-R光盘时,刻录机以高效率激光束照射光盘的塑料层。9 CD-RW 中文名称是可擦写光盘,即重复写入技术,利用这种技术可以在特殊光盘上相同的位置重复写入数据。10 CD-RW刻录机 不仅可以刻录CD-RW光盘,也可刻录CD-R光盘,也可以当成普通的光盘驱动器使用。11 CD-RW特点:塑料层变为染料层,染料层一般为硒、碲、银或铟的结晶层。相变技术是CD-RW的关键。使用具有可擦写功能的刻录机可反复擦写CD-RW光盘中的数据,但由于技术的限制,可成功擦写次数大约在1000次左右。CD-RW光盘对激光的反射率大约只有15%,远低于CD-ROM的70%和CD-R的65%,而且只有提供multiple功能的光盘驱动器才能正常读取其中的数据。第二节 光盘刻录的基础知识1光盘刻录机的分类 按连接方式进行分类:内置式刻录机、外置式刻录机、caddy式光盘刻录机。按接口方式进行分类:SCSI接口刻录机、IDE接口刻录机、USB接口刻录机。2光盘性能指标:读写速度:是刻录机的主要性能指标,包括数据的读取速度和写入速度。平均寻道时间:指将激光头从当前读写位置定位到另一读写位置所需要的时间,单位是毫秒。缓存:作用是暂时存储待刻录的数据,缓存容量的大小是衡量光盘刻录机的重要技术指标之一。支持的光盘数据格式:CD-ROM、CD-ROM/xa、CD-DA、CD-I、VCD防刻死技术:justspeed、flexss-BP、smart-clone。3CD-R光盘的种类及主要生产厂家 绿盘cyanine为一种青蓝色的感光化学材料,与反射层的黄金色混合之后,会在读写上面形成墨绿色或蓝绿色的光泽,所以cyanine做为原料的CD-R光盘称为绿盘。一般绿盘的资料保存期限约为75年,是由taiyo yuden公司研制开发的。金盘 具有比cyanine更好的抗光性,故具有较高的稳定性,经长时间保存后不易产生异变。金盘的资料保存期可达100年,是由三井公司研制开发出来。目前的制造商除三井以外,只有柯达公司。蓝盘 强调数据保存期柯达100年,不同之处在于AZO本身为深蓝色,与银白色的反射层搭配形成蓝色的读写面,故称之为蓝盘。是由Verbatim公司研制开发出来,目前的制造商除了Verbatim之外,还有Mitsubishi公司。4 CD-RW光盘及主要生产厂家 CD-RW光盘使用特殊材料-金属薄膜,利用相变技术使材料产生结晶与非结晶的变化来表现0和1两种状态,此种材料通常呈现深色玻璃般的颜色。CD-RW光盘的生产厂家目前主要有Verbatin、RICOH、Acer、SONY和HP等公司。5刻录盘的选购要点 盘片类型:对于CD-R刻录盘来说,具体是选择绿盘、金盘还是蓝盘,一般要根据自己的实际需求而定。绿盘的兼容性比较好,使用广泛,价格便宜,对光的敏感度较高;金盘具有较好的抗光性,保存时间长,保存数据文件最好;蓝盘在写入数据是有较高的准确性,具有很好的抗紫外线能力,十分适合制作激光唱片和VCD。刻录速度 刻录盘都有一个适应刻录速度的弹性,在购买刻录盘时要参考自己的光盘刻录机所支持的刻录速度盘片质量:购买刻录盘时一定要慎重,切不可一味追求便宜,而不顾盘片质量。6消除刻录时的不稳定因素 关闭光盘自动插入通告功能。关闭防病毒软件的实时监视功能。关闭屏幕保护程序暂停执行计划任务程序中断网络资源共享关闭电源管理功能预留硬盘空间整理硬盘。7光盘数据存储基本概念 扇区:通常使用的硬盘、软盘和光盘都有若干扇区,其中包含固定字节的数据。轨道:各种类型的数据都是以轨道为单位记录到光盘中的,每条轨道包含若干片连续的扇区。区段:一次完整的刻录操作所写入光盘中的数据称为一个区段,它可以包含若干条轨道。8光盘格式 音乐光盘格式 音乐光盘即通常所说的激光唱片,是光盘格式的一种,其他光盘发展的格式基础。CD-ROM格式 常指普通光盘,存储的数据可分为两种类型:一种正确性要求非常严格的计算机程序数据或文字数据,不允许任何数据错误,即Mode-1数据结构;另一种为正确性要求较低的声音或图形数据,可容许极少的数据写入错误,即Mode-2数据结构。CD-ROM/XA格式 XA是扩展体系的缩写,它是将CD-ROM规格加以延伸,并部分取用CD-I光盘的规格整理而成。多区段光盘 CD-R可以包含多个区段,每个区段可以包含若干条任意类型的轨道,使CD-R可以在不同时间进行多次写入操作。混合模式光盘与CDExtra格式 混合模式与CDExtra都是将音乐与数据资料刻录在一张光盘上,所不同的是,混合模式将数据资料写在光盘的开头,而CDExtra则将音乐资料写在光盘开头。bootable CD-ROM模式 即可启动光盘,其制作方法是将硬盘或软盘上的引导扇区内的数据刻录到光盘上,并且可以同时有数个启动扇区映像文件供启动时选用。9光盘文件系统 ISSO9660兼容格式 主要有ISSO9660、Joliet、Rock Ridge和Romeo。非ISSO9660兼容格式 主要有HFS、UDF和CD-RFS。10刻录方式整盘可录 主要用复制光盘,一次完成整张光盘的刻录,其特点是复制出来的光盘与源光盘完全一样。轨道刻录 是一种以轨道为单位的刻录方式,支持向一个区段分多次写入若干轨道的数据。飞速刻录 也是目前很常用的一种方式,一般用于在普通光驱和刻录机之间直接复制光盘区段刻录 刻录方式并不是一次性的完全刻录整张光盘,而是每次只刻录1个区段,余下的光盘空间下次可以继续进行刻录,一般用于多区段光盘的制作封装写入 是指将轨道中的数据分成多个数据包,使一次要刻录的数据足够小,从而最大限度地减小刻录失败的可能。第三节 常用刻录软件1Nero-Burning ROM是德国Ahead公司出品的光盘刻录软件,是目前支持光盘格式最丰富的刻录工具之一,功能强大,界面友好,支持中文长文件名刻录,也支持ATAPI的光盘刻录机,可刻录多种类型的光盘片,是一个相当不错的光盘刻录软件。2EASY CD Creator 是德国Roxio公司的刻录软件,最新版可实现光盘拷贝、录音和刻录CD唱片、数据刻录、制作可启动光盘和Photo CD/VCD等功能,是音频、视频制作不可多得的工具软件。3CDR Win 是Padus公司研制的一套功能强大、特点极多的刻录软件,它可以支持Audio、多重扇区盘片等;独有的Cue sheet语言可以100%定制盘片的布局,避免其他刻录软件在不同track之间产生间隔的现象;支持盘片的UPC码和track的ISRC码;支持高速盘片复制技术。4Disc Juggler是一款专业级光盘拷贝软件,支持多达32刻录机同时操作,性能稳定,速度快。支持各种数据格式和CD格式,支持CAO和TAO刻录模式,支持CD-RW盘片擦除功能。5Clone CD 是一款著名的光盘克隆工具,采用1:1的方式拷贝光盘,无论为何种格式,都能将其完全复制到另一张盘片上,即使源盘采用有保护或加密技术,仍能原样复制,其性能远远超过同类光盘复制工具,硬件方面目前支持大部分APAPI界面和极少数的SCSI界面。6Direct CD 是一个封装写入式刻录软件,UDF无缝嵌入操作系统,可把光盘当成磁盘片读写,可用于所有CD-R刻录机。第四节 光盘复制1光盘复制 就是指使用光盘复制软件和刻录机制作与原光盘完全相同的光盘,如果采用直接对拷的方式,计算机还应配有普通光盘驱动器。2复制光盘的方法直接对拷。使用临时文件复制光盘。使用映像文件复制光盘。3映像文件 是指将原数据转换为与目的光盘内容完全一样并且可以用它进行刻录的文件。4使用映像文件刻录光盘的好处 降低刻录时失败的概率。将刻录的内容预先做成映像文件实际就是把所有的数据都先读取一遍,并进行文件格式转换操作后存入硬盘,只要确保硬盘无误就能保证刻录成功。预先将源数据做成映像文件,便于复制大量内容完全一样的光盘。第五节 刻录数据光盘1数据光盘 用于存储计算机的数据,诸如磁盘上的文件和文件夹,数据光盘在备份重要文件或与他人共享时十分有用。2多区段 是指光盘中存在多个存放数据的区段,而在每个区段中具有不同的目录区。第五章 药学信息传递技术网络通信第一节 局域网基础1局域网 是指在某一区域内由多个计算机互联成的计算机组,是计算机通信的一种形式,一般运用于有限距离内的计算机之间进行数据和信息的传输。2局域网的拓扑结构 星型网总线型网环型网树型网3局域网的组成 服务器 是网络核心部件,其任务是存储数据和资源共享。客户机 和工作站一样是链接到网上的一台个人计算机,共享网络资源。工作站 链接到局域网上的每台计算机,都可被称为工作站。对等机 既可做服务器使用,也可以作为客户机。4局域网的硬件配置 网络接口卡 通常称为网卡传输介质 选择合适的传输介质是设计和实现一个成功的局域网的重要环节。网络服务器 是网络中用来向局域网用户提供磁盘、文件、打印或电子邮件系统共享服务的计算机。5局域网网络技术 以太网技术 优点:传输速率较高;结构简单、灵活,便于扩充,易于实现;工作可靠。令牌环技术 优点:由于获取发送数据的权利不是由竞争方式决定,因此可以有很高的吞吐能力;所有信息都通过相同的途径;扩展网络很容易;令牌环网更重要的优点是优先级高的信息传输优先于低优先级信息。LAN仿真 主要功能包括对数据封装及发送、地址转换、组播集群管理。FDDI优点:高速度;大容量;可靠性高。ATM 实质上是一种高速分组传输方式,其目标一开始即定位于高速光纤网上传送各类多媒体业务。6网络操作系统 在局域网中,网络操作系统是网络用户与计算机网络之间的接口,它把多台计算机抽象成一个资源庞大的功能极强的虚拟机器;其功能是管理网络上的资源,并做信息处理,以服务网络上的每一位用户。7Netware特点:具有较高的兼容性具有超级容量和很好的系统容错功能具有完善的保密措施,具有4级安全保护机制。8Windos NT Server特点:易用性容错性能优越采用OS/2作为基础网络功能强开放性具有较强的安全性和可靠性。9多任务操作系统 所谓多任务是指操作系统能把多个程序同时装入服务器内存中,并且被装入的程序可以同时处于运行状态,CPU可以为处于运行状态的程序分配运行时间。10工作组 就是一组由网络连接在一起的计算机。工作组中的每一台计算机,既可以是工作站,也可以是服务器。11网络协议 即网络通信实体之间必须遵守的规则和约定的集合。12网络协议组成语法:即用户数据与控制信息的机构和格式语义:即需要发出何种控制信息以及完成的动作与做出的响应。时序:即对事件实现顺序的详细说明。13TCP/IP TCP/IP与Internet密切相关,所以常常将TCP/IP体系结构称为Internet体系结构。IP是国际协议,它定义计算机通信应遵循的规则和具体细节,能够实现计算机相互间的通信。TCP即传输控制协议,其主要功能是恢复数据、丢弃重复的数据和回复丢失的数据。14IPX/SPX IPX是Novell公司制定的一种建立、维持和结束网络设备通信联系的协议,它衍生于Xerox网络标准通信协议。它的任务是处理进入网络和从网络出去的数据。IPX协议负责处理网络上诸如数据分组丢失等故障,保证网络上数据的可靠传输。IPX即有序被包交换协议,它是一个面向连接的会话协议。15Net BEUI和DLC Net BEUI的前身是Net BIOS,只有18种命令,用来建立、维持和结束网络上PC间的连接,因此确切的应称作应用程序接口。DLC协议可以使令牌环网上的PC机与主机通道通信。16网络打印 网络打印工作是有打印服务器掌管,网络上的打印服务器就是用来提供共享打印资源的专用服务器,打印服务器负责对用户送来的打印作业进行统一管理,并将打印作业送往打印机。第二节 互联网基础1互联网 就是最大的广域网,它把全球数万个计算机网络,上亿台计算机连接起来,包含了政府、商业等难以计数的信息资源。网上的计算机之间可以相互交换信息,提供信息服务,互联网是一个信息资源的宝库,已经成为信息社会的缩影,形成了一种文化模式。2IP地址 它由4组数字组成,每组数字取值范围0至255之间,相互之间用句点分隔,表示形式为aaa.bbb.ccc3域名地址 用来将IP地址的数字形式翻译以字符表示的名称,这就是域名系统DNS,以此命名的网络地址即为域名地址。4Internet资源服务 www信息服务FTP文件传输服务Telnet远程登录服务Gopher服务Usenet新闻组服务电子邮件服务和专题讨论题组。5文件传输服务 即FTP,是指在互联网上的两台计算机之间进行
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 停车场监控施工方案
- 绿化养护招标方案范本
- 仿古水磨石地面施工方案
- 浆嵌卵石路面施工方案
- 空调管井立管施工方案
- 装修施工方案的要求包括
- 企业品牌推广方案设计要点
- 徐州食品安全员考试题库及答案解析
- 不锈钢铠装施工方案
- 库房管理工作汇报
- 神经外科危重症患者的观察与护理
- 做最勇敢的自己
- 《中国象棋基础教程》课件
- 保险销售技巧培训课件
- 《支气管动脉栓塞术》课件
- 2025年河北石家庄市高速公路集团限公司面向社会公开招聘收费人员150名高频重点提升(共500题)附带答案详解
- 地面铺装室外施工合同
- 人员分级管理
- 2024-2025年江苏专转本英语历年真题(含答案)
- 《铁路轨道维护》课件-钢轨母材探伤
- 餐饮服务工作培训
评论
0/150
提交评论