




已阅读5页,还剩33页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2019/12/14,1,IP地址由国际组织按级别统一分配,机构用户在申请入网时可以获取相应的IP地址。1)NetworkInformationCenter(NIC)。最高一级IP地址由国际网络信息中心(NIC)负责分配。其职责是分配A类IP地址、授权分配B类IP地址的组织并有权刷新IP地址。2)InterNIC、APNIC和ENIC。分配B类IP地址的国际组织有三个:ENIC负责欧洲地区的分配工作,InterNIC负责北美地区,设在日本东京大学的APNIC负责亚太地区。我国的Internet地址由APNIC分配(B类地址),由邮电部数据通信局或相应网管机构向APNIC申请地址。3)分配C类地址。由地区网络中心向国家级网管中心(如CHINANET的NIC)申请分配。,2019/12/14,2,域名系统(domainnamesystem,DNS),域名末尾部分为一级域,代表国家或机构等节点;域名的倒数第二部分为二级域,代表部门或隶属于一级域的下级机构;如:,其中,cn为最高域,代表中国为第二级域,代表中国教育与科研网为第三级域,代表南京林业大学,2019/12/14,3,2.2.7与Internet的连接方式,用户终端,远程服务器,Modem,Modem,电话线,局域网,远程服务器,专用通信线路,路由器,拨号上网连接,局域网直接连接,2019/12/14,4,2.2.8Internet提供的服务,主机远程登录FTP:远程文件传送E-mailFTP(文件转输协议)安装和使用Serv-U(Ftp服务器软件)安装和使用AbsoluteFtp(Ftp客户端软件)USENET:电子公告板,2019/12/14,5,www(worldwideweb),由欧洲粒子研究中心发起。其初衷是为了让科学家们以更方便的方式彼此交流思想和研究成果,目前已成为一种最受欢迎的游览工具。WWW主要由一些应用软件以及一系列协议和约定组成,使用超文本和多媒体技术,在计算机网络上进行超文本信息的发布和浏览。,2019/12/14,6,提供:文本、图像、声音和视频等信息也提供基本的Internet服务,2019/12/14,7,WWW使用的几项关键技术和基本元素包括:,1.HTML(hypertextmarkuplanguage,超文本标记语言)设计HTML语言的目的是为了能把存放在一台电脑中的文本或图形与另一台电脑中的文本或图形方便地联系在一起,形成有机的整体,人们不用考虑具体信息是在当前电脑上还是在网络的其他电脑上。这样你只要使用鼠标在某一文档中点取一个图标,Internet就会马上转到与此图标相关的内容上去,而这些信息可能存放在网络的另一台电脑中。HTML可以说明文字、图形、动画、声音、表格、链接等。,2019/12/14,8,2、URL(uniformresourcelocator,统一资源定位器)是WWW上简单的寻址机制,使得W能够连接世界各地计算机上的信息。URL的格式从左到右由下面各部分组成:模式、服务器地址、端口、路径等组成。:8080/index.html,2019/12/14,9,3、HTTP:是WWW浏览器和服务器之间传送消息的协议,它基于客户机/服务器模型的信息分布方式,按原本设计意思“请求/响应模型”,即信息文件存放在服务器上,用户通过程序向服务器发出请求并访问服务器上的数据。,2019/12/14,10,4.MINE类型:计算机上的数据文件只是二进制数位的集合,必须经过解释才有用。例如,为了正确显示文件“index.html,浏览器必须知道它是HTML格式。,2019/12/14,11,5、网页网页是用户通过客户端浏览器观察到的超文本信息内容。简单的静态网页图文并茂网页动态网页,2019/12/14,12,2.3Internet上的高级信息管理,Web上的数据最大特点就是结构化特征较弱.往往是半结构化的,有时还可能是无结构的。为有效利用WWW上的数据,需要处理半结构化数据源,解决半结构化数据的查询与集成问题。寻找一个半结构化的数据模型是解决问题的关键所在。,2019/12/14,13,从WWW到XML(extensiblemarkuplanguage)以XML为基础的新一代WWW环境可以更好地实现Web中的信息共享与交换,XML可看作一种半结构化的数据模型,可以很容易地将XML的文档描述与关系数据库中的属性对应起来,实施精确的查询与模型抽取。,2019/12/14,14,XML是由W3C设计的一种元标注语言,可提供资料的结构化描述能力。具体来说,XML类似于HTML,被设计用来描述数据,但XML提供了一种独立的运行程序的方法来共享数据。XML与HTML更大的区别可能体现在它明确地区分了文档的内容和表现这两个概念。XML文档专注于内容,而这些内容的表现则有相应的扩展样式表XSL来规定。因此,同样的内容可以有不同的表现,甚至还能够对内容进行不同的取舍。,2019/12/14,15,在寻求有效管理网上海量信息的探索中,人们还提出了数字图书馆的解决方案。数字图书馆可理解为有组织的信息收藏及相关服务,信息以数字化形式保存,并通过网络进行访问。数字图书馆包含各式各样的可用数据,供不同用户使用,规模可大可小,并可使用各类计算设备和相关软件。但所有数字图书馆都有着共同的特点:信息在计算机内得以组织并通过网络加以利用,数字图书馆带有选择信息、组织信息、存储信息和发布信息的程序。,2019/12/14,16,建立数字图书馆的主要原因是人们相信数字图书馆能够比过去的模式更好地应用信息。其潜在的优点有:(1)可及时获取世界任何地方发布的信息;(2)强大的信息搜索和浏览能力;(3)信息共享和信息交流;(4)易于保持最新信息;(5)支持数据模型、应用程序、仿真软件等新型信息。,2019/12/14,17,2.4JAVA及移动计算,从事生物信息学研究与开发,一般需采用计算机软件从大量的数据中筛选出所需信息。目前有多种计算机程序设计语言可供用户选择。如VisualBasic语言、C语言、Perl语言、PHP语言、Java语言和FORTRAN语言等。其中,Perl和PHP两种语言因为执行效率高、可移植性好及在网络上有着丰富的免费代码等特点使得他们成为生物信息学软件编程的主要脚本语言。,2019/12/14,18,目前,数据库研究和应用中一个很重要的问题就是如何有效地利用既存数据,发现和提取有价值的信息和知识,而不仅仅是处理和保存数据。数据仓库、数据挖掘和数据库中的知识发现就是解决上述问题的重要技术。数据仓库一词尚没有一个统一的定义。著名的数据仓库专家W.H.Inmon在其著作BuildingtheDataWarehouse一书中给予如下描述:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持战略决策的制订。,2.5数据仓库与数据挖掘,2019/12/14,19,数据仓库概念的两个层次,功能上:数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;内容和特征上:数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。,2019/12/14,20,数据仓库的组成:数据库为整个数据仓库环境的核心,是数据存放的地方,其提供对数据检索的支持。相对于操纵型数据库来说,其突出特点是对海量数据的存储和快速的检索技术。数据抽取工具、元数据、访问工具、数据集市、数据仓库管理、信息发表系统,2019/12/14,21,数据挖掘的概念:就是从数据库中抽取具有潜在应用价值的隐含信息的过程。与传统分析工具不同的是,数据挖掘属于基于知识发现的方法,它运用模式匹配和其他算法决定数据之间的联系。数据挖掘技术综合了机器学习、统计分析和数据库技术,主要内容包括规则生成、分类、聚类、序列分析等。,2019/12/14,22,数据挖掘的目的:趋势预测数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。例子:市场预测问题数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。,2019/12/14,23,数据挖掘的目的:关联分析若两个或多个变量的取值之间存在某种规律性的现象称为关联,可分为简单关联、时序关联、因果关联目的:找出数据库中隐藏的关联关系。因有时并不知数据库中数据的关联函数,因此关联分析生成的规则带有可信度。,2019/12/14,24,数据挖掘的目的:聚类分析数据库中的记录可被划分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。,2019/12/14,25,数据挖掘的目的:概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。,2019/12/14,26,数据挖掘的目的:偏差检测数据库中的数据常有一些异常记录或称为偏差。偏差包括很多潜在的知识,如分类中的反常实例、不符合规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。,2019/12/14,27,2019/12/14,28,2.6其他的计算机知识,2.6.1算法和算法分析2.6.2相似性度量2.6.3配对算法2.6.4分类与聚类2.6.5隐马尔可夫模型2.6.6人工神经网络,2019/12/14,29,2.6.1算法和算法分析,生物信息学中涉及大量的计算,不可避免地用到算法的概念。算法是一个定义良好并会终止的计算过程,它接收一组输人数据并输出一组数据。算法的好坏一般是通过称作算法分析的过程来评定的。算法分析是一种在抽象的计算模型上对算法所需资源进行评估的过程,它有助于比较某个问题的不同求解算法的资源耗费,剔除无效方案而不用真正地编写程序,更不必在计算机上实际运行。算法的复杂度是指当问题的规模增大时,算法的代价增长的速度。复杂度研究中所谓的代价通常指的是算法所用的时间和所要的储存空间,即算法的时空复杂性。,2019/12/14,30,2.6.2相似性度量,序列比较,包括同一序列内不同片断的比较和多个序列的对比在生物信息学工作中占有重要的地位。一般而言,在涉及两个对象的比较和匹配问题时,需要度量(或距离)的概念。例如,生物信息学工作中广泛存在的序列和结构的相似性计算就需要考虑度量或距离函数的问题。,2019/12/14,31,对于DNA或蛋白质序列,可以根据字符串来构造距离函数。从生物学的意义上来说,核酸和蛋白质序列对位的基础是假定这两个序列同源,但在各自的演化过程中由于变异的积累形成了不同的序列。如果将每个序列看做是有限字符集组成的字符串,那么变异就能够借用字符串的编辑(插人、删除、修改)来体现。于是,编辑距离就是一个最简单判定序死相似度的指标。所谓编辑距离指的是一个字符串变到另一个字符串时插人、删除和置换的最少个数。,2019/12/14,32,2.6.3配对算法,选择合适的相似性度量是成功的第一步。在此基础上找出序列最佳配对的算法设计才是开启成功之门的钥匙。遗憾的是,由于“组合爆炸”的原因,序列的配对无法通过穷尽的搜索获得“最佳”的结果。只能通过一些启发式的方法获得“可满足的”解答。或在一定的计算代价下寻求较好的结果。,2019/12/14,33,为了尽快定位候选序列,排除无效的配对,可以在数据库中使用索引技术或其他的一些限制。这是一种启发式的方法。以BLAST为代表的一些算法为例,事先对数据库中的所有序列按一定的长度(如DNA序列长度取11,蛋白质序列长度取5)提取类型特征并建立索引。同时,对提交的序列按同样的方式提取特征。依靠预先建立的索引,只有那些与提交序列的特征兼容的库中序列才参与比较,这可大幅度地减少比较次数。,2019/12/14,34,2.6.4分类与聚类,生物信息学中涉及大量的分类和聚类工作。分类是根据预先设定的准则将数据分成各自独立的类别,聚类则是依据数据集本身的特性达到归类的目的。因此,它们有时也被分别称作“有监督的分类”和“无监督的分类”方法。聚类分析还能够自然离析出数据集合中包含的“另类”对象,2019/12/14,35,2.6.5隐马尔可夫模型,马尔可夫链模型通过构造离散随机过程,对未来事件的发生做出统计意义上的预测。马尔可夫链模型中需要初始概率分布和状态的转移矩阵,均由训练得到。隐马尔可夫模型(HMM)是由马尔可夫链发展扩充而来的一种随机模型。在马尔可夫链中,每一个状态对应一个可观察的事件。隐马尔可夫模型对马尔可夫链作了推广,使得可观察的是状态的一个概率函数,而状态本身则是不可观察的。,2019/12/14,36,而隐马尔可夫模型能很好地对真核生物DNA序列建模。隐马尔可夫模型将DNA序列的形成看做一个随机过程。模型的统计规律是未知的,而隐马尔可夫模型能自动寻找出其隐藏的统计规律,因此它具有独特的优越性。可以说,隐马尔可夫模型使基因预测从原来单纯的编码序列预测发展到了基因整体结
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民爆行业安全培训内容课件
- 民法课件模板
- 民法合同课程讲解课件
- 初一历史期末考试及答案
- 报关实务考试题库及答案
- 新质生产力与传统产业的融合
- 民族资产阶级革命课件
- 医护家属关系管理
- 新质生产力的多元主体
- 促进新质生产力发展的关键举措
- 2025年中国电信招聘考试行政职业能力测试预测题集
- 静脉治疗知识培训课件
- 学风建设科研诚信宣教课件
- 2025繁轩科技发展(天津)有限公司公开招聘工作人员35人备考题库及答案解析
- 2025年度水电项目工程结算与审计服务协议
- 《机械制图(多学时)》中职全套教学课件
- 2024过敏性休克抢救指南(2024)课件干货分享
- GB/T 3452.2-1987O形橡胶密封圈外观质量检验标准
- 部编版三年级语文上册第2课《花的学校》精美课件
- 遥感大数据应用解决方案课件
- (精选word)洪恩识字-生字卡片1-200
评论
0/150
提交评论