网络资源的开发与利用:第三章 网络信息处理技术_第1页
网络资源的开发与利用:第三章 网络信息处理技术_第2页
网络资源的开发与利用:第三章 网络信息处理技术_第3页
网络资源的开发与利用:第三章 网络信息处理技术_第4页
网络资源的开发与利用:第三章 网络信息处理技术_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第3章网络信息处理技术3.1信息网络的技术特征3.2网络信息获取技术3.3网络信息推送技术3.4数据挖掘技术3.1信息网络的技术特征3.1.1网络的技术构成3.1.2网络信息文化是多种技术的汇集3.1.3信息在网络中的运作方式3.1.1网络的技术构成计算机网络技术是通信技术与计算机技术、微电子技术、光通信技术等相结合的信息技术,它包含计算机网络中的语言、计算机网络体系结构等几个方面。1.计算机网络中的语言通信是在人们之间传递消息,一次通信要3个因素:通信双方有通信的愿望和要求;通信双方之间有通信的信道;通信双方遵循彼此认可的通信规则,即通信协议或网络协议。网络协议作为计算机之间通信的规范也有3个要素:语法,即信息格式;语义,某些信息组合的含义;同步,即收、发双方能分辨出通信的开始和结束。2.计算机网络体系结构一个复杂的系统往往划分为若干个层次,每个层次独立地实现相应的功能,层与层之间有接口衔接,通过接口传递参数,下层为上层提供服务,从而完成复杂的功能,通信系统也不例外。以两个人之间的自然语言通信为例,可以认为分为3个层次:

1)传输层。2)语言层。3)知识层。网络体系结构采用层次结构,TCP/IP网络体系结构就是层次结构,分为4个层次,网络接口层(NetworkInterfaceLayer)、网络层(InternetLayer)、传输层(TransportLayer)和应用层(ApplicationLayer)。网络接口层用于控制对本地局域网或广域网的访问;网络层负责解决一台计算机通过网络到另一台计算机的通信问题;传输层负责端到端的通信;应用层包括若干网络应用程序。3.本书涉及到的计算机网络术语1)IIS(InternetInformationServer):互联网信息服务2)ISP(InternetServiceProvider):互联网服务供应商3)RFC(RequestFileComment):征求意见稿(评注)4)IAB(InternetActivitiesBoard):Internet工作委员会5)GII(GlobalInformationInterconnection):全球信息互连网络6)电子邮件(E-mail):通过计算机网络发送和接收电子邮件7)页面(page)和主页(homepage):WWW是由庞大的、世界范围的文档集合组成,这些文档简称为页面8)NII(NationalInformationInfrastructure):国家信息基础设施3.1.2网络信息文化是多种技术的汇集计算机网络信息文化的实质是计算机技术、数据通信技术和信息处理技术这3种技术的汇合。计算机技术包括硬件、软件、大容量存储设备、各种输入输出设备,以及相应的服务;数据通信技术包括电话、电视、传输电缆、光缆、通信传输、通信处理、通信卫星和无线通信等;信息处理技术包括教育、娱乐、出版、信息提供、信息组织和存储、信息检索等。这些技术形成了信息社会的3个行业,总产值的比例分别为计算机技术占44%,通信技术占28%,信息处理占28%。3.1.3信息在网络中的运作方式要完成信息的传送,最常用的办法是把信息先附加(调制)在一个电磁波(载波)上,然后把被调制的载波送(传播)到目的地,在目的地接到电磁波后,再把信息复原(解调)。这种系统通常由无线电通信和光波频段通信组成(图3-1)。计算机接受器发送器发送器接受器终端图3-1信息传输流程3.2网络信息获取技术3.2.1互联网的接入方式3.2.2IP地址和域名系统3.2.3统一资源定位符URL3.2.4超文本、超链接和超媒体3.2.5超文本传输协议HTTP和超文本标记语言HTML3.2.1互联网的接入方式通过局域网直接连接,局域网的服务器是互联网中的一个主机,有独立的IP地址,用户的计算机连接到局域网上。通过电话拨号方式直接连接,用户的计算机利用点到点协议(PPP协议)和串行接口协议SLIP,通过Modem连接电话线到互联网的主机。通过电话拨号间接连接,进入一个提供互联网服务的联机服务系统。前两种方法是直接连接,用户运行TCP/IP协议,在互联网上具有和其他互联网用户同样的地位。第三种方法是间接连接,连接服务系统直接连接到互联网上,用户终端仿真软件访问有联机服务系统提供的服务。3.2.2IP地址和域名系统1.IP地址

IP地址是指该主机在INTERNET上的唯一标志。IP地址是一个逻辑地址,用32位二进制数标识计算机网络中的每一台计算机。它可以写成4个用小数点分开的十进制数,每个十进制数表示IP地址中的8个二进制数。每个IP地址由网络标识(NetID)和主机标识(HostID)两部分组成,分别表示一台计算机所在的网络和在该网络内的这台计算机。按照网络规模的大小,常用IP地址分为以下三类:A类:这类地址的特点是以0开头,第一字节表示网络号,第二、三、四字节表示网络中的主机号,网络数量少,最多可以表示126个网络号,每一网络中最多可以有16777214个主机号(表3-1)。A类地址均分配给大型网络使用。1—2540—2550—255l—126************************0*******表3-1A类地址B类:这类地址的特点是以l0开头,第一、二字节表示网络号,第二、三字节表示网络中的主机号,最多可以表示16384个网络号,每一网络中最多可以有66534个主机号(表3-2)。适用于中等规模的网络。1—2540—2550—255128—191************************10******表3-2B类地址C类:这类地址的特点是以110开头,第一、二、三字节表示网络号,第四字节表示网络中的主机号,网络数量比较多,可以有2097152个网络号,每一网络中最多可以有254个主机号(表3-3)。一般分配给小型网络。1—2540—2550—255192—233************************110*****表3-3C类地址同时IP地址规定:网络号不能以127开头,第一字节不能全为0,也不能全为1;主机号不能全为0,也不能全为1。IP地址是用数字表示的,使用起来不直观,记忆很困难,使用者很少用二进制网络地址访问主机、邮件信箱和其它资源,人们更愿意使用有意义的符号名称如ASCII字符串,来标识互联网上的计算机。2.域名系统Internet在1985年引入了域名系统DNS(domainnamesystem),DNS由一串子名组成,子名之间用“.”分割,基层名字在前,高层名字在后。Internet的最高层域名(顶级域名)由协会的授权机构负责管理,根据Internet国际特别委员会IAHC的最新报告,将顶级域定义为两类:机构域和地理域。(1)机构域个人Nom信息服务Info消遣性娱乐Arc文化娱乐Arts和WWW有关的实体Web商场Store商业或公司Firm非赢利性组织机构Org网络组织或机构Net军事机构或设施Mil国际性机构Int非军事性的政府机构Gov教育机构或设施Edu商业机构Com表示的组织或机构的类型域名表3-4机构性域(2)地理域俄罗斯RU埃及EG葡萄牙PT丹麦DK挪威NO古巴CU新西兰NZ中国CN荷兰NL智利CL墨西哥MX加拿大CA马来西亚MY巴西BR中国澳门MO比利时BE韩国KR奥地利AT日本JP澳大利亚AU意大利IT阿根廷AR表示国家或地区域名表示国家或地区域名表3-5地理性域(3)中国的域名体系教育单位EDU工、商和金融等企业COM互联网络、接入网络信息和运行中心NET各社会团体及民间非盈利组织ORG国家政府部门GOV科研院及科技管理部门AC表示机构二级域名表3-6我国的机构性域名我国的地理性域名澳门MO香港HK台湾TW新疆维吾尔族XJ宁夏回族自治区NS青海省QN甘肃省GS陕西省SN西藏自治区XZ云南省YN贵州省GZ四川省SC海南省HI广西壮族自治区GX广东省GD湖南省HN湖北省HB河南省HA山东省SD江西省JX福建省FJ安徽省AH浙江省ZJ江苏省JS黑龙江HL吉林省JL辽宁市LN内蒙古自治区NM山西市SX河北市HE重庆市CQ天津市TJ上海市SH北京市BJ地理区域二级域名地理区域二级域名域名地址和用数字表示的IP地址实际上是同一个东西,只是外表上不同而已,在访问一个站点的时候,可以输入这个站点的IP地址,也可以输入它的域名地址,这里就存在一个域名地址和对应的IP地址相转换的问题,这些信息实际上是存放在ISP中称为域名服务器(DNS)的计算机上,当输入一个域名地址时,域名服务器就会搜索其对应的IP地址,然后访问到该地址所表示的站点。DNS的工作原理:当要求Web浏览器访问“”站点时,将会通过以下步骤来解析该域名的IP地址:1)Web浏览器调用DNS客户端(称为解析器),并使用上次查询缓存的信息在本地解析该查询。

2)如果在本地无法解析查询,客户端就会向已知的DNS服务器询问答案。如果该DNS服务器曾经在特定的时间段内处理过相同的域名()请求,它就会在缓存中检索相应的IP地址,并将它返回给客户端。3)如果该DNS服务器找不到相应的地址,客户端就会向某个全局根DNS服务器询问,后者返回顶级域权威DNS服务器的指针。在这种情况下,“com”域权威服务器的IP地址将返回给客户端。4)类似地,客户端向“com”服务器询问“”服务器的地址。然后,客户端将原始查询传到“”服务器。5)因为“”服务器在本地维护“”域的权威记录,所以它将最终结果返回给客户端,并完成特定IP地址的查询。3.2.3统一资源定位符URL

(UniformResourceLocate)URL是一种统一格式的Internet信息资源地址的标识方法,它将Internet上提供的服务统一编址,使用户通过Web浏览器进行查询。URL的格式为:协议服务类型://域名[:端口号]/文件路径和文件名URL由三部分组成,第一部分指出数据类型或存取数据需要的协议类型,第二部分指出页面信息所在的服务器,第三部分指出包含该页面的文件数据所在的精确路径。URL中的服务类型主要有:1)httpWWW服务,传输协议为HTTP2)telnet 远程登录服务,传输协议为Telnet3)ftp 文件传输服务,传输协议为FTP4)gopher Gopher服务5)mailto E-mail电子邮件服务,传输协议为SMTP6)news 网络新闻服务,传输协议为NNTP3.2.4超文本(Hypertext)、

超链接(Hyperlink)和

超媒体(Hypermedia)超文本系统有统一的用户界面,用户使用该系统查询各种媒体类型(文本、图像、图形、声音)的文件,该系统还有跨平台的能力,用户可以Internet上使用各种不同类型的计算机进行信息查询。超文本(Hypertext)是把一些信息根据需要连接起来的信息管理技术,它是由结点(Node)以及结点之间的超链接(hyperlink)构成的语义网络。超媒体可以看成是超文本和多媒体技术的融合。3.2.5超文本传输协议HTTP

(HypertextTransferProtocol)

和超文本标记语言HTML

(HypertextMarkupLanguage)HTTP是浏览器客户与WWW服务器之间交流的“官方语言”。HTTP被定义为“无状态”协议,它可以用来提高数据传送速度。HTML是在WWW上建立超文本文件的语言,它通过标记和属性对一段文本的语言进行描述。HTML的主要特点如下:1)简易性。2)可扩展性。3)平台无关性。HTML文件是普通的ASCII码文本文件,仅仅包含字母、数字、空格和标点符号等。所以可以使用任何文本编辑器来编辑HTML文件。HTML的编辑器大体可以以下分为三种:1)基本编辑软件。2)半所见即所得软件。3)所见即所得软件。3.3网络信息推送

(InformationPush)技术3.3.1信息推送的基本内容3.3.2信息推送的主要表现方式3.3.3信息推送软件的应用3.3.1信息推送的基本内容在理论上,Push技术是指服务方不需要客户方的请求即可主动地将数据送到客户方;但在实际应用中,这种服务的主动性有一定限度,即在用户许可的范围内提供主动服务。因此,在信息发布/获取应用中,它表现为Push服务器自动搜索用户感兴趣的信息并将其定期推送给用户。1.Push技术的工作流程Push技术的工作流程如下:1)用户填写订阅单,该单包括用户个人档案、所感兴趣的信息类型以及要求进行推送的时间等,然后将之提交给信息提供商。2)信息提供商按用户的订阅单收集相关信息并通过Push服务器推送给用户,客户端获取信息完毕之后告知用户可读取信息。Push技术涉及以下几个方面:1)无缝连接2)灵活的用户设置3)内容定制文件4)持久文件传输5)有效利用带宽6)新旧内容自然衔接7)灵活的通知方式8)安全性9)应用协议2.Push技术的实现方式

频道内容客户机Web服务器

CGI频道内容Web服务器客户机客户代理频道内容Push服务器客户机(1)Web服务器扩展:CGI方式(2)客户代理方式(3)Push服务器方式图3-2

Push技术的3种实现方式3.3.2信息推送的主要表现方式1.频道

频道是一个定期更新、定期通知的WEB站点,由于它采用推送技术,使得用户不必每次访问固定的站点,就可以自动获得由网站发送的最新资源,它还提供了拨号用户离线浏览的功能。2.服务器推送(ServerPush)服务器推送(Serverpush)是一种先进的服务器和客户机之间的通信连接方式,利用在服务器端的CGI脚本程序把数据源源不断地推向客户机,从而使客户机和服务器之间的交互性能大大提高。在服务器推送中,多个响应中连接始终保持,使服务器可在任何时间发送更多的数据。一个明显的好处是服务器完全能够控制更新数据的时间和频率。另外,这种方法效率高,因为始终保持连接。缺点是保持连接状态会浪费服务器端的资源。服务器推送还比较容易中断。3.其他推送方式(1)电子邮件推送(2)专题类新闻推送(3)滚动条式推送(4)屏幕保护推送服务3.3.3信息推送软件的应用1.信息推送软件简介

当一个服务器通过推送软件向客户端推送信息时,推送软件会通过网络的一致性、可靠性、安全性以及经济性来完整地传送数据。使用Push软件至少有4个好处:可达到减少或降低预定网络带宽使用率;保证一致且最新的网页、客户端组态、应用版本以及数据文件;数据发布集中管理;数据发布安全保险。2.信息推送方使用的软件(1)StarBurstCommunications的StarBurstMulticast(2)Marimba的Castanet(3)XcelleNet

的RemoteWareExpressSoftWaremanager(4)WayfarerCommunications的INCISA3.信息推送接受方使用的软件PointCast是著名的频道信息广播软件,也是率先提出推送(Push)技术的公司之一。PointCastBusinessNetwork主要应用于商业、贸易及生活领域。商业网的有效频道分为5大类:1)商业:CNN、幸福杂志、华尔街时报等;2)生活:健康、体育、天气等信息;3)世界和美国新闻:拥有CNN的最新数码照片。4)地区新闻:有诸多著名报刊,如华盛顿邮报、纽约时报等。5)科技:将ZDNet等知名的科学、技术类网站的信息汇集在一起。PointCastCollegeNetwork它提供的网络信息主要以大学的咨讯为主,可分为:1)学生论坛;2)E-mail地址的查询;3)网上图书馆;4)最新娱乐信息;5)全美大学优秀论文PointCast的使用方法:第一次接通PointCast频道广播后,在传输信息内容的同时,你会获得一个登记ID号。单击左边的“HELP”,在弹出的窗口中你会找到它。同时,只有在连通后,信息的帮助文件才会传送过来。以后,每次启动PointCast后,按左边菜单列中的Update

All,PointCast会自动接通ISP,自动从PointCast的服务器上下载更新的信息。图3-3

PointCast软件界面在左上角的按钮是可选择的信息频道(Channel),目前版本的PointCast有27个频道。每一个频道都有各自的分类以供用户选择,这是“推”和“拉”浏览器的根本差别:离线选择后下载和在线寻找。最上面那条黑底红字是一条走马灯式的活动信息滚动栏,它把新闻或股票价格以简短的“一句话新闻”(HeadLine)的形式不停地滚动,让用户在浏览的同时不会漏失一些重要的信息。3.4数据挖掘技术3.4.1数据挖掘技术的出现是网络信息获取的必然产物3.4.2数据挖掘的研究和现状3.4.3数据挖掘的应用3.4.4未来的发展方向3.4.1数据挖掘技术的出现是

网络信息获取的必然产物面对大量的信息,为了能真正的实现快速、准确、可靠地获取有用的数据,需要用到数据挖掘(DataMining)和知识发现技术的理论和技术。数据挖掘也称为知识挖掘,就是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。对知识挖掘的研究要了解和掌握一个基本原理和两项关键技术,即:海量信息处理的基本理论,海量信息压缩技术及海量信息描述和交换技术。网络数据挖掘与网络信息检索所采用的技术有很多相似之处,但又有本质的不同。作为第二代网络信息处理技术,网络数据挖掘技术沿用了Robot、全文检索等网络信息检索中的优秀成果,同时综合运用人工智能、模式识别、神经网络领域的各种技术。网络数据挖掘与网络信息检索的最大不同在于它能够获取用户个性化的信息需求,根据目标特征在网络上进行有目的的信息搜寻。3.4.2数据挖掘的研究和现状网络数据挖掘是从WWW资源上抽取信息(或知识)的过程,它是将数据挖掘技术和理论应用于对WWW资源进行挖掘的一个新兴的研究领域。目前在该研究领域中,根据挖掘对象的不同大致可分为三个方面的挖掘研究:Web内容挖掘、Web结构挖掘、Web使用挖掘。1.Web内容挖掘根据实现的方法的不同可分为基于代理的方法和数据库方法;而根据挖掘策略的不同有Web页概要和搜索引擎结果概要,Web页概要直接挖掘Web文档的内容,搜索引擎结果概要则用于增强搜索引擎的内容查询功能。(1)基于代理挖掘方法基于代理的方法包含一个人工智能系统,它可以“自主或半自主地为某个特殊的用户服务,以发现和组织基于Web的信息”。使用代理的主要缺点是存在隐私泄露的可能,这是因为代理具有社会化的能力,信息的交换是透明的,且代理不会通知某一用户它是否正在提交和检索该用户的信息。(2)数据库方法数据库方法主要集中在“对网络上异质的、半结构化的数据整合和组织,其成为结构化较好的、高层的资源集合。”然后在对这些组织好的资源进行访问和分析。这些元数据可以组织成有结构的数据集(如关系数据库或面向对象数据库),然后再加以分析。目前的数据库方法又可分为多层数据库和Web查询系统。多层数据库是由若干层信息构成的数据库。利用多层数据库,可以提供一个与用户请求对应的指向目标文档集合的指针列表,其次允许用户交互地浏览用以指向目标文档集合的详细信息而非目表文档本身。Web查询系统利用一个Web的简单关系视图,将结构和基于内容的查询准则以类似于标准的数据库查询语言(如SQL)的方式结合起来,对Web上半结构化的数据进行查询。2.挖掘策略(1)Web页概要互联网上的大量信息通常隐藏于Web文档内部,因此一类重要的应用就是对Web页内容的挖掘。从Web文档内部进行有效的信息抽取的主要障碍是元数据的缺乏及没有一个标准的方法用于描述和在电子文档中交换数据。WWW协会建议的XML标准目前已经被很多公司广泛采用,这为WWW上的数据挖掘减轻了很大的负担。(2)搜索引擎结果概要对搜索引擎返回的结果进行挖掘是十分必要的,这可以提供给用户更为准确的查询结果。WWW文档的异质性和缺乏结构的特点导致一些研究工作集中于挖掘已知文档的子集或与某一主题相关的文档,一个这样的子集可以是一个搜索引擎的查询结果。3.Web结构挖掘Web结构挖掘是对Web页面之间的结构进行挖掘。由于超文本文档的关联关系,使得WWW不仅仅可以揭示文档中所包含的信息,同时也可以揭示文档间的关联关系所代表的信息。4.Web使用挖掘根据应用的不同,可以将Web使用挖掘分为两种主要倾向:一般的访问模式跟踪和定制使用跟踪,一般访问模式跟踪通过分析可以清楚地给出较好的Web结构及资源提供者的分组情况。定制使用跟踪可以分析个人的倾向,它的主要目的是为每个用户定制符合其个人特色的Web站点。3.4.3数据挖掘的应用1.数据挖掘的应用类型

(1)分类模型分类(Classification)模型的主要功能是根据商业数据的属性将数据分派到不同的组中。(2)关联模型关联(Association)模型主要是描述了一组数据项目的密切度或关系。(3)顺序模型顺序(Sequence)模型主要用于分析数据仓库中的某类同时间相关的数据,发现某一时间段内数据的相关性。(4)聚簇模型聚簇(Clustering)模型是按照某种相近程度度量方法将用户数据分成互不相同的一些分组。2.数据挖掘采用的典型方法(1)神经网络(NeuralNetwork)神经网络建立在可以自学习的数学模型的基础之上。它可以对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析。神经网络系统存在如下问题:首先,神经网络对分类模型比较适合。但是,神经网络得出结论的因素并不十分明显。同时其输出结果也没有任何解释,这将影响结果的可信度及可接受程度。其次,神经网络需要较长的学习时间,因此当数据量很大时,性能可能会出现问题。(2)决策树(DecisionTree)决策树是通过一系列规则对数据进行分类的过程。采用决策树,可以将数据规则可视化,其输出结果也容易理解。决策树方法精确度比较高,不像神经网络那样不易理解,同时系统也不需要长时间的构造过程,因此比较常用。决策树方法的缺点是很难基于多个变量组合发现规则。不同决策树分支之间的分裂也不平滑。(3)联机分析处理(OLAP)联机分析处理(OnLineAnalyticalProcessing,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论