模拟考试题课件_第1页
模拟考试题课件_第2页
模拟考试题课件_第3页
模拟考试题课件_第4页
模拟考试题课件_第5页
已阅读5页,还剩192页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、拟介绍的问题网络信息资源定义 网络信息资源的类型网络信息资源的特点网络信息资源的结构网络信息资源利用的内涵网络信息资源利用的方式网络信息资源利用的策略网络信息资源其他称谓网络信息资源尚没有统一的定义类似的名称很多,如:“因特网信息资源”“电子信息资源”“联机信息”“万维网资源”“数字信息资源”网络信息资源定义网络信息资源可以理解为通过计算机网络可以利用的各种信息资源的总和。网络信息资源是从计算机技术、通信技术、多媒体技术相互融合而形成的网络上可查找的资源。网络信息资源类型从内容上网络信息资源几乎涵盖了人类所有的重要活动对网络信息资源进行了类型化和体系化研究,产生了不同的分类方案目的是便于更好地

2、认识、组织、检索、管理和利用。 网络信息资源的划分 按应用工具方式分 电子邮件用户组远程登录文件传输GopherWAIS 网络应用的新形式 Web2.0博客(BLOG)播客 (PODCASTING) 书签(Tag)真正简易聚合(RSS)即时通讯(Instant Messenger,简称IM),典型代表为MSN和QQ。社会性网络软件(Social Network Software,简称SNS)WIKI(维基)网络信息资源的划分 按信息交流的方式非正式出版信息。如电子邮件、专题讨论小组和论坛电子会议、电子布告板新闻等。半非正式出版物。从各种单位的网址或主页上, 可以查询正式出版物系统所无法得到的“

3、灰色”信息。正式出版物。各种数据库联机杂志和电子杂志、电子版工具书、报纸、专利信息等。因特网将多类型和多层次的信息是融为一体。网络信息资源的划分 按网络信息资源的层次分指示信息即一个信息单元的地址。 信息单元可以指示信息表达的最小信息单元。信息集合指相互关联的信息集合。是由若干相关信息及其中特定的信息单元和指示信息所组成的。信息系统指一组相关的、经过标引和建立了交互参见的信息资源的集合。网络信息资源的划分 按信息资源的来源政府研究机构事业单位公司企业社会团体个人网络信息资源的划分 按信息资源的内容主题政治性文件学术研究报告经济活动的信息 (广告、企业情况 )历史文献资料教育公共性(社区信息)娱

4、乐性 网络信息资源的划分从网络信息载体分文本图像图形动画声音视频组合媒体虚拟现实技术虚拟现实VR(Virtual Reality )技术是利用计算机生成一种模拟环境通过多种专用设备使用户“投入”到该环境中实现用户与该环境直接进行自然交互的一门崭新的综合性信息技术。虚拟现实技术的特点多感知性(Multi-Sensory)临场感(Immersion)交互性(Interactivity)构想性(Imagination)一些虚拟现实的设备 头戴式显示器 数据手套 轨迹球 VRML(Virtual Reality Modeling language即虚拟现实建模语言)在上建立3虚拟空间的工具它使的页面不

5、再局限于二维空间,使网上的三维世界动了起来。VRML浏览器可以浏览Web上的三维实境。VRML 的应用教学培训广告科研军事娱乐其他国家图书馆虚拟现实网络信息资源的特点数量巨大类型多样变化频繁结构复杂传播快捷共享性好质量不一数量巨大网络信息量大,内容丰富。网络信息增长较快。随着计算机硬件、软件技术的不断发展,特别是海量存储等技术为大容量、高速度的网络服务器提供了条件;计算机的信息处理能力不断增强,许多形式的信息都可以在网络中存储和传递。可以肯定网络信息资源将进一步激增HOW MUCH INFORMATION in Internet in 2003? The size of the Interne

6、t in terabytes. Medium 2002 Terabytes Surface Web 167Deep Web 91,850Email (originals) 440,606Instant messaging 274TOTAL 532,897 Source: How much information 20032009年中国互联网络信息资源数量调查从2008 年底到2009 年6 月,中国的IPv4 地址数量半年增长2,375 万个截至2009 年6 月,中国域名的总数为1,626 万个,其中CN 域名1,296 万个。中国网站数量为306.1 万个,其中CN 下网站数占78.7%。

7、中国国际出口带宽为747,541.4Mbps,半年增长16.8%。 资料来源: 中国互联网络信息中心第24次中国互联网络发展状况统计报告上网计算机总数变化中国大陆网站规模变化 历年网页字节数及发展情况类型多样 内容包罗万象,覆盖了不同学科、不同领域、不同地域、不同语言的信息资源。不仅有题录、摘要,而且还有不少全文。载体包括文本、图像、声音等。多媒体、多语种、多类型信息的混合体。形式上既有公开出版、又有非公开发行的包括会议文献、学位论文、内部资料最贵网页 变化频繁网络信息资源是一个动态系统。网络信息更新迅速,网页增加、删除、更换地址经常发生。网络信息的资源时效性强。网页更新周期缩短,有关的内容处

8、于一种动态的变化之中。在网上能得到最新的资料以及某个学科或某项科研的最新动态,能检索到最近出版的文献。 结构复杂网络信息分别存储在不同国家、不同地区的服务器上。对信息资源的组织管理没有统一标准,百花齐放不同的服务器采用不同的操作系统及数据结构从整体上来看,基本处在无序的状态。不少的服务器还用中间件与其他数据库连接起来在管理和利用方面比较复杂。 结构化数据 半结构化数据 非结构化数据质量参差网上信息发布具有很大的自由度和随意性缺乏必要的过滤、质量控制和管理机制。网络信息具有不同的层次与效用既有科学前沿研究报告,也有大众通俗读物;既有已经加工整理的信息,也有无序的原始信息;既有较大参考价值的信息,

9、也可能混有毫无用处的“信息垃圾”,甚至还有不少有害的信息。良莠不齐有的可以带来极大的效益,有的可能会造成不良后果,利用的价值差异较大假冒的中国银行网站网络信息污染 信息污染是指信息资源中混入了一些干扰性、欺骗性、有害信息的现象影响了人们对有用信息的利用, 甚至造成对人类的危害。网络环境下信息污染主要是指网络信息对用户造成不良的后果,或对正常的信息利用带来负面的影响。 网络信息污染的形式 冗余信息失效信息污秽信息网络病毒虚假信息 信息文化侵蚀荆州市商务局的网站被黑 用户差异大 网络用户类别多样;用户群体也表现出多样性的特点;各种用户之间的需求类型差异很大;用户信息需求变化频率加快;用户需求日趋向

10、个性化、特殊化部分用户需求更加趋向专门性。 中国网民规模截至2009年6月30日,中国网民规模达到3.38亿人,普及率达到25.5%。宽带网民规模达到3.2亿人,占网民总体的94.3%。中国手机网民规模为1.55亿人,占整体网民的45.9%我国网民规模、宽带网民数、国家顶级域名注册量三项指标仍然稳居世界第一中国互联网络信息中心(CNNIC)第24次中国互联网络发展状况统计报告中国网民人数增长情况 网民年龄结构 网民学历结构网民职业结构网民收入结构网民通常使用互联网的时间历次调查网民平均每周上网时数网民上网经常使用的网络服务传播快捷 互联网对社会热点事件的反应速度之快是前所未有的网络越来越多地主

11、导了舆论的方向。网民们也乐于在互联网上发表自己对当前社会热点事件的见解。几乎每一个社会热点出现,就会导致一个网络流行语的产生。为什么“做俯卧撑”很快火了起来“三个俯卧撑”之所以成为热点,贵州省省公安厅对“瓮安6.28严重打砸抢烧突发性事件新闻发布会”上的说明。其中在说明“关于李树芬溺水死亡事件的事实”时,有这样的描述:“刘见李树芬心情平静下来,便开始在桥上做俯卧撑。当刘做到第三个俯卧撑的时候,听到李树芬大声说我走了,便跳下河中”很快,描述的这一细节中的三个俯卧撑就成为互联网上网民关注的热点,在网民恶搞之下,“三个俯卧撑”很快火了起来。满网尽是俯卧撑 1. 给我做三下俯卧撑,我也能推动地球。阿基

12、米得 2.如果我曾经看得远一点,是因为我比别人多做了三下俯卧撑。牛顿 3. 做俯卧撑时运动速度大小,取决于你选取的参照物。爱因斯坦4. 天才就是百分之九十九的汗水加上三个俯卧撑。爱迪生 5俯卧撑即合理。黑格尔 6做俯卧撑还是立卧撑,这是个问题。哈姆雷特 7俯卧撑尚未完成,同志们仍需努力。孙中山 8我撑故我在。笛卡尔 9俯卧撑已经做三下了,胜利还会远吗?雪莱 10世界上本来是没有路的,做俯卧撑的人多了,也就成了路。鲁迅 11做自己的俯卧撑,让别人说去吧!但丁 网络信息资源的结构网络信息资源 来源广泛、结构多元、分布复杂网络信息资源的结构可以分为:内容结构、表述结构、组织结构、分布结构和传播结构。

13、网络信息资源的分布地域分布时间分布行业分布内容分布我国网络资源的地域分布 全国域名数约为 259.2万个,广东(16.8%)、北京(13.8%)、福建(9.5%)位列全国前三名。全国CN域名数约为 109.7万个,北京(17.8%)、广东(15.6%)、福建(9.7%)位列全国前三名。 全国网站数约为69.4万个, 北京(18.6%)、广东(16.6%)和浙江(9.7%)位列全国前三位。 全国网页总数约为24亿个,北京、上海、广东和浙江是拥有网页数量和网页总字节数最多的四个省市。 我国网络资源的地域分布(域名)我国网络资源的地域分布(网站)我国网络资源的行业分布企业网站数的比例最大,占网站总体

14、的60.4%,其次为个人网站,占21.9%,第三是教育科研类网站,占5.1%,随后依次为政府网站占4.4%,其他公益性网站占3.8%,商业网站占3.5%,其它网站占0.9%。 我国网络资源的行业分布我国网络资源的内容分布 政府网站提供较多的信息服务为“友情链接(91.3%)”、“法律法规/政策/文件(85.9%)”、“部门介绍(84.8%)”等; 政府网站提供最多的服务为“留言板(65.2%)”和“政府信箱(64.1%)”;通过网站发布信息比例超过60%的网站占全部政府网站的44.5%; 政府日常办公事务与网站相关服务结合比较紧密和非常紧密的政府网站比例为65.2%。 我国网络资源的内容分布绝

15、大部分企业网站提供“企业介绍(97.0%)”和“产品/服务介绍(92.9%)”;68.5%的企业网站提供“产品查询”;45.6%的企业网站提供 “在线咨询/投诉”; 超过60%的信息通过网站进行了发布的企业网站比例为28.5%;企业业务与网站结合比较紧密和非常紧密的企业网站比例为48.7%。 我国网络资源的内容分布商业网站中提供“网站/网页浏览”的比例最高,占到了70.4%,其次是“网上购物(B2C/ C2C)”(46.5%)和“BBS论坛/网上社区/讨论组等”(45.1%);在各种信息服务的商业网站中,提供“产品信息”的网站比例最高,为85.9%;其次是提供“企业信息”的网站,为66.2%。

16、网络信息资源的时间分布(1)网站成立时间根据2005年中国互联网络信息资源数量调查报告,2005年成立的网站占网站总数的47%,2000年及以前成立的网站占网站总数的7%,截至2005年,国内大部分网站是在2004年和2005年成立的。网络信息资源的时间分布(2)网页更新周期从网页更新周期情况看,2001年到2005年更新周期在一月以上的网页数量在当年更新网页总数中的百分比分别为:881%、9369%、 915%、628%、6414%;更新周期在一周以内的网页数量所占比率分别为:689%、181%、28%、104%、1762%。2001年至2005年更新周期在一月以上的网页数量远远超过更新周期

17、在一周以内的网页数量。反映了国内网页的更新周期普遍较长,更新频率低。网络信息资源的时间分布(3)在线数据库更新比例大部分数据库的更新比例在1%-5%和1%以下,更新比例在20%以上的数据库比率只占10%-20%。从在线数据库更新比例来看,记录的更新比例仍比较低。大部分网站是在2004年和2005年成立的说明随着我国信息化进程的加快,信息资源数量在迅猛增长;网络信息资源的时间分布国内网站的更新周期普遍在一个月以上说明信息更新不够及时,信息资源的时效性差;在数据库更新比例上,国内在线数据库的更新比例普遍在1%-5%,这同样说明了国内信息资源的时效性不高。过时、陈旧的信息内容使信息资源质量下降网络信

18、息资源的分布规律网络信息资源的集中与分散规律布拉得福定律齐夫定律洛特卡定律普赖斯定律网络信息资源的时间分布规律指数增长率老化规律网络信息资源的空间分布规律扩散的多向性传递的密度递减法则网络信息资源利用网络信息检索网络信息过滤网络信息评价网络信息挖掘网络信息检索Network Information Retrieval搜索引擎的概念搜索引擎是一类网站主要任务是主动搜索其他Web 站点中的信息并对其自动索引其索引内容存储在可供查询的大型数据库中当用户利用关键字查询时,该网站会告诉用户包括该关键字信息的所有网址提供通向该网站的链接。当前搜索引擎存在的主要问题搜索引擎的覆盖率在整体上呈下降搜索引擎缺乏

19、统一的技术标准搜索引擎之间的检索体系存在一定的差异性,难于相互兼容搜索引擎检索效率比较差搜索引擎检准确比较差汉语语义的复杂性尚难解决语句中隐含的贬义更是搜索引擎难以判断的多义性的句子搜索引擎也难以判别使用某一关键词进行检索而没使用同义词检索,漏检率高隐性WEB搜索模式“不可见”或“深层”网正在超过表层网人们熟悉的交互式数据库信息资源就是其中最重要的一部分。隐性WEB类搜索引擎有很多种,有的以导航服务为主, 有的以信息搜索服务为主用户行为分析的模式跟踪用户对检索结果行为用以前的用户检索行为来对以后的相似检索进行优化,帮助用户尽快发现自己需要的信息。对用户的行为进行跟踪和统计, 发现这个用户的喜好

20、和对检索结果的期待,从而产生专门针对该用户的检索结果。通过日志的统计分析得到用户检索的分布,用户检索的规律,热点站点的分布等数据。趋势搜索趋势搜索是利用数据利用情况进行分析用户使用行为掌握当前热点预测将来变化趋势搜索是知识检索的一种GOOGLE趋势的原理Google 趋势会分析一部分 字词被搜索的次数,并将其随时间推移的搜索总量相比较。可以用逗号隔开同时比较最多5个关键词的统计数据。用图表显示结果,按线性比例绘制的搜索量图表。用“Google趋势”预测美国大选百度指数百度指数是以百度网页搜索和百度新闻搜索为基础的免费海量数据分析服务用以反映不同关键词在过去一段时间里的“用户关注度”和“媒体关注

21、度”。可以发现、共享和挖掘互联网上最有价值的信息和资讯,直接、客观地反映社会热点、网民的兴趣和需求。 CNKI学术趋势检索CNKI学术趋势是依托于cnki中国知识资源总库中的用户的使用情况提供的学术趋势分析服务。通过关键词在过去一段时间的“学术关注指数”可以知道所在的研究领域随着时间的变化被学术界所关注的情况;可以知道在相关领域不同时间段内哪些重要文献被最多的同行所研读。 向本土化搜索方向发展许多搜索引擎都以英语为基础各国的文化传统、思维方式和生活习惯不同,在对网站内容的搜索要求上也就存在差异。完全按他们的思维方式和观点检索资料,这对于不同国家的用户显然是不适合的。搜索结果要符合当地用户的要求

22、,搜索引擎就必须本土化雅虎本地搜索多语言搜索引擎随着因特网的国际化,网上各种语言的信息都逐渐丰富随着信息交流的国际化,用户有时往往同时处理几种语言的信息。许多搜索引擎为了占领国际市场,都开始支持多种语言的搜索多语言搜索引擎目前网络上有160种语言的信息,而搜索引擎可以支持的语言有40种。如果用户同时在几种语言之间切换提问词,必定加大用户搜索的困难。跨语言综合搜索引擎 可以不同语言提问之间的翻译和不同搜索引擎检索结果的集成。 向可视化方向发展可视化是将数据库中不可见的语义关系用图像形式显示,并表达用户检索过程。可视化信息检索好处:对文献或检索式内部语义关系的理解有助于用户判断检索中的相关文献;透

23、明的检索过程使检索更容易、更有效;可视化的环境为用户展示更丰富、更直观的信息; 在可视化检索中则指检索结果之间的相关度;减少了理解检索结果的时间; 可以对相关信息进行聚类分析。可视化检索技术致力于实现的目标可以方便地构造一个有效的检索式。 检索过程透明化。 检索结果的多维显示。 更为有效的结果集排序机制。提供有效的用户反馈机制,增强用户与系统间的交互作用。可视化在信息检索中的应用在检索前的应用检索需求的可视化。 在检索界面适当设置一些可视化元素或图标提供更丰富的对话内容与手段,使用户与检索系统的交互更加方便、快捷 。在检索过程中的应用将检索过程(黑箱)进行透明化处理,便于用户的跟踪与控制。 在

24、检索结果中的应用将检索结果进行可视化处理而不是采用单纯的线性排列。Vis WebVis Web是 WWW环境下对 Web页面及其链接的可视化检索系统。它通过抽取页面的重要属性,如 URL、网页摘要、超链接等利用形状、颜色、线条等视觉属性来实现页面的图形化描述,用户可以就显示的形状进行动态调整。实现了对搜索引擎检索命中结果及与命中结果有链接关系的页面的可视化显示.清华大学网站可视图清华北京科技大北京邮电大学Hyperbolic Tree 向语义检索方向发展目前基于关键词层面检索从概念意义层次上来认识和处理检索用户的请求。模糊语义查询技术,当用户提交一个关键词后,系统还可以使用这个关键词的同义词、

25、近义词等查询,从而使查询更加准确。这种引擎充分利用等技术使信息结构化,同时使查询结构化,从而使搜索的准确度大大提高概念检索概念是关于具有共同属性的一组对象、事件或符号的知识。同一个概念可以有多个抽象元素来表达,这些描述元素在此概念的约束下构成了同义关系,它们在此意义上可以等同起来。概念检索就是在检索时对于这些描述元素自动归并为同一概念不仅仅能检索出包含这个具体词汇的结果,还能检索出包含那些与该词同属一类概念的词汇的结果。自然语言查询允许用户采用自然语言进行信息的检索,为用户提供更方便、更确切的搜索服务。自然语言查询的优势体现在:由于自然语言查询具有智能分词功能, 使得查询变得更为简单、易于操作

26、。采用概念检索技术,明确和缩小了搜索范围,减少了对无用信息的搜索。自然语言答询可以输入简单的疑问句,比如“how can kill virus of computer?”自然语言的优势一是使网络交流更加人性化二是使查询变得更加方便、直接、有效。如果用关键词查询,多半人会用“virus”这个词来检索,结果中必然会包括各类病毒的介绍、病毒是怎样产生的等等许多无效信息自然语言搜索引擎会将怎样杀病毒的信息提供给用户,提高了检索效率。 自然语言搜索引擎的特点更高的易用性查准率更高搜索范围定位合适搜索过程交互智能搜索结果综合性强问答检索系统麻省理工(MIT) 开发的一个问答系统Start可以回答一些有关地

27、理、历史、文化、科技、娱乐等方面的简单问题。AnswerBus 是个多语种的自动问答系统。BAQS。在银行个人业务应用领域内,成功地解决了自然语言理解的语言歧义问题。新浪爱问2004年7月正式推出爱问的定位是使之成为一项真正能帮助广大网民解决问题的服务用户可以在这个平台上无所不问,而爱问的最终诉求则是能做到有问必答。互动问答平台弥补了传统技术在搜索界面上智慧性和互动性的不足。通过调动网民参与提问与回答,能汇集千万网民的智慧,让用户彼此分享知识与经验。新浪爱问 百度知道2005年6月诞生,作为一个互动问答式搜索产品直接有效的答案的提问式搜索,象“广州有哪些有特色的地方吃饭?”“为什么广州话里说看

28、中了某个人叫生滋猫入眼?这种问题就可能在提问式搜索中由网友提供答案。通过用户和搜索引擎的相互作用,将其所累积的知识数据可以直观反映到搜索结果中,并最终实现搜索引擎的社区化。向集成化发展-元搜索引擎元搜索引擎即是在搜索引擎之上的搜索引擎用户只需提交一次检索请求, 并以统一格式提供给用户.这样的搜索结果比较全面和比较可靠,比分别只使用一个搜索引擎更为有效。元搜索引擎可以一次让多个搜索引擎并发查询,因此它往往能够获得较高的查全率。 元搜索引擎不需要维护庞大的网页标引数据库,大大降低了工程的复杂度。 元搜索引擎根据用户要求对搜索信息进行过滤,提高查询的精度。向智能化搜索方向发展智能型搜索引擎可以充分理

29、解搜索者的意图搜索结果更具有准确性、相关性和实用性搜索引擎具有学习功能可跟踪分析提过的所有问题使以后同类问题得到更好的回答。 智能化搜索例子用户给出“中秋节”一词 ,智能型搜索引擎就能自动输出月饼资讯网和月饼公司等相关信息。用户给出孙中山一词,搜索引擎除了提供“孙中山先生”的文献外,还会提供“宋庆龄”的有关信息。专题搜索引擎专题搜索引擎是以某一学科、某一行业或某一种载体为对象的检索工具。专题搜索引擎可以使用与特定专业相适应的检索语言和标引方法,检索比较深入。专业搜索引擎符合人们的认知规律和检索习惯专业引擎是特色的引擎,起到一般引擎起不到的作用。向序列化方向发展针对同一术语在不同学科有不同意义,

30、如果设计出不同的学科版,对可能产生的误解术语细化,不仅便于查找到准确的结果,节约检索时间,而且能够推动各学科术语的规范化。为适应不同层次用户需求,还可以推出同一专业不同版本的检索工具 ,如普通版、专业版、图像版等搜索工具儿童、成年版等供不同水平用户使用。垂直搜索引擎的优势垂直搜索引擎的搜索器只搜索特定的主题信息,按预先已定义好的专题有选择地收集相关的网页。由于所收学科领域小,信息量相对较少,可采用“专门分类标引”的方法对搜集到的信息进行组织整理进一步提高信息的质量,建立起一个高质量的专业信息收集全的索引数据库。向个性化信息服务发展将搜索建立在个性化的搜索环境之下通过对用户的不断了解、分析,使得

31、个性化搜索更符合用户的需求。个性化信息服务是一种面向用户深层需求的信息服务。具有智能化更新个人数字信息资源特色库的能力。提供多层次的个性化信息服务模板。向多媒体方向发展多媒体检索系统有着广泛的应用前景电子会议、远程教学、远程医疗、数字图书馆、电子商务、地理信息系统、文化娱乐等方面。多媒体信息检索能对以文本信息为代表的离散媒体和以图象、声音等为代表的连续媒体的内容进行检索。 基于内容的信息检索 基于内容的信息检索 (content-based retrieval)是对文本、图像、音频、视频等媒体对象进行内容语义的分析和特征的提取 基于这些特征进行相似性匹配的信息检索技术.基于内容检索的原理 基于

32、内容的检索主要是利用媒体对象的语义、媒体的视觉和听觉特征来进行检索图像中的颜色、纹理、形状视频中的镜头、场景、镜头的运动声音中的音调、响度、音色等。ShapeAverageColorColorMixtureTexturePositionImage QueryShow me more like this 图象内容查询基于内容检索的特点 从媒体内容中提取信息线索。直接对图像、视频、音频内容进行分析,抽取特征和语义利用这些内容特征建立索引,并进行检索。基于内容的检索是一种近似匹配。逐步求精,以获得查询结果,是一个迭代过程。采用以示例查询 外部图例 内部图例 草图大型数据库的快速检索 能满足多层次的检

33、索要求 从媒体内容中提取信息线索CBIR: Content-Based Image RetrievalColorShapeTextureTemplate网络信息过滤Network Information Filtering网络信息过滤概念网络信息过滤就是根据一定的标准运用一定的工具从动态的网络信息流中选取用户需要的信息或剔除用户不需要的信息的方法和过程。它的内涵包括:信息过滤的目的是要满足特定用户的信息需求;信息过滤的依据是信息与特定用户信息需求相关性;信息过滤的对象是动态的网络信息流;信息过滤不仅从信息流中选取需要的信息,也从中剔除不需要的信息。 动态信息集揭示信息用户信息需求用户需求模板匹

34、配算法过滤结果反馈机制信息过滤系统原理图用户需求模板Profile过滤模板动态信息集揭示信息用户信息需求用户需求模板匹配算法过滤结果反馈机制结构基于内容的过滤协作过滤用户需求模板上游过滤下游过滤作用推荐系统阻挡系统通过设置条件剔除用户不需要的信息,而其它的信息用户可以获取网络信息过滤的分类网络信息过滤的分类根据过滤的不同应用分类专门过滤软件网络应用程序其他过滤工具 如防火墙、代理服务器动态信息集揭示信息用户信息需求用户需求模板匹配算法过滤结果反馈机制信息过滤与信息检索共同点目的相同 原理基本相同 检索的技术方法广泛应用于过滤系统中效率的评价趋同 过滤正确率 = 被正确过滤的信息 / 应该过滤的

35、信息 * 100%过滤错误率 = 被错误过滤的信息 / 不应该过滤的信息 * 100%滤准率 = 过滤得到的用户需要的信息 / 过滤得到的信息 * 100%滤全率 = 过滤得到的用户需要的信息 / 用户需要的所有信息 * 100%信息过滤的应用改善网络查询技术提供个性化信息服务实现有害信息的过滤信息中介开展网络增值服务信息过滤的意义与局限性信息过滤的意义减轻认知压力的减压阀 开展个性化信息服务的推动者 保持网络畅顺的把关人 清除不良信息的净化器信息过滤的局限性涉及个人隐私限制认知 影响网速 网络信息的集成Network Information Integration网络信息集成的含义集成是指将

36、分散的部分形成一个有机整体。集合将不同分布地的信息资源通过现代技术链接在一起,运用信息技术和应用软件,形成信息集成服务的环境。组成将所集合的各种信息资源, 通过各种信息技术和手段,进行规范科学地组织 ,以方便快捷地利用。网络信息资源整合A类资源Ax1A类资源Ax2B类资源Bx1A类资源Ay1B类资源By1B类资源By2资源整合A类资源Ax1A类资源Ax2A类资源Ay1B类资源Bx1B类资源By1B类资源By2各站点原始资源排列整合后主服务站点上的资源排列 网络信息集成的产生背景网络环境下信息资源必然是分布的传统的信息服务模式多为集中式或分散式这两种服务模式已不能满足用户的信息需求。用户希望可以

37、通过“一站到位”的计算机界面,获得动态的、在时间和空间上一致的面向主题的信息服务。知识信息资源共享需要。网络化信息集成的必要性网络数字化资源的多元性网络数字化资源的分散性信息系统的异构用户需求的变化 信息服务的变化网络信息增值的需要 网络信息的集成方法虚拟法实体法虚拟法 在虚拟情况下,集成系统充当用户和信息源之间的接口。数据仍然保存在网络的信息源。系统能够自动将集成模式的查询请求转换成对Web信息源的查询。不需要重复储存大量的数据并且能够查到新的数据,比较适合于高度自治的、集成数量多、更新变化快的信息源集成。在查询时,由于需要访问数据源,所以响应查询一般比较费时。虚拟法 实体法实体法是建立一个

38、存储仓库,将参加集成的各信息源的数据装入存储仓库,然后对这个存储仓库提供查询机制。当信息源发生变化时,存储仓库中的数据要作相应的修改。这种方式查询不再需要访问源数据,所以响应查询一般比较快捷缺点是数据更新不及时,数据重复储存。具体的操作和维护工作的代价也高。实体法网络信息的集成方式基于虚拟数据库的网络信息集成基于XML的网络信息集成基于Web数据仓库的网络信息集成基于智能代理的网络信息的集成基于本体的网络信息的集成基于网格的网络信息的集成实例:强大的在线词典-OneLookOneLook具有庞大的在线词典数据库,收录955部词典和词汇表,单词6百多万个。分为普通语言词典、艺术词典、商业词典、计

39、算机词典、医学词典、综合性词典、宗教词典、科学词典、俚语词典、体育词典、工程技术词典等11大类各类词典可列表浏览,在每部词典名称下均有诸如收词量、版本、主页网址、类型、特点、收录日期等简要介绍。 网络信息资源评价Evaluation of Network Information resources网络信息资源评价的必要性网络信息资源数量巨大网络信息资源质量不一网络信息资源整序的需要网络信息服务的基本要求网络信息与用户利用的矛盾评价网络信息资源的目的了解网上信息的分布及质量水平等情况为有关信息的取舍提供判断依据掌握各领域中的优秀网站,形成各领域优秀网站、 网页群 指导人们方便、快捷而且有效地选择

40、和获得有价值的信息资源节约大量宝贵的时间提高网络信息传播能力网络信息资源的内容评价 内容是评价与选择的核心,从中可以反映网络信息资源的本质。完备性针对性可靠性权威性原创性新颖性网络信息资源的形式评价美观性条理性查检性 快捷性 稳定性低耗性易用性网站评价要求体现内容质量第一要有科学性注意客观评价与主观评价相结合各指标之间互相补充具有动态变化特征网络信息的评价模式排行榜模式动态监测市场调查专家评估定性与定量相结合实例:WWWalexacomWWWalexacom创建于1996年4月,现在已经成长为最著名的网站评价Web站点Alexa通过数百万Alexa工具栏用户分析网站的使用度来计算流量等级这些信

41、息经过匿名提交、详细审查、计算、储存最后提供在Alexa的服务中。 网络信息挖掘 Web mining网络信息挖掘的含义网络信息挖掘就是利用数据挖掘技术自动地从网络文档以及服务信息中发现和抽取知识的过程。从概念及相关因素的延伸比较上找出用户需要的深层次的信息网络信息挖掘的类型网络内容挖掘(Web content mining)网络结构挖掘(Web structure mining)网络用法挖掘(Web usage mining)Web挖掘的分类Web 挖掘Web结构挖掘Web内容挖掘Web使用记录挖掘Web页内容挖掘搜索结果挖掘一般模式追踪个人使用模式追踪网络结构挖掘从网页等的结构和链接关系中

42、发现知识。由于网页文档之间的互连,Web能够提供除文档内容之外的链接信息可对页面进行排序,发现重要的页面。可用于网页归类,并且由此获得有关不同网页间相似度及关联度的信息。网页链接挖掘分析的意义链接是Web网页的普遍现象只有通过与其他的网页及其本身内容的链接,网页才能相互交换信息,扩大使用价值。网页的不同链接体现了不同的信息功能,具有不同的特征和规律。网页链接挖掘分析的意义 分析和评价网页的质量 指导网络资源的组织建设 应用于网络资源检索和利用 有利于分析和掌握学科发展状况 有利于开发和应用智能超文本链接 Web链接机制分析的局限性Web链接分析范围更广链接载体类型多,包括文本、声音、图像、动画

43、等;链接的动态性强,网页变化大、常常处于不断的变化当中。Web有些链接是为其它目的而创建的网络信息的结构挖掘的应用指导网页采集帮助结果排序检索结果聚类查找相关网页消除重复网页识别社区帮助资源自动分类确定Web影响因子基于链接挖掘的超文本优化 网站内链接的结构优化 网站外链接的结构优化 超文本链接的动态优化 超文本链接的数量优化核心网站核心网站是指某一网站所发表的有关专业信息量在其所发布的所有信息中占有极大的比例,而且有较高的学术及实用价值从中可以反映该学科、专业主题领域的最高研究水平、最新研究成果和发展动态,而且具有较高的相对稳定性和专业人士访问率。 确定核心网站将所有链接到样本网站的网址汇总

44、统计,将这一组数据作为测定核心网站的依据。将样本网站之间相互链接的次数作为网站被链接的次数。将其他网站指向样本网站的数量作为网站被链接的频次。计算网站的WebIF根据所获得数据从高到低进行排序,将出现频次最高的一组网站确定为核心网站。网络信息的内容挖掘 从网上信息的数据内容或与之相连的信息数据库的内容中发现有关的知识可以分为对文本文档挖掘和对多媒体文档的挖掘。网络信息信息的多样性决定了内容挖掘任务的多样性,根据处理对象的不同而异。Web内容的挖掘是对Web中包含的文本、图像、视频等数据元素进行挖掘。文本挖掘目前网上大多数的信息表现形式为文本文本挖掘是从非结构化的文本中发现潜在的知识。处理的对象主要是大量的、无结构的文本数据。目的是从不同格式文本中发现有用知识。 文本挖掘的方法文本的特征表示 文本特征抽取法文本总结文本分类文本聚类关联分析法多媒体挖掘把数据挖掘的基本理论和方法与对多媒体特性的分析结合起来利用多媒体的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论