第2章WEB20信息组织2.ppt_第1页
第2章WEB20信息组织2.ppt_第2页
第2章WEB20信息组织2.ppt_第3页
第2章WEB20信息组织2.ppt_第4页
第2章WEB20信息组织2.ppt_第5页
已阅读5页,还剩77页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章Web2.0信息组织研究,第1节Web2.0,1web2.0的概念与特征(1)web2.0的概念Web2.0是第2代因特网的简称,是互联网新的理念和思想体系的结晶,由原来的自上而下网站为主导的集中控制的互联网转变为自下而上的由用户为主导的互联网体系。其内在的动力来源是将互联网的主导权交还个人,从而充分发掘了个人的积极性,并参与到网络活动中来。,(2)web2.0的信息组织特征,互联网成为平台或用户参与体系(非统治和控制的)充分重视并利用用户的集体力量和智慧;用户数据成为因特网内存;用户由接受者变为制造者和传播者。分享和参与的网络架构和网络效应;通过带动分散的、独立的开发者把各个系统和网站组合形成集成资源体系的能力;通过内容和服务的联合使轻量级的业务模型可行,并分享经济的模式;注重用户体验的持续的服务;服务和应用无处不在(非单机版和单一平台版本);由少数重要用户扩展到全体用户,包括大量的普通用户,要有拉动长尾的能力。.,(3)web2.0的信息组织特征,从信息组织角度总结WEB2.0的几个特征参与性:用户中心,个人深度参与,即用户创造、发布、传播、修改、使用信息;自组织性:人与人、内容与内容、群体与群体以自组织方式形成结构;开放性:开放软件(API)或服务,开放版权,如GOOGLE的MAP,维基百科按GNU的自由文档许可证(GFDL)就是反版权的,可以自由获取、修改、复制、甚至销售。部分内容也是开放的、真实的(反虚拟的),如用户照片共享、部分内容开放。,(2)web2.0的特征2,聚合性:web2.0是使用标准化协议(RSS、RDF、Atom)的网站内容和服务的聚合,允许用户同时利用一个甚至跨站资源和服务。这些协议都是基于XML的。微内容:web2.0将信息内容分解成很小的单元(类似数据元、知识元、信息元)。一篇文章、一条评论、图片、书签、认识的人等都是微内容。,2web2.0对信息组织的影响,web2.0促进信息组织观念的改变1)由专家到大众:folksonomy的兴起;2)主动:“主动”是指“以用户个人为中心”,以个性化为核心价值的个人时代,每个人深度参与到互联网中,并彼此相连;3)互动:“互动是指“以自组织为中心”,个人与个人之间,个人创造的内容与内容之间,以及个人组成的群体与群体之间,都以不同的自组织方式联结起来,以自组织的方式让人、内容和应用等充分活动起来。4)由受控标引到自由标引;,(2)web2.0改变了信息组织模式1)个性化;强调资源特点和组织方式的独特性;2)个人化:以用户个人资源为基本组织对象;3)兴趣化:以用户群的兴趣为信息组织目标;4)分群化:用户群围绕标签(tags)Users,tags,tagging,resources成为研究大众分类法语义的主要模型,并形成资源与组织资源;5)以人物为重要信息组织对象,名人、热点人物等成为资源组织的标识,粉丝围绕名人或中心人物形成资源结构与组织结构;6)资源与用户的匹配更加有效,一般地,用户拥有的资源比传统方法更关切和有兴趣。,Web2.0的聚合技术:一是内容聚合(Mashup混搭),包括网站内和网际内容聚合;当你查询一个网站的某个主题时,各站点的相关内容会显示出来。如一本书在各站的价格等都会出现。二是桌面软件和网络已混为一体;三是软件即服务(S-a-a-S),应用软件成为提供服务的工具或平台。,第二节web2.0的信息组织类型,1博客(Blog)信息组织博客是个人或群体不断更新的、按时间顺序形成的一种思想、活动、事件等的记录。博客的作用是快速发布观点、体会、新闻或日常记录等,并通过回溯(TrackBack)和评论(comment)进行交流,展示用户的个性。博客的主要组织技术是内容聚合。聚合技术包括三个方面:一是内容聚合(Mashup混搭),包括网站内和网际内容聚合;当查询一个网站的某个主题时,各站点的相关内容会显示出来。如一本书在各站的价格等都会出现。二是桌面软件和网络已混为一体;三是软件即服务(S-a-a-S),应用软件成为提供服务的工具或平台。用户可以通过聚合软件订阅感兴趣的博客,追踪更新。作者可以利用聚合让电脑理解并摘要自己的文章。,2)博客信息组织的主要特点是:以用户个人为中心,作为组织用户博客的基本单位,并以日期为个人资源排序的次要标准;用用户个人选取(或标注)的标签作为个人相关内容资源集中在一起(当检索时)以标签聚合技术把相关知识集成在一起(站内或跨站的);基于知识共享、互动、交流,即基于服务的信息组织模式;用户的评论(反对、赞成、补充、修正等)丰富了资源的多方面内容;在效果上,微内容、交流和围绕问题或工作形成资源结构,提高了信息组织的质量和针对性。,2维基(Wiki,有人译成威客或维客)的信息组织Wiki源于夏威夷语weekeeweekee,意为“快点快点”。维基是由一种支持面向社群协作式写作的超文本系统和辅助工具。它颠覆了信息写作者和使用者的旧模式,开创了一种基于用户自由写作的开放模式。1995年,沃德.坎宁安(WardCunningham)建立了世界上首个Wiki系统,并用它建立了波特兰模式知识库(PortlandPatternRepository),从19962000,这个库开发了很多辅助工具,对Wiki系统的协同写作进行支持。从而形成了维基模式。,维基的信息组织方式集体知识。Wiki是一个集体创作的网络公共知识库,是网民的集体智慧形成的人类知识的网络系统。维基可以构建网络百科全书,形成专门(领域)知识结构(如讨论菜谱、剧本创作、服装设计等)。知识分享。可以帮助用户分享和利用社群内某个领域的知识,用户对维基内容有很大的权力,可以阅读、下载、创建和修改文本,自由开放度很高。发布简便、内容开放是它的重要优势;此外它还具有可增长、自组织、可观察的特点。动态性、个人性与分群化的结构。Wiki又是一个动态的个人或群体的协作工具,要具有群体共识才能积累大家认同的知识。,维基百科的信息组织特点是:多元化的组织方法(从不同角度组织知识);严谨的分类系统;字顺系统。目前Wiki系统最成功的应用是维基百科(Wikipedia)。2001年,一个小型互联网公司(Bomis)的CEO保尔.威尔士和LarryStanger推出了维基百科,2006年已有120多处语种的版本,200多万个词条,成为全球点击率最高的50个网站之一。,3网摘(SocialBookmark,社会书签),网摘实际上是一个网络海量收藏夹,它基于个人收藏、积累,然后成为集体收藏和共享,随着用户增加和收藏的网址增加,大规模的资源积聚和知识分类就形成了。所以,网摘本质上是一个随着用户增多和网址数量的积累,而成长起来的信息/知识性汇集系统。网摘是一个积累性的信息/知识收藏、分类、排序、分享网络资源的服务工具。,网摘的组织方式1)按标签聚合相同内容的网址。它存储网址和相关信息列表,再用标签对网址编制分类索引,标签是一个聚类符号,用户按标签查找有用的信息,进行分享和交流。所以又叫分众分类法(Folksonomy)。如博客网摘就克服了个人视野的限制,通过网摘让读者评论,从而形成各种观点和内容的汇集,使用户和内容都实现了按问题或兴趣分群的功能,是一种信息组织方式的创新。这种组织方式的针对性、有效性和全面性都是过去没有的。网摘的主要作用是:分享;标签聚类和查询以形成知识体系;形成共同兴趣的交流群,实现沟通、表达、提高知识水平的社会功能。,2)以个人选择与群体选择形成基于不同兴趣的资源结构。底层是个人选择,相同的个人选择形成相同兴趣的用户群,不同的用户群就是不同知识资源群。3)个人选择与群体选择是对海量资源的内容选择与质量选择,选择的结果是网摘质量的提高和基于标签的不同内容集合,不同标签形成不同知识分类或内容分类。4)基于积累资源收集和结构形成过程。,4内容聚合(RSS),RSS源于网景通讯公司的推送(push)技术,是一个共享新闻和网络内容的数据交换规范。RSS有三种解释:ReallySimpleSyndication(真正简单聚合);RDF(ResourceDescriptionFramework)SiteSummary(RDF站点摘要);RichSitesummary(丰富站点摘要)。RSS广泛应用于新闻、博客、维基的内容或频道订阅。,RSS的信息组织方式:推-拉式:用户主动订阅,网站自动推送;用户也可以通过增添(拉)阅读到的精彩内容。个人性:所有的内容都是个人订阅的,内容与个人兴趣、需要密切相关;即时性,各种更新都是即时的;内容可以随时更新和增加。易用性:只要粘贴RSS网址即可完成订阅和退订;内容聚合性:RSS标准可以把博客、维基、搜索引擎、在线新闻、商业信息等的内容聚合在一起。5社会性网络(SNS)的信息组织SNS理念源于美国社会会心理学家米尔格伦(StanleyMilgram)在1967年提出的六度分割理论:“你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就会认识任何陌生人。”按照这个理论,每个人的社交圈都不断放大,最后形成一个大型社交网络SNS。,SNS的核心价值是社交无限化,即假如人均交友260人,六度就是2605=1万1千多亿。在web2.0中,用户的交际工具有博客、播客、自己维护的维基、网摘和社会性网络等。可以通过标签、RSS、邮件等实现广泛的沟通交流。方式是朋友的朋友实现滚雪球式发展。其次是社交垂直化(即按问题或兴趣形成社会性网络),可以带来物质和精神方面的利益和效应。,SNS的信息组织方式1)基于交流的信息组织。交流驱动的知识生产机制和资源形成机制以及结构,基于多样化的交流内容,形成了不同的社群和动态的资源结构。2)基于兴趣和问题的知识(或资源)结构,即所谓垂直化的社交群。3)多样化的互动社交群体组织模式(本身也形成了多元、动态的资源或知识结构)。基于知识、信息、交友、婚姻、问题、活动等交流内容。,第三节web2.0的信息组织方法,1标签与标签云(tagandtagcloud)(1)标签与标签云的含义标签(tag)是用户标注个人或相关资源的符号。是目前web2.0网站广泛使用的资源组织方法.标签云(tagsclouds或labelclouds)是一个集合用户标签的简洁的聚合工具,一般按字顺和权重(重要性)组织起来,用字体大小显示各个标签的价值,是一个广受用户欢迎的查询窗口。,标签云图,来源:,标签云实例,(2)标签云的特点:1)检索窗口。标签云是一个查询窗口,它把符合一定阈值的标签聚合一起,按字顺排列,然后按每个标签的资源数量(即标签的使用频率)决定标签的字体大小,代表它的权重(即重要性或流行性),用户点击标签就可以以浏览相关的网页资源)。2)平面结构。标签云采用平面结构,词间没有相关关系和等级。这种平面关系简单明晰,便于屏幕上的平面浏览,适应小型网站的临时性资源组织。3)标签之间缺乏成族能力。同义或近义标签无法组织或联系在一起,不能适应大型网站的资源集成组织,小型网站也不能适应长期积累的大量资源组织。所以它只是一个类似关键词的松散组织模式,只能适应小型网站的临时资源组织,这显然不能适应现代信息组织的需要。,(3)标签云的聚类方法,文件被用户标注(或自动标注)后,相同标签的文件会集中在同一个标签下(一次分类);用户使用的标签频率越高(多),标签在标签云窗口中字体就越大,说明这个标签代表的资源更重要,它反映了话题的流行程度。相反,使用频率低的标签在标签云窗口中字体很小,如果低于某个确定的频率,该标签就会被淘汰而不能进入标签云。,标签云聚类示意图,标签标注频率计算与选取,文件集合,标签云,标签1,标签N,相同标签的文档集中,(4)标签云的功能,1)组织功能。每个标签集合同类资源;每个标签与一个或几个文件和文件片断用URI联系起来每个标签由用户自由选择与标注,构成一次分类;标签组织的资源内容是混合的,是基于混搭(mashup,又译揉合)技术的。Mashup技术是一种资源与服务的整合工具,是一种按需定制内容和功能的、用户自我创建内容的信息组织方法。它的特点是一个页面可以由多个API软件形成聚合内容。标签云把所有单个标签集合到一个检索界面。,2)推荐功能。推荐工具推荐话题表;推荐流行性;焦点、热点、排行榜等最新资源推荐;标签云的组织方式具有非常优秀的推荐功能,它首先是一个基于用户选择的,用户可以从里面找到最流行的热点话题。实际上,标签的频率统计与选取本身就是一个热点资源推荐表。其次,加红、加重与大字显示是最明显的推荐,它在心理上创造了一种“心理排序”,具有很强的引导用户阅读的功能,从众心理与别人在看什么的好奇感,具有一种功能非凡的心理推荐作用。3)搜索功能。标签云首先是一个平面搜索窗口,其功能如一般的搜索引擎一样,可以迅速地把聚合的资源显示在用户的桌面上。使用混搭(Mashup)技术,web2.0网站的标签云搜索工具查询到的资源,大多具有聚合特征,即它是面向问题的知识而不是简单的链接。,(5)标签云的问题,1)用户标签的差异不同用户标注同一资源使用的标签差异性极大,形成难以控制的局面。因为各自相异的用户对于相同的资源,具有完全不同的理解和完全不同的表达。这些都曾是用户标签的优势,因为千姿百态的标签有利于反映用户异质化的兴趣和多样化的需求,这对于从不同角度形成资源和利用资源,是一个有利条件。然而对于资源组织来说,同一资源形成多样化的标签却是一件令人棘手的难题。例如,一张玫瑰花图片,用户可能用“玫瑰”、“玫瑰花”、“情人节礼物”、“爱的感情”、“爱之心”等等来表达。这些花花绿绿的标签,对于表达用户趣味是十分有利的,但是对于信息组织却是十分困难的。,2)反长尾理论与资源局限长尾理论的原意是要人们关注长尾的尾部,关注被忽略的大多数,但是标签云实践却是一个“反长尾理论”的模型,为了效率不得不忽略长尾尾部的大部分标签。这在web2.0世界中造成一种强大的从众趋势。流行标签有一种大众化的品质,大量资源和用户兴趣集中在少量的标签上,忽略大多数社会话题和少数数用户的兴趣,有时会转移社会关注点,淹没具有异质思维的用户,这十分不利于知识的创新。这样形成的资源结构是畸形的,只限于部分活跃用户的趣味和一时流行的话题,对于资源长期保存价值来说也是一个挑战。,3)标签成族与集成问题标签云是一个结构松散的平面资源组织工具,适应以每个用户为单元的个人门户网站。但是它很难适应资源结构复杂的大型网站的信息组织。因为标签云在本质上是一个平面化的资源浏览窗口,可容纳的标签有限。目前,大多数网站采用栏目(或主题树)加局部标签云的方式解决标签的平面化缺点,大多数博客仍然以栏目为主,这说明了标签云简单化的“反结构”特征正在限制它的广泛使用。从资源集成和标签聚类来看,长期积聚的资源不可能用当时流行的松散标签来表达,所以大量标签实行集成聚类,形成等级式的主题树是不可避免的。,2标签之间的聚类,(1)标签的语义聚类与语用聚类标签云是一个平面化的搜索工具,要克服它的非结构缺陷的较好措施是实现标签的等级聚类,即把标签归入到某个更广义的“类”或“栏目”中,实现标签的层次化。前一种聚类方法一般按照“标签-二级栏目-一级栏目”实现标签聚合。如“张爱玲”可以属于“作家”或“文学家”二级栏目,“作家”可以属于“文学”一级栏目。后一种聚类模式(即标签层次化)可以根据需要把不同的标签分成等级,如小团圆这个书名本身就可以是标签,它可以属于“小说”或“张爱玲作品”这个上位标签,“小说”又可以属于“文学”这个一级标签。,聚类方法一般有语义聚类和语用聚类。语义聚类是词语之间有明晰的意思或意义上的关系或联系;语用聚类是词语和其他符号因表达或其它需要而延伸到应用领域,从而与该领域产生的联系。如图表示一个词“玫瑰”的语义聚类和语用聚类,这里,用方形图表示语义聚类,用圆形图表示语用聚类。,上面聚类网络既是语义的,又是语用(应用)的,它们形成了一个网状结构,体现了一个标签从语义聚类向语用聚类的延伸情况。“玫瑰”与“玫瑰花”既是“花卉”、“植物”,由此形成语义网络;它们同时又是社会的、“人文”的符号,在语用(应用)关系上形成聚类网络。在标签聚类中,语用聚类是一个普遍现象,为适应以用户为中心的标签聚类或资源聚合开辟了一条新路径。,基于以上考虑,我们把标签的一般聚类分为两大类型:语义聚类与语用聚类。语义聚类的特征是根据标签之间的意义(由人类认识的事物关系结构赋予事物集合以一定的层次)联系实现聚类,由标签聚类代表的资源实现网页资源的意义集合。语义聚类一般按事物分类系统(如植物分类等)表达事物间的联系或结构,因而符合人类的认识规律和认知原则,从而按此规律或原则实现快速地查询。语用聚类则是一种基于应用的聚类方法,它考虑的基点是资源在应用上联系而不是语义上的联系。如“玫瑰花”用标签“情人节”、“礼物”两个标签标注,就是语用聚类,它不考虑“玫瑰花”的“花卉”、“植物”等符合认识规律的语义联系,而是考虑它作为礼物符号的作用方面。在这里,语用聚类把玫瑰花作为一个社会性的表达符号,也是用户感情的表达符号。这样,“玫瑰花”就冲破了它的语义范畴,延伸到它的应用阈。而应用阈是不确定的,所以这种聚类情况复杂,因为“玫瑰花”也可以应用于装饰的符号等等。所以语用聚类在很大程度上随不同用户的表达需要和其他需要而定。,2标签之间的聚类续,(2)标签之间的聚类结构不管是标签的语义聚类或语用聚类,其结构都是基本相同的。因为语义和语用聚类都形成基本相同的一般性层次化结构,即它们都是一种基于符号类型划分的框架性组织模式。这种结构的共同特点是等级性的事物集合分层,通常使用内涵包容式(代表事物的上位符号)或外延归属式(代表事物的下位符号)来形成类集。符号(标签即是一种符号)等级代表事物(或资源)等级,每个等级的划分形成层次性的、意义相近的可选资源窗口(每个标签代表一个类型的窗口)供用户选择阅读。标签聚类结构的目标就是首先实现具有相同标签的资源聚合在一起;其次标签之间再形成不同的等级,若干个可以包涵在上位标签(或栏目、频道)的下位标签排列在一起,依次类推,从而形成层次化的集成组织结构。,标签聚类的三级结构示意图,文件集合,标签词频统计,标签云,栏目或频道,一级结构:以单个标签为资源聚类单位,二级结构:以选择的标签组成平面检索窗口,三级结构:结构化的检索窗口,3标签的优化控制,标签云的控制决不能重走专家化的老路,而是要打通专家模式和大众模式两个藩篱,吸取两种方法优势,既保存标签云大众化的优点,又用控制手段克服它的缺陷。控制的方法仍然是同义词优选、相关词关联等,但是内容与传统词汇控制方法不同。用户标签优选不同于传统词表中的正式叙词和非正式叙词,叙词表中的同义词优选是基于一般概念的,词汇和资源的关系是不明确的;而用户标签优选是基于用户标注资源时已经使用的词汇,所以词汇与资源有明确的联系。其次,由于用户标签优选时,优选标签与非优选标签都是用户使用的标签,所以非优选标签不是淘汰掉,而是与优选标签联系起来。,这样,优选标签不是“代替”非优选标签,而是“代表”非优选标签。只是在后台数据库中,优选标签才可以代替非优选标签,这是为了集中相同内容的资源。所以用户标签优选,实际上是联系(或聚类)同一标签的不同形式,这与同义词的控制虽然道理一样,但是在实质内容上是完全不同的。采用这种方法,是为了保持标签的用户兴趣与特色,也是为了配合使用相同标签的用户群的标引与查询习惯。,(1)用户标签优选控制的集中模式这种模式采用“用户分散标注-后台集中-显示集中”,即同一内容的不同标签全部映射到一个共同的后台数据库的唯一标签中,显示页面上出现的内容与后台数据库相同。如图所示。,(2)标签优选控制的分散模式,标签优选的分散模式采用“用户分散标注后台数据库分散存储镜像映射集中显示集中”,即同一内容的网页文件由用户分散标注,后台数据库分散存储,采用镜像索引技术集中各种标签,显示内容与镜像索引内容相同。其中关键的技术是建立镜像索引,其方法同集中模式中的第一和第二步,即在众多标签中先优选一个代表性的唯一标签,然后把相关标签映射到索引中。,标签优选控制的分散模式示意图,镜象索引中的唯一标签,(3)标签优选控制的特点,标签优选与叙词处理相比,具有如下特点:标签优选只是将同一文件的各种标签之间联系起来,不是用优选词代替非优选词;标签优选后,不同的标签(包括非优选词)通过映射仍然可以查询用户标注的文件,而不仅仅是入口词;标签优选是一种基于用户标注系统的灵活词汇处理机制,它不是在既定词表基础上进行的,而是基于用户服务或趣味的、动态的词语控制方法。所以标签控制不是一次决定的,而是连续性的活动。同时,标签优选基本上是一种在镜像中“暂时”的聚类,是一种基于用户的处理方式。,4web2.0网站信息组织实例分析,(1)维基百科的信息组织,维基百科的首页,英文维基百科的分类框架:上部有概览、主题、知识纲要、导航、特色内容、术词表、分类和字顺索引,人文学中的文学子类:点击子类名,显示全部内容,点击“+”号,显示细目。,人文学中的人类学子类:点击子类名,显示全部内容,点击“+”号,显示细目。与分类索引中的类目不一样。灵活的体系。,中文维基百科的分类索引局部(上),中文维基百科的分类索引(下),中文维基百科的主题导航,特色内容导览,多重分类方式:分别按字顺、音序、学科、时间、相关等多维方式分类。,维基”文化”类词条中的”乌托邦”词条目录,乌托邦作品和反乌托邦作品,Flikr上的热门标签云,来源:,Flikr上点击“wedding”标签显示的资源,左为赞助网站的相关标签,右为本站最新的图片,(2)web2.0网站为增加标签语义的方法,美味书签的通用标签建议窗口,美味书签的建议标签与标签箱:右为左列的文章提供的建议标签。,美味书签的相关标签,第4节用户标注的语义与大众分类法本体,1用户标注的语义模型标签的三元组模型由Mika等人于2005年提出,2006和2007年Halpin等分别从不同角度研究了这个模型。这个模型是:Tagging:(U,T,R)。三元组由用户、标签和资源组成,其中U表示参与标注标签的用户集合,T表示已经标注的标签集合,R表示被标注的资源集合。后来Gruber提出了标签的扩展模型:Tagging:(object,tag,tagger,sources,+or-)。其中,前三项与三元组模型相同,sources表示标引对象的来源或标引者加注标签使用的标签空间,正负参数表示垃圾标签协同过滤的参数配置。,目前数字环境中词汇处理的主流技术是关系处理,语义网中的XML、RDF、OWL及其他本体技术都采取结构关系处理模式来规范类与属性之间的关系,所以用户标注的词汇处理采用通行的描述方法是一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论