网络链接分析ppt课件.ppt

上传人：闯*** IP属地：广东上传时间：2020-01-04 格式：PPT 页数：79 大小：1.96MB 积分：25 举报 版权申诉

已阅读5页，还剩74页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第6章网络链接分析网络链接分析 LinkAnalysis 也称链接分析或称链接分析法超链分析可广义理解为以Web中页面间的超链接为研究对象的分析活动从网络信息计量学的角度可将其定义如下链接分析是以链接解析软件统计分析软件等为工具用统计学拓扑学情报学的方法对链接数量类型链接集中与离散规律共链现象等进行分析以用于Web中的信息挖掘及质量评价的一种方法链接分析先于网络信息计量学诞生 1996年 Larson依照引文分析中共被引分析 Co citationAnalysis 做了共链分析 Co linkAnalysis 但在网络信息计量学诞生后链接分析便被纳入了其研究范围至今链接分析已成为网络信息计量学备受关注的研究方向链接分析理论包括以下几个方面链接理论链接分析的研究视角链接分析与引文分析之间的关系链接分类与统计理论链接分析指标 1 网络链接概述 1 1链接感性认识1 2链接与超文本1 3链接术语 1 1链接感性认识 Wood等人将Web的结构绘制成可视化图白色的大球表示网站主页小球代表网站的二级及二级以下页面绿线代表链接将不同的网站网页连结在一起形成网络 1 2链接与超文本 1965年 TedNelson提出术语超文本 Hypertext 1978年在 DreamMachines 中他提到了链接并指出链接将带来文件的连通性 1981年使用术语超文本描述了这一想法创建一个全球化的大文档文档的各个部分分布在不同的服务器中通过激活其中的链接就可以跳转到所引用的论文 1 2链接与超文本超文本是用超链接的方法将各种不同空间的文字信息组织在一起的网状文本超文本更是一种用户界面范式用以显示文本及与文本之间相关的内容当前超文本普遍以电子文档方式存在其中的文字包含有可以链结到其他位置或者文档的链接允许从当前阅读位置直接切换到超文本链接所指向的位置 1 3链接术语链接超链接 Link hyperlink 两者都指网络链接在没必要区分入链与出链时通常会用到这两个词偶尔也会用到这些词指代入链和出链入链 Inlink 指向某页面的链接一般而言这个链接应该来自某个特定集合以外的页面入链与反向链接同义接受入链与被链接同义出链 Outlink 从某页面指出的链接一般而言这个链接应该指向某个特定集合以外的页面 1 3链接术语自链 Selflink 从某页面指向该页面自身的链接可能是同一页面的不同部分一般而言这个链接应该指向某个特定集合内部的页面互链 Interlink reciprocallink 通常指两个不同网站之间的链接也指站间链接这个词通常以 ing的形式出现例如网站互链 interlinking 表示网站之间的链接 1 3链接术语共入链 Co linked 如果两个页面都含有来自第三个页面的入链则这两个页面共入链共出链 Co linking 如果两个页面都含有指向第三个页面的出链则这两个页面共出链有时也可描述为耦合或文献计量中的耦合共链 Co link 共入链与共出链统称为共链 1 3链接术语链接术语的图解 B有一个来自A的入链 A与B之间 A是链接来源 B是链接目标 B与E共出链 C与D共入链 E与F互链 B有一个指向C的出链 B是链接来源 C是链接目标 B有一个自链 2 网络链接的分析视角 M Thelwall根据不同学科的侧重点将链接分析研究划分为情报学视角的链接分析 Informationsciencelinkanalysisapproach ISLAA 计算机科学视角的链接分析 Computersciencelinkanalysisapproach CSLAA 社会科学视角的链接分析等 Socialsciencelinkanalysisapproach SSLAA 除此此外还有统计物理学家数学家等从其他视角研究链接分析 2 网络链接的分析视角不同的研究视角之间虽没有绝对的界线但研究目标不同理论基础也不同 CSLAA主要研究网络动力学 WebDynamics 链接与内容的关系链接和信息检索网络挖掘 WebMining 网络建模 WebModeling 等 SSLAA主要研究网络空间分析 WebSphereAnalysis 虚拟民族志 VirtualEthnography 超链接网络分析 HyperlinkNetworkAnalysis 等ISLAA则以文献计量学中的引文分析为理论基础核心观点为链接代表引用 2 网络链接的分析视角按照M Thelwall的定义链接分析就是采用并改进现有的信息技术与方法借助文档之间的相互关联对文档自身的特征进行深入分析根据链接分析的定义和情报学相关理论我们将情报学视角的链接分析定义为以引文分析为基础采用并改进现有的信息技术与方法借助文档之间的相互关联对文档自身的特征进行深入分析 2 网络链接的分析视角从概念上看链接分析以文档为研究对象这里所说的文档包括四个层面页面目录域名站点从本质上看情报学视角的链接分析是一种新兴的研究方法在情报学计算机科学社会科学等领域有广泛应用 2 网络链接的分析视角情报学视角的链接分析不同于网络中流传的链接分析前者内容包括链接数量分析链接类型分析链接的集中与离散规律分析共链分析等主要用于提高网络信息检索效率评价网络信息质量发现网络社区等网络中流传的链接分析主要指链接流行度分析 LinkPopularityAnalysis 其内容包括链接数量和质量的评估及分析主要用于提高网站网页在Google检索结果中的排名等下面提到的链接分析均指情报学视角的链接分析 2 网络链接的分析视角用共词分析的方法借助Pajek可视化工具绘制了链接分析的研究主题图图中节点代表主题词连线粗细代表主题词之间的共词强度与 LinkAnalysis 这一节点的连线越粗代表与该主题关联越紧密 2 网络链接的分析视角链接分析领域关注的主题包括 WorldWideWeb 万维网 InformationRetrieval 信息检索 Ranking 评价排名 SearchEngine 搜索引擎 WebMining 网络挖掘 PageRank算法 3 链接分析与引文分析的关系链接分析以引文分析理论为基础但在动态多变的网络环境中形成了引文分析理论所不具有的特性二者各自的特征及相互关联便成了链接分析研究中的一个热点引文分析主要对科学期刊论文著者等各种分析对象的引证与被引证现象进行分析以揭示其数量特征和内在规律 3 链接分析与引文分析的关系引文分析工具包括美国科学引文索引 SCI 美国基本科学指标 ESI 美国期刊引证报告 JCR 中国科学引文数据库 CSCD 中国科技论文与引文分析数据库中文社会科学引文索引 CSSCI 中国人文社会科学引文数据库中国引文数据库 3 链接分析与引文分析的关系常用的引文分析指标包括引文数量与分布规律测度指标引文数平均引用数自引数与自引率被引用数与引用数的比值期刊质量测度指标被引用数影响因子即年指标论文质量与著者学术水平测度指标被引用数文献老化规律测度指标衰减系数 3 链接分析与引文分析的关系引文分析大半个世纪以来的发展轨迹可以用如下的链来表示 Grace等人的核心期刊表 1927年 E Garfield的 CitationIndexes 论文 1955年 Brown对引文分析领域的拓展 1956年 M M Kessler的文献耦合 BibliographicCoupling 1963年 E Garfield的SCI印刷版 1964年 Small提出同被引技术 Co citation 1973年 SCI网络版 1997年 3 链接分析与引文分析的关系当前的研究主要集中在方法适用性研究引文分析的弊端等网络引文分析 WebCitationAnalysis 应用研究引文应用于各类质量评价专利引文分析同引耦合用于聚类分析大学评价等 3 链接分析与引文分析的关系链接分析的发展只有10余年的时间用链表示为 McKiernan提出sitation 1996年 Larson的共链分析 1996年 Almind和Ingwersen的 Webmetrics 1997年 PeterIngwersen的网络影响因子 1998年 SergeyBrin和LawrencePage提出 Pagerank算法 J Kleinberg提出 HITS算法 1998年 3 链接分析与引文分析的关系当前的研究主要集中在链接分布规律研究包含链接类型分布链接数量分布等网络影响因子研究网络链接分析工具研究沿用引文分析和方法的可靠性研究链接分析应用研究包括在网络信息检索中的应用在网络社区发现在的应用在Web拓扑结构建模中的应用在信息挖掘中的应用资源发现竞争情报获取等 3 链接分析与引文分析的关系事实上从 citation 到 sitation 从期刊影响因子到网络影响因子从文献的同引与耦合到共入链共出链都表明链接分析带上了引文分析的烙印引文分析理论虽被广泛应用但仍有不足之处被引次数期刊影响因子等引文指标都视不同的引文的贡献为等值然后简单的累加不同引文的贡献通常是不等值的对于贡献不等值的引文应区分看待链接分析中的PageRank算法则解决了这一问题我们认为可根据PageRank的原理设计新的算法用于引文分析取代被引次数期刊影响因子等引文分析指标 4 链接分类与统计理论 4 1链接分类理论4 2链接统计理论 4 1链接分类理论 A G Smith将链接分为两类实质性链接 substantivelinks 和非实质性链接 non substantivelinks 实质性链接即符合第一条假设前提的链接而非实质性链接则不符合 A G Smith通过统计分析得出所有链接中实质性链接的比例约20 链接到大学网站的链接中实质性链接的比例约27 李江以图书情报学的学术型博客为对象统计出实质性链接的比例约17 因研究对象为学术型网页所以理论上可认为网络中实质性链接的比例的平均值应在17 以下 4 1链接分类理论 HetingChu将学术机构网站的入链分为4类 taxonomy 服务 Service 主页 HomePage 研究 Research 教学 Teaching Learning 其中前两类共占73 后两类占27 并且仅有教学类的入链才可用作学术机构的评估这样看来可用作评价的入链即实质性链接不足27 4 1链接分类理论不同的实验证明可用于链接分析的有效链接仅占20 左右链接分类研究的意义在于从链接总体中剔除不符合推荐认可的链接以提高入链接网络影响因子 PageRank算法等链接指标用于网页网络重要性评价的效率 4 1链接分类理论目前学者们在理论方法和实证分析过程中得出了很多有意义的结论但是也存在如下几个问题不同的学者根据不同的标准建立了不同的分类体系这是不利于链接分析研究的当前国内外的链接分类研究主要依赖于小样本的主观分类而对于海量链接主观分类不适用所以下一步的研究方向应是针对海量链接开发自动链接分类方法即链接识别 4 1链接分类理论国外代表性的链接分类 4 1链接分类理论国内代表性链接关系分类 4 1链接分类理论国内代表性链接关系分类续 4 2链接统计理论链接统计研究常常依赖于一个未公开的假设所有的链接是等价的而实践中却并非如此链接统计的理论基础允许链接违背假设这样的链接视为异常有两种方法处理异常第一种是手工过滤这种方法适合小型数据集第二种是使用ADM AlternativeDocumentModel 选择性文档模型这种方法是完全自动化的在某些情况下使用ADM可以减少异常对其他数据的影响 4 2链接统计理论在统计链接数量之前需对链接进行分类以便统计有效链接数量其次还需要处理链接异常因为异常将导致统计数量不准确常见的链接统计异常 4 2链接统计理论手工过滤是移除异常链接的一种方法搜索引擎最先采用这种方法它们保存爬虫不应该访问的站点列表因为这些网站可能包含链接舞弊重复链接以便在搜索引擎返回结果列表中获得更高的排名或包含文本舞弊也是为了获得不公平的优势或包含不值得访问的内容如蜘蛛陷阱违法信息色情信息或者庞大站点 4 2链接统计理论 ADM是一种将网页聚合成概念文档的方法启发法 ADM根据URL特征将网页分配给文档目的是通过将类似的网页分配到同一个文档减少网络链接行为的异常以便相似网页中相关的链接仅仅被统计一次 4 2链接统计理论有四种主要的ADM 分别在网页目录域名和站点层面上聚合网页如下所述网页文件为了提取链接每一个单独的文件都视为一个文档截去URL中内部目标标志符之前的部分以避免同一个网页不同部分间的多重引用然后每一个唯一的链接URL都视为一个单独的文档 4 2链接统计理论目录同一个目录下的所有文件视为一个单独的文档将URL地址从最后一条斜线外截去域名具有相同域名的所有文件视为一个单独的文档 URL中只保留域名大学站点属于一所大学网站或其他被定义站点的所有文件视为一个单独文档 URL地址中只保留所有网页共有部分 4 2链接统计理论以南京大学信息管理学院中网页A和B指向武汉大学信息管理学院上网页X和Y的链接为例 4 2链接统计理论域名ADM连线是粗线站点ADM连线是细线所有链接都是双向的对图中链接的统计 4 2链接统计理论按照标准网页统计模型共有四个这样的链接 A到X和Y的链接 B到X和Y的链接因此从到网页ADM链接总数是4 但是域名ADM则只有一个链接因为这四个链接都是从域名到域名这四个链接有相同的来源文档和目标文档是重复链接 5 链接分析指标 5 1入链数5 2出链数5 3网络影响因子5 4网络使用因子5 5链接倾向 5 1入链数入链数源于引文分析中的被引次数链接如同引用代表一种推荐或认可被链接的次数越多则被认可的程度越高被引次数中通常包括自引同样入链数中包括自链和外部链接数 Google Altavista等搜索引擎都可用于统计入链数并且 Altavista可用于统计外部入链数商业搜索引擎比较以Google AltaVista为例商业搜索引擎 CommercialSearchEngine 是一种网络搜索引擎它通过特定的网页抓取工具获得并标引网页同时通过网页提供检索界面比较著名的商业搜索引擎有Google AltaVista等等 Google 创立于1998年其高级检索功能中提供 link site 和 inurl allinurl 等指令 AltaVista 于1995年建立是Internet上首个Web索引同时也是首个提供跨语言检索和图片音频视频检索的搜索引擎但现已被雅虎收购登陆Altavista检索界面会自动跳转到Yahoo PageRank算法 PageRank算法可以通过链接结构判别出哪个是最权威的网页排名位于最前面的那个即拥有最多入链的网页支持PageRank算法的两个基本概念入链是衡量目标网页重要性的很好的指标源于重要网页的入链比源于次要网页的入链更能说明该网页的重要性 PageRank算法 PageRank由斯坦福大学的Page与Brin在1998年提出并把这一算法用于Google的检索结果排序算法如下其中PageRank A 表示给定页面A的PageRank得分 d为阻尼因子一般设为0 85 PageRank Pi 表示一个指向Pi页的网站其本身的PageRank得分 O Pi 表示该页面所拥有的导出链接数量 PageRank算法 Google的PageRank是基于这样一个理论若B网页设置有连接A网页的链接 B为A的导入链接时说明B认为A有链接价值是一个重要的网页当B网页级别重要性比较高时则A网页可从B网页这个导入链接分得一定的级别重要性并平均分配给A网页上的导出链接实际上网页A链接到网页B时 Google就认为网页A投了网页B一票网页B所得的票数越多 GooglePR也就越高眼里网页B就越重要网络中可见的与不可见的PageRank 事实上我们并不需要自己动手计算一个网页网站的PageRank值只需下载一个Google工具条即可可从上下载并安装Google的工具栏这样就能显示所浏览网页的PageRank得分了 PageRank得分从0到10 若不能显示PageRank得分可检查所安装版本号需将老版本完全卸载重启机器后安装最新版本即可网络中可见的与不可见的PageRank 安装这个工具条之后你的浏览器上每打开一个网页工具条上都会显示这个网页的PageRank值供你参考这个网页在网络中的影响力如PageRank值较低则说明这个网页的内容并未受到其他网站网页或用户的认可其影响力较低一般而言 PageRank值为8 10的网页网站属于影响力非常大的网站如图中所示主流门户网站及搜索引擎主页的PageRank值均8 10及以上网络中可见的与不可见的PageRank Google工具条显示的Pagerank值 Google工具条显示的Pagerank值 Google工具条显示的Pagerank值网络中可见的与不可见的PageRank 另一个借助PageRank筛选网络信息的途径是直接用Google搜索某一主题的网络信息 Google会将搜索结果以10条页的方式反馈给用户命中的结果记录数可能很多超过1000个网页 Google运用PageRank以及其他一些指标对这些网页打分得分最高的通常排在最靠前的位置便于用户点击浏览这一过程中每个网站的PageRank值是不可见但这些网页的排序以PageRank为主要依据 Google通过下述几个步骤来实现网页在其搜索结果页 SERPS 中的排名 1 找到所有与搜索关键词匹配的网页 2 根据页面因素如标题关键词密度等排列等级 3 计算导入链接的锚文本中的关键词 4 通过PageRank得分调整网站排名结果网络中可见的与不可见的PageRank Google中搜索博客的结果检索日期为2013 10 28 网络中可见的与不可见的PageRank 上图显示不考虑第三条记录新闻和第六条记录博客的百度百科其他记录的排序依次是新浪博客网易博客和讯博客搜狐博客腾讯博客强国博客博客频道财经博客中国博客网这个次序也反映了这些博客门户网站在网络中影响力由大到小的排序如果用户想要在影响力最大的博客网站上建立一个新的博客则应首选新浪博客 OpenSiteExplorer Google无法获得内外部链接数据存在一定的局限性并且统计网页数的site 指令并不准确返回的收录页面经常有大幅度波动只能作为参考 OpenSiteExplorer是SEOmoz发布的链接分析工具在分析链接数据时比较直观有效 OpenSiteExplorer的数据来源于SEOmoz的另外一款产品Linkscape Linkscape相当于一款互联网web数据库通过爬虫收录各种网站网页数据与搜索引擎的收录原理基本类似在OpenSiteExplorer网站的首页可以看到Linkscape现在已经收录将近1090亿的网页URL和8830亿的链接依靠这么庞大的数据信息 OpenSiteExplorer的分析结果是有一定保证的 OpenSiteExplorer 下面我们以南京大学网站为例使用Google搜索引擎检索南京大学的链接总数通过具体实例的演示使同学们更深入了解它的使用方法 GoogleLink Link Link 链接总数命令 24 200项连接到 Link 检索时间 2013 10 28 Link 6 990 000项链接到检索时间 2013 10 28 Link 50 900项链接到检索时间 2013 10 28 由此可见使用Google的 link 指令检索链接总数时语句 link link link 返回结果并不相同因此可以推断Google的 link 指令区分关键词和 5 2出链数出链数是指一个网页的出链总数量类似于文献计量中的引文数出链数反映了网页指向能力的大小是一个纯粹的数量型概念出链数越大则该网页的指向能力越强它可用于计算网络使用因子 WUF 自动识别网络信息资源反应网络信息资源开放程度测定核心网络信息资源等 5 3网络影响因子网络影响因子 WebImpactFactor WIF 是由Ingwerson在1998年提出的利用网站获得的链接数计量网站影响力的计量指标网络影响因子的理论基础是链接与引文的相似性它是文献计量学中的期刊影响因子 JournalImpactFactor JIF 在网络上的应用 Ingwerson将网络影响因子定义为指定时间内指向某一国家或网站的外部入链 externalinlinks 和内部入链 internalinlinks 网页数的逻辑和与该国家或网站内部的网页数的比值 5 3网络影响因子最初 Ingwerson提出的网络影响因子算法是 WIF 自网络影响因子被提出后因其分母难以准确统计又因语言地域差异导致国家或网站网页数的客观差异有些学者提出了网络影响因子的修正式如2002年Thelwall将WIF算法修正为 WIF S指网络空间 U指大学网站 5 3网络影响因子 2006年 Noruzi和Alireza将WIF算法归纳为 WIF WIF测度了网站吸引链接的能力是计量网站影响力的重要指标可应用于评价网站和网页资源网站建设和管理评价电子核心期刊等方面 5 4网络使用因子网络使用因子 WebUseFactor WUF 反映某一国家或网站的网页指向其他网页能力的分布情况可以用来测度某一国家或网站的链接分布特征某一国家或网站的出链数除以网页数科研人员数或科研生产率便得到了网页平均出链数科研人员平均出链数或科研生产率的平均出链数即WUF 但如果一个国家的科研生产率数据很难获得并且有理由相信该国的大学在研究能力上相似或者因为商业搜索引擎和专业网络爬行工具覆盖范围的问题导致难以计算一个网站的网页数则科研人员数就成为WUF的分母但若科研人员数无法获得仍然要用网页数做分母 5 4网络使用因子

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

网络链接分析ppt课件.ppt

文档简介

温馨提示

最新文档

评论

网络链接分析ppt课件.ppt

文档简介

温馨提示

最新文档

评论

相关文档