网络链接分析ppt课件.ppt_第1页
网络链接分析ppt课件.ppt_第2页
网络链接分析ppt课件.ppt_第3页
网络链接分析ppt课件.ppt_第4页
网络链接分析ppt课件.ppt_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第6章 网络链接分析 网络链接分析 LinkAnalysis 也称链接分析 或称链接分析法 超链分析 可广义理解为以Web中页面间的超链接为研究对象的分析活动 从网络信息计量学的角度 可将其定义如下 链接分析是以链接解析软件 统计分析软件等为工具 用统计学 拓扑学 情报学的方法对链接数量 类型 链接集中与离散规律 共链现象等进行分析 以用于Web中的信息挖掘及质量评价的一种方法 链接分析先于网络信息计量学诞生 1996年 Larson依照引文分析中共被引分析 Co citationAnalysis 做了共链分析 Co linkAnalysis 但在网络信息计量学诞生后 链接分析便被纳入了其研究范围 至今 链接分析已成为网络信息计量学备受关注的研究方向 链接分析理论包括以下几个方面 链接理论 链接分析的研究视角 链接分析与引文分析之间的关系 链接分类与统计理论 链接分析指标 1 网络链接概述 1 1链接感性认识1 2链接与超文本1 3链接术语 1 1链接感性认识 Wood等人将Web的结构绘制成可视化图 白色的大球表示网站主页 小球代表网站的二级及二级以下页面 绿线代表链接 将不同的网站 网页连结在一起形成网络 1 2链接与超文本 1965年 TedNelson提出术语超文本 Hypertext 1978年 在 DreamMachines 中他提到了 链接 并指出 链接 将带来文件的连通性 1981年 使用术语 超文本 描述了这一想法 创建一个全球化的大文档 文档的各个部分分布在不同的服务器中 通过激活其中的 链接 就可以跳转到所引用的论文 1 2链接与超文本 超文本是用超链接的方法 将各种不同空间的文字信息组织在一起的网状文本 超文本更是一种用户界面范式 用以显示文本及与文本之间相关的内容 当前 超文本普遍以电子文档方式存在 其中的文字包含有可以链结到其他位置或者文档的链接 允许从当前阅读位置直接切换到超文本链接所指向的位置 1 3链接术语 链接 超链接 Link hyperlink 两者都指网络链接 在没必要区分入链与出链时 通常会用到这两个词 偶尔也会用到这些词指代入链和出链 入链 Inlink 指向某页面的链接 一般而言 这个链接应该来自某个特定集合以外的页面 入链 与 反向链接 同义 接受入链 与 被链接 同义 出链 Outlink 从某页面指出的链接 一般而言 这个链接应该指向某个特定集合以外的页面 1 3链接术语 自链 Selflink 从某页面指向该页面自身的链接 可能是同一页面的不同部分 一般而言 这个链接应该指向某个特定集合内部的页面 互链 Interlink reciprocallink 通常指两个不同网站之间的链接 也指站间链接 这个词通常以 ing的形式出现 例如 网站互链 interlinking 表示网站之间的链接 1 3链接术语 共入链 Co linked 如果两个页面都含有来自第三个页面的入链 则这两个页面共入链 共出链 Co linking 如果两个页面都含有指向第三个页面的出链 则这两个页面共出链 有时也可描述为耦合或文献计量中的耦合 共链 Co link 共入链与共出链统称为共链 1 3链接术语 链接术语的图解 B有一个来自A的入链 A与B之间 A是链接来源 B是链接目标 B与E共出链 C与D共入链 E与F互链 B有一个指向C的出链 B是链接来源 C是链接目标 B有一个自链 2 网络链接的分析视角 M Thelwall根据不同学科的侧重点将链接分析研究划分为 情报学视角的链接分析 Informationsciencelinkanalysisapproach ISLAA 计算机科学视角的链接分析 Computersciencelinkanalysisapproach CSLAA 社会科学视角的链接分析等 Socialsciencelinkanalysisapproach SSLAA 除此此外 还有统计物理学家 数学家等从其他视角研究链接分析 2 网络链接的分析视角 不同的研究视角之间虽没有绝对的界线 但研究目标不同 理论基础也不同 CSLAA主要研究网络动力学 WebDynamics 链接与内容的关系 链接和信息检索 网络挖掘 WebMining 网络建模 WebModeling 等 SSLAA主要研究网络空间分析 WebSphereAnalysis 虚拟民族志 VirtualEthnography 超链接网络分析 HyperlinkNetworkAnalysis 等ISLAA则以文献计量学中的引文分析为理论基础 核心观点为 链接代表引用 2 网络链接的分析视角 按照M Thelwall的定义 链接分析就是采用并改进现有的信息技术与方法 借助文档之间的相互关联 对文档自身的特征进行深入分析 根据链接分析的定义和情报学相关理论 我们将 情报学视角的链接分析 定义为 以引文分析为基础 采用并改进现有的信息技术与方法 借助文档之间的相互关联 对文档自身的特征进行深入分析 2 网络链接的分析视角 从概念上看 链接分析以文档为研究对象 这里所说的文档包括四个层面 页面 目录 域名 站点 从本质上看 情报学视角的链接分析是一种新兴的研究方法 在情报学 计算机科学 社会科学等领域有广泛应用 2 网络链接的分析视角 情报学视角的链接分析不同于网络中流传的 链接分析 前者内容包括链接数量分析 链接类型分析 链接的集中与离散规律分析 共链分析等 主要用于提高网络信息检索效率 评价网络信息质量 发现网络社区等 网络中流传的 链接分析 主要指 链接流行度分析 LinkPopularityAnalysis 其内容包括链接数量和质量的评估及分析 主要用于提高网站 网页在Google检索结果中的排名等 下面提到的链接分析均指情报学视角的链接分析 2 网络链接的分析视角 用共词分析的方法 借助Pajek可视化工具 绘制了链接分析的研究主题图 图中节点代表主题词 连线粗细代表主题词之间的共词强度 与 LinkAnalysis 这一节点的连线越粗 代表与该主题关联越紧密 2 网络链接的分析视角 链接分析领域关注的主题包括 WorldWideWeb 万维网 InformationRetrieval 信息检索 Ranking 评价 排名 SearchEngine 搜索引擎 WebMining 网络挖掘 PageRank算法 3 链接分析与引文分析的关系 链接分析以引文分析理论为基础 但在动态 多变的网络环境中形成了引文分析理论所不具有的特性 二者各自的特征及相互关联便成了链接分析研究中的一个热点 引文分析主要对科学期刊 论文 著者等各种分析对象的引证与被引证现象进行分析 以揭示其数量特征和内在规律 3 链接分析与引文分析的关系 引文分析工具包括 美国 科学引文索引 SCI 美国 基本科学指标 ESI 美国 期刊引证报告 JCR 中国科学引文数据库 CSCD 中国科技论文与引文分析数据库 中文社会科学引文索引 CSSCI 中国人文社会科学引文数据库 中国引文数据库 3 链接分析与引文分析的关系 常用的引文分析指标包括 引文数量与分布规律测度指标 引文数 平均引用数 自引数与自引率 被引用数与引用数的比值 期刊质量测度指标 被引用数 影响因子 即年指标 论文质量与著者学术水平测度指标 被引用数 文献老化规律测度指标 衰减系数 3 链接分析与引文分析的关系 引文分析大半个世纪以来的发展轨迹可以用如下的 链 来表示 Grace等人的核心期刊表 1927年 E Garfield的 CitationIndexes 论文 1955年 Brown对引文分析领域的拓展 1956年 M M Kessler的 文献耦合 BibliographicCoupling 1963年 E Garfield的SCI印刷版 1964年 Small提出 同被引技术 Co citation 1973年 SCI网络版 1997年 3 链接分析与引文分析的关系 当前的研究主要集中在 方法适用性研究 引文分析的弊端等 网络引文分析 WebCitationAnalysis 应用研究 引文应用于各类质量评价 专利引文分析 同引 耦合用于聚类分析 大学评价等 3 链接分析与引文分析的关系 链接分析的发展只有10余年的时间 用 链 表示为 McKiernan提出sitation 1996年 Larson的共链分析 1996年 Almind和Ingwersen的 Webmetrics 1997年 PeterIngwersen的 网络影响因子 1998年 SergeyBrin和LawrencePage提出 Pagerank算法 J Kleinberg提出 HITS算法 1998年 3 链接分析与引文分析的关系 当前的研究主要集中在 链接分布规律研究 包含链接类型分布 链接数量分布等 网络影响因子研究 网络链接分析工具研究 沿用引文分析和方法的可靠性研究 链接分析应用研究 包括在网络信息检索中的应用 在网络社区发现在的应用 在Web拓扑结构建模中的应用 在信息挖掘中的应用 资源发现 竞争情报获取等 3 链接分析与引文分析的关系 事实上 从 citation 到 sitation 从 期刊影响因子 到 网络影响因子 从 文献的同引与耦合 到 共入链 共出链 都表明链接分析带上了引文分析的烙印 引文分析理论虽被广泛应用 但仍有不足之处 被引次数 期刊影响因子等引文指标都视不同的引文的贡献为等值 然后简单的累加 不同引文的贡献通常是不等值的 对于贡献不等值的引文 应区分看待 链接分析中的PageRank算法则解决了这一问题 我们认为可根据PageRank的原理设计新的算法用于引文分析 取代被引次数 期刊影响因子等引文分析指标 4 链接分类与统计理论 4 1链接分类理论4 2链接统计理论 4 1链接分类理论 A G Smith将链接分为两类 实质性链接 substantivelinks 和非实质性链接 non substantivelinks 实质性链接即符合第一条假设前提的链接 而非实质性链接则不符合 A G Smith通过统计分析得出 所有链接中 实质性链接的比例约20 链接到大学网站的链接中 实质性链接的比例约27 李江以图书情报学的学术型博客为对象 统计出实质性链接的比例约17 因研究对象为学术型网页 所以理论上可认为网络中实质性链接的比例的平均值应在17 以下 4 1链接分类理论 HetingChu将学术机构网站的入链分为4类 taxonomy 服务 Service 主页 HomePage 研究 Research 教学 Teaching Learning 其中前两类共占73 后两类占27 并且仅有教学类的入链才可用作学术机构的评估 这样看来 可用作评价的入链 即实质性链接 不足27 4 1链接分类理论 不同的实验证明 可用于链接分析的有效链接仅占20 左右 链接分类研究的意义在于 从链接总体中剔除不符合 推荐 认可 的链接 以提高入链接 网络影响因子 PageRank算法等链接指标用于网页 网络重要性评价的效率 4 1链接分类理论 目前学者们在理论方法和实证分析过程中得出了很多有意义的结论 但是也存在如下几个问题 不同的学者根据不同的标准建立了不同的分类体系 这是不利于链接分析研究的 当前国内外的链接分类研究主要依赖于小样本的主观分类 而对于海量链接 主观分类不适用 所以 下一步的研究方向应是针对海量链接开发自动链接分类方法 即 链接识别 4 1链接分类理论 国外代表性的链接分类 4 1链接分类理论 国内代表性链接关系分类 4 1链接分类理论 国内代表性链接关系分类 续 4 2链接统计理论 链接统计研究常常依赖于一个未公开的假设 所有的链接是等价的 而实践中却并非如此 链接统计的理论基础允许链接违背假设 这样的链接视为异常 有两种方法处理异常 第一种是手工过滤 这种方法适合小型数据集 第二种是使用ADM AlternativeDocumentModel 选择性文档模型 这种方法是完全自动化的 在某些情况下 使用ADM可以减少异常对其他数据的影响 4 2链接统计理论 在统计链接数量之前需对链接进行分类 以便统计有效链接数量 其次还需要处理链接异常 因为异常将导致统计数量不准确 常见的链接统计异常 4 2链接统计理论 手工过滤是移除异常链接的一种方法 搜索引擎最先采用这种方法 它们保存爬虫不应该访问的站点列表 因为这些网站可能包含链接舞弊 重复链接以便在搜索引擎返回结果列表中获得更高的排名 或包含文本舞弊 也是为了获得 不公平 的优势 或包含不值得访问的内容 如蜘蛛陷阱 违法信息 色情信息或者庞大站点 4 2链接统计理论 ADM是一种将网页聚合成概念文档的方法 启发法 ADM根据URL特征 将网页分配给文档 目的是通过将类似的网页分配到同一个文档 减少网络链接行为的异常 以便相似网页中相关的链接仅仅被统计一次 4 2链接统计理论 有四种主要的ADM 分别在 网页 目录 域名 和 站点 层面上聚合网页 如下所述 网页 文件 为了提取链接 每一个单独的文件都视为一个文档 截去URL中内部目标标志符 之前的部分 以避免同一个网页不同部分间的多重引用 然后每一个唯一的链接URL都视为一个单独的文档 4 2链接统计理论 目录 同一个目录下的所有文件视为一个单独的文档 将URL地址从最后一条斜线外截去 域名 具有相同域名的所有文件视为一个单独的文档 URL中只保留域名 大学 站点 属于一所大学网站 或其他被定义站点的所有文件视为一个单独文档 URL地址中只保留所有网页共有部分 4 2链接统计理论 以 南京大学信息管理学院 中网页A和B指向 武汉大学信息管理学院 上网页X和Y的链接为例 4 2链接统计理论 域名ADM连线是粗线 站点ADM连线是细线 所有链接都是双向的 对图中链接的统计 4 2链接统计理论 按照标准网页统计模型 共有四个这样的链接 A到X和Y的链接 B到X和Y的链接 因此 从到 网页ADM链接总数是4 但是域名ADM则只有一个链接 因为这四个链接都是从域名到域名 这四个链接有相同的来源文档和目标文档 是重复链接 5 链接分析指标 5 1入链数5 2出链数5 3网络影响因子5 4网络使用因子5 5链接倾向 5 1入链数 入链数源于引文分析中的被引次数 链接如同引用 代表一种推荐或认可 被链接的次数越多 则被认可的程度越高 被引次数中通常包括自引 同样 入链数中包括自链和外部链接数 Google Altavista等搜索引擎都可用于统计入链数 并且 Altavista可用于统计外部入链数 商业搜索引擎比较 以Google AltaVista为例 商业搜索引擎 CommercialSearchEngine 是一种网络搜索引擎 它通过特定的网页抓取工具获得并标引网页 同时通过网页提供检索界面 比较著名的商业搜索引擎有Google AltaVista等等 Google 创立于1998年 其高级检索功能中提供 link site 和 inurl allinurl 等指令 AltaVista 于1995年建立 是Internet上首个Web索引 同时也是首个提供跨语言检索和图片 音频 视频检索的搜索引擎 但现已被雅虎收购 登陆Altavista检索界面会自动跳转到Yahoo PageRank算法 PageRank算法可以通过链接结构 判别出哪个是最权威的网页 排名位于最前面的那个 即拥有最多入链的网页 支持PageRank算法的两个基本概念 入链是衡量目标网页重要性的很好的指标源于重要网页的入链比源于次要网页的入链更能说明该网页的重要性 PageRank算法 PageRank由斯坦福大学的Page与Brin在1998年提出 并把这一算法用于Google的检索结果排序 算法如下 其中PageRank A 表示给定页面A的PageRank得分 d为阻尼因子 一般设为0 85 PageRank Pi 表示一个指向Pi页的网站其本身的PageRank得分 O Pi 表示该页面所拥有的导出链接数量 PageRank算法 Google的PageRank是基于这样一个理论 若B网页设置有连接A网页的链接 B为A的导入链接时 说明B认为A有链接价值 是一个 重要 的网页 当B网页级别 重要性 比较高时 则A网页可从B网页这个导入链接分得一定的级别 重要性 并平均分配给A网页上的导出链接 实际上网页A链接到网页B时 Google就认为网页A投了网页B一票 网页B所得的票数越多 GooglePR也就越高眼里 网页B就越重要 网络中可见的与不可见的PageRank 事实上 我们并不需要自己动手计算一个网页 网站的PageRank值 只需下载一个Google工具条即可 可从上下载并安装Google的工具栏 这样就能显示所浏览网页的PageRank得分了 PageRank得分从0到10 若不能显示PageRank得分 可检查所安装版本号 需将老版本完全卸载 重启机器后安装最新版本即可 网络中可见的与不可见的PageRank 安装这个工具条之后 你的浏览器上每打开一个网页 工具条上都会显示这个网页的PageRank值 供你参考这个网页在网络中的影响力 如PageRank值较低 则说明这个网页的内容并未受到其他网站 网页或用户的认可 其影响力较低 一般而言 PageRank值为8 10的网页 网站属于影响力非常大的网站 如图中所示 主流门户网站及搜索引擎主页的PageRank值均8 10及以上 网络中可见的与不可见的PageRank Google工具条显示的Pagerank值 Google工具条显示的Pagerank值 Google工具条显示的Pagerank值 网络中可见的与不可见的PageRank 另一个借助PageRank筛选网络信息的途径是直接用Google搜索某一主题的网络信息 Google会将搜索结果以10条 页的方式反馈给用户 命中的结果记录数可能很多 超过1000个网页 Google运用PageRank以及其他一些指标对这些网页打分 得分最高的通常排在最靠前的位置 便于用户点击浏览 这一过程中 每个网站的PageRank值是不可见 但这些网页的排序以PageRank为主要依据 Google通过下述几个步骤来实现网页在其搜索结果页 SERPS 中的排名 1 找到所有与搜索关键词匹配的网页 2 根据页面因素如标题 关键词密度等排列等级 3 计算导入链接的锚文本中的关键词 4 通过PageRank得分调整网站排名结果 网络中可见的与不可见的PageRank Google中搜索 博客 的结果 检索日期为2013 10 28 网络中可见的与不可见的PageRank 上图显示 不考虑第三条记录 新闻 和第六条记录 博客的百度百科 其他记录的排序依次是 新浪博客 网易博客 和讯博客 搜狐博客 腾讯博客 强国博客 博客频道 财经博客 中国博客网 这个次序也反映了这些博客门户网站在网络中影响力由大到小的排序 如果用户想要在影响力最大的博客网站上建立一个新的博客 则应首选新浪博客 OpenSiteExplorer Google无法获得内 外部链接数据 存在一定的局限性 并且统计网页数的site 指令并不准确 返回的收录页面经常有大幅度波动 只能作为参考 OpenSiteExplorer是SEOmoz发布的链接分析工具 在分析链接数据时比较直观 有效 OpenSiteExplorer的数据来源于SEOmoz的另外一款产品Linkscape Linkscape相当于一款互联网web数据库 通过爬虫收录各种网站 网页数据 与搜索引擎的收录原理基本类似 在OpenSiteExplorer网站的首页 可以看到Linkscape现在已经收录将近1090亿的网页URL和8830亿的链接 依靠这么庞大的数据信息 OpenSiteExplorer的分析结果是有一定保证的 OpenSiteExplorer 下面 我们以南京大学网站为例 使用Google搜索引擎检索南京大学的链接总数 通过具体实例的演示 使同学们更深入了解它的使用方法 GoogleLink Link Link 链接总数命令 24 200项连接到 Link 检索时间 2013 10 28 Link 6 990 000项链接到 检索时间 2013 10 28 Link 50 900项链接到 检索时间 2013 10 28 由此可见 使用Google的 link 指令检索链接总数时 语句 link link link 返回结果并不相同 因此 可以推断Google的 link 指令区分关键词 和 5 2出链数 出链数是指一个网页的出链总数量 类似于文献计量中的 引文数 出链数反映了网页指向能力的大小 是一个纯粹的数量型概念 出链数越大 则该网页的指向能力越强 它可用于计算网络使用因子 WUF 自动识别网络信息资源 反应网络信息资源开放程度 测定核心网络信息资源等 5 3网络影响因子 网络影响因子 WebImpactFactor WIF 是由Ingwerson在1998年提出的 利用网站获得的链接数计量网站影响力的计量指标 网络影响因子的理论基础是链接与引文的相似性 它是文献计量学中的期刊影响因子 JournalImpactFactor JIF 在网络上的应用 Ingwerson将网络影响因子定义为 指定时间内 指向某一国家或网站的外部入链 externalinlinks 和内部入链 internalinlinks 网页数的逻辑和与该国家或网站内部的网页数的比值 5 3网络影响因子 最初 Ingwerson提出的网络影响因子算法是 WIF 自网络影响因子被提出后 因其分母难以准确统计 又因语言 地域差异导致国家或网站网页数的客观差异 有些学者提出了网络影响因子的修正式 如2002年Thelwall将WIF算法修正为 WIF S指网络空间 U指大学网站 5 3网络影响因子 2006年 Noruzi和Alireza将WIF算法归纳为 WIF WIF测度了网站吸引链接的能力 是计量网站影响力的重要指标 可应用于评价网站和网页资源 网站建设和管理 评价电子核心期刊等方面 5 4网络使用因子 网络使用因子 WebUseFactor WUF 反映某一国家或网站的网页指向其他网页能力的分布情况 可以用来测度某一国家或网站的链接分布特征 某一国家或网站的出链数除以网页数 科研人员数或科研生产率便得到了网页平均出链数 科研人员平均出链数或科研生产率的平均出链数 即WUF 但如果一个国家的科研生产率数据很难获得 并且有理由相信该国的大学在研究能力上相似 或者因为商业搜索引擎和专业网络爬行工具覆盖范围的问题导致难以计算一个网站的网页数 则科研人员数就成为WUF的分母 但若科研人员数无法获得 仍然要用网页数做分母 5 4网络使用因子

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论