




已阅读5页,还剩22页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第三届第三届 BiZ-WiZ 杯华中地区大学生数学建模邀请赛杯华中地区大学生数学建模邀请赛 承承 诺诺 书书 我们仔细阅读了第三届 BiZ-WiZ 杯华中地区大学生数学建模邀请赛的竞赛细则。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等) 与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括 网上查到的资料) ,必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为, 我们将受到严肃处理。 我们的参赛报名号为: 14216018 参赛队员 (签名) : 队员 1: 杨 铭 队员 2: 苏凯升 队员 3: 李赛北 武汉工业与应用数学学会 第三届 BiZ-WiZ 杯华中地区大学生数学建模邀请赛组委会 第三届第三届 BiZ-WiZ 杯华中地区大学生数学建模邀请赛杯华中地区大学生数学建模邀请赛 编编 号号 专专 用用 页页 选择的题号: A 参赛的编号: 14216018 (以下内容参赛队伍不需要填写) 竞赛评阅编号: - 1 - 第三届第三届 BiZ-WiZ 杯华中地区大学生数学建模邀请赛杯华中地区大学生数学建模邀请赛 题目: 互联网论坛用户识别 【摘 要】 本文在数据挖掘技术的基础上,对论坛用户识别的方法进行了研究,并设计出一套 用户识别的模型体系,该体系能够对论坛用户进行有效识别。这个模型体系主要涉及到 如下六个要素:数据挖掘、模型建立、数据处理、结果输出、参考信息、用户识别。 数据 挖掘 数据 处理 结果 输出 参考 信息 用户 识别 模型 建立 用户用户识别流程识别流程图图 数据挖掘数据挖掘: 利用MetaSeeker软件包中的两个重要工具MetaStudio和DataScraper, 依托 Mozilla Firefox 平台, 在论坛中提取了海量的用户信息和主题信息, 并生成了 XML 数据体,用于模型分析求解。 模型建立模型建立: 充分考虑了特征用户的专业领域特性, 个人完整特性以及阶段特征特性。 针对论坛中的原始数据,建立了比较灵活的数学模型,读者可以针对不同的研究对象, 增加、减少、修改模型中的变量。本文既给出了方法论模型,又利用该方法论建立了具 体计算模型,还给出了实例说明。 数据数据处理处理:利用办公软件 Microsoft Office Excel 对提取到的海量信息进行分析 处理,综合利用 XML 源映射、XML 数据导入、数据透视、统计分析、数值运算等进行数据 处理,得到计算结果。 结果输出:结果输出:采用排行榜的输出形式。对模型求解结果进行以特征指数为主关键字, 以参考信息为次关键字的排序, 生成特征指数排行榜。 它提供所有用户之间的横向比较, 为决策者提供极大的方便。 参考参考信息:信息:在输出结果中,不仅列出了特征指数,还列出了一些参考信息,作为决 策者的决策参考。决策者可以通过特征指数和参考信息,结合实际需求,对排行榜中的 结果进行进一步筛选,达到指导决策的目的。 用户用户识识别:别:在言论领袖、话题用户、活跃用户及关系圈的识别上,采用特征指数、 参考信息和决策者决策进行综合识别的方式。 这种方式不以单一的求解结果作为特征识 别的唯一参考,它还参照比较精确的商业信息,同时让决策者也能够参与到用户识别的 过程中,既提高了特征识别的灵活性,又提高了特征识别的准确性。 关键词:数据挖掘 特征指数 用户识别 特征识别 排行榜 参考信息 MetaSeeker MetaStudio DataScraper - 2 - 一、问题重述一、问题重述 中国互联网发展经历了 10 年的快速增长期,已经形成较为成熟的应用。现在的互 联网正从信息单向推送模式向互动模式转型,互联网论坛已经成为互联网企业与用户、 用户与用户之间重要的互动平台。 在这样的互动氛围中衍生出了很多商业机会和运营难题。比如,企业如何通过论坛 发掘出有商业价值的用户?互联网公司如何通过激励用户来维持论坛热度?回答这些 问题和解决运营难题的首要条件是,企业能够对论坛内的用户进行有效识别。 这些识别需要达到如下四个结果: 1. 言论领袖:发现论坛言论领袖,即最具影响力的论坛人物。 2. 话题用户:精确定位关注某一特定话题的用户。 3. 活跃用户:识别论坛活跃用户。 4. 关系圈:发掘论坛人际关系圈。 研究建议: 1. 言论领袖的发现可以从其所发帖子的跟帖数量、精华贴数、置顶时间、发帖总 数等变量切入,并进行综合评价。 2. 话题用户的定位可从其主要跟帖主题、谈论内容判断。不需要完全准确,大概 识别出范围即可。例如, 3. 活跃用户可从登录频率、参与话题数量等方面综合评价。 论坛中对游戏话题非常关注的用户。 4. 关系圈可从帖子关联关系等方面综合评价。 5. 建模所用数据以你能在这些论坛上注册后能看到的所有内容为准, 不限于文字、 数字、符号。例如,发帖时间、主帖跟帖数量(主帖楼高) 、用户登录频率、用 户最后登录时间、发帖积分、帖子关键字。因为,你能看到的内容就是爬虫机 器人可获取的内容,在技术上以可完全实现,并进入到结构化数据库进行数据 挖掘。 研究对象包括但不限于如下论坛: 1. 2. 3. 4. 最后成果请提炼形成通用模型,并针对言论领袖、话题用户、活跃用户、关系圈四 个要求提出实例说明。例如,在 论坛上关注游戏话题的话题 用户的识别,在 论坛上的活跃用户等。考虑到各个论坛结构和 内容上的差异,通用模型使用的变量应尽量考虑各论坛间的通用性,定量和定性结合为 佳,通用模型配合文字或使用方法论说明为佳。 本题要说明识别所用数据获取途径或方法, 包括数据挖掘技术以及程序代码或者数 据采集软件以及采集过程(最好截图显示你的采集过程)。 - 3 - 二、问题分析二、问题分析 (一)特征指数的引入 无论是言论领袖、话题用户、活跃用户还是关系圈的识别都是针对用户的,是针对 用户某些特征的识别。不同的是言论领袖、话题用户、活跃用户是针对单个用户,而关 系圈是针对多个用户。 为此,提出能够描述用户具有某项特征的强弱程度的数学表示,即特征指数。有了 特征指数的概念,就能够把用户识别建立在特征指数的基础上。 用户言论领袖指数:用户的影响力强度; 用户话题用户指数:用户对某一特定话题的关注程度; 用户活跃用户指数:用户的活跃程度; 用户关于某关系圈的关系圈指数:用户属于某关系圈的概率。 (二)信息描述方式 在不同的论坛中,虽然数据的结构各不相同,其表现形式也多种多样,但它们都有 一些共性。为描述这些结构,用统一的概念来描述。在不同的论坛中,它们的表现形式 与计算方式都不相同,如后面将要提到的用户整体特征。 (三)数据结构表示 尽管我们能够用同一个概念描述一些表达形式上不同, 在本质上相同的实体或结构。 但在进行数据挖掘的时候,需要对数据的结构进行差异化设计,以适应各个论坛的实体 或结构特征。这样才能进行有效的数据挖掘。否则,数据挖掘将无法进行。 (四)输出形式的设计 为充分考虑到论坛的流动性与动态性,模型的初步结果用排行榜来表示,它会随着 论坛的发展而变化。 三、模型假设三、模型假设 (一)基本情况假设 1、论坛的结构稳定假设 同一论坛的组成要素基本相同,简而言之,就是帖子的结构大体上相同,以便利用 爬虫机器人进行数据挖掘。 2、论坛的运行稳定假设 论坛的运行情况基本稳定、正常、不出现异常,为爬虫机器人进行数据挖掘提供一 个良好的外部环境。 (二)识别范围假设 1、专业领域限制假设 论坛是一个互动的平台,论坛的用户每天都在变化。另外,论坛一般有多个版块, 关注方向也不尽相同, 因此一个论坛聚集了方方面面的用户。 对于这样一个动态流动的、 - 4 - 专业分散的用户群,从整个论坛的角度来考虑言论领袖、话题用户、活跃用户、关系圈 是不明智的,也是不现实的,同样也是低效的,没有意义的。 因此,把分析问题的范围缩小到某个版块或某个话题。这样不仅能够提高分析的效 率,而且能够为决策者提供比较精确的商业信息,具有较强的针对性。 2、阶段特性限制假设 考虑到人的成长是完整的,但他在论坛中表现出的特征呈现出受年龄、个人阅历、 关注领域所影响而呈现出的特征具有阶段性, 因此对特征用户的识别应该聚集在某个阶 段内。 领域1 言论领袖一 言论领袖二 言论领袖三 言论领袖四 时 代 列 车 领域2 领域4 领域3 2007200820092010 (三)数据结构假设 建立模型需要考虑的因素有发帖时间、主帖和跟帖数量(主帖楼高)、用户登录频 率、用户最后登录时间、发帖积分、帖子关键字,这些信息主要集中在两个重要的数据 结构中:主题和用户信息。另外,通过这两个结构能统计出许多有用的信息。 因此, 主要针对这两个数据结构进行数据挖掘。 在建立具体模型时, 除了统计信息, 只考虑这两个结构含有的信息。 1、主题的结构假设 论坛中,主题一般呈现出以下结构特征: 标题作者发表时间回复查看类型 2、用户的结构假设 用户结构:由用户基本属性和用户扩展属性组成。 - 5 - 用户基本属性:包括用户 ID,用户名称,用户等级。用户 ID 和用户名称在各个论 坛中唯一标识一个用户,用户等级由论坛创建者进行划分,不同的论坛有不同的表达表 达式,但它们的本质是一样的。 用户扩展属性:由论坛创建者根据论坛的性质和目的、以及现实需要所设计的额外 的用户属性,如金币、帖子、精华、威望、发帖积分、积分、活跃积分、注册时间、在 线时间等。 下面给出用户结构的一般模型,以及本题中提到的四个论坛的用户基本结构: 用户信息 用户ID 用户名 用户级别 扩展属性 一般模型 用户 用户ID 用户名 用户级别 金币 PChome-IT专业社区 用户 用户ID 用户名 用户级别 帖子 精华 威望 发帖积分 注册时间 积分 生活消费门 用户 用户ID 用户名 用户级别 帖子 精华 威望 活跃积分 在线时间 DIY烧友会 用户 用户ID 用户名 用户级别 威望 积分 帖子 精华 注册时间 车系 汽车之家 - 6 - 四、符号说明四、符号说明 valueUser. 用户整体特征 chiefUser. 用户言论领袖指数 topicUser. 用户话题用户指数 activeUser. 用户活跃用户指数 Circleship 关系圈指数 chiefTheme. 主题帖的领袖指数 五、模型建立与求解五、模型建立与求解 (一)数据挖掘方式 对用户特征的提取,需要大量的用户信息数据进行统计。 利用同一论坛的组成要素基本相同,每个帖子的结构大体上相同,可用爬虫机器人 进行数据挖掘,以提取出大量的数据。 本文中所有的数据是通过GooSeeker公司的MetaSeeker软件进行采集, 具体来说, 利用 MetaStudio 和 DataScraper 工具,依托 Mozilla Firefox 平台,在 WEB 网页中提 取出数据,并生成 XML 数据体。 1、MetaStudio 网页信息抓取规则定义工具 - 7 - 2、DataScraper 数据提取工具 由于数据挖掘方法较为复杂而且过程较为繁琐,提取数据的过程较为漫长,详细操 作方法及步骤见附录。 (二)数学模型建立 挖掘到大量的数据之后,我们需要对数据进行归纳分类,提取有效信息,这就要求 我们建立数学模型。 1、方法论 (1)用户整体特征的概念 用户整体特征valueUser.在一定程度上描述了用户在论坛上的一个发展过程,用户 在论坛上进行交流或资源共享的过程不一定与我们要研究的时期范围相吻合。 但考虑到 用户是一个整体,整体特含有某方面的一些特性,因此需要把用户的整体特征用为用户 特征识别的参照之一。 在不同的模型中, 用户整体特征valueUser.的表现形式不同。 如在言论领袖模型中, 用户整体特征可以是用户的发帖积分;而在活跃用户模型中,用户整体特征可能是活跃 积分,又或者是活跃积分和最后登录时间的一个函数值。 用户的整体特征可以转化成用户特征指数。 另外, 依据不同的特征模型有不同的。 (2)对单个用户特征识别的基本方法 间接数据挖掘方法 在本文的模型中,主要采用间接数据挖掘方法,即在某一范围某一阶段,对用户的 情况进行统计分析,提取出用户特征,并将分析结果作为用户特征指数的重要参考依据 之一。 - 8 - 直接数据挖掘方法 直接数据挖掘方法用来挖掘用户的整体特征信息。 将挖掘到的用户信息直接参与到 用户特征指数的运算当中。 (3)对关系圈识别的基本方法 一般情况下,在特定的领域中,是以某人为中心的一个人际关系圈。首先从一对一 的关系开始分析,进行一对一的关系圈识别,然后推广到一对多的关系圈识别。 一对一的关系圈模型 考虑的两个人A、B的情况,建立模型,判断B是否属于以A为中心的关系圈。 一对多的关系圈模型 在一对一关系的基本上,对多个一对一关系进行计算,总结出一对多的关系。最终 给出围绕某人为中心的关系圈。 2、特征指数计算模型 (1)主题帖的领袖指数计算 若某个主题帖有如下参数:回复:mTheme.,查看:nTheme.,置顶时间:tTheme., 精华:bTheme.(取 0 或 1),由该帖子的领袖指数为: bThemetThemenThememThemechiefTheme. 4321 += ( 1 、 2 、 3 、 4 为常数) (2)用户言论领袖指数计算 用户的言论领袖指数:由主题帖、用户整体特征及常数 1 决定。 若用户在某个版块或话题发表了n个主题帖,这个n主题帖的领袖指数分别为 chiefTheme . 1 、chiefTheme . 2 、chiefThemen.,则用户言论领袖指数为: valueUserchiefThemechiefThemechiefThemechiefUser n . 121 += 1 1 为用户整体特征与用户言论领袖指数的量度; 2scoreUservalueUser.=(scoreUser.为用户的主题帖积分)。 (3)用户话题用户指数计算 用户的话题用户指数:由其所发表的基本帖的数目、用户整体特征及常数 2 决定。 若用户在某个话题发表基本帖n个,则用户的话题用户指数: valueUserntopicUser. 2 += - 9 - 1 2 为用户整体特征与用户话题用户指数的量度; 2 cardUservalueUser.=(cardUser.为用户帖子数目)。 (4)用户活跃用户指数计算 用户的活跃用户指数: 由用户参与的主题 (或话题) 和用户整体特征及常数 3 决定。 若用户参与某个话题(或版块)中的n个主题(或话题),则在该话题(或版块) 中,用户的活跃用户指数: valueUsernactiveUser. 3 += 1 3 为用户体验与用户活跃用户指数的量度; 2 eactivescorUservalueUser.=(eactivescorUser.为用户活跃积分)。 (5)用户关系圈指数计算 用户User关于某言论领袖的关系圈指数: 由该用户对该言论领袖主题帖的跟帖确定。 某言论领袖发表了n个主题帖,用户User对其中的p个主题帖进行了跟帖。那么, 该用户关于该言论领袖的关系圈指数: npCircleship/= 这里也可以考虑利用用户整体特征进行参照。在有些论坛中显示了好友关系,在进 行数据挖掘的时候进行直接数据挖掘即可。 (三)数学模型求解 根据数学模型对数据进行处理,得到初步结果。 得到数据以后,利用办公软件 Microsoft Office Excel 对提取到的 XML 数据体进 行分析处理,综合利用 XML 源映射、XML 数据导入、数据透视、统计分析、数值运算等进 行数据处理,得到计算结果。 XML 源映射:将 XML 的数据格式映射到 EXCEL 表中。如下图所示 - 10 - XML 数据导入:导入 XML 数据体中的数据。 (一)数据导入前 (二)数据导入后 数据透视:对 XML 数据体中的数据进行筛选。 统计分析与数值运算:对筛选过的数据,根据数学模型进行统计分析和数据运算, 并进行排序。 - 11 - (四)参考信息方法 考虑用户识别会遇到一些个例,识别结果会出现一些异常,我们还需要依据参考信 息进行综合处理。 尽管进行了数据挖掘, 对用户的特征进行了汇总提炼, 进行了用户特征识别。 但是, 考虑到识别所用的数据只是经验数据,进行特征识别的结果可能不准确。 因此,为了方便对特征识别结果进行进一步确认,提出了参考信息方法,即将一些 额外的参考信息,提供给决策者。 在进行数据处理、模型求解时,保留一定的挖掘信息作为参考信息。 这些信息可以是时间信息,也可以是模型的输入信息或其它信息。它能够为商业决 策提供更加准确的信息。 (五)最终识别出所需用户。 决策者通过特征指数、参考信息进行综合识别的方式。这种方式不以单一的求解结 果作为特征识别的惟一参考,它还参照比较精确的商业信息,同时让决策者也能够参与 到用户识别的过程中,既提高了特征识别的灵活性,又提高了特征识别的准确性。 六、六、实例说明实例说明 (一)言论领袖识别实例 挖掘范围: 论坛中 休闲北京 挖掘信息:所有主题信息及其作者信息 旅游户外 统计时段限制:201011 至今 统计信息:由于所涉及的信息量巨大,只对以下信息作了统计: 主题信息中的作者、回复、查看等字段。 参数设置:1 1 =、.10 2 =、0 3 =、0 4 = 、 0 1 = 参考信息:回复、查看 用户用户言论领袖指数排行榜言论领袖指数排行榜 排行榜 作者 回复 查看 言论领袖指数 1 不份儿 6948 843001 91248.1 2 小小 vivi 2016 712381 73254.1 - 12 - 3 春天的北京 9606 580546 67660.6 4 纯得发霉 2748 644239 67171.9 5 Sweetinice 2045 604344 62479.4 6 带我去旅行¥$ 2862 493493 52211.3 7 leococoa 3046 468009 49846.9 8 jjwwll 4411 387873 43198.3 9 九九 99 1307 403842 41691.2 10 星辰 2006 1845 377242 39569.2 11 xiaojianzi 1255 353128 36567.8 12 兔兔的羊羊 6182 300055 36187.5 13 g-summer 1311 328719 34182.9 14 lydia527 1529 311879 32716.9 15 365 5062 275981 32660.1 96 柠檬小豆丁 1899 91541 11053.1 97 伊水伊伊 699 102989 10997.9 98 lanwei1116 698 102427 10940.7 99 forest2841 1517 94146 10931.6 100 totoroice 604 103232 10927.2 若将用户言论领袖指数最大的用户划分为言论领袖,则用户“不份儿”被识别 为言论领袖。 (二)话题用户识别实例 挖掘范围: 论坛中 休闲北京旅游户外 挖掘信息:所有帖子中的用户信息 欢乐谷你不 敢玩什么 统计时段限制:无 统计信息:用户 ID,用户名称,活跃积分,发帖量(含发表主题帖和基本帖) 参数设置:10000/1 2 = 参考信息:发帖量、积分 用户话题用户指数排行榜用户话题用户指数排行榜 排行榜 UID 用户名称 发帖量 积分 话题用户指数 1 909563 joyce101 15 660 15.066 2 634103 当路易不威登 3 7813 3.7813 3 334003 怪兽熊宝宝 1 26044 3.6044 4 940351 球球咕 3 1835 3.1835 5 941605 舎。. 3 1407 3.1407 - 13 - 6 946415 山水之恋 3 1027 3.1027 7 1155242 qingqing3100 3 170 3.017 8 209721 norah332 3 14 3.0014 9 259631 Dsquared2 1 19636 2.9636 10 205937 江诗伊度 1 19003 2.9003 11 332476 miiier 1 17233 2.7233 12 505849 salad_18 1 17131 2.7131 13 899879 玩具 qiqi 2 4697 2.4697 14 1054337 little_pinkbear 1 13747 2.3747 15 496081 ll112147688 1 13449 2.3449 96 125464 hutuk2002 1 1705 1.1705 97 519913 myolive 1 1662 1.1662 98 1107141 誓意破冰 1 1611 1.1611 99 243214 臭屁美女 1 1553 1.1553 100 1051075 风中雨滴 1 1489 1.1489 251 1583875 没气质小姐 1 7 1.0007 252 896593 想出家的猴子 1 7 1.0007 253 940931 八万长征 1 7 1.0007 254 895027 民丹精灵 1 4 1.0004 255 1116399 十年后的我 1 1 1.0001 若将用户话题用户指数大于 10 的用户划分为话题用户,则用户“joyce101”被 识别为话题用户。 (三)活跃用户识别实例 对游戏区对某个主题帖的所有的跟帖的用户信息进行挖掘。 考虑到数据挖掘所涉及到的海量信息,为简便说明,仅针对某个主题进行了求解。 挖掘范围: 论坛中 游戏与动漫专区烧游堂 挖掘信息:所有用户信息 游戏 视频录制软件-Fraps简体中文+破解!(申精) 时段限制:无 统计信息:用户 ID,用户名称,活跃积分,发帖量(含发表主题帖和基本帖) 参数设置:10000/1 3 = 参考信息:发帖量、活跃积分 用户活跃用户指数排行榜用户活跃用户指数排行榜 排行榜 UID 用户名称 发帖量 活跃积分 活跃用户指数 1 16414128 840081741 13 349 13.0349 2 15129677 a562065964a 11 499 11.0499 - 14 - 3 15231908 27485820 11 499 11.0499 4 15448620 qqyahoo001 11 349 11.0349 5 15206567 weilisinaxi 10 500 10.05 6 14768062 ppxxmm 10 498 10.0498 7 14814429 shuaigeyxz 10 498 10.0498 8 14860626 qazwsxqsa 10 498 10.0498 9 15096521 ti666 10 498 10.0498 10 15174325 1123121123 10 498 10.0498 11 15407964 pkhui 10 498 10.0498 12 15434619 xiariling 10 498 10.0498 13 15217873 cxl5315200 10 489 10.0489 14 15465614 pnnyaa 10 348 10.0348 15 16344776 12493151 10 346 10.0346 40 16573198 331958807 4 340 4.034 41 1931262 妖之月 1 25717 3.5717 42 7626511 wangxuhua2006 3 501 3.0501 43 15418181 xiatianzuzhu 3 500 3.05 44 14759418 adsfsb250 3 491 3.0491 45 14786560 rong2575 3 491 3.0491 46 12468841 VOOGOO 2 6384 2.6384 47 13807257 浪漫物语 2 6135 2.6135 48 13277008 richardwong 2 4030 2.403 49 14398970 zl_3326 2 554 2.0554 241 8218223 jaystarp 1 169 1.0169 242 8669354 08311811 1 169 1.0169 243 23524304 937983423 1 80 1.008 244 14230324 zhujf120 1 53 1.0053 245 13114851 prizes 1 8 1.0008 246 10410716 698745123 1 2 1.0002 247 23320709 11684744 1 2 1.0002 248 13324994 rock_bass 1 1 1.0001 263 23494587 hejinlinjj 1 1 1.0001 264 23692354 haiba222 1 1 1.0001 265 23713933 邱爱 1 1 1.0001 266 23727123 hkxy777 1 1 1.0001 若把活跃用户指数大于 11 的,且不参考排行榜提供的参考信息,则用户 “840081741”、 “a562065964a”、 “27485820”、 “qqyahoo001”、 “weilisinaxi” 被识别为活跃用户 - 15 - (四)关系圈识别实例 在实例 1 中,“不份儿”的言论领袖指数排名第一,另外参考信息也反映出该用户 的确可以识别为言论领袖。以言论领袖“不份儿”为例,确定她的关系圈。 首先,针对“不份儿”发表的 10 个优秀的主题帖进行数据挖掘,依照用户关系圈 指数的示意模型建立数学模型,并进行求解,得到关系圈指数排行榜。 关系圈指数排行榜关系圈指数排行榜 排行榜 用户名称 回复主题数目 关系圈指数 1 不份儿 10 1 2 summer0725cn 8 0.8 3 玛格丽特.白 8 0.8 4 柠檬汁汁 7 0.7 5 大头豆 6 0.6 6 小小 vivi 6 0.6 7 candycrystal 5 0.5 8 evewang520 5 0.5 9 sun_snow0406 5 0.5 10 T27 5 0.5 11 typj 5 0.5 12 老谁他们家小谁 5 0.5 13 脱兔 5 0.5 14 jassica 4 0.4 15 leslie_usa 4 0.4 31 雨霁偕趣 4 0.4 32 5ieric 3 0.3 58 幸福背后 3 0.3 59 Aloha 2 0.2 151 左耳儿 2 0.2 152 :、细数落莫 1 0.1 920 顽皮的香橙 1 0.1 921 王贝 1 0.1 1072 最后的雨 1 0.1 1073 最幸福宝宝 1 0.1 如果以关系圈指数大于 0.7 的用户划在“不份儿”的关系圈内,那么,“不份儿” 的关系圈为:“不份儿”,“summer0725cn”,“玛格丽特.白”,“柠檬汁汁”。 - 16 - 七七、结果分析、结果分析 由于本模型需要挖掘的数据数量十分庞大,本文在一定范围内进行了数据挖掘,只 能用作求解示范,不适合用来指导实际商业决策。如果要进行商业决策,需要对数据挖 掘的范围进行扩展。 对于关系圈的识别,只对言论领袖的关系圈进行了识别。由于时间限制,及计算能 力的制约,我们没有进行普通用户的关系圈识别。 对于模型中常数参数的设置, 进行了举例说明。 但是, 用来实际运算是不够准确的。 这些参数的确定,需要更多的实验与测试。 八八、模型、模型评价与评价与改进改进 (一)模型优点 模型能够适应于不同类型的论坛,适用范围广。对于具体的情况,可以对模型进行 适当的调整与修改。 模型在信息的筛选上, 并没有严格的规定哪些信息参与运算, 哪些运算不参与运算, 甚至让用户决定哪些信息参与运算,哪些信息作为参考信息。对参考信息的考虑,使模 型提供了更加准确的商业信息。 模型对研究的范围进行了专业领域的限制和阶段特性限制, 保持了与时俱进的特性, 可以提供即时信息。 决策者可以对输入参数、,按照行业侧重点的不同进行调整;对于识别界线, 可根据排行榜进行灵活的划分。 模型的输出结果是实时变动的,随着论坛的发展
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 防水工程技术咨询与施工合同
- 商铺经营权转让与转租合同规范文本
- 2025玻璃棉采购合同
- 生态园区物业管理合同延期及环保责任补充协议
- 智能家居科技公司股权变更及售后服务保障合同
- 商业地产租赁合同担保与品牌推广服务协议
- 离婚时夫妻共有人寿保险合同分割执行细则
- 2025深圳市房屋买卖合同书
- 森林旅游开发承包合同书7篇
- 试验设备技术规范研究
- 大米委托加工合同范本
- 学校物品捐赠协议书
- 2025-2030国内地热能行业市场发展现状及竞争格局与投资发展前景研究报告
- 《财务报表分析课件》
- 《科研经费的使用与管理》课件
- 超市售后服务管理制度
- 贵州省考试院2025年4月高三年级适应性考试数学试题及答案
- 钢筋修复方案
- 人工智能在生活中的应用课件
- 7.1.1 两条直线相交(教学设计)-(人教版2024)
- 销售技巧培训(完整)
评论
0/150
提交评论