




免费预览已结束,剩余55页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京大学硕士研究生学位论文 题目:一个借助查询历史改善结果排序的文件检索系统的 设计与实现 姓 名 : 学 号 : 院 系 : 信 息 科 学 技 术 学 院 专 业 : 计 算 机 系 统 结 构 研 究 方 向 : 计 算 机 网 络 与 分 布 式 系 统 导 师 : 1 版权声明 任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本 论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作 者著作权之问题,将可能承担法律责任。 2 摘 要 随 着 网 络 的 发 展 , 网 络 上 提 供 文 件 共 享 服 务 的 服 务 器 越 来 越 多 , 共 享 的 文 件 数 量 也 随 之 增 加 。 如 何 更 好 的 检 索 、 利 用 这 些 共 享 文 件 成 为 一 个 重 要 的 问 题 。 针 对 用 户 对 文 件 检 索 的 需 求 , 本 文 在 文 件 检 索 技 术 领 域 有 如 下 贡 献 。 1. 本 文 首 先 提 出 了 一 个 文 件 检 索 的 模 型 , 明 确 了 在 文 件 检 索 模 型 中 检 索 对 象 、 查 询 串 、 查 询 与 检 索 对 象 的 匹 配 方 式 三 部 分 的 含 义 。 检 索 对 象 , 即 文 件 条 目 表 示 为 六 元 组 name, ext, size, date, site, path的 形 式 , 查 询 串 表 示 为 以 空 格 分 隔 的 字 符 串 的 集 合 , 查 询 与 检 索 对 象 的 匹 配 则 表 示 为 查 询 串 与 文 件 条 目 的 匹 配 串 之 间 的 匹 配 。 2. 提 出 了 对 文 件 检 索 系 统 进 行 评 测 的 指 标 。 将 查 询 结 果 视 作 集 合 时 以 查 全 率 、 查 准 率 为 评 测 指 标 。 将 查 询 结 果 视 作 有 序 序 列 时 , 分 析 了 查 询 结 果 的 相 关 性 、 连 接 下 载 速 度 以 及 结 果 的 可 用 性 等 因 素 对 排 序 的 影 响 , 并 提 出 了 对 排 序 进 行 评 测 的 指 标 排 序 指 数 。 作 者 还 提 出 对 于 两 个 排 序 策 略 进 行 比 较 时 , 应 当 在 结 果 的 每 个 页 面 内 部 应 用 排 序 策 略 , 而 不 是 在 全 体 结 果 集 合 上 应 用 排 序 策 略 , 并 比 较 平 均 用 户 选 取 条 目 的 页 内 排 名 。 3. 通 过 统 计 、 分 析 用 户 对 文 件 搜 索 引 擎 的 检 索 和 对 检 索 结 果 中 下 载 地 址 条 目 的 选 取 , 作 者 发 现 了 用 户 行 为 习 惯 中 的 两 个 重 要 规 律 : 一 、 少 数 查 询 串 占 据 了 全 部 查 询 请 求 的 大 多 数 , 具 体 而 言 , 前 20%的 热 门 查 询 串 占 据 了 全 部 查 询 请 求 的 80%; 二 、 对 全 体 用 户 而 言 , 假 设 有 n 次 不 同 的 查 询 请 求 使 用 了 同 一 个 查 询 串 , 并 且 它 们 代 表 k 类 不 同 的 查 询 意 图 。 那 么 通 常 k 3, 因 而 在 n 较 大 的 情 况 下 , 则 n/k 的 值 较 大 , 即 大 量 的 来 自 不 同 用 户 的 请 求 代 表 了 相 同 的 查 询 意 图 。 4. 基 于 上 文 所 述 , 作 者 设 计 并 实 现 了 一 个 真 实 的 系 统 。 该 系 统 借 助 查 询 历 史 改 善 结 果 的 排 序 。 与 一 般 基 于 用 户 历 史 信 息 的 检 索 系 统 不 同 的 是 , 本 系 统 借 助 的 历 史 信 息 不 局 限 于 当 前 用 户 的 历 史 信 息 , 还 包 含 提 交 了 相 同 查 询 串 的 其 他 用 户 的 查 询 信 息 。 或 者 说 , 即 使 当 前 用 户 是 第 一 次 使 用 本 系 统 , 本 系 统 也 能 利 用 其 他 用 户 的 历 史 记 录 来 改 进 结 果 的 排 序 和 筛 选 。 作 者 最 后 还 验 证 了 其 实 际 的 效 果 。 应 用 本 方 法 后 , 平 均 用 户 选 取 条 目 的 页 内 排 名 从 原 来 的 13.70 名 前 进 到 了 8.93 名 。 试 验 结 果 表 明 文 中 所 做 的 分 析 是 正 确 的 。 关键词:文件检索系统,查询历史,检索模型 3 the design and implementation of a file index system which improve the order by query history abstract with the rapid expansion of the internet, there are more sharing file servers. and the number of sharing files is increasing rapidly too. so its more important to retrieve these files easily. for the requirement of file retrieving of the users, we did the following jobs: 1. we proposed a file index model. the model is composed of the expression of an index object, the expression of a query, and how the query word matches the index object. the index object can be expressed as name, ext, size, date, site, path, the query string is expressed as strings separated by space, and the matching between query and index object is realized by matching the query string and the matching strings of the file item. 2. we also proposed the evaluation indicator for the file index evaluation. the precision and recall are useful when we evaluate the query result. but the result is not a set, but an ordered list. so we indicated the factors in order: the relativity of the item, the connecting and download speed and the availability of the site. we proposed how to evaluate the order: average rank of chosen items. if we just want to compare two ranking strategy, we should not reorder all items in the result set but only reorder the items within each page and compare the average rank of chosen items within page. 3. by analyzing the records of users queries and the file items that users chosen from a real file search engine, we discovered two lows. 1). most query strings are repeating hot query strings. 80% query words are the top 20% hot query strings. 2) if there are n times of queries using the same query strings, and the total number of different intensions is k. then k should be a very small number (usually, k5 对 应 的 查 询 串 的 个 数 33 157 81 0 1 0 从 上 表 可 见 , 查 询 意 图 只 有 1 3 个 的 查 询 串 占 全 部 记 录 数 据 的 绝 大 部 分 , 超 过 5 种 不 同 意 图 的 查 询 串 在 统 计 的 日 志 中 根 本 就 没 有 出 现 。 我 们 再 来 看 一 下 n 和 k 的 比 例 的 分 布 , 统 计 结 果 如 下 图 。 图 中 横 坐 标 表 示 查 询 串 被 查 询 的 次 数 n, 综 坐 标 为 n/k 的 比 值 。 要 说 明 一 点 就 是 为 了 使 图 像 中 的 点 线 显 示 清 晰 , 我 们 忽 略 了 很 少 量 的 查 询 次 数 非 常 高 的 词 ( 这 些 点 对 应 的 横 坐 标 值 非 常 大 ) , 但 事 后 的 手 工 验 证 仍 然 证 明 了 它 们 符 合 本 文 的 规 律 。 26 1 10 10 100 0 10 20 30 40 50 60 70 80 90 100 图 4-3 查询串与查询意图种类比值分析 其中横坐标为查询串查询次数 n, 综坐标为 n/k 比值(为指数标度) 从 图 中 可 以 看 到 , 当 n100 时 , n/k 的 值 都 在 30 以 上 。 由 上 面 的 分 析 我 们 能 够 知 道 , 尽 管 查 询 串 不 同 , 但 一 般 说 来 , 它 们 所 代 表 的 查 询 意 图 的 数 量 并 不 是 太 多 的 , 通 常 在 1-3 种 , 并 且 在 n 较 大 的 情 况 下 ( 如 n100) , 通 常 n/k 的 比 值 较 大 ( 本 例 中 大 于 30) 。 因 此 我 们 得 到 了 第 二 个 重 要 的 规 律 : 规 律 二 : 假 设 有 n 次 不 同 的 请 求 查 询 了 同 一 个 查 询 串 , 并 且 它 们 代 表 k 种 不 同 的 查 询 意 图 。 在 n 较 大 的 情 况 下 ( n100) , n/k 的 值 较 大 ( n/k30) 。 4.3 用 户 行 为 特 点 的 启 发 利 用 上 面 的 用 户 行 为 特 点 中 的 两 个 规 律 , 以 及 前 面 关 于 相 关 反 馈 方 法 的 思 路 , 可 以 考 虑 采 用 如 下 思 路 来 实 现 一 个 借 助 查 询 历 史 信 息 改 善 结 果 排 序 的 文 件 检 索 系 统 。 从 上 面 的 特 征 我 们 知 道 , 大 多 数 的 查 询 请 求 不 仅 其 查 询 串 本 身 是 重 复 的 , 而 且 其 所 代 表 的 查 询 意 图 也 是 重 复 的 。 这 样 我 们 就 可 以 由 “较 早 的 相 同 的 查 询 串 的 结 果 选 取 记 录 ”作 为 用 户 的 反 馈 信 号 。 这 样 一 来 , 后 来 提 交 同 样 查 询 串 的 用 户 不 需 要 27 任 何 主 动 干 预 , 就 可 以 得 到 经 过 反 馈 信 号 处 理 过 的 重 新 排 序 的 查 询 结 果 了 。 当 然 , 由 于 用 户 意 图 并 不 唯 一 , 我 们 并 不 能 确 定 究 竟 本 次 查 询 的 用 户 是 哪 种 查 询 意 图 , 但 因 为 k 值 通 常 都 相 当 小 ( 小 于 等 于 3) , 因 此 对 用 户 而 言 , 很 容 易 从 这 为 数 极 少 的 查 询 意 图 中 找 到 满 足 自 己 意 图 的 结 果 。 具 体 而 言 , 我 们 可 以 考 虑 如 下 的 思 路 。 首 先 记 录 下 每 次 用 户 对 查 询 结 果 的 选 取 。 我 们 认 为 , 用 户 在 查 询 结 果 中 点 击 的 下 载 地 址 , 就 是 用 户 认 为 比 较 理 想 的 下 载 地 址 。 通 过 一 段 时 间 的 记 录 , 我 们 就 得 到 了 对 于 大 量 查 询 串 的 较 理 想 的 匹 配 结 果 。 对 于 一 个 查 询 串 q, 我 们 有 一 个 用 户 认 为 较 好 的 文 件 条 目 的 集 合 s, 我 们 将 其 表 示 为 一 个 二 元 组 (q,s)。 这 样 , 我 们 就 得 到 了 大 量 的 这 样 的 二 元 组 。 依 据 规 律 2, 我 们 知 道 每 个 查 询 串 可 能 代 表 几 个 不 同 的 查 询 意 图 , 那 么 不 同 的 查 询 意 图 对 应 的 理 想 下 载 地 址 肯 定 不 同 ( 否 则 就 是 相 同 的 查 询 意 图 了 ) , 我 们 可 以 采 用 聚 类 的 方 法 对 每 个 s 中 的 文 件 条 目 进 行 聚 类 。 聚 类 后 , 对 于 每 个 q, 我 们 会 得 到 k 种 不 同 的 类 别 , 这 k 个 类 别 就 也 就 反 映 了 不 同 的 查 询 意 图 , 而 每 个 类 别 中 的 文 件 条 目 , 就 可 以 看 作 这 个 类 别 的 训 练 集 。 每 个 类 别 中 的 条 目 个 数 , 也 直 接 反 映 了 这 个 类 别 的 权 重 。 当 再 次 有 用 户 查 询 同 样 的 查 询 串 q 时 , 我 们 首 先 采 用 原 始 的 检 索 方 法 , 得 到 一 个 结 果 集 合 , 然 后 用 聚 类 得 到 的 k 个 类 别 和 训 练 集 对 其 进 行 分 类 处 理 。 一 些 条 目 被 分 到 这 k 个 类 别 中 , 另 外 一 些 可 能 不 属 于 任 何 类 别 。 不 属 于 任 何 类 别 的 条 目 往 往 也 是 用 户 不 太 需 要 的 条 目 , 可 以 考 虑 抛 弃 或 排 在 结 果 的 最 后 输 出 。 28 第 5章 系 统 体 系 结 构 与 主 要 算 法 5.1 系 统 体 系 结 构 基 于 以 上 分 析 , 我 们 设 计 了 如 下 的 检 索 系 统 来 改 善 文 件 检 索 系 统 的 排 序 。query string (q)normal index syst() index rsult (s0) fedback dta dtbse site list datbsequeryclusteringthe traing sfoqueryitm items not blgay rupresult afer cagoiztin (s)categorization, odgfiletms tha user cliked 图 5-1 系统结构图 下 面 我 们 来 详 细 介 绍 这 个 模 型 。 我 们 首 先 查 看 模 型 中 的 各 个 组 成 部 分 。 query string (q): 用 户 输 入 的 查 询 串 ; normal index system(i): 常 规 的 文 件 检 索 系 统 ; index result(s0): 初 始 查 询 结 果 集 ; feedback data db(f): 该 数 据 库 中 记 录 了 已 有 的 每 个 查 询 请 求 和 它 对 应 的 不 同 的 k 种 查 询 意 图 , 以 及 每 种 意 图 的 作 为 训 练 集 的 文 件 条 目 。 fileitem db(d): 该 数 据 库 中 保 存 了 每 次 用 户 进 行 检 索 后 对 查 询 结 果 的 选 取 情 况 。 具 体 而 言 , 当 用 户 进 行 查 询 后 , 检 索 系 统 返 回 结 果 , 当 用 户 在 结 果 页 面 中 对 文 件 条 目 进 行 点 击 并 下 载 时 , 本 模 型 会 记 录 用 户 的 点 击 选 取 行 为 。 库 中 的 每 条 记 录 含 有 当 前 的 查 询 串 和 用 户 点 击 的 这 条 记 录 的 具 体 文 件 信 息 : 文 件 名 称 、 扩 展 名 称 、 最 后 修 改 日 期 、 文 件 大 小 、 文 件 所 在 站 点 和 文 件 所 在 的 路 径 。 29 本 检 索 系 统 的 工 作 流 程 如 下 : 数 据 库 f 中 需 要 足 够 的 数 据 记 录 系 统 才 能 够 进 行 工 作 。 因 此 在 系 统 运 行 之 初 , 系 统 便 开 始 自 动 记 录 用 户 的 点 击 , 并 将 记 录 填 充 进 数 据 库 d。 数 据 库 d 每 隔 一 段 时 间 , 对 每 个 查 询 串 q 进 行 一 次 聚 类 操 作 , 这 样 便 得 到 了 每 个 查 询 串 所 代 表 的 k 种 查 询 意 图 。 现 在 我 们 假 设 f 中 已 经 包 含 有 了 足 够 的 记 录 信 息 。 当 用 户 输 入 查 询 串 q 后 , 一 方 面 , 模 型 中 最 上 面 的 流 程 开 始 工 作 , 常 规 的 检 索 系 统 进 行 检 索 , 得 到 一 个 原 始 的 查 询 结 果 s0。 另 一 方 面 , 如 模 型 图 示 中 的 中 层 的 流 程 , q 被 送 入 数 据 库 f。 数 据 库 f 返 回 对 应 的 k 种 意 图 和 其 点 击 记 录 集 合 。 这 些 记 录 将 作 为 下 一 步 分 类 工 作 的 训 练 集 。 有 了 s0 和 这 k 种 类 别 , 下 面 将 利 用 这 k 种 类 别 的 训 练 集 对 s0 进 行 分 类 。 分 类 后 我 们 将 s0 分 成 了 k+1 类 , 其 中 新 增 加 的 这 个 类 别 是 那 些 不 属 于 任 何 类 别 的 文 件 条 目 item 集 合 。 对 于 不 属 于 任 何 类 别 的 条 目 , 我 们 认 为 它 是 用 户 不 太 关 心 的 结 果 , 可 以 把 它 抛 弃 或 放 入 输 出 结 果 的 最 后 。 这 里 有 一 点 要 注 意 , 就 是 k 种 类 别 的 地 位 是 不 同 的 , 类 别 本 身 也 是 有 权 重 的 , 权 重 可 以 由 聚 类 时 每 个 类 别 中 的 条 目 数 量 来 决 定 。 这 样 在 最 后 输 出 时 可 以 按 照 权 重 本 身 对 类 别 进 行 排 序 。 由 于 k 的 取 值 通 常 都 比 较 小 ( 小 于 等 于 3) , 用 户 最 终 看 到 的 结 果 往 往 是 接 近 用 户 的 真 实 查 询 意 图 的 。 然 后 就 可 以 按 照 一 般 的 条 目 列 表 方 式 或 者 聚 类 的 树 型 结 构 将 结 果 输 出 给 最 终 用 户 。 5.2 主 要 算 法 5.2.1 用户点击日志的表示 用 户 点 击 日 志 就 是 用 户 所 点 击 的 文 件 条 目 item。 由 前 面 的 对 文 件 检 索 的 建 模 , 我 们 知 道 可 以 表 示 为 : item = name, ext, size, date, site, path 我 们 将 其 改 写 为 如 下 格 式 : pathsitedatesizeextnam xxx 有 时 候 为 了 简 便 , 我 们 也 会 表 述 为 如 下 形 式 : 30 654321 xxx 对 于 查 询 串 q, 价 格 共 有 n 个 记 录 , 因 此 我 们 得 到 如 下 的 矩 阵 :1,1,21,31,41,51,6,1,2,3,4,5,6,1,2,3,4,5,6iiiiiinnnnnnxxxxxx 5.2.2 计算文件条目之间的距离 不 论 是 进 行 聚 类 处 理 还 是 进 行 分 类 处 理 , 都 需 要 进 行 大 量 的 对 两 个 文 件 条 目 (item)之 间 的 距 离 d 的 计 算 。 或 者 说 , 需 要 通 过 上 文 中 的 二 模 矩 阵 , 得 到 下 面 的 表 示 条 目 之 间 距 离 的 单 模 矩 阵 :0(2,1)3(,)04,(4,3)(5),5(,)06,1(2)6,(6,5)7,(7),7(,)0.(,)(,),3(,4)(,),(,ddd dndnndn1)0 图 中 我 们 用 d(i,j)表 示 项 xi 和 xj 之 间 的 距 离 , 有 d(i,j) 0。 当 d(i,j)=0 时 表 示 二 者 完 全 相 同 ; 当 d(i,j)0 时 表 示 二 者 不 同 , 并 且 d 的 值 越 大 表 示 文 件 条 目 xi 和 xj 之 间 的 差 异 越 大 。 对 于 条 目 i 和 j 之 间 距 离 的 d(i,j)的 计 算 , 我 们 采 用 如 下 加 权 公 式 : 31 (,)1(,)ifjpxfddxij 由 前 文 文 件 检 索 模 型 可 知 , 此 处 p=6。 我 们 分 别 计 算 文 件 条 目 i 和 j 的 6 项 对 应 属 性 的 距 离 , 再 进 行 加 权 求 和 最 后 再 进 行 标 准 化 处 理 。 由 于 文 件 条 目 的 6 项 属 性 的 数 据 类 型 和 含 义 不 完 全 相 同 , 因 此 具 体 的 计 算 方 法 区 别 较 大 , 在 计 算 时 需 要 分 别 考 虑 。 下 图 为 各 个 属 性 的 数 据 类 型 和 计 算 方 法 。 表格 5-1 文件条目各个属性数据类型 属 性 数 据 类 型 距 离 计 算 方 法 name string minimal edit distance ext string nominal variables size integer interval-scaled variables date integer interval-scaled variables site string n/a path string subsection string 具 体 方 法 为 : 5.2.2.1 name 属性距离的计算方法 name 表 示 文 件 的 不 包 含 扩 展 名 的 主 名 的 名 称 , 数 据 类 型 为 字 符 串 型 。 对 于 这 种 字 符 串 类 型 数 据 的 处 理 , 一 般 情 况 下 可 以 按 照 文 档 的 相 似 度 的 方 式 进 行 。 但 由 于 文 件 名 通 常 都 比 较 短 小 , 命 名 多 数 情 况 下 也 不 规 范 。 这 里 并 不 建 议 按 照 文 档 的 形 式 来 处 理 。 我 们 这 里 采 用 的 处 理 方 法 是 按 照 最 小 编 辑 距 离 的 方 法 来 处 理 。 编 辑 距 离 是 指 两 个 字 符 串 通 过 插 入 字 符 、 删 除 字 符 、 改 写 字 符 而 变 为 相 同 字 符 串 所 需 要 的 操 作 次 数 。 比 如 : d(“abc”,”abd”) = 1 d(“abc”,”ab”) = 1 d(“abc”, “abcdf”) = 2 d(“serveru”,” ser-u”) = 4 利 用 动 态 规 划 的 方 法 计 算 编 辑 距 离 , 时 间 复 杂 性 可 以 达 到 o(n2), 空 间 复 杂 性 32 为 o( n2) 。 计 算 方 法 为 一 个 递 归 算 法 : d(, ) = 0 d(s, ) = d(, s) = |s| ( |s|表 示 s 的 长 度 ) d(s1+ch1, s2+ch2) = min( d(s1, s2) + ( if ch1=ch2 then 0 else 1) , d(s1+ch1, s2) + 1, d(s1, s2+ch2) + 1 ) 5.2.2.2 ext 属性距离的计算方法 ext 指 文 件 的 扩 展 名 , 虽 然 数 据 类 型 为 字 符 串 , 但 因 此 常 见 的 文 件 类 型 是 有 限 的 , 因 此 可 以 看 成 是 枚 举 类 型 , 在 聚 类 算 法 中 则 称 为 标 称 变 量 。 在 进 行 距 离 计 算 时 可 以 按 照 聚 类 算 法 中 对 于 此 类 数 据 类 型 的 标 准 处 理 方 法 进 行 处 理 , 即 其 距 离 只 是 一 个 二 值 函 数 : 取 值 相 同 则 距 离 为 0; 否 则 距 离 为 1。 但 考 虑 到 文 件 扩 展 名 是 有 实 际 含 义 的 , 而 且 很 多 时 候 这 些 不 同 的 扩 展 名 之 间 还 有 着 丰 富 的 联 系 , 因 此 我 们 能 够 将 其 处 理 的 更 加 精 确 。 一 般 的 , 我 们 可 以 按 照 文 件 的 扩 展 名 对 文 件 类 型 进 行 分 类 。 比 如 可 以 将 文 件 分 成 : 程 序 、 图 片 、 音 乐 、 影 视 、 源 码 等 类 别 。 在 每 个 类 别 内 部 , 可 能 又 有 更 深 的 层 次 , 比 如 源 码 可 能 又 分 为 c/c+源 码 , java 源 码 等 , 而 c/c+源 码 又 可 以 进 一 步 分 为 头 文 件 和 实 现 文 件 等 这 样 就 形 成 了 一 棵 树 。 不 过 要 注 意 的 是 , 这 棵 树 不 是 平 衡 的 , 某 些 叶 节 点 可 能 比 较 深 , 另 外 一 些 可 能 比 较 浅 。 为 了 形 成 这 棵 树 , 我 们 还 需 要 说 明 如 下 。 首 先 , 我 们 假 设 每 种 扩 展 名 只 对 应 于 树 中 的 一 个 节 点 ; 其 次 , 我 们 设 置 一 个 根 节 点 , 根 节 点 本 身 不 包 含 如 何 任 何 文 件 类 型 ; 再 有 , 对 于 没 有 扩 展 名 的 文 件 , 我 们 为 其 赋 予 一 个 特 殊 的 值 , 并 且 直 接 位 于 根 节 点 之 下 ; 对 于 不 能 识 别 的 扩 展 名 我 们 也 做 同 样 处 理 。 这 样 , 最 后 形 成 了 一 棵 类 似 下 图 的 树 : 33 rotprogamvideomusicpicturesourceother real formt .avi.rm.rmvb c/+ langue .jav.himplentaio .c .cp 图 5-2 文件扩展名属性距离计算 这 样 , 计 算 任 意 两 个 文 件 条 目 类 型 属 性 的 距 离 演 变 成 了 计 算 树 中 任 意 两 个 叶 节 点 之 间 的 关 系 。 对 于 树 中 任 意 两 个 叶 节 点 的 距 离 , 则 表 示 为 其 相 似 程 度 的 倒 数 。 而 相 似 程 度 的 计 算 , 可 以 按 照 如 下 算 法 。 树 中 每 个 节 点 均 存 在 一 条 从 根 节 点 到 达 它 所 在 位 置 的 唯 一 路 径 p。 两 个 节 点 的 相 似 程 度 可 以 表 示 为 它 们 各 自 路 径 p 中 公 共 节 点 的 个 数 的 函 数 。 在 实 现 上 , 我 们 选 取 如 下 的 函 数 : 假 设 需 要 计 算 两 个 ext 值 分 别 为 e1 和 e2 的 点 xi、 xj 在 此 属 性 上 的 距 离 。 设 e1 对 应 的 路 径 为 p1, e2 对 应 的 路 径 为 p2。 p1 和 p2 的 公 共 节 点 个 数 为 k( 根 节 点 除 外 ) , 则 我 们 取 :2,21()ijkdx 34 5.2.2.3 size 属性距离的计算方法 size 属 性 表 示 文 件 条 目 的 文 件 大 小 , 以 字 节 为 单 位 , 数 据 类 型 为 整 数 。 由 于 文 件 大 小 的 取 值 范 围 跨 度 很 大 , 一 般 能 够 从 几 十 字 节 到 几 十 亿 字 节 , 因 此 不 适 合 按 照 一 般 区 间 标 度 变 量 的 方 法 来 计 算 , 可 以 按 照 比 例 标 度 型 变 量 来 处 理 。 首 先 对 size 的 值 取 对 数 :,3,3log()iiyx 不 过 在 实 际 应 用 中 要 注 意 的 是 , 因 为 size 的 取 值 范 围 是 非 负 整 数 , 可 能 取 0, 因 此 不 能 直 接 取 log, 可 以 考 虑 首 先 将 x 1 再 取 log。,3,3l(1)iiyx 然 后 将 yi3 转 化 为 对 应 的 z-score 值 zi3,imz s 其 中 )31,32,3n (yyn, 3|)ns m 进 行 标 准 化 处 理 之 后 , 再 求 二 者 之 差 : 3,3,3,3()ijijdxz 5.2.2.4 date 属性距离的计算方法 date 属 性 表 示 文 件 的 最 后 修 改 日 期 , 前 面 已 经 说 过 , 我 们 将 原 来 的 字 符 串 格 式 统 一 转 化 为 整 数 , 比 如 按 照 距 离 公 元 元 年 元 旦 的 日 期 数 。 对 于 整 数 , 属 于 区 间 标 度 变 量 。 为 了 更 好 的 计 算 各 个 项 目 该 属 性 之 间 的 距 离 , 我 们 并 不 直 接 计 算 各 个 条 目 的 差 , 而 是 先 对 其 进 行 标 准 化 处 理 。 将 xi4 转 化 为 对 应 的 z-score 值 zi4,4,iixmz s 35 其中 )41,42,4nm (xxn, ,4|)nsm 进行标准化处理之后,再求二者之差: 44,4,4(,)ijijdxz 5.2.2.5 site 属性距离的计算方法 由 于 在 实 际 文 件 共 享 系 统 中 , site 值 最 常 见 的 情 况 就 是 ip 地 址 , 而 两 个 ip 地 址 之 间 的 距 离 的 比 较 是 没 有 实 际 意 义 的 , 因 此 我 们 忽 略 两 个 site 属 性 的 之 间 的 距 离 , 或 者 可 以 表 示 为 :5,5()0ijdx 5.2.2.6 path 属性距离的计算方法 path 表 示 文 件 从 根 目 录 开 始 到 其 节 点 所 经 过 的 路 径 。 其 重 要 特 点 就 是 路 径 是 分 段 的 , 是 由 多 个 字 符 串 连 接 而 成 的 。 比 如 路 径 : /resource/software/tools/network/ 可 以 看 成 是 由 分 段 的 子 字 符 串 resource, software, tools 和 network 构 成 的 。 在 对 path 进 行 比 较 的 时 候 , 我 们 将 每 个 路 径 拆 分 成 多 个 子 字 符 串 , 然 后 比 较 其 中 公 共 子 字 符 串 的 个 数 占 全 部 子 字 符 串 的 比 例 。6,6()comijijsdx 公 式 中 si 和 sj 分 别 表 示 xi 和 xj 的 path 属 性 的 分 段 的 个 数 , scom 为 公 共 子 字 符 串 的 个 数 。 5.2.3 对用户点击记录进行聚类 在 本 体 系 中 需 要 对 用 户 的 点 击 日 志 进 行 聚 类 , 以 便 能 够 得 到 这 k 个 不 同 的 用 户 查 询 意 图 。 聚 类 常 用 的 方 法 有 partitioning 方 法 , hierarchical 方 法 和 density-based 方 法 。 根 据 我 们 的 具 体 情 况 , 这 里 选 用 自 底 向 上 的 hierarchical 方 法 。 36 对 本 方 法 的 图 示 说 明 如 下 : ab cde a,bstep 0 step 1 step 2 step 3 step 4d,e c,dea,bc,deaglomerative(agnes) 图 5-3 聚类示意图 假 设 共 有 5 个 对 象 a,b,c,d,e, 我 们 将 其 根 据 彼 此 的 相 关 程 度 进 行 聚 类 。 首 先 , 将 每 个 待 聚 类 的 元 素 独 立 划 分 为 一 个 自 己 的 类 别 , 如 果 有 n 个 元 素 , 则 开 始 时 共 有 n 类 。 然 后 将 距 离 最 近 的 两 个 元 素 归 为 一 类 , 此 时 有 n-1 类 ; 此 后 再 将 距 离 次 近 的 归 为 一 类 , 类 别 共 n-2 类 ; 如 此 不 断 重 复 如 果 没 有 结 束 标 志 , 则 最 终 将 会 把 所 有 类 别 都 归 为 一 类 。 所 以 必 须 要 设 置 结 束 标 志 。 这 其 中 有 几 点 要 说 明 : 5.2.3.1 结束标志的设定 结 束 标 志 可 以 从 几 个 方 面 来 综 合 考 虑 。 首 先 是 距 离 因 素 , 设 定 当 距 离 最 近 的 两 个 类 的 距 离 大 于 某 个 类 别 间 的 距 离 阀 值 d 时 不 再 进 行 合 并 操 作 , 设 置 距 离 标 志 d 可 以 防 止 最 后 生 成 的 类 别 过 少 。 另 外 由 规 律 2 可 知 相 同 的 查 询 串 通 常 只 表 示 很 少 的 查 询 意 图 , 因 此 可 以 设 定 一 个 最 大 类 别 数 g, 这 个 表 示 可 以 防 止 最 后 生 成 的 类 别 数 过 多 。 通 过 这 两 个 结 束 标 志 的 综 合 运 用 , 可 以 使 最 终 的 类 别 数 量 控 制 在 较 理 想 的 范 围 中 。 5.2.3.2 具有多个元素的类别之间距离的计算 当 类 别 包 含 多 个 元 素 时 , 计 算 它 们 之 间 的 距 离 有 三 种 不 同 的 方 法 : 计 算 距 离 最 近 的 两 点 之 间 的 距 离 、 最 远 的 两 点 之 间 的 距 离 、 或 者 用 中 心 点 来 计 算 距 离 。 我 们 这 里 选 用 中 心 点 来 计 算 二 者 的 距 离 。 这 个 中 心 点 可 能 是 类 别 中 真 实 存 在 的 一 个 元 素 , 37 但 也 可 能 是 一 个 并 不 真 正 包 含 的 虚 拟 的 元 素 。 5.2.3.3 孤立点的处理 事 实 上 , 一 些 查 询 串 可 能 会 对 应 一 两 个 或 很 少 的 孤 立 查 询 记 录 , 这 些 查 询 记 录 和 其 余 大 量 的 查 询 记 录 的 相 似 度 很 低 。 通 过 人 工 查 看 的 方 法 , 我 们 发 现 很 多 这 些 孤 立 查 询 记 录 其 实 都 是 看 上 去 不 太 正 常 的 记 录 , 比 如 对 于 一 些 大 小 为 0 的 文 件 进 行 下 载 , 或 者 下 载 一 些 快 捷 方 式 文 件 等 。 我 们 认 为 这 些 孤 立 点 是 因 为 用 户 不 小 心 或 不 了 解 所 致 。 而 这 些 文 件 条 目 实 际 上 并 不 应 该 被 下 载 , 而 应 该 被 抛 弃 。 因 此 我 们 需 要 对 这 些 孤 立 点 进 行 丢 弃 。 5.2.3.4 训练集的生成 由 于 在 进 行 完 聚 类 后 我 们 会 对 查 询 再 进 行 分 类 , 因 此 我 们 考 虑 利 用 聚 类 中 的 文 件 条 目 作 为 分 类 时 的 训 练 集 。 在 聚 类 完 成 后 我 们 将 保 留 每 个 查 询 串 的 每 个 类 别 足 够 的 文 件 条 目 。 5.2.4 对查询结果集合进行分类 常 用 的 分 类 算 法 有 k nearest neighbor(knn), nave bayes, 还 有 support vector machines 等 。 我 们 采 用 knn 算 法 。 其 具 体 步 骤 为 : 首 先 需 要 有 一 个 训 练 集 。 对 于 每 个 可 能 的 类 别 , 各 自 有 一 些 属 于 该 类 别 的 对 象 。 给 定 一 个 待 分 类 的 对 象 , 系 统 在 训 练 集 中 查 找 与 其 最 相 似 的 k 个 对 象 (称 为 邻 居 ), 并 根 据 这 些 邻 居 所 属 的 类 别 情 况 来 给 该 对 象 的 候 选 类 别 评 分 , 最 后 按 照 分 值 来 确 定 待 分 类 对 象 的 类 别 。 38 第 6章 系 统 实 现 与 评 测 6.1 系 统 设 计 体 系 结 构 图 实 际 系 统 的 体 系 结 构 图 如 下 。 考 虑 到 一 些 实 现 问 题 , 和 上 一 章 的 系 统 模 型 略 有 区 别 。 index part clustering part colection part clicklog datbse traing set dtbas clicklog serv clustering query q normal index syst items categorization filter categoris click log items traing set click log 图 6-1 体系结构图 下 面 我 们 来 详 细 介 绍 此 系 统 设 计 。 6.1.1 用户行为收集部分 collection part 部 分 为 用 户 点 击 记 录 收 集 部 分 , 是 实 时 运 行 的 。 在 用 户 进 行 查 询 后 , 文 件 检 索 系 统 返 回 包 含 查 询 串 的 结 果 。 用 户 从 中 选 取 自 己 认 为 正 确 的 文 件 条 目 。 用 户 的 选 取 操 作 就 是 一 次 鼠 标 的 点 击 操 作 。 这 个 点 击 动 作 自 动 触 发 到 我 们 的 后 台 cgi 程 序 , 程 序 先 将 用 户 的 下 载 请 求 转 向 到 真 正 的 下 载 地 址 , 后 台 再 发 送 一 个 记 录 点 击 操 作 的 服 务 请 求 。 该 服 务 请 求 由 clicklog server 接 收 , 并 记 录 到 clicklog database 中 。 我 们 称 用 户 的 每 次 点 击 对 应 的 文 件 条 目 为 39 clicklog。 经 过 这 样 反 复 多 次 后 , clicklog database 中 记 录 了 大 量 的 clicklog, 每 个 clicklog 包 含 一 个 查 询 串 和 对 应 的 文 件 条 目 item。 6.1.2 聚类部分 此 部 分 为 聚 类 操 作 部 分 , 每 隔 一 段 时 间 运 行 一 次 。 在 实 际 系 统 中 可 以 根 据 用 户 数 量 来 设 定 为 每 小 时 或 每 天 一 次 。 这 部 分 首 先 从 clicklog database 中 读 取 全 部 的 clicklog 条 目 , 然 后 对 每 个 查 询 串 依 次 进 行 处 理 。 取 出 每 个 查 询 串 对 应 的 clicklog 记 录 , 进 行 聚 类 , 聚 类 后 得 到 k 个 类 别 。 如 前 文 所 述 , 其 中 可 能 存 在 一 些 孤 立 点 , 然 后 按 照 标 准 对 这 些 孤 立 点 进 行 考 察 , 需 要 的 话 要 抛 弃 掉 其 对 应 的 孤 立 类 别 。 聚 类 操 作 完 成 后 , 将 聚 类 的 结 果 存 入 training set database 中 。 至 此 , 我 们 就 得 到 了 实 现 免 用 户 干 预 的 、 基 于 反 馈 信 息 的 检 索 系 统 所 需 要 的 反 馈 数 据 。 6.1.3 索引部分 完 成 了 上 面 两 个 部 分 的 工 作 , 就 可 以 进 行 真 正 的 反 馈 了 。 对 于 用 户 的 查 询 串 q, 首 先 使 用 常 规 检 索 系 统 进 行 检 索 , 就 可 得 到 一 个 文 件 条 目 item 的 集 合 。 然 后 在 training set database 中 取 出 对 应 于 查 询 串 q 的 k 个 类 别 的 训 练 集 。 利 用 这 些 训 练 集 条 目 为 刚 刚 通 过 常 规 查 询 得 到 的 item 集 合 进 行 分 类 。 此 处 我 们 限 定 每 个 文 件 条 目 至 多 属 于 1 个 类 别 。 分 类 后 可 能 得 到 k+1 个 类 别 ( 某 些 item 可 能 不 属 于 任 何 类 别 ) , 以 及 每 个 条 目 和 其 所 属 类 别 的 相 似 程 度 。 利 用 分 类 的 类 别 和 相 似 度 , 系 统 可 以 重 新 根 据 此 信 息 进 行 输 出 。 对 于 那 些 不 属 于 任 何 类 别 的 文 件 条 目 , 通 常 也 是 用 户 所 不 太 关 心 的 结 果 , 可 以 选 择 抛 弃 或 排 在 结 果 页 面 的 最 后 。 6.2 其 它 实 现 中 的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 加氢稳定装置操作工职业考核试卷及答案
- 感光材料乳剂熔化工上岗考核试卷及答案
- 环氧乙烷(乙二醇)装置操作工三级安全教育(班组级)考核试卷及答案
- 信息科学技术试题及答案
- 应用会计面试题及答案解析
- 银行信贷测试面试题及答案解析
- 保密专业试题及答案
- 小学语文人教部编版六年级下册《石灰吟》课件
- 畜牧考研专业试题及答案
- 测绘专业试题及答案
- 大班数学《年妈妈的故事》课件
- 知情同意书模板(新闻采访)
- 东北财经大学网络教育成人学位英语考试往年真题试卷
- 混凝土防渗墙单元工程施工质量验收评定表
- 恶性肿瘤中医诊疗指南
- 蓝色弥散简约国家资助政策宣传PPT模板
- 初中数学:《一元二次方程》大单元教学设计
- 大连理工大电力系统继电保护实验实验报告
- 健康社会决定因素课件
- 水法知识竞赛考试题库(120题)
- 国际贸易采购合同(中英文)
评论
0/150
提交评论