gCLUTO中文说明书.pdf_第1页
gCLUTO中文说明书.pdf_第2页
gCLUTO中文说明书.pdf_第3页
gCLUTO中文说明书.pdf_第4页
gCLUTO中文说明书.pdf_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

gCLUTO 使用说明书使用说明书 Matt Rasmussen Mark Newman 明尼苏达大学 版权 2003 最后修改 CST 2003 年 1 月 20 日 星期一 12 33 38 http www cs umn edu mrasmus gcluto 2 目目 录录 1 说明 3 1 1 gCLUTO 简介 3 1 2 gCLUTO 特征 3 1 3 版本说明 3 2 gCLUTO 安装 3 3 gCLUTO 使用 4 3 1 概述 4 3 2 创建新项目 5 3 3 导入数据 5 3 4 数据聚类 6 3 5 可视化方案 8 3 5 1 可视化矩阵 8 3 5 1 可视化矩阵 缩放比例 9 3 5 1 可视化矩阵 树状图的使用 8 3 5 2 可视化山丘 10 3 1 1 说明说明 1 1 gCLUTO1 1 gCLUTO 简介简介 gCLUTO Graphical Clustering Toolkit 图形聚类工具包 是 CLUTO 数据聚 类文库的图形前端 它的目的是使 CLUTO 以用户友好的图形方式进行聚类 另外 gCLUTO 还提供了交互式聚类结果可视化的几种方法 在 http www cs umn edu mrasmus gcluto 可下载 gCLUTO 关于 gCLUTO 的更多 信息请访问 http www cs umn edu karypis cluto 1 2 1 2 gCLUTOgCLUTO 特征特征 gCLUTO 具有以下特征 管理数据文件 聚类方案和可视化方案的项目树视图 选择聚类选项的详细对话框 浏览数据的扩展表界面 浏览聚类方案的 HTML 界面 可视化矩阵 一个彩色的交互式矩阵 可视化山丘 多维标度法生成的三维山丘聚类图形 1 31 3 版本版本说明说明 gCLUTO 目前正处于初始期 发行的目的是开发出可以最好地应用于聚类分 析的特征和用户界面 2 2 gCLUTOgCLUTO 安装安装 目前 gCLUTO 适用于 Linux 和 Microsoft Windows 平台 在 http www cs umn edu mrasmus gcluto 找到 gCLUTO 的最新版本 下载并在你电脑的任意位置解压文档 阅读README txt 文件以将正确版本的gCLUTO 载入你的操作系统 Windows 用户可以通过将 gcluto exe 放入资源管理器来创建桌面快捷方 式 右击图标 将其拖至桌面 从弹出的菜单中选择 在此创建快捷方式 Linux 用户可以创建一个符号链接至 gcluto 并将符号链接置在最方便使 用的地方 4 注意 实际的可执行文件 gcluto gcluto exe 必须在其所在的文件夹内 才可保证程序的执行 请勿将其重新定位 3 3 gCLUTOgCLUTO 使用使用 3 1 3 1 概述概述 图 3 1 gCLUTO 界面 数据聚类时 会涉及到多个信息 如数据文件 聚类方案文件和可视化方案 文件 像许多其他应用一样 gCLUTO 使用 项目 的概念来组织用户的数据和 工作流 当一个项目载入 它的内容将会在树状图中显示 见图 3 1 a 树状图中的图标为项目中的项 项目 代表项目本身 是项目树的根 数据 将数据导入项目后 数据图标就会出现在项目树上 一个项目 可包含许多不同的数据项 方案 对某个数据项聚类后 方案图标就会生成并置于聚类数据项的 下方 可视化矩阵 这是聚类后生成的一个可视化方案 所有的可视化方案 都出现在它们所源自的聚类方案下方 可视化山丘 这是另一个可视化方案 它尝试从三维的角度来描述 类群之间的相互关系 5 在任意项上右击会弹出菜单列出该项上可执行的操作 双击可以在一个叫作 视图 的新窗口中打开该项的内容 类似于图 3 1 中的 b c d 当 在其中一个视图中工作的时候 菜单栏就会出现该视图特有的菜单选项 3 3 2 2 创建新项目创建新项目 gCLUTO 第一次打开时是一个空的项目树 我们必须创建一个新的项目树以 开始工作 在菜单栏选择 File 再选择 New Project 就会出现一个对 话窗口 命名项目并在指定位置保存 gCLUTO 将会生成一个目录 称为项目目录 项目目录以项目命名并存储在 特定位置 与该项目相关的信息都会存储在项目目录里 打开已有项目需选择 File 再选择 Open Project 然后会出现对 话框 确定项目目录的位置并打开它 项目目录内会有一个 project name prj 文件 project name 为项目名 选择这个文件点击 打开 这些步骤后 项目树的项目将被载入并显示 3 3 3 3 导入数据导入数据 gCLUTO 接受的数据类型与 CLUTO 相同 参见 CLUTO 的说明书可详细了解具 体的数据类型 以下类型的文件可用于创建新的数据项 matrix file mat 包括致密矩阵 稀疏矩阵 或者代表聚类数据 的相似性图形 row lables rlabel 包含数据矩阵的行标签 column labels clabel 包含数据矩阵的列标签 class labels rclass 包含数据矩阵的行标签集 导入新的数据项 在菜单栏上选择 Project 再选择 Import Data 出现的导入数据对话框允许用户打开指定位置的上述几种文件类型 点击 Browse 将弹出文件对话框 允许用户定位所需文件 对于 txt 文件可选择 Delimited File 进行导入 只有 mat 文件要求用户必须通过适当的选项指定 mat 文件包含的是矩阵数据还是图形数据 6 如果先选择 mat 文件 gCLUTO 会尝试通过为 mat 文件名加上扩展名来推 测可选文件 rlabel clabel rclass 的位置 例如 对于名为genes mat 的文件 gCLUTO 会推测genes mat rlabel为行标文件 如果这个文件存在 gCLUTO 会将它作为默认文件并在 Browse 文件对话框中打开 当指定这些文件后 用户可为该数据项设定标签 如不设定 数据项将以除 去扩展名的 mat 文件作为标记 在导入数据对话框点击 OK gCLUTO 将试着 读取所选文件 如果没有遇到错误 gCLUTO 将添加新的数据项至项目树并打开 数据视图 数据视图允许用户浏览数据 核实其是否被正确导入 例如 若想导入 julei txt 这个矩阵文件 可选择 Delimited File 并在 Deliminated File Option 中选择以首行 列 作为行 列 标 Delimiters 选择 Tab 最后点击 OK 即可完成 julei txt 文件的导入 3 4 3 4 数据聚类数据聚类 如果按照 3 3 中介绍的步骤导入数据 那么就可以准备数据聚类了 开始聚 类有两种途径 第一种是右击项目树中的数据项 在弹出菜单上选择 Cluster 第二种是数据视图打开后在菜单栏 Data 下选择 Cluster 在任一菜单选择 Cluster 后会出现聚类选项对话框 包含用于聚类的所有 选项 只有特定的选项在一起才有意义 随着用户作出选择 gCLUTO 会自动更 新对话框以确保选择的合理性 Cluster Method 聚类方法 有四种 Repeated Bisection 重复二分法 Direct 直接聚类 Agglomerative 凝聚聚类 和 Graph 图形聚类 其 各自特点如表 1 所示 用户可根据实际需要选择恰当的聚类方法 表表 1 1 算法特点简述表算法特点简述表 聚类算法 特点简要介绍 RB K way 算法遵循重复二分法的系列步骤计算 Direct 整个 K way 算法仅仅在一步直接计算 Agglomerative 传统的凝聚聚类算法 Graph 基于聚类算法的图形分散切割 优化各种相似度参数 7 Number of Clusters 聚类数量 可先默认选择 10 类 然后根据聚类结果 的好坏重新聚类 直到得到用户比较满意的结果为止 Similarity Function 相似性函数 有 Cosin Correlation Coefficient Euclidean Distance 三种 默认选择 Cosin Criterion Function 判别函数 包括 I1 I2 E1 G1 G1 H1 H2 不同的判 别函数有时可产生明显不同的聚类方案 通常 数量相当的聚类 I2 H2 比 E1 G1 聚类效果好 用户可根据所应用的领域事先做些试验 以选择适用的函数 注意 凝聚聚类的计算复杂性取决于所选的判别函数 尤其是 如果聚类对象的 数量为 n 那么 H1 H2 的计算复杂度为O n3 而其余函数的计算复杂度为O n2 log n 图 3 2 判别函数 聚类时 判别函数可默认选择 I2 其余聚类选项均默认即可 选好聚类选项后 在聚类选项对话框点击 Cluster gCLUTO 完成聚类计算 后 项目树中数据项下会生成聚类方案项 gCLUTO 还会自动打开类似于图 3 1 中 b 的聚类方案视图 视图中包括聚 类的选择和一些关于所得类群的统计学指标 见表 2 这个报告是根据 CLUTO 的 报告设计的 另外 这个报告中还包含链接 类似于网页 点击这些链接可实现 相关信息的快速导航 8 表表 2 2 聚类报告中参数对照表聚类报告中参数对照表 参数 参数含义 Cluster 聚类所得的类群 Size 聚类对象数量 Isim 类内对象间平均相似度 Isdev 类内对象间平均相似度的标准差 Esim 类间平均相似度 Esdev 类间相似度的标准差 gCLUTO 可对相同的数据聚类多次 如果之前聚类的数据要再次聚类 聚类 选项对话框中将出现上次聚类所使用的选项 右击项目树中想要重新聚类的聚类 方案项 在弹出菜单选择 Recluster 重新选择聚类选项生成特定的方案 gCLUTO 的这个特征使聚类选择的调整过程变得容易 3 5 3 5 可视化方案可视化方案 目前 gCLUTO 包含两种可视化方案 可视化矩阵和可视化山丘 可在 solution 菜单选择想要得到的可视化方案 右击项目树上的聚类方案项或在 当前正在运行的解决方案视图的菜单栏 Solution 下 都可找到生成可视化的 菜单 3 5 13 5 1 可视化矩阵可视化矩阵 gCLUTO 可视化矩阵类似于 CLUTO 可视化矩阵 前者通过使矩阵具有交互性 而扩展了后者 在可视化矩阵中 颜色代表原始数据矩阵中的数值 gCLUTO 用白色代表接 近零值 逐渐加深的红色代表较大的数值 逐渐加深的绿色代表负值 矩阵的行 重新排列 使得同一类的行列在一起 黑色的水平线隔开各个类 9 图 3 3 可视化矩阵 若建立树状图可行 在可视化矩阵的上方和左侧则会出现树状图 若使用了 凝聚聚类法 聚类时所产生的树显示为行树 否则 树状图的产生则要适合聚类 方案 列树产生于凝聚聚类法对矩阵列的聚类 如果导入数据时选择了行标签和列标签 那么它们将显示在矩阵的下方和右 侧 只有当空间允许时才会显示这些标签 为了帮助用户探查可视化矩阵包含的信息 gCLUTO 执行了一些功能 一是 矩阵的大小可用多种方式缩放 二是在矩阵中可折叠或扩展感兴趣的区域 3 5 13 5 1 可视化矩阵可视化矩阵 缩放比例缩放比例 缩放矩阵最简单的方法就是利用矩阵正上方的缩放控制 在文本框内输入新 的尺寸 或者点击上或下的箭头缩放比例就会改变 控制标签 W 控制矩阵的 宽度 H 控制高度 这些缩放控制改变整个矩阵的大小 方便缩小或放大矩 阵中感兴趣的区域 很多时候 用户需要放大矩阵中的某一区域 而缩小某些不重要的区域 这 种形式的缩放软件也可以做到 只对矩阵的一部分重设尺寸时 先选定该区域 点击任一单元格 拖动鼠标至另一单元格 这两个单元格将成为选定区域的角 选定的单元格会变成蓝色 将鼠标放在区域的任一边上 光标会变成重设大小的 光标 点击并拖拽边至期望的位置 即可为选定的区域重设大小 选定的单元格 也会相应重设以适应新的区域 最后 选择菜单栏 Matrix 再选择 Reset Sizing 矩阵还可恢复原来的缩 放比例 在 Matrix 菜单选择 Fit to Screen 矩阵还可自动缩放适应屏幕大 小 10 3 5 13 5 1 可视化矩阵可视化矩阵 树状图的使用树状图的使用 行树和列树可用来折叠或扩展矩阵 树的蓝色方块代表完全展开的节点 点 击任意展开的节点即可折叠它 折叠的节点显示为粉色方块 当节点折叠 它所 有的派生点都会隐藏 如果行树中的节点折叠 折叠区域中的所有行都会隐藏 并被包含平均值的单行取代 简单地点击折叠的节点即可将其再次扩展 列树的 操作方式与此相同 区域折叠 描述的标签就会改变 如果区域包含的行都属于相同的类 那么 标签就是该类的类号 如果折叠区域内含有多个类 那么标签将为 multi cluster 复合类 可视化山丘用于可视化类群的相对相似性 聚类的数量 类内相似性 类内 标准差 可视化山丘中 每个类群被描述为三维地形的一个山丘 山丘的位置 体积 高度和颜色都描绘了相关类群的信息 在三维显示图上点击和拖拽鼠标可为用户导航 不同的鼠标键执行不同的动 作 左键 旋转地形 右键 上 下 左 右移动地形 中键 缩小放大 平面上山丘的位置决定于对各类中点所用的多维标度法 当将顶点从高维空 间绘至低维空间时 多维标度法尝试保持顶点间的距离 在这个应用中 多维标 度法将类群中点作为顶点 并将其画到二维平面上 3 5 23 5 2 可视化山丘可视化山丘 11 图 3 4 可视化山丘 多维标度法允许用户利用可视化山丘对他们的数据作出推测 例如 图 3 4

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论