PowerConc 软件说明书.pdf_第1页
PowerConc 软件说明书.pdf_第2页
PowerConc 软件说明书.pdf_第3页
PowerConc 软件说明书.pdf_第4页
PowerConc 软件说明书.pdf_第5页
已阅读5页,还剩51页未读 继续免费阅读

PowerConc 软件说明书.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PowerConc 1 0 使用说明书使用说明书 ii 目目 录录 目目 录录 II 第一章第一章 POWERCONC 软件功能描述软件功能描述 1 1 1 软件配置 1 1 1 1 载入语料库 2 1 1 2 设置语料库的基本信息 3 1 1 3 设置屈折还原 POS 码归类相关信息 5 1 1 4 设置文件分组信息 6 1 1 5 设置 Concordance 的 Span 长度 7 1 1 6 设置 Concordance 的排序类型 7 1 1 7 设置 Concordance 的索引行显示类型 9 1 1 8 设置 Concordance 二次检索的范围 9 1 1 9 设置 Concordance 抽样类型 10 1 1 10 设置 Concordance 数据统计的模式 10 1 1 11 设置 Concordance 搭配计算的相关信息 13 1 1 12 设置 Wordlist 计算的相关信息 13 1 1 13 设置 Wordlist 关键性计算的相关信息 14 1 2 检索 CONCORDANCE 14 1 2 1 检索输入 15 1 2 2 结果显示 16 1 2 3 段落返回 17 1 2 4 二次检索 18 1 2 5 抽样 19 1 2 6 分页显示 20 1 2 7 统计和搭配计算 20 1 2 8 保存结果 21 1 3 统计计算 STATISTICS 21 iii 1 3 1 显示表格 21 1 3 2 显示 Plot Chart 23 1 3 3 显示分布信息 24 1 3 4 显示索引行 26 1 3 5 返回段落 27 1 3 6 保存计算数据 27 1 3 7 分页显示 28 1 3 8 排序 28 1 3 9 搭配计算 30 1 3 10 保存数据 30 1 4 搭配计算 COLLIGATE COLLOCATE 30 1 4 1 按 N gram 计算搭配 31 1 4 2 按 R gram 计算搭配 33 1 4 3 排序 33 1 4 4 显示索引行及返回段落 34 1 4 5 数据过滤 35 1 4 6 分页显示 36 1 4 7 保存数据 37 1 5 词表计算 WORDLIST 37 1 5 1 生成词表 37 1 5 2 计算分布信息 38 1 5 3 排序 39 1 5 4 显示索引行及返回段落 39 1 5 5 数据过滤 39 1 5 6 分页显示 40 1 5 7 关键性计算 41 1 5 7 保存数据 41 1 6 关键性计算 KEYNESS 41 1 6 1 载入主词表 42 1 6 2 载入参考词表 43 iv 1 6 3 调整参考词表语料库的大小 43 1 6 4 计算关键词 44 1 6 5 排序 44 1 6 6 显示索引行及返回段落 44 1 6 7 数据过滤 45 1 6 6 分页显示 45 1 6 6 保存数据 45 第二章第二章 POWERCONC 开发总结开发总结 46 2 1 POWERCONC与 ANTCONC WORDSMITH TOOLS的对比 46 2 2 POWERCONC的衍生产品 48 2 3 1 PowerRange 48 2 3 1 PowerColl 48 2 3 3 PowerKeyness 48 2 3 4 其它工具 49 附录一附录一 POWERCONC 功能列表功能列表 50 第第一一章章 PowerConc 软件软件功能描述功能描述 1 1 软件配置软件配置 PowerConc 将软件的配置分为两类 一类是比较常用的配置 如 选择数据 类型 设置 N gram 长度 这类的配置一般放在相应操作界面中 以方便用户使 用 另一类是全局性的配置或比较不常用的配置 如 语料库类型 Lemma 信 息 POS 码归类信息 文件分组信息 Span 长度等 这类配置放在单独的 Settings 界面中 针对全局参数的配置放在第一栏中 针对各个模块的配置放置在第二栏 中 如下图所示 2 1 1 1 载入载入语语料库料库 点击按钮 软件会根据指定的目录载入语料库文件 载入语料库 时可以选择是否包含子目录 如果选中 全部子目录内的文 件都将被载入 否则 PowerConc 只会载入目录最外层的语料库文件 语料库载入完毕后 语料库目录信息会显示在界面上 双击该目录信息 可以打开该相应的目录 软件载入语料库时 界面的日志窗口会显示相应的操作记录和信息 3 1 1 2 设置语料库的基本信息设置语料库的基本信息 软件支持五类语料 语料库载入后 系统会对语料库的格式进行自动识别 识别完成后 用户还可以进行手动修改 对于 Claws 软件标注过的的语料 可以 选择是否支持 Ditto Tag 如果选中 被 Claws 识别出来的固定 搭配 如 even if a little as soon as 等 在显示索引行和搭配计算时将会被当 作一个词处理 支持 Ditto Tag 的状态下 检索结果显示如下 支持 Ditto Tag 的状态下 搭配计算结果显示如下 4 不支持 Ditto Tag 的状态下 检索结果显示如下 不支持 Ditto Tag 的状态下 搭配计算结果显示如下 5 1 1 3 设置屈折还原 设置屈折还原 POS 码归类码归类相关相关信息信息 PowerConc 支持屈折还原和词性码归类 但是需要预先指定相关的列表文件 对于屈折还原 软件内置了一个还原列表 如果用户没有现成的列表 可以选择 使用这个内置的还原列表 它可以对 27000 多个词汇进 行屈折还原 屈折还原文件格式如下 软件将按列表中指定的对应关系进行屈折还原 6 POS 码归类文件格式如下 软件将按列表中指定的对应关系进行 POS 码归 类 把复杂抽象的 POS 转化成用户较为熟悉的词性信息 1 1 4 设置文件分组信息设置文件分组信息 PowerConc 在统计分布数据时 允许用户根据研究目的预先对文件进行分组 用户选择后 可以载入相应的分组规则文件 7 分组规则由正则表达式和组名构成 格式如下 用户可以在等号后面指定分组的组名 如果用户没有指定组名 软件将用正 则表达式作为相应的组名 1 1 5 设置设置 Concordance 的的 Span 长度长度 用户可以设置检索时返回语境的长度 PowerConc 支持的语境 span 范围 为 0 10 个词 默认值为 5 1 1 6 设置设置 Concordance 的排序的排序类型类型 PowerConc 最多支持 5 级排序 排序之前用户需要为每一级排序指定位置信 息和排序依据的数量类型 8 位置信息跟用户指定的左右 Span 的长度有关 数据的类型跟语料库的语言和语料库的格式有关 对于英语语料是否支持屈 折还原和 POS 码归类也会影响排序的数据类型 数量类型模式介绍如下 1 Both 模式 把 Word 和 POS 码 或其它语码 当做一个整体排序单位 进行排序 2 Word 模式 把 Word 当做排序的主体 忽略 POS 码信息 9 3 POS 模式 把 POS 码当做排序的主体 忽略 Word 信息 4 Lemma 模式 把 Word 屈折还原后的 Lemma 当做排序主体 忽略其它信 息 5 POSCategory 模式 把 POS 码归类后的词性信息当做排序的主体 忽略 其它信息 1 1 7 设置设置 Concordance 的索引行显示类型的索引行显示类型 对于赋码语料 用户可以分别设置返回索引号时 左 中 右三个位置的数 据显示的格式 如果选择 Both 模式 索引行将同时显示 Word 和 POS 码 如果选择 Word 将 只显示 Word 如果选择 POS 码将只显示 POS 码 1 1 8 设置设置 Concordance 二次检索的范围二次检索的范围 PowerConc 支持在检索结果中进行二次检索 用户还可以指定进行二次检索 的范围 10 1 1 9 设置设置 Concordance 抽样类型抽样类型 PowerConc 支持对检索结果进行抽样 选择 Enable Sample 后相应的功能区 将显示在 Concordance 的主界面上 PowerConc 支持循环和非循环两种抽样模式 如果选择了 Loop 模式 抽样 操作将进行迭代 抽样将在上次抽样的结果中进行 否则每次都将从全部索引行 中进行抽样 PowerConc 支持三种抽样模式 默认模式为随机模式 Random 即从全部数据中随机抽取指定数量的样本 其它两种抽样方式分别为等距模式 Isometric 和混合模式 Blended 等距模 式将按相等距离抽取指定数量的样本 混合模式将在指定数量的相等距离中随机 抽取抽取 1 条数据作为样本 1 1 10 设置设置 Concordance 数据统计的模式数据统计的模式 PowerConc 支持两种统计模式 11 选择 by Hit 模式 PowerConc 将按匹配的结果进行数据统计 选择 by Expr 模式 PowerConc 将按检索输入的表达式进行数据统计 如在检索界面载入以下批量检索内容 基于Smart Input语法的R gram列表 在 by Hit 模式下 进行统计时 PowerConc 将以命中的结果作为统计项 12 在 by Expr 模式下 进行统计时 PowerConc 将以输入的表达式或表达式 列表作为统计项 可见在 by Expr 模式下可以进行类似于 Range 的研究 批量检索一批 R gram 打开分布信息开关 便可以研究这些 R gram 在不同语料中 的分布情况 在对检索结果进行统计时 PowerConc 会计算语料库和每个语料库文件的大 小 即它们包含多少个词 如果选中 标点符号将被记入总数 否则标点符号将不被记入 13 1 1 11 设置设置 Concordance 搭配计算的搭配计算的相关信息相关信息 用户可以选择搭配计算的方式 系统的默认方式为 Log likelihood PowerConc 一共支持 MI MI3 Dice T Score Z Score Log Log Log likelihood 七种搭 配计算方式 是目前同类软件中支持搭配计算方式最多的软件 在此界面 用户还可设置搭配计算时和数据过滤时是否大小写敏感 以及数 据过滤时是否支持 Smart Input 语法 1 1 12 设置设置 Wordlist 计算的相关信息计算的相关信息 用户可以设置词表计算和词表过滤时是否大小写敏感 以及数据过滤时是否 14 支持 Smart Input 语法 1 1 13 设置设置 Wordlist 关键性关键性计算的相关信息计算的相关信息 用户可以选择关键性 Keyness 计算的方式 PowerConc 支持 Chi Square 和 Log likelihood 两种关键性计算方式 默认方式为 Log likelihood 在此界面 用户还可设置关键性计算时和数据过滤时是否大小写敏感 以及 数据过滤时是否支持 Smart Input 语法 1 2 检索检索 Concordance 检索模块的主界面如下 包含检索 批量检索 二次检索 数据过滤 数 据抽样 数据显示 分页显示 统计计算 搭配计算 结果保存等不同功能区 15 1 2 1 检索输入检索输入 PowerConc 支持单次检索和批量检索两种检索模式 单次检索时可以在输入 框中直接输入检索内容 用户可以选择是否支持 Smart Input 语法以及检索是大 小写是否敏感 当用户选中了之后 软件将切换到批量检索模式 原来的检 索结果将被清空 用户需要手动载入批量检索文件 16 批量检索文件每行只能包含一条记录 格式如下 1 2 2 结果显示结果显示 PowerConc 支持多种检索结果显示模式 左 中 右显示模式全部设置为 Both 时的显示情况如下 左 中 右显示模式全部设置为 Word 时的显示情况如下 17 左 中 右显示模式全部设置为 POS 时的显示情况如下 左 中 右显示模式分别设置为 POS BOTH 和 Word 时的显示情况如下 PowerConc 支持多种不同的排序模式 详情参见 1 4 6 1 2 3 段落返回段落返回 点击索引行的文件信息 PowerConc 将返回相应的段落信息 如果该段落不 是第一段或最后一段 PowerConc 将同时显示段落的前一段和后一段 18 用户点击界面的空白区域时 软件将关闭段落的显示 1 2 4 二次检索二次检索 检索完成后 用户可以在返回结果中进行二次检索 二次检索包含四个主要的开关 具体含义如下 1 开关控制是否大小写敏感 2 开关控制是否支持 Smart Input 语法 3 开关控制检索的模式 如选择 Exclude 模式 PowerConc 在二 次检索时将返回不满足输入条件的记录 反之 将返回满足输入条件的 记录 4 开关控制二次检索的范围 如选择 Loop 模式 PowerConc 将在 二次检索时进行迭代处理 也就是每次检索都将在上次检索返回的结果 中进行 反之 将从全部检索结果中进行 19 1 2 5 抽样抽样 在设置面板中开启抽样功能后 Concordance 界面上将显示抽样操作面板 默认的抽样数量为 30 条 点击按钮后 PowerConc 将按指定模式进行抽样 20 抽样结束后 PowerConc 将显示抽样的效果图 双击效果图 PowerConc 将调用系统图片浏览器打开更为清晰的大图 1 2 6 分页显示分页显示 考虑到显示效率的问题 PowerConc 每页默认显示 100 条记录 当结果大于 100 条记录时 用户可以通过下拉菜单定位到不同的记录 1 2 7 统计和搭配计算统计和搭配计算 检索完毕后 用户可以针对检索结果进行统计和搭配计算 21 1 2 8 保存结果保存结果 点击按钮后 PowerConc 会将检索结果保存成以制表符分隔的纯 文本文件 1 3 统计计算统计计算 Statistics 在检索完毕后 用户可以的对检索的结果进行统计 PowerConc 可以按不同 的数据类型对结果进行统计 并支持对分布数据的统计 1 3 1 显示表格显示表格 检索完毕后 点击按钮 PowerConc 将对检索结果进行统计 默认 情况下将以表格的方式显示统计数据 表格中第 1 行为语料库的大小 第 2 行为 检索结果的总数 相当于命中结果的 Tokens 总数 第 3 行为检索结果中不同记 录的数量 相当于命中结果的 Types 总数 22 如果用户选择 by Hit 模式进行统计 用户可以对统计时的数据类型进行 选择 对于 PowerConc 支持的五类不同语料 可供选择的数据类型如下表所示 语料类型语料类型 支持的数据类型支持的数据类型 1 英文生语料 Word Lemma 2 种 2 英文标注语料 Both Word POS Lemma POSCategory 5 种 3 中文生语料 Char Character 1 种 4 中文切分语料 Word 1 种 5 中文标注语料 Both Word POS POSCategory 4 种 23 如果用户选择 by Expr 模式进行统计 用户将无法选择数据类型 因为 PowerConc 将按输入表达式或表达式列表进行统计 而不是按命中的数据进行统 计 1 3 2 显示显示 Plot Chart 用户点击按钮后 PowerConc 将以线条图的方式显示检索内容在 整个语料库或语料库文件的分布情况 PowerConc 的分布信息是以单词为单位进 行计算的 这是 WordSmith Tools 采用的方式 而不是像 AntConc 那样 按单词 首字母的位置计算 24 1 3 3 显示分布信息显示分布信息 当用户选中了后进行统计 PowerConc 将显示相应的分布信息 统计表格 25 Plot Chart 因为显示 Plot Chart 比较浪费资源 PowerConc 采用了分页的方式显示数据 每页只显示部分数据 用户可以通过下拉菜单切换到不同的数据页面 第一个下拉菜单用于对统计项进行分页 第二个下拉菜单用于对文件或文件分组进行分页 26 1 3 4 显示索引行显示索引行 用户点击统计表格或 Plot Chart 表的相应区域 PowerConc 将会显示与该区 域数据对应的索引行信息 在显示分布的状态下 用户可以查看到不同文件或文 件分组中的索引行信息 27 1 3 5 返回段落返回段落 用户点击索引行的文件信息时 PowerConc 将返回段落信息 参考 2 2 3 1 3 6 保存保存计算计算数据数据 在以 Plot Chart 显示统计结果的状态下 如果要对位置信息或 Plot Chart 进行 保存 可以选中软件左上角的 此时 如果选中 Plot Chart 后 点击图表中的 Plot Chart PowerConc 将会把 28 图片保存成清晰的大图 如果选中 Location 后 点击图表中的 Plot Chart PowerConc 将会把位置百分 比信息保存成文本文件 1 3 7 分页显示分页显示 当统计数据或返回的索引行较多时 PowerConc 将以分页的方式显示数据 参见 1 3 3 及 2 2 6 1 3 8 排序排序 在以表格方式显示统计结果的状态下 点击每一列的表头 PowerConc 将以 该列为基础 对表格进行排序 和 Excel 的排序功能类似 29 按 Term s 排序 按频次 Freq 排序 按包含该内容的文件数量 File Count 排序 按某一语料库文件 TEXT16 排序 30 按某一语料库文件 TEXT14 排序 1 3 9 搭配搭配计算计算 在统计界面中 用户可以通过点击按钮 进行搭配计算 并切换 到搭配相应的界面 关于搭配计算的信息 请参考 2 4 1 3 10 保存数据保存数据 点击按钮后 PowerConc 会将统计结果保存成以制表符分隔的纯文 本文件 1 4 搭配计算搭配计算 Colligate Collocate 在检索完毕后 用户可以根据检索结果进行搭配计算 PowerConc 支持两类 搭配 一类是基于 N gram 的搭配 另一类是基于 R gram 的搭配 基于 N gram 的搭配 是指在某一搭配跨距 Col Span 之内 按指定长度构 造 N gram 然后计算这些 N gram 和节点 可以是词 N gram 或 R gram 的搭 配强度 基于 R gram 的搭配 是指在某一搭配跨距 Col Span 之内 根据用户指定 的 R gram 列表 逐一计算这些 R gram 和节点 可以是词 N gram 或 R gram 31 的搭配强度 如果在搭配跨距之内 某个 R gram 没有对应的匹配项 那么它在 该局部语境内的频次为 0 相应的搭配强度也为 0 参见 1 4 2 在 PowerConc 中 节点和搭配可以是词 N gram 或 R gram 中的任意一种 而 WordSmith 和 AntConc 等传统语料库分析软件只支持基于词的搭配计算 PowerConc 将搭配计算的范围扩展到了 N gram 和 R gram 有助于研究者对更为 复杂和抽象的搭配现象进行研究 PowerConc 搭配的参数配置参见 1 1 11 PowerConc 的搭配算法参见附录二 1 4 1 按按 N gram 计算搭配计算搭配 用户点击 Concordance 或 Statistics 界面中搭配计算按钮之后 软件 默认会以词 1 gram 为单位计算搭配 搭配强度将按 Settings 中的设置打方式 计算 用户可以对数据类型 计算搭配的范围 以及搭配的长度进行设置 默认的 搭配计算范围是左侧为 0 右侧为 1 搭配长度是 1 相当于词 32 PowerConc 在基于 N gram 计算搭配时支持多种数据类型 这意味这 N gram 可以由不同的数据类型构成 如 POS 码 Word Lemma 等 关于数据类型的介 绍请参考 2 1 3 Col Span 的长度在 0 和检索时设置的 Span 长度之间 如 检索时设置的 Right Span 为 5 那么 Right Col Span 的值仅能在 0 5 之间选择 Col Span 的长度不能 超过相应的 Span 的长度 Span 的长度 在 Settings 界面中设置 Col Span 的长度 33 1 4 2 按按 R gram 计算计算搭配搭配 PowerConc 在按 R gram 计算搭配时 需要使用用户指定的 R gram 列表 用 户选中后可以载入 R gram 列表 R gram 列表 根据 R gram 列表计算的搭配结果 1 4 3 排序排序 点击搭配结果表格中每一列的表头 PowerConc 将以该列为基础 对表格进 行排序 34 按 Log likelihood 进行排序 更多排序信息 请参考 2 3 7 1 4 4 显示索引行显示索引行及返回段落及返回段落 双击某一行数据 PowerConc 将显示该行数据对应的索引行信息 还可以进 一步返回段落 35 更多信息参见 1 3 3 1 4 5 数据过滤数据过滤 搭配计算完毕后 PowerConc 可以对数据进行过滤 过滤分为 by Value 和 by Expr 两种模式 在 by Value 模式下 将按数值的大小对数据进行过滤 此时 可供过滤的数据有以下 3 类 分别对应表格中的 3 列数据 36 by Value 模式下可供过滤的三类数据 在 by Expr 模式下 PowerConc 将根据输入内容对 Term s 一列的数据进 行过滤 Case Exclude 和 Loop 等开关的含义和操作可参考 2 2 4 1 4 6 分页分页显示显示 当返回的索引行较多时 PowerConc 将以分页的方式显示数据 参见 1 2 6 37 1 4 7 保存数据保存数据 点击按钮后 PowerConc 会将搭配结果保存成以制表符分隔的纯文 本文件 1 5 词表词表计算计算 Wordlist 语料库载入完毕后 用户可以进行词表生词 PowerConc 以 N gram 为基础 进行词表生成 同时支持不同的数据类型 关于数据类型的介绍 请参考 2 3 1 PowerConc 可以生成包含分布信息的词表 对词汇或 N gram 在不同语料库文件 或文件分组中的情况进行展示 1 5 1 生成生成词表词表 用户选择数据类型和 N gram 长度后 PowerConc 可以生成相应的词表 默 认的 N gram 长度为 1 相当于词 38 数据表格中前三行数据的含义参加 2 3 1 1 5 2 计算计算分布信息分布信息 用户选中后进行词表计算 PowerConc 将显示每个词 或 N gram 在不同文件或文件分组中的频次信息 在计算分布的情况下 PowerConc 会一同计算并显示有多少个文件或文件分组包含来包含该词 或 N gram 以及 该词 或 N gram 的 TF IDF 值 39 1 5 3 排序排序 参见 1 4 3 1 5 4 显示索引行显示索引行及返回段落及返回段落 用户点击结果表格的相应区域 PowerConc 将会显示与该区域数据对应的索 引行信息 还可以进一步返回段落 在显示分布的状态下 用户可以查看到不同 文件或文件分组中的索引行信息 1 5 5 数据过滤数据过滤 数据计算完毕后 PowerConc 可以对数据进行过滤 过滤分为 by Value 和 by Expr 两种模式 关于两种模式的介绍 请参考 2 4 5 在 by Value 模式下 如果没有计算分布数据 过滤数据只有 Freq 一 项 对于表格中的频次数据 40 如果计算了分布数据 可供过滤的条件将会增加 除了频次 Freq 外 还 会有命中的文件数量 File Count TF IDF 值 每个文件或文件分组中的频次等 关于数据过滤的其它操作请参考 2 4 5 1 5 6 分页显示分页显示 当返回的索引行较多时 PowerConc 将以分页的方式显示数据 参见 1 2 6 41 1 5 7 关键性计算关键性计算 词表计算完毕后 点击按钮 PowerConc 将显示关键词计算界面 关于关键性计算的信息参见 1 6 1 5 7 保存数据保存数据 点击按钮后 PowerConc 会将词表保存成以制表符分隔的纯文本文 件 1 6 关键关键性性计算计算 Keyness 词表生成完毕后 用户可进行词表的内容的关键性计算 即通常所说关键词 的计算 PowerConc 支持 Chi Square 和 Log likelihood 两种关键性计算方式 这 两种方式都是依据主词表频次信息 主词表语料库大小 参考词表频次信息和参 考语料库大小四个信息表来计算关键性 PowerConc 对目前语料库分析软件的关键词计算功能进行了扩展 把关键性 计算扩展到了 N gram 的范围 为了避免混淆 PowerConc 不称 关键词计算 而 称 关键性计算 42 PowerConc 在关键性计算方面的扩展主要体现在以下两个方面 1 长度 PowerConc 的词表计算是基于 N gram 的 所以只要提供相应参考 词表 PowerConc 便可以对 N gram 词表的关键性进行计算 而不仅 仅是针对词的关键性进行计算 2 数据类型 PowerConc 的词表支持不同的数据类型 如 Both POS 码 Word Lemma 等 只要提供相应的参考词表 PowerConc 便可以对 不同的数据类型进行关键性计算 如 POS 码的关键性 而不仅仅是 对词的关键性进行计算 1 6 1 载入载入主词表主词表 词表生成完毕后 点击按钮 将进入关键性计算界面 软件会把当 前词表载入作为主词表 此时主词表对应的语料库大小会显示在界面上 43 1 6 2 载入载入参考词表参考词表 为了计算当前词表的关键性 必须首先指定参考词表 参考词表的数据类型 和 N gram 的长度必须与主词表相同 否则没有计算的意义 参考词表的格式如下 每行一个词 词汇和频次信息由制表符分开 参考词表可以是一个完整的词表 即由整个参考语料库生成的完整的词表 此时系统将根据词表计算出参考语料库的大小 参考词表也可以是完整词表的一 部分 此时需要手动输入参考语料库的大小 1 6 3 调整调整参考词表语料库的大小参考词表语料库的大小 参考词表载入后 软件会根据参考词表中的频次信息自动计算参考语料库的 大小 如果载入的参考词表不是完整的词表 计算的结果将小于参考语料库的大 小 这时需要手动调整参考语料库的大小 如果设置的值低于程序自动计算的值 软件将给出错误提示 44 1 6 4 计算计算关键关键词词 当参考词表载入完毕 参考语料库大小设置正确后 点击按钮 程 序将开始计算词表的关键性 并把结果显示在表格中 1 6 5 排序排序 参见 1 4 3 1 6 6 显示索引行及返回段落显示索引行及返回段落 参见 1 5 4 45 1 6 7 数据过滤数据过滤 数据计算完毕后 可以对数据进行过滤 关于数据过滤的其它操作 请参考 2 4 5 1 6 6 分页显示分页显示 当返回的索引行较多时 PowerConc 将以分页的方式显示数据 参见 1 2 6 1 6 6 保存数据保存数据 点击按钮 PowerConc 会将计算结果保存成以制表符分隔的纯文本 文件 46 第第二二章章 PowerConc 开发总结开发总结 2 1 PowerConc 与与 AntConc WordSmith Tools 的对比的对比 PowerConc 并不是对 AntConc 和 WordSmith Tools 等软件的重写或复制 PowerConc 的设计原则如下 1 继承发扬 吸收以往语料库软件中那些已经被广泛接受的功能 如 检 索 词表等 在充分考虑用户体验的基础上 删繁就简 对这些功能的 设计 展示和实现方式进行优化 以降低学习成本和操作难度 并将它 们纳入 PowerConc 的统一设计框架之中 使软件设计具有高度一致性 其次 对这些功能进行扩展 丰富已有的功能 再次 对实现算法进行 优化 提高程序处理数据的能力和处理效率 2 推陈出新 根据语料库语言学最新研究动态 在功能设计中融入新的理 念 对现有语料库软件的空白进行补充 将 PowerConc 于 AntConc 和 WordSmith Tools 进行对比 可以发现以下几个 主要差异 1 学习成本和操作难度 三款软件中 PowerConc 的学习成本和操作难度最 低 只要具有一般软件操作的常识和语料库的基本知识 便可以很快掌 握 PowerConc 的全部操作 WordSmith Tools 的学习成本和操作难度是最 高的 它的功能非常繁杂 即使经验丰富的研究者也很难快速掌握它的 全部功能 WordSmith Tools 6 0 最新版 的说明书已经达到了 415 页 AntConc 的学习难度居中 但是配置过于复杂 不便操作 2 功能划分和界面布局 PowerConc 完全以研究者的视角来进行功能划分 和界面布局 全部功能的设计遵守统一规范 用户可以举一反三 参加 1 4 5 PowerConc 按功能区设计界面 每一个功能区只负责一项功能 这使界面功能一目了然 清晰易懂 WordSmithT ools 的功能规划和界面 设计非常混乱 不符合常规软件的设计原理 如果不借助说明书 仅靠 界面本身提供的信息 几乎无法进行操作 AntConc 在 WordSmithTools 的基础上对行了一定的优化和简化 但是在局部设计上 缺乏连贯性 不符合用户的思维习惯和使用习惯 造成了很多不便 47 3 主要功能 PowerConc和AntConc对WordSmith Tools的功能进行了取舍 分别实现了 WordSmith Tools 的检索 词表 关键词计算三大核心功能 AntConc 几乎是对 WordSmith Tools 三大功能的简化和重写 相对 WordSmith Tools 而言没有本质的变化 PowerConc 以 R gram 为基础重 新设计并实现了这些功能 使语料库软件的功能得到了扩展 4 功能创新 WordSmith Tools 不支持正则表达式 这使它的功能受到了极 大的限制 同时 WordSmith Tools 对 N gram 和分布的支持也非常有限 WordSmith 历史最为悠久 版本较多 但每一个新版本的变化都不是太 大 通常只是加入了个别的新功能 而原有的功能几乎没有任何改变或 优化 AntConc 加入了对正则表达式的支持 但是相对 WordSmith Tools 而言 其它功能并无太多创新 PowerConc 最大的创新是对 R gram 和 Smart Input 的支持 它使语料库研究的范围得到了扩展 同时 PowerConc 对数据分布统计也具有很好的支持 弥补了 AntConc 和 WordSmith Tools 的不足 5 算法效率 因为功能设计的差距 三个软件很难直接对算法效率进行对 比 整体而言 AntConc 的算法效率最低 对数据量的大小很敏感 容 易死机或意外退出 WordSmith Tools 的效率一般 算法没有进行合理的 优化 个别计算要耗费大量的时间 PowerConc 在算法优化上做了大量 尝试 最大程度上避免了数据拷贝带来的资源浪费 同时一些模块使用 了缓存方式来避免信息的重复计算 使计算效率大大提升 6 可扩展性 PowerConc 基于面向对象方法 Object Oriented Method 开 发 核心功能被封装在不同的类 Class 中 实现了界面和功能的分离 这使 PowerConc 具有非常好的扩展性 一方面 可以不断对现有功能进 行升级和维护 也可以加入新功能 另一方面 可以利用这些核心功能 类 开发出一系列衍生产品 这些优势是 AntConc 和 WordSmith 等软件 不具备的 WordSmith Tools 的升级和维护几乎是用打补丁的方式进行 的 这使 WordSmith Tools 的文件越来越多 安装包越来越大 操作也越 来越复杂 WordSmith Tools 6 0 的安装文件有 54M 安装后有 108 个文 件 而 AntConc 和 PowerConc 都是绿色软件 不需要安装 AntConc 3 2 4 48 最新版 的大小是 4 4M 而 PowerConc 只有 1 4M 7 多系统支持 PowerConc 和 WordSmith Tools 目前只支持 Windows 操作 系统 AntConc 支持多个系统 PowerConc 在未来会加入对 Mac OS 和 Ubuntu Linux 系统的支持 8 软件性质 WordSmith Tools 是商业软件 用户需要购买许可后才能使用 AntConc 是免费产品 用户不需要付费 PowerConc 也计划以免费产品 的形式提供 2 2 PowerConc 的的衍生产品衍生产品 PowerConc 不仅实现了 Concordance 功能 还实现了 Wordlist 功能 其它三 个功能 Statistics Colligate Keyness 都以这两个功能为基础 实际上 PowerConc 的底层代码把以上各个功能进行了独立封装 功能的调用与界面完全分离 根据 不同的研究需求 利用这些功能可以开发出不同的语料库分析软件 2 3 1 PowerRange 传统的 Range 软件主要是研究词族在不同文件中的分布情况 利用 PowerConc 的检索模块和统计模块 可以开发出基于 R gram 并支持文件分组的 Range 计算工具 PowerRange PowerRange 将继承 PowerConc 的灵活性 使 Range 研究的范围得到扩展 2 3 1 PowerColl 利用 PowerConc 的检索模块和搭配计算模块 调整处理逻辑后 可以开发出 计算的搭配 Collocate 和类连接 Colligate 的分析软件 PowerColl PowerColl 将继承了 PowerConc 的灵活性 同时支持针对 N gram 和 R gram 的搭配计算 并对数据分布情况进行计算 2 3 3 PowerKeyness PowerConc 的 Keyness 计算是作为 Wordlist 的附件功能实现的 把 PowerConc 49 的 Keyness 计算模块剥离出来后 可以开发出专门计算 Keyness 的分析工具 PowerKeyness PowerKeyness 将继承了 PowerConc 的灵活性 支持基于 N gram 和 R gram 的 Keyness 计算 同时支持多种不同的数据来源 数据类型数据类型 参考数据类型参考数据类型 模式 1 语料库 语料库 模式 2 语料库 词表 模式 3 词表 语料库 模式 4 词表 词表 对于 模式 1 模式 2 和 模式 3 PowerKeyness 将根据不同的语料库 生成词表 然后再根据词表内容计算 Keyness PowerConc 中 Keyness 的计算模 式当于上表中的 模式 2 2 3 4 其它其它工具工具 PowerConc 的基本模块可以自由组合 同时对批处理具有良好的支持 利用 这些特点 可以根据不同的研究需求 按相应的处理逻辑开发出不同的软件 PowerConc 的核心功能还可以封装成 dll 供第三方程序调用 50 附录附录一一 PowerConc 功能列表功能列表 模块名称模块名称 功能名称功能名称 功能描述功能描述 S

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论