版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、WordSmith Tools 是一个在 Window 下运行的用来观测文字在文本中的表现的 功能强大的综合软件包。 它共包含 Concord (语境共现检索工具 )、WordList (词频列 表检索工具)、KeyWords(关键词检索工具)、Splitter (文本分割工具)、Text Converter (文本替换工具)、Viewer (文本浏览工具)等六个程序,其中前面三个程序是主要 的文本检索工具,后面三个程序属于辅助性工具。这六个程序的各项设置由一个叫 WordSmith Tools Controller (文字匠工具控制器)的程序来控制。II 各个工具的操作和主要功能介绍:1 C
2、oncord1)基本操作过程:在 WordSmith Tools Controller 窗口中选择 Tools 选项。当该选项打开, 你就 会看到 Co nco rd 。单击它, Concord 的窗口将打开。按下 按钮, 将出现一个对话框, 选择将进行语境共现检索的文本文件。 确定一个检索词或短语。如果要改变设置,按 Horizons etc 按钮,对缺省的设置值进行修改。按 Start Concordance 按钮,检索开始。窗口上出现检索进行的状态条。检 索结束,结果显示在 Concord 的窗口。如果要保留 语境共现检索的结果,按按钮存盘 。2)主要的功能:语境共现 (Concorda
3、nce):语境共现(Concordanee)的窗口显示:语境共现(Concordanee)的窗口包括六个纵列,例如:A. N 列:显示检索项的数目。B. Concordance 列:显示语境共现检索的结果。C. Set 列: 在这一列, 用户可以使用任何字母对条目进行分类。例如,如果你想对检索词的动词和名词用法进行归类,你可以键入字母V或N。要清除键入的字母,按 0(零)。D. Tag 列:显示最接近的标记符号。E. Word No. 列:显示检索词在文本中的位置。 例如, 上面例子中条目 1 的检 索词 good 是文本的 2,265 个单词。F. File 列:显示源文本的文件名。G. %
4、 列:以百分比的形式显示检索词在文本中的位置。要想得到有关语境共现检索的结果的更多的信息,按下面的按钮:按 按钮 ,可增加语境共现检索的结果每行的显示量,按按钮 ,可减少语境共现检索的结果每行的显示量。按 ()按钮,可启动文本浏览工具( Viewer ),对源文本进行查看。按 按钮,可查看检索词在规定的语境范围内的搭配词的情况。例如,下图是 在上例中检索词 good 在左右各五个词的语境范围内的搭配词的情况。 从图中可 以知道,搭配词 very 共出现 29 次,其中在 good 的左边 26 次,右边 3 次,而在左边的 26 次中有 23 次是作为左边的第一个单词出现。按 ( )按钮,可打
5、开检索词分布图窗口。检索词分布图窗口显示的内容如下:File源文本文件名Words源文本文件中单词的数目Hits找到的检索词的数目per 1,000每千字检索词的数目Plot检索词分布图显示检索词在文本中出现的位置按 按钮, Concord 将检索语境共现检索的结果中的句子,找出重复出现的字串(word clusters)。字串的大小的推荐值一般为2 4个字,最低出现率为3个。例如:按()按钮,打开用词类型(Patterns)窗口,显示临近检索词的单词的统计资料。这些单词按出现频率的高低从高到低排列。例如:取消检索词按空格键或选择窗口 View 选项中的 Blanked out, 语境共现检索
6、的结果中的检索词 将被一行星号代替。要恢复检索词,重复一次前面的操作。对语境共现检索的结果重新排序语境共现检索进行时,检索的结果是以语境在文本中的出现顺序排列的。当语境共现检索一完成,它就会以当时的缺省设置进行重新排序。如果不想重新排 序,将缺省值设定在 File, File 位置。语境共现检索的结果重新排序有以下几种 方式:A. 根据检索词的左或右的某个位置的单词进行排序。B. 根据检索词本身进行排序。C. 如果有语境词,可根据语境词进行排序。D. 根据最近的标码符号进行排序。E. 根据与最近的标码符号的距离进行排序。F. 根据用户自己的分类进行排序。G. 根据在文本中的出现顺序排序。语境共
7、现检索结果的重新排序,可以根据三重标准同时进行。这三重标准分别在 Main Sort, then by, finally by 三个对话框中设定。 另外, 重新排序时, 可以设置区分或不区分大小写,按升序还是降序排列,既可以将所有的检索项重新排序,也可以设定将一定范围内的检索项重新排序。保存和打印语境共现检索结果可以将语境共现检索的结果保存为文本文件或是可以在Concord再打开的文件。按下F3或选择File的Print选项,将打印语境共现检索的结果。3) 参数设置:检索词(search word):A. 检索词可以是一个单词,一个短语或是一个包含许多检索词的文本文件。B. 按照缺省设置,Co
8、ncord进行的是不区分大小写的整词检索。格式如下:结果bookBookor book or BoOkbookbook, books, book ing,booked*booktextbook (but nottextbooks )bo* inbook in, books in, book ing in (but not book into )book * hotelbook a hotel, book the hotel, book my hotelbo* in*book in, books in, book ingin, book intobook?book, books, book; b
9、ook.bookAbook, booksbAAkbook, back, bank, etc.=book=book (but not BOOKr BooRbook/paperbackbook or paperback符号意义例子*代表多个任意字符book*?代表单个任意字符(包括标Engl?点符号)A代表单个任意字母FrAncA=区分大小写=French=Fr*=:表示一个可包含多达 500c:textfr个检索词的文本文件 ( 参看d.txt帮助中的 file-basedsearch words)/分隔多个检索词。你可以选may/can/wi择多达 15 个检索词,但字符ll的总数不能超过 8
10、0。如果要使用 or / 作为检索词中的一个字符,要将这些符号放到双引号内,例如:n*nWhy?and/or语境词 (context word):A. 为了限制语境共现的检索,可以指定一个语境词在检索词的规定的语境范围内出现或不出现。B. 语境词的输入格式与检索词的相同,只有一个不同的符号 。 表示该词在规定的语境范围内不出现。例如:当 search word 是 book 而 context word 是 hotel* 时, Concord 将只会找到 hotel or hotels 出现在其 语境范围内的 book 。当 search word 是 book 而 context word
11、是 paper * 时, Concord 将只会找 到 paper or papers 不出现在其 语境范围内的 book 。语境范围 (horizons):语境范围设置限定在语境共现中检索词的左右两边各可以出现多少个单词。最高 值是 左右两边各可出现 25 个单词。检索项的数目( entries wanted) :语境共现中检索项的数目的最大值可达16 ,368 行。 但用户可以在 Controller 的Adjust Settings | Concord 选项中对检索项的数目自行定义,还可以设定 Concord 对检 索项进行随机抽取。搭配词 (collocate):搭配词的最短长度为一个
12、字母,最低出现频率为一次。但是在语境共现中出现一 两次的搭配词是不能说明什么问题的。用户可以在 Controller 的 Adjust Settings | Concord 选项中对搭配词的最短长度和最低出现频率自行定义。2 Wordlist1) 基本操作过程:在 WordSmith Tools Controller 窗口中选择 Tools 选项。 当该选项打开, 你就 会看到 WordList 。单击它, WordList 的窗口将打开。按 Make a word list now 按钮,检索开始。窗口上出现检索进行的状态条。检索结束, WordList 出现三个窗口显示检索结果。 这三个窗
13、口分别显示以字 母为序的词频列表,以频率为序的词频列表以及综合统计数据。如果要保留词频列表的结果,按 按钮存盘 。2) 主要的功能:创建词频列表 (word lists):词频列表 (word lists) 的窗口显示:以字母为序的词频列表的窗口(部分)显示如下:以频率为序的词频列表的窗口(部分)显示如下:综合统计数据的窗口(部分)显示如下:创建单词索引列表 (index lists):单词索引列表的作用是记录所有单词在文本中的位置,以便了解每个词在文 本的那一部分出现。另一作用是加快对列表中单词的检索处理,例如,如果选择 列表中一个或多个单词,按下 按钮,就会得到快速的语境共现检索的结果。
14、另外, 在单词索引列表中, 还可以计算单词与那些词搭配以及与搭配词的相关值 ( “ Mutual Information ” sc)ores建立单词索引列表打开 Controller , 选择 Adjust Settings | Indexing 选项,进行以下的设置:A. 确定单词索引列表的路径和文件名。B. 激活 Actitated 对话框。C. 激活 File order too 对话框(非必选)。D. 选择出现多少次的高频词要被删除。E. 按 OK 按钮。打开 WordList, 选择菜单 Index 的 New Index 选项 , 指定要进行操作的文 本文件,再选择 Index 的
15、 New Index 选项。检索结束,将在指定的路径生 成三个扩展名分别是*.wdx, *.xfo,和*.xal的文件。浏览建立的单词索引列表:打开 WordList, 选择菜单 Index 的 Alphabetical List 选项或 File Order List 选项。选定要打开的单词索引列表文件, 就可以浏览建立的单词索引列表。 例如:计算相关值 (mutual information) :A. 要计算相关值,单词索引列表必须是在激活了“File Order too 复选”框的情况下建立的。B. 选择菜单 Index 的 Alphabetical List 选项,打开建立的单词索引列
16、表。C. 按 按钮,选择要计算相关值的词条, 然后按 按钮。如果没有选择任何词条,按 按钮将计算单词索引列表的所有词条的相关值。 例如,在上图中,词条 answer 在文本的最常见的搭词是know,它们的相关值4.48。词频列表的批处理 用户可以一次选择多个文本进行词频列表的创建。例如,选择10 个文本同时进行词频列表,既可以得出一个基于 10 个文本的大的词频列表,也可以得出十个分别 基于 10个文本的的词频列表。字串的词频列表:词频列表不必一定以单词为单位, 也可以以 2-8 个单词的字串为单位创建词频列表。 选择 WordList 主菜单的 Settings | Min. & Max.
17、Frequencies 选项,激活复选框,选择 字串的大小,就可以进行字串的词频列表。对词频列表的编辑:合并词条到同一词类 (Lemmatisation): 例如,你可以将属于不同类型 (type) 的词条 want; wants; wanting; wanted 合并到同一词类 (lemma) want 中。 手动合并:A. 使用 F5 选定要合并的词条, 第一个被选定的词条将成为词类 (lemma) 的名称 (head)。B. 使用 F4 可将所有选定的词条合并。基于文件的合并:建立一个将属于同一词类的不同类型(type) 的词分组归类的文本文件(例如,be-was, is ,were,
18、am, are go-goes, going, went, gone )。按 按钮, WordList 将根据 文本文件的分类为标准对当前词频列表的所有词条进行词类(lemma)合并。词类(lemma)合并结束后,按按钮,将显示重新计算的综合数据。词频列表的排序: 按 按纽或F6,可对词频列表重新排序。选择正确的语言:许多语言有自己特殊的字母排列顺序,所以在排序或重 新排序之前, 应检查是否在语言选项选择了正确的语言。 另外,在缺省值中, 某些语言中的带重读符号的字母与不带重读符号的同一字母是同等对待的。 按单词结尾排序: 选择反向排序选项 (Reverse Sort), 可以按单词的结尾的字
19、 母顺序排序。这样,就能将以某种后缀结尾的单词,例如, -ing 形式结尾的 单词列在一起。比较两个词频列表: 选择 WordList 中 Comparison 菜单下的 Compare 2 Wordlists 选项,选中两个要进行对比的词频列表, 就可以对两个词频列表进行比较。 这一功能可以帮助进行文体方面 的比较。例如,比较一篇文章的不同译本中对某个词的不同翻译。简单一致性分析: Consistency Analysis (simple)这一功能可以对超过五十个词频列表一次性进行比较分析, 然后生成一个基于所有文 本的词频列表。 这一功能可以帮助找出哪些词是在大量的某一特定类型的文本中一贯
20、 出现的。详细一致性分析: Consistency Analysis (Detailed) 这一功能与简单一致性分析的功能完全一样, 只是提供的分析更为详细, 而且进行分 析的词频列表不能超过五十个。这一功能可以帮助进行文体方面的比较。3 KeyWords1) 主要功能:KeyWords 主要作用是确定某个文本的关键词是什么以及它们在文本中的 位置。要实现着这一目的,必须先用 WordList 工具建立两个单词列表。这 两个单词列表中, 一个是根据要考察的文本建立的, 而另一个作为参照的单 词列表, 必须是根据较大型的由同类文本组成的语料库建立的。 大的单词列 表将为比较提供背景数据。文本中的
21、关键词( key words ),是指在两个单词列表的比较中得出的那些 在所考察文本中出现频率突出的词。 得出的关键词以它们在文本中的出现频 率的突出程度由高到低排列。KeyWords 的潜在用途包括:语言教学,文体研究,文本内容分析,文本归 档等。2) KeyWords 的参数设置 在 Controller 中的 Adjust Settings/KeyWords 选项下,可以对以下的参数进行设置:a 最大的 P 值。b 关键词列表的最大数目。(缺省值是500)c 关键词在所考察文本中的最低出现频率。(缺省值是3 次)3)基本操作过程:你就在 WordSmith Tools Controlle
22、r 窗口中选择 Tools 选项。 当该选项打开, 会看到 KeyWords 。单击它, KeyWords 的窗口将打开。按下 按钮,将出现一个对话框,在对话框选择一个要进行研究的单词列 表和一个作为参照的单词列表。按 OK 按钮,检索开始。窗口上出现检索进行的状态条。检索结束, KeyWords 出现一个窗口显示关键词列表。如果要保留关键词列表的结果,按 按钮存盘 。 关键词列表的显示窗口包括以下内容(见下图): a 每个关键词。b 关键词在所考察的文本中的出现频率。c 要考察的文本的文件名及百分比。d 关键词在参照文本中的出现频率。e 参照文本的文件名及百分比。f 关键词的关键值。g p 值。4)对关键词列表的结果的编辑:按窗口中的 按纽,将会显示关键词在文本中的分布图。每按一次 按纽,关键词列表的结果将会按照下面的顺序循环排序:以关 键值为序, 以字母为序, 以在考察文本中的关键词的频率为序,以在参照文 本中的关键词的频率为序。III 三个辅助工具主要功能简绍:4Splitter (文本分割工具)Splitter 的用途是为了文本分析的目的将大的文件分割成小的文本。它通过在大 的文本中插入某个符号,例如 , Splitter 将自动识别这些符号,将大的文 本分割成若干个小文本。5 Text Converter
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025 奇妙的水的溶解现象实验作文课件
- 数字化转型下EG物流大连分公司客户服务优化策略探究
- 数字化转型下A集装箱运输公司商务结算信息化管理的探索与实践
- 数字化赋能:矿山风机状态监测与故障诊断的深度剖析与实践探索
- 数字化赋能:塘厦镇中心幼儿园规划建设与实践探索
- 数字化浪潮下广西YJ茶业公司网络营销策略的转型与突破
- 绿色橙色小清新工作总结计划模板
- 超大尺寸显示模组生产线项目实施方案
- 施工现场应急预案与响应方案
- 汽车车灯电子总成生产线项目投资计划书
- 房屋市政工程施工现场安全风险分级管控与防范措施清单
- (13)普通高中艺术课程标准日常修订版(2017年版2025年修订)
- 海绵城市施工方案
- GB/T 46454-2025临床实验室检测和体外诊断系统感染性疾病相关酵母样真菌抗微生物药物的体外活性检测微量肉汤稀释参考方法
- 2026年高考作文备考训练之作文讲评:如何处理情绪是每个人都必须面对的问题
- 2025至2030嵌入式单板计算机(SBC)行业发展趋势分析与未来投资战略咨询研究报告
- 社区415国家安全教育日
- 制作艾米果活动
- 印刷厂安全教育培训计划
- 房屋市政工程生产安全重大事故隐患判定标准解读培训(2024版)
- 修井作业安全培训课件
评论
0/150
提交评论