版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、I.WordSmith Tools 简介:WordSmith Tools是一个在 Window下运行的用来观测文字在文本中的表现 的功 能强大的综合软件包。它共包含Con cord语境共现检索工具)、WordList (词频列表检索工具)、 Keywords关键词检索工具)、Splitter (文本分割工具)、Text Converter (文本替 换工具)、Viewer (文本浏览工具)等六个程序,其中前面三个程序是主要的文本检索 工具,后面三个程序属于辅助性工具。这六个程序的各项设置由一个叫 WordSmith Tools Controller (文字匠工具控 制 器)的程序来控制。II.
2、各个工具的操作和主要功能介绍: 1. ConcordD基本操作过程:在 WordSmith Tools Controller 窗口 中选择 Tools 选项。当该选项打开,你就会看到Co ncordo单击它,Con cord的窗口将打开。按下按钮,将出现一个对话框,选择将进行语境共现检索的文本文件。确定一个检索词或短语。如果要改变设置,按Horizons etc按钮,对缺省的设置值进行修改。按Start Concordanee按钮,检索开始。窗口上出现检索进行的状态条。检索结束,结果显示在Concord的窗口。如果要保留语境共现检索的结果,按2)主要的功能: 语境共现(Concordanee)
3、语境共现(Concordanee的窗口显示:按钮存盘。语境共现(Concordanee的窗口包括六个纵列,例如:A. N 列: 显示检索项的数目。B, C on corda nee 歹ij: 显示语境共现检索的结果。C, Set 列: 在这一列,用户可以使用任何字母对条目进行分类。例如,如果你想对检索词的动词和名词用法进行归类,你可以键入字母 或N。要清除键入的字母,按0 (零)。D. Tag 列: 显示最接近的标记符号。E. Word No歹 1:显示检索词在文本中的位置。例如,上面例子中条目1的检索词good是文本的2,265个单词。F, File 列: 显示源文本的文件名。G, %列:以
4、百分比的形式显示检索词在文本中的位置。要想得到有关语境共现检索的结果的更多的信息,按下面的按钮:按按钮,可增加语境共现检索的结果每行的显示量,按按钮,可减少语 境共现检 索的结果每彳丁的显不量。按(按)按钮,可启动文本浏览工具(Viewer),对源文本进行查看。按钮,可查看检索词在规定的语境范围内的搭配词的情况。例如,下图是在上例中检索词good在左右各五个词的语境范围内的搭配词的情况。从图中可以知道,搭配词very共出现29次,其中在good的左边26次,右边3 次,而在左边的26次中有23次是作为左边的第一个单词出现。按()按钮,可打开检索词分布图園检索词分布图窗口显示的内容如下:File
5、源文本文件名Words源文本文件中单词的数目Hits找到的检索词的数目per 1,000每千字检索词的数目Plot检索词分布图显示检索词在文本中出现的 位置 按按钮, Concord将检索语境共现检索的结果中的句子,找出重复出现的 字串(word clusters) o字串的大小的推荐值一般为24个字,最低出现率为3个。例如:按()按钮,打开用词类型(Patter ns)窗口,显示临近检索词的单词的统计资料。这些单词按出现频率的高低从高到低排列。例如:取消检索词按空格键或选择窗口 View选项中的Blanked out,语境共现检 索的结 果中的检索词将被一行星号代替。要恢复检索词,重复一次前
6、面的操作对语境共现检索的结果重新排序语境共现检索进行时,检索的结果是以语境在文本中的出现顺序排列的。当语境共现检索一完成,它就会以当时的缺省设置进行重新排序。如果不想重新排序,将缺省值设定在File, File位置。语境共现检索的结果重新排序有以下几种方式:A. 根据检索词的左或右的某个位置的单词进行排序。B. 根据检索词本身进行排序。C. 如果有语境词,可根据语境词进行排序。D. 根据最近的标码符号进行排序。E. 根据与最近的标码符号的距离进行排序。F. 根据用户自己的分类进行排序。G. 根据在文本中的出现顺序排序。语境共现检索结果的重新排序,可以根据三重标准同时进行。这三重标准分别在Mai
7、n Sort, then by, fin ally by三个对话框中设定。另外,重新排序时,可以设置区分或不区分大小写,按升序还是降序排列,既可以 将所有的检索项重新排序,也可以设定将一定范围内的检索项重新 排序。保存和打印语境共现检索结果可以将语境共现检索的结果保存为文本文件或是可 以在Concord再打开的文件。按下F3或选择File的Print选项,将打印语境共现检索的结果。3)参数设置:检索词(search word):A. 检索词可以是一个单词,一个短语或是一个包含许多检索词的文本文件。B. 按照缺省设置,Concord进行的是不区分大小写的整词检索。格式如下:纟吉果 bookBoo
8、korbookorBoOkbook, books, book in g,booked*booktextbook(but no 社extbooks)bo* i nbook in ,books in, book ingin( but no tbook in to)book * hotelbook a hotel, book thehotel, book my hotelbo* i n*book in ,books in, booki ngin ,book in tobook?book, books, book; book.bookbook, booksbkbook, back, ban k,etc
9、,=book=book(but notBOOKorBook)book/paperbackbookorpaperback 符 号 意义*代表多个任意字符例子book* ?代表单个任意字符(包括标En gl?庶符 号)a代 表单个任意字母=区分大小写FrAncA=French Zl=Fr*=表示一个可包含多达500c:textfr个检索词的文本文件(参看d.txt帮助中的file-basedsearch words)/分 隔多 个检索词。你可以选may/can/wi择多达15个检索词,但字符II的总数不能超过80 O如果要使用?,=,A,:or/作为检索词中的一个字符,要将这些符号放到双引号内,例
10、如: "*"Why"?"andTor":"语境词(context word):A为了限制语境共现的检索,可以指定一个语境词在检索词的规定的语境范围内出 现或不出现。B语境词的输入格式与检索词的相同,只有一个不同的符号。表示该词在规定的语境范围内不出现。例如:当 search word 是 book 而 con text word 是 hotel* 时,Con cord 将只会找到 hotelorhotels出现在其语境范围内的book。当 search word 是 book 而 con text word 是 pape广时,Con
11、cord 将只会找到 paperorpapers不出现在其语境范围内的book。语境范围(horizons):语境范围设置限定在语境共现中检索词的左右两边各可以出现多少个单词。最高值是左右两边各可出现25个单词。检索项的数目(en tries wan ted):语境共现中检索项的数目的最大值可达16, 368行。但用户可以在Controller的Adjust Settings | Concord选项中对检索项的数目自行 定义,还可以设定Con cord对检索项进行随机抽取。搭配词(collocate):搭配词的最短长度为一个字母,最低出现频率为一次。但是在语境共现中出现一两次的搭配词是不能说明
12、什么问题的。用户可以在Controller的Adjust Settings |Concord选项中对搭配词的最短长 度和 最低出现频率自行定义。2. Wordlisti )基本操作过程:在 WordSmith Tools Controller 窗口 中选择 Tools 选项。当该选项打开,你就会看到WordListo 单击它,WordList的窗口将打开。按下按钮,将出现一个对话框,选择一个或多个文本文件。11/14按Make a word list now按钮,检索开始。窗口上出现检索进行的状态条。检索结束,WordList出现三个窗口显示检索结果。这三个窗口分别显示以字母为序的词频列表,以
13、频率为序的词频列表以及 综合统计 数据。如果要保留词频列表的结果,按2)主要的功能:创建词频列表(word lists):词频列表(word lists)的窗口显示:按钮存盘。以字母为序的词频列表的窗口(部分)显示如下:以频率为序的词频列表的窗口(部分)显示如下:综合统计数据的窗口(部分)显示如下:创建单词索引列表(index lists):单词索引列表的作用是记录所有单词在文本中的位置,以便了解每个词在 部分出现。文本的那另一作用是加快对列表中单词的检索处理,例如,如果选择列表中一个或 词,按下按钮,就会得到快速的语境共现检索的结果。多个单另外,在单词索引列表中,还可以计算单词与那些词搭配以
14、及与搭配词的 (“ Mutual In formationesCor 建立单词索引列表选择Adjust Settings | Indexing选项,进行以下的设置:相关值打开 Con troller,A.确定单词索引列表的路径和文件名。B,激活Actitated对话框。C激活File order too对话框(非必选)。D 选择出现多少次的高频词要被删除。E按0K按钮。件,打开WordList,选择菜单Index的New Index选项,指定要进行操作的文本文 再选择Index的New Index选项。检索结束,将在指定的路径生成三个扩展名分别是*.wdx, *.xfo,和*xal的文件。浏览
15、建立的单词索引列表:打开 WordList,选择菜单 Index 的 Alphabetical List 选项或 File Order List 选选定要打开的单词索引列表文件,就可以浏览建立的单词索引列表。例如:计算相关值(mutual information):“File Order too复选框的情A.要计算相关值,单词索引列表必须是在激活了 况下建立的。B.选择菜单Index的Alphabetical List选项,打开建立的单词索引列表。C. 按按按钮,选择要计算相关值的词条,然后按按钮。如果没有选择任何词条,按钮将计算单词索引列表的所有词条的相关值。例如,在上图中,词条an swe
16、r在文本的最常见的搭词是know,它们的相 关值4.48o词频列表的批处理用户可以一次选择多个文本进行词频列表的创建。例如,选择10个文本同时进行词频列表,既可以得出一个基于10个文本的大的词频列表,也可以得出十个分别基于10个文本的的词频列表。字串的词频列表:词频列表不必一定以单词为单位,也可以以2-8个单词的字串为单位创建词频列表。选择 WordList 主菜单的 Settings | Min. & Max. Frequencies 选项,激活复选 框,选择字串的大小,就可以进行字串的词频列表。对词频列表的编辑: 合并词条到同一词类(Lemmatisation):例如,你可以将属于
17、不同类型(type)的词条want; wan ts; wan ti ng; wan ted合 并 到同一词类(lemma) want中。手动合并:A.使用F5选定要合并的词条,第一个被选定的词条将成为词类(lemma)的名称(head)oB.使用F4可将所有选定的词条合并。基于文件的合并:建立一个将属于同一词类的不同类型(type)的词分组归类的文本文件(例女口, be->was, is 勰ere, am, arego->goes, going, went, gon)。按按钮,WordList将根据文本文件的分类为标准对当前词频列表的所有词条进行词 类(lemma)合并。词类(le
18、mma)合并结束后,按词频列表的排序:按按纽或F6,可对词频列表重新排序。按钮,将显示重新计算的综合数据。选择正确的语言:许多语言有自己特殊的字母排列顺序,所以在排序或重新排序之前,应检 查是否在语言选项选择了正确的语言。另外,在缺省值中,某些语言中的带重读符号的字母与不带重读符号的同一字母是 同等对待的。按单词结尾排序:选择反向排序选项(Reverse Sort)可以按单词的结尾的字母顺序排序。这样,就能将以某种后缀结尾的单词,例如,-ing形式结尾的单词列在一起。比较两个词频列表:选择 WordList中Comparison菜单下的Compare 2 Wordlists选项,选中两个 要
19、进行对比的词频列表,就可以对两个词频列表进行比较。这一功能可以帮助进行文体方面的比较。例如,比较一篇文章的不同译本中对某个词的不同翻译。简单一致性分析:Con siste ncy An alysis (simple这一功能可以对超过五十个词频列表一次性进 行 比较分析,然后生成一个基于所有文本的词频列表。这一功能可以帮助找出哪些词是在大量的某一特定类型的文本中一贯出现的。详细一致性分析:Con siste ncy An alysis (Detailed 功能与简单一致性分析的功能完全一样, 只是提供的分析更为详细,而且进行分析的词频列表不能超过五十个。这一功能可以帮助进行文体方面的比较。3,
20、KeyWordsl)主要功能:Keywords主要作用是确定某个文本的关键词是什么以及它们在文本中的位置。要实现着这一目的,必须先用WordListT具建立两个单词列表。这两个单词列表中,一个是根据要考察的文本建立的,而另一个作为参照的单词列 表,必须是根据较大型的由同类文本组成的语料库建立的。大的单词列表将为比较提供背景数据。文本中的关键词(key words),是指在两个单词列表的比较中得出的那 些在所考 察文本中出现频率突出的词。得出的关键词以它们在文本中的出现频率的突出程度由高到低排列。Keywords的潜在用途包括:语言教学,文体研究,文本内容分析,文本归档等。2) Keywords
21、 的参数设置在 Controller 中的 Adjust Settings/KeyWords 选项 下,可以对以下的参数进行设置:a.最大的P值。b.关键词列表的最大数目。(缺省值是500) C.关键词在所考察文本中的最低出现频率。(缺省值是3次)3)基本操作过程: 在 WordSmith Tools Controller 窗口 中选择 Tools 选项。当该选项打开,你就会看到Keywords 单击它,Keywords的窗口将打开。按下按钮,将出现一个对话框,在对话框选择一个要进行研究的单词列表和一个 作为参照的单词列表。按OK按钮,检索开始。窗口上出现检索进行的状态条。检索结束,Keywo
22、rds出现一个窗口显示关键词列表。如果要保留关键词列表的结果,按按钮存盘。关键词列表的显示窗口包括以下内容(见下图):a.每个关键词。b.关键词在所考察的文本中的出现频率。C,要考察的文本的文件名及百分比。d.关键词在参照文本中的出现频率。e.参照文本的文件名及百分比。17 /f 关键词的关键值。g. P 值。4)对关键词列表的结果的编辑:按窗口中的每按一次按纽,将会显示关键词在文本中的分布图。按纽,关键词列表的结果将会按照下面的顺序循环排序:以关键值为序,以字母为序,以在考察文本中的关键词的频率为序,以在参照文本 中的关键词的频率为序。III 三个辅助工具主要功能简绍:4. Splitter (文本分割工具)Splitter的用途是为了文本分析的目的将大的文件分 割成小的文本。它通过在大的文本中插入某个符号,例如v/Text>, Splitter将自动识别这些 符号, 将大的文本分割成若干个小文本。5.A.Text Converter (文本替换工具
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年倾听技巧在改善医患关系中的作用
- 2026年药品安全突发事件应急预案
- 2026年导师制(师徒制)在新员工培养中的实践总结
- 2026年妇联干部妇女维权与家庭工作培训
- 2026年展位搭建工程质量通病防治措施
- 2026年纹绣工作室创业与运营指南
- 国际贸易跨境电商国际营销合同协议
- 2026年发电机故障应急处理流程
- 直播带货直播间运营管理协议
- 国际采购2026年关税筹划合同
- ESC心肌炎和心包炎管理指南(2025版)课件
- 雨课堂在线学堂《生活中的生物学》单元考核测试答案
- 海关供应链安全培训课件
- 2025年新能源汽车充电网络互联互通政策研究报告
- 2024神木市国企招聘考试真题及答案
- 产品售后服务管理体系
- DB34∕T 4230.1-2022 重点行业挥发性有机物治理环境管理技术规范 第1部分:通则
- 2025年湖北省初中毕业生学业考试语文试题卷附答案解析
- DB42∕T 640-2023 雷电防护装置检测原始记录表填写及报告书编制规范
- 2024年企业所得税年度纳税申报表(A类2017 年版2025年01月修订)-(2025 0323)
- 设备合伙购买合同协议
评论
0/150
提交评论