版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、1. WordSmith介绍这是WordSmith工具控制器的主画面.它有四个主要的菜单选项, 一个谚语 (不断变化,您可以编辑), 主要工具的三个按钮 (Concord是红色,因为这个工具在使用中), 以及一系列的标签. 目前,我们看到它显示 anthony & cleopatra.txt 已被选定用做Concord.2. 选择文本文件要选择文本文件,单击主控制器中的文件菜单:当你单击 选择文本, 你会看到像这样:在左边是一个相当标准的文本文件资源管理器中,右边是一个选中文本区域. 按一下有两个蓝色箭头的按钮 (如下图光标处), 或拖曳一些文本文件从左至右。您应该会看到类似这样:目前
2、WordSmith表明 (在上图状态栏) 7个已被保存. 您可以看到文件大小,但WordSmith(还)不知道每个文本文件有多少的词.我们选择了Concord的7个文本 (见 Concord 上位于 已选文件).按下绿色按钮或者关闭窗口.3. Concord3.1 Concord概况A concordance看起来就像这样:它是所有出现wherefore在Romeo and Juliet的8个文本的concordance. 目前只有3项.第一个有644个词 (43%),其源文件是 rom06.txt.3.2 制作一个Concordance当您按下主控制器Concord 按钮, 一个新的Conc
3、ord 工具打开了并出现在Windows任务栏.现在在Concord, 选择 File | New.如果没有文本文件已选定, 会要求您选择一些. 按 Choose Texts Now 按钮. 一旦文本被选中, 输入一个合适的 Search Word:在这里,已经选择wherefore作为搜索词. 然后按OK. concordance列出所有"wherefore"的例子,还在词前后有一个词分隔符号,如标点符号,空格等. 既然现在我们已经做了 concordance, WordSmith现在知道每一个文本文件有多少词: rom06.txt 共有1,506次; rom8.txt
4、更大 (2,236个单词). 3.3 查看源文件要查看源文件,双击正使用的线.在这里,点击了突出行包含有 wherefore art thou Romeo.或按F8,线会变粗:或把有兴趣d的线拉长或拉粗:将光标放在左栏的2和3数目之间,它改变形状:再拉下来.也可以把光标放在右边缘后再拉粗,就在Set的左边. 3.4 Collocates和Mutual Information以下是AGO的collocates,用BNC的书面部分计算所得, 按频率排序.有AGO的实例近17000个, 并且 YEARS 是首位搭配, 9000次邻现于 AGO. "关系&quo
5、t; 栏为空,此时只能用频率对每栏进行排序,或按照词的字母顺序排序. 所需的是要知道所有这些collocates,每个与AGO 关系有多紧密. 是否 A, THE, WAS 等等,真的与 AGO关系紧密? 如果我们现在选择菜单 计算 | Mutual Information, 并选择一个合适的词表来做比较: 那么,我们得到以下列表,排序时按 关系 栏: 列表前面几项能更好地反映AGO随着时间和数量的趋势. 首位搭配 (HENSLEY) 只有5次同现于
6、 AGO (BNC书面部分共有17次).3.5 使用标注Concordancing如果您的源文件有标注,可要做的第一件事是让WordSmith知道. 要做到这一点,在主 控制器, 选 Settings | Adjust Settings 然后,选 Tags and Mark-up.
7、160; 如果您使用的是英国国家语料库, 在 Custom settings里选它,如上所示. 然后选Entity file如果不想见eacute; 不选 é 及类似的, 再按 Load: . 到目前为止,我们已告诉控制器,忽略以尖括号开始和结束的所有标签 (< >), 把几个实体引用翻译成符号,如 % 和 ", 并且删除了每个文本
8、的题头 (直到 </teiHeader>). 作为一个开端,已经不错了. 现在,我们对词类做concordance. BNC使用的标记,如下所示:: <w PRP>at <w AT0>the <w AJ0>great <w NN2>houses 所以每个介词标记为 <w PRP> 在介词本身前. 目的是要看到在BNC选定的文字的所有的介词. 选定一个BN
9、C文本文件后, 键入 <w PRP>*作为搜索词 (星号是必要的,因为一个词直接在词类标签后) 并按下OK. WordSmith检查角括弧内是否是文字或标注始标记: 在这里,我们选 "No". 再次按下OK. 你看到的介词和标注(但没有任何其他标记). &
10、#160; 4. Wordlist4.1 词表WordSmith Tools的词表像这样的 : 这表明每个单词在文本文件了出现的频率, 其在文本词汇中所占比例, 以及每个单词在多少的文本文件中出现.4.2 制作单词列表要制作单词列表, 先按 WordList按钮,在主控制器. Wo
11、rdList启动后,选择文本然后你会看到这样的. 在这里,我们要作出一个基于8文本文件简单的词列表,文本来自戏剧Romeo and Juliet, 按 Make a word list now. WordList tool显示一个频率列表. 最常用的词是"#". 有985个#.
12、怎么回事? 原来, #在默认情况下被用来代表任何数字,如65, 40 或 $997.82. 在#下, 最常见的词是 the, and, I to, of. 旁边,你可以看到它在我们使用的8文本里的频率, 每个词的百分比, 以及每个词在8个文本中出现的次数. 好像 I 的频率最高,但在8个文本中却没有出现. 要按字母顺序排列看词, 请按一下窗口底部附近的alphabetical标签.
13、0; 现在,向下滚动到 wherefore. 结果似乎证实了我们做concordance的发现. 4.3 Concordancing 选定词一旦你在屏幕上得到了一个词表, 您可能希望看到一些词所在的语境. 选择一个字(或多个) 并选择计算| Concordance.
14、160; 您会得到像这样(如果制作词表时的原始文本仍在原位): 4.4 lemmatising要手动进行lemmatise, 用屏幕上的单词列表, 把它拖到您想加入到的线上. 再放开: 你会看到总数的变化并且Lemmas栏中的项目为可见. 如果有很多,您可以双击Lemmas 栏看到详细资料: 4.5 词表统计4.6 多词单元用二或三个词(n-grams) 制作词表,如OF THEIN THE ENDONCE UPON A TIM
15、E等等,你先要计算一个 索引文件. 这主要是表明每一个单独的词在您的语料库的位置.制作一个多词词表,你得到像这样的结果. 按Ctrl/F2保存它, 提示的文件名类似于 _index_3-5-word clusters. 在以后可以作为一个普通的词表打开它.5. KeyWordsWordSmith Tools的关键词列表像这样的. 该关键词是与某种参考语料比较,其出现频率很高的词.关键词旁边有不同的数字,告诉您每一个词在源文本的频率,
16、以及与参考语料相比的频率.在上述列表中,与英国国家语料库相比,戏剧Romeo and Juliet的8个文本有许多主要人物的名字,和一些古语词,如 thou、thee、和love. 要制作关键词列表,首先按KeyWords按钮,在主控制器. 当KeyWords启动后, 选菜单上的 File, 再选 New,你会看到这样的. &
17、#160; 你必须选择由WordSmith工具制作并保存的单词列表. 你可以按这个按钮选择单词列表文件: 如果您已经选择了一个以上的单词列表和另一个如下的参考列表, 按Make a keyword list now. (您选择后,该按钮才能启用.)你会看到像这样:
18、60; 这是一个关键词图示,文本来自于British National Corpus (BNC)的a1f,与整个的BNC做比较. 你看到: 每个关键词 (KW) (这些显然都与国际关系有关) 衡量其发布及其关键度 相同的文本里每个关键词在与其他关键词有多少联系 每个关键词在文本多少次(点击). 地图显示了在每个单词的来源.在左边的蓝线代表文本的开始, 在右边的蓝线代表了结束. 看看 Britain, Germany, Italy 和 century - 这些在文本的四分之三之处好像突然增多. China, Mao, Peking 在文本稍后部分同现.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河南省驻马店市新蔡县某中学2024-2025学年高一年级下册3月月考英语试题(含答案)
- 气候变化与非木竹材生态恢复-洞察与解读
- 河南省新乡市2024-2025学年七年级下学期6月期末英语试题(含解析)
- (2025年)临床检验基础题库与参考答案
- 儿童注意力训练策略与方法
- 护理操作情景模拟考试题及答案
- 2025年核医学题库及答案
- (2025年)医院感染与预防控制试题及答案
- 2025年三级安全教育考试卷(木工)含答案
- (2025年)(新)全国“安全生产月活动”《安全知识》答题活动考试题库及答案
- 2026湖南省气象部门招聘应届毕业生59人(第2601号)笔试考试参考试题及答案解析
- 垃圾填埋场施工流程方案
- 2025年实验室检验质控知识考试试题及答案解析
- 2025年宿州市纪委市委巡察办所属事业单位选调工作人员8人考试参考试题及答案解析
- 2025及未来5年中国电子记事本市场调查、数据监测研究报告
- 2025-2026学年上学期高一英语人教新版期中必刷常考题之完形填空
- 2025年及未来5年中国非公路矿用自卸车行业市场全景分析及投资策略研究报告
- 2025秋期版国开电大本科《心理学》一平台形成性考核练习1至6在线形考试题及答案
- 2025年餐饮服务食品安全管理员考试试题与答案
- 2025江苏苏州张家港市基层公共服务岗位招聘14人(第二批)笔试模拟试题及答案解析
- GB4789.2-2022食品安全国家标准 食品微生物学检验 菌落总数测定
评论
0/150
提交评论