语料库简单DIY 第二讲

上传人：w*** IP属地：安徽上传时间：2023-07-27 格式：DOC 页数：9 大小：24.50KB 积分：16 举报 版权申诉

已阅读5页，还剩4页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

...v.语料库简单DIY第二讲a.开场进入语料库软件的应用领域，我们应该从什么地方下手？

b.如何培养一种理性地逻辑思维，从而对语料进展加工和处理？

c.MonoConcPro是什么？它能帮助我们做什么？

语料库简单DIY

第二讲

语料库软件初探--MonoConcPro2.2

主讲

叶城

日本国立广岛大学综合科学研究中心

计算机辅助语言教学博士一年

联系方式:

QQ47354211

:sery2004hotmail.

朋友们，首先我们想想上一讲我们都谈到了哪些问题。〔如果有想不起来的，可以翻看上一讲的帖子〕

通过上一讲的学习，大家了解到了语料库CORPUS的定义，语料库语言学的定义，以及语料库语言学的特征；并且，在我的苦口婆心威逼利诱之下，朋友们硬着头皮和我一起简单地回忆了一些对于大家来说并不熟悉的语料库产品，了解了一些语料库开展的历史等等。总而言之，算是抛了个砖头出去，至于有没有起到砖头的作用，砸没砸到点儿上，这就不得而知啦。上一次讲义之后，纵观朋友们的留言，根本上都是对今后讲座的期待等等。没有疑问，没有质疑。这一点不是太好，我觉得这里面还是能提出很多问题的。不过，既然算是一种科普性质的讲座，我也不能对大家要求过于苛刻，总而言之，希望我讲的东西，真的对大家有用，不至于回国下了飞机就被西红柿和板砖儿砸得看不清方向。

下面进入今天的正题：

语料库软件初探--MonoConcPro2.2

本软件是Athelstan开发小组athel./，于1996年开发的语料库比拟检索工具。目前，我的效劳器上提供学术性下载，下载地址：

〔本软件为学术交流使用，所有权归本软件开发小组所有，一切商务性盈利目的的XX使用，所带来的连带责任关系与本人及本论坛无关。请慎重下载，小心使用！！！〕

功能介绍：软件主界面

根本功能:

MonoConcPro2.2的软件界面比拟简单。适合语料库初学者和初级研究人员使用。

本软件据作者的研究，其内部主核使用UTF-8编码，根本支持欧洲几种主要语言。当然，其主要的应用领域还是针对英语。本软件主要处理的文本素材是以TXT结尾的记事本文件，当然，本软件还可以导入RTF文档和其他格式的操作系统默认文档格式。不过，从DIY的角度来说，我们自己收集到的语料，为了免除格式，字体，行距等等文本要求，最好全部使用TXT文档，方便，省事！用了都说好！〔谁用谁知道〕

我们按照自己的研究目的，研究方向，收集我们所需要的语料素材，具体的收集方法因人而异。可以从报纸杂志的电子文文档上直接下载，也可以从上直接下载整理好的TXT版本的小说，资料素材等，还可以直接从各大语料库中检索需要的语用素材，然后拷贝粘贴到TXT文本中。由于MonoConcPro强大的跨文档处理系统，一次可以同时导入多个TXT文档进展比拟处理，所以我们可以把文章或者资料按照自己喜好的分类标准进展分类，然后存成不同的TXT文件名。检索的时候，只需要同时导入这些文件就可以了。〔异常强大~〕

下载好软件，解压缩，然后翻开MP22.EXE文件，你就可以看到上图那个简单的主界面了。

之后，选择File→LordCorpusFile(s)，找到你需要导入处理的TXT文档，一个或者多个都可以，然后选择[翻开]。指定的TXT文件就被全部导入进MonoConcPro中了。

如果导入了过多的TXT文档，比方您导入了莎士比亚全集+马克思选+恩格斯选+列宁选+选+选.....〔不能否认，真的有这样的朋友存在〕。那么，为了方便您查询检索结果所出现的文章，你可以选择File→ViewCorpusFile/URL，这样就能看到查询结果所在的文章，还可以删除不需要的文章，或者添加新的文章，非常简单。

*这里的URL，指的是在HTTP或者FTP上，可以直接翻开的文字页面的。一般朋友们DIY的语料库都是存在本地硬盘上的，所以根本上可以无视这个选项。不过，将来我们的个人语料库要实现点对点，点对多的平台连接。连接后，我们就可以相互查询对方个人语料库中的资料，此时在导入对方语料库中的文档的时候，就要用这个了。〔这个目前还很遥远，大家还是踏踏实实做自己的DIY语料库吧！〕

当我们要删除所有的文章的时候，这个时候仅仅关闭文章的窗口，是不能实现删除文章内容的。关闭了窗口，只是你看不见了而已，但是文章实际上已经写入了内存，你必须将它去除出内存，才能在搜索的结果中排出掉不需要使用的文章。这个时候，你就需要File→UnloadCorpus功能了。这里Unload只是卸载掉内存中的TXT文档，不是删除你的文章，所以不要害怕，大胆卸。

以上就是MonoConcPro操作的根本功能。这里需要说明一个问题，MonoConcPro的File里面有一个Language的选项，里面你可以发现软件支持很多语言。这里所谓的支持，只是显示TXT文档时所支持的语言编码。也就是说，在MonoConcPro里面是可以显示字母体系文字，和汉字体系文字的。但是，但是，但是！在内存中处理的时候，软件是使用UTF-8欧洲语言进展处理的〔ANSI〕，所以无法直接处理汉字编码Unicode或者ASCII编码。不过，通过WORD或者其他的专码工具，也可以进展操作，但是本人研究了很多编，对于汉字编码的处理，系统总是出现很多错误，所以建议不要使用这个软件来处理汉字文本。当然，有钻研精神的人，还是很鼓励的。没有钻研精神也不要怕，MonoConcPro介绍完了之后,我们会介绍专门处理汉字编码的软件Antconc3.2.0W，要好好支持我，我才讲哦！

*有的朋友在翻开自己所整理的TXT文本文件时，在MonoConcPro进展操作的时候，会出现软件报错，或者软件自动关闭等状况。这就是我在上面提到的编码问题。在我们进展MonoConcPro操作之前，我们有必要将我们的TXT文档，用写字板翻开，然后选择另存为，编码选择ANSI，然后用新保存的文件进展MonoConcPro操作，就会防止这个问题；当然也可以使用Word等更加强大的软件进展编码转换。如果在这一点上有疑问，请联系我。--------------------------------------------------课间休息------------------------------------------课间休息-------------------------------------------------

进阶功能介绍：

前半节的课程上，我们认识了MonoConcPro软件的根本功能。现在我们来学习今天课程的精华中的精华中的精华局部。要好好听，不要走神哦！

Word

List功能

这个功能看名字很简单，但是实际上这是一个很了不起的功能。首先我发上来两个图，大家可以参考一下。

第一副图是对于英文文章WordList---词汇频率出现的统计；第二幅图是对于汉语文章WordList的统计结果。从第一幅图上我们就可以很清楚的看到〔可能这里看得不是很清楚〕，软件能够把英文单词准确地提取出来，按照单个词来统计频率。而第二幅图就明显地看到，软件不能把汉字处理成为单个汉字来统计，也不能按照任何一种词汇规律来统计，根本上说，废了。

那么WordList的功能怎么实现呢？首先，导入你需要统计的所有TXT文档文件，这一步我想大家根本上都能实现。当你导入文件之后，你会发现，主页面的登陆画面上，出现了很多新的功能菜单。这些菜单就是今后我们需要逐个介绍的进阶和高级搜索功能菜单。今天我们先选择Frequency→CorpusFrequencyData→FrequencyOrder。这时候软件就开场自己统计词汇频率了，之后会出现一个统计表。就像上面的图里面表示的东西一样。表中的左边开场依次是指定单词出现的次数，指定单词出现的频率，指定单词。从表中一下子就对文章中的词汇的出现频率有了整体的了解，是不是也就有助于你做一些词类研究呢？！

我们注意到了Frequency→CorpusFrequencyData→AlphabeticalOrder这个选项。这个也是一个很有用的选项。它会将WordList的统计结果，按照字母表顺序排列，这样你就可以看到，同一个字母开头的词汇，哪些词出现的频率较高，对于词性研究，词类比照，使用比照等，想必是非常有用处的吧。我也不是语言学的专家，有用没有用，还需要大家自己的判断。

Frequency下面还有一个选项，FrequencyOptions。这个选项主要对于我们的频率检索做一些简单的设定。里面规定了，结果显示行数，最低频率数，最高频率数，大小写区别，TAG区别等，没有特殊的需求，初学者一般不要修改这个选项比拟好。

好了！我们现在已经学习了WordList的制作方法，也懂得了一些查询的选项。在开头我也提到了，语料库软件的学习，其实也是培养一种理性地逻辑思维能力。用这种逻辑思维去思考和设计语料库检索处理软件，来为自己的语料研究效劳。刚刚我们讲了单词频率的统计。那么，我向大家提出一个问题，如果遇到了两篇巨长的文章，我们要同时比拟某个单词在这两篇文章中的出现频率，应该怎么做呢？！

细心的你，一定注意到，在Frequency菜单下，有一个SaveasFile选项。这是一个伟大的选项。虽然实现的是一个很不起眼，Save存储这样的小破功能。但是，对于后来我们的比拟研究，确是必不可少的一步。

在我给大家提供的下载文件里面，我放入了很多DEMO用的TXT文档文件在SIMPLE文件夹中，还有一篇巨长的小说?罪与罚?。这都是用来讲解和大家实践用的。

首先，我们运行软件，导入SIMPLE中的TXT文档〔poorfolk.txt,demo.txt,demo2.txt,demo3.txt〕！对！就是不要那个?罪与罚?。

然后我们统计这四篇TXT文档的WordList。具体统计的操作方法，不会的朋友看上面的教程。

然后我们就看到了下面这个图:

然后我们选择Frequency→SaveasFile这个时候会出现一个对话框，这个对话框是提示需要用多少行来表示所统计的数据，一般我们默认为0，也就是用无限行来表示。然后选择OK，这个时候出现保存程序的对话框。我强烈建议，大家把文件不要存成TXT，存文件的时候，把保存类型选择为Allfiles。然后我们给文件随便命名为mantou。这样就保存成了一个叫做mantou，但是不能直接运行的程序文件。为什么这样？呵呵！这是一个小诀窍。使用Allfiles来保存这种文本处理的统计文件，你会惊奇的发现，我们可以使用EXCEL轻松地翻开这个叫做mantou的文件，然后可以用EXCEL的强大表格功能来进展编辑。还可以用SQL，MYSQL，ACCESS等数据库文件翻开这个叫做mantou的文件，轻松导入到各种数据库文件中。非常方便！

好了，继续！

现在我们使用UnloadCorpus，卸载掉驻留内存的所有文档，然后翻开罪与罚.txt〔抱歉里面使用了日语，将就吧〕。然后对这一篇文章进展WordList频率统计。就会出现下列图：

同样地，为了保险起见，我们也把这篇文章的WordList存成名叫qianqian的无指定程序运行的文件。

这个时候，我们选择Frequency→Corpusparison，在翻开的对话框的文件类型中选择AllFiles。然后我们就可以看到mantou那个文件了，选中它，然后翻开。这个时候我们就能看到下面这个图。

也许这里看不清，我说说。在这个图表中，左边开场依次是：指定单词目前出现次数，指定单词目前出现频率，指定单词，指定单词上次出现次数，指定单词上次出现频率，两次比拟频率差，对数尤度比。

这样就可以清晰地比拟出来词汇在不同的文章中出现的频率。不过，这里的比拟只能进展1：1的单次比，不能实现复数次数以上的多数比。如果要进展多数比，也就是复数文章以上的，针对指定单词的出现频率和出现次数的比拟的话，那么最好是用EXCEL翻开多个保存WordList的文件，直接在EXCEL上做统计，表格，图形处理，会比拟直观〔

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

语料库简单DIY 第二讲

文档简介

温馨提示

最新文档

评论

语料库简单DIY 第二讲

文档简介

温馨提示

最新文档

评论

相关文档