




已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
语料库简单DIY 第二讲a. 开始进入语料库软件的应用领域,我们应该从什么地方下手?b. 如何培养一种理性地逻辑思维,从而对语料进行加工和处理?c. MonoConcPro 是什么?它能帮助我们做什么? 语料库简单DIY第二讲 语料库软件初探-MonoConcPro 2.2主讲叶城 日本国立广岛大学综合科学研究中心计算机辅助语言教学博士一年联系方式: QQ 47354211 E-mail: 朋友们,首先我们想想上一讲我们都谈到了哪些问题。(如果有想不起来的,可以翻看上一讲的帖子) 通过上一讲的学习,大家了解到了语料库CORPUS的定义,语料库语言学的定义,以及语料库语言学的特征;并且,在我的苦口婆心威逼利诱之下,朋友们硬着头皮和我一起简单地回顾了一些对于大家来说并不熟悉的语料库产品,了解了一些语料库发展的历史等等。总而言之,算是抛了个砖头出去,至于有没有起到砖头的作用,砸没砸到点儿上,这就不得而知啦。上一次讲义之后,纵观朋友们的留言,基本上都是对今后讲座的期待等等。没有疑问,没有质疑。这一点不是太好,我觉得这里面还是能提出很多问题的。不过,既然算是一种科普性质的讲座,我也不能对大家要求过于苛刻,总而言之,希望我讲的东西,真的对大家有用,不至于回国下了飞机就被西红柿和板砖儿砸得看不清方向。 下面进入今天的正题: 语料库软件初探-MonoConcPro 2.2 本软件是Athelstan开发小组/ ,于1996年开发的语料库比较检索工具。目前,我的服务器上提供学术性下载,下载地址: http:/vu.flare.hiroshima-u.ac.jp/whistle/corpus/MoconcPro2.2.rar (本软件为学术交流使用,所有权归本软件开发小组所有,一切商务性盈利目的的违法使用,所带来的连带责任关系与本人及本论坛无关。请慎重下载,小心使用!) 功能介绍:软件主界面 基本功能: MonoConc Pro 2.2 的软件界面比较简单。适合语料库初学者和初级研究人员使用。 本软件据作者的研究,其内部主核使用UTF-8编码,基本支持欧洲几种主要语言。当然,其主要的应用领域还是针对英语。本软件主要处理的文本素材是以TXT结尾的记事本文件,当然,本软件还可以导入RTF文档和其他格式的操作系统默认文档格式。不过,从DIY的角度来说,我们自己收集到的语料,为了免除格式,字体,行距等等文本要求,最好全部使用TXT文档,方便,省事!用了都说好!(谁用谁知道) 我们按照自己的研究目的,研究方向,收集我们所需要的语料素材,具体的收集方法因人而异。可以从报纸杂志的电子文文档上直接下载,也可以从网站上直接下载整理好的TXT版本的小说,资料素材等,还可以直接从各大语料库中检索需要的语用素材,然后拷贝粘贴到TXT文本中。由于MonoConc Pro强大的跨文档处理系统,一次可以同时导入多个TXT文档进行比较处理,所以我们可以把文章或者资料按照自己喜好的分类标准进行分类,然后存成不同的TXT文件名。检索的时候,只需要同时导入这些文件就可以了。(异常强大) 下载好软件,解压缩,然后打开 MP22.EXE文件,你就可以看到上图那个简单的主界面了。 之后,选择 FileLord Corpus File(s),找到你需要导入处理的TXT文档,一个或者多个都可以,然后选择打开。指定的TXT文件就被全部导入进MonoConc Pro中了。 如果导入了过多的TXT文档,比如您导入了莎士比亚全集+马克思选+恩格斯选+列宁选+毛泽东选+邓小平选.(不能否认,真的有这样的朋友存在)。那么,为了方便您查询检索结果所出现的文章,你可以选择 FileView Corpus File/URL,这样就能看到查询结果所在的文章,还可以删除不需要的文章,或者添加新的文章,非常简单。 *这里的URL,指的是在HTTP或者FTP上,可以直接打开的文字页面的链接。一般朋友们DIY的语料库都是存在本地硬盘上的,所以基本上可以无视这个选项。不过,将来我们的个人语料库要实现点对点,点对多的平台连接。连接后,我们就可以相互查询对方个人语料库中的资料,此时在导入对方语料库中的文档的时候,就要用这个了。(这个目前还很遥远,大家还是踏踏实实做自己的DIY语料库吧!) 当我们要删除所有的文章的时候,这个时候仅仅关闭文章的窗口,是不能实现删除文章内容的。关闭了窗口,只是你看不见了而已,但是文章实际上已经写入了内存,你必须将它清除出内存,才能在搜索的结果中排出掉不需要使用的文章。这个时候,你就需要 FileUnload Corpus功能了。这里Unload只是卸载掉内存中的TXT文档,不是删除你的文章,所以不要害怕,大胆卸。 以上就是MonoConc Pro操作的基本功能。这里需要说明一个问题,MonoConc Pro的File里面有一个Language的选项,里面你可以发现软件支持很多语言。这里所谓的支持,只是显示TXT文档时所支持的语言编码。也就是说,在MonoConc Pro里面是可以显示字母体系文字,和汉字体系文字的。但是,但是,但是!在内存中处理的时候,软件是使用UTF-8欧洲语言进行处理的(ANSI),所以无法直接处理汉字编码Unicode或者ASCII编码。不过,通过WORD或者其他的专码工具,也可以进行操作,但是本人研究了很多编,对于汉字编码的处理,系统总是出现很多错误,所以建议不要使用这个软件来处理汉字文本。当然,有钻研精神的人,还是很鼓励的。没有钻研精神也不要怕,MonoConcPro介绍完了之后,我们会介绍专门处理汉字编码的软件Antconc3.2.0W,要好好支持我,我才讲哦! *有的朋友在打开自己所整理的TXT文本文件时,在MonoConc Pro进行操作的时候,会出现软件报错,或者软件自动关闭等状况。这就是我在上面提到的编码问题。在我们进行MonoConc Pro操作之前,我们有必要将我们的TXT文档,用写字板打开,然后选择另存为,编码选择 ANSI ,然后用新保存的文件进行MonoConc Pro操作,就会避免这个问题;当然也可以使用Word等更加强大的软件进行编码转换。如果在这一点上有疑问,请联系我。-课间休息-课间休息- 进阶功能介绍: 前半节的课程上,我们认识了MonoConc Pro软件的基本功能。现在我们来学习今天课程的精华中的精华中的精华部分。要好好听,不要走神哦! WordList 功能 这个功能看名字很简单,但是实际上这是一个很了不起的功能。首先我发上来两个图,大家可以参考一下。 第一副图是对于英文文章Word List-词汇频率出现的统计;第二幅图是对于汉语文章Word List的统计结果。从第一幅图上我们就可以很清楚的看到(可能这里看得不是很清楚),软件能够把英文单词准确地提取出来,按照单个词来统计频率。而第二幅图就明显地看到,软件不能把汉字处理成为单个汉字来统计,也不能按照任何一种词汇规律来统计,基本上说,废了。 那么Word List的功能怎么实现呢?首先,导入你需要统计的所有TXT文档文件,这一步我想大家基本上都能实现。当你导入文件之后,你会发现,主页面的登陆画面上,出现了很多新的功能菜单。这些菜单就是今后我们需要逐个介绍的进阶和高级搜索功能菜单。今天我们先选择 FrequencyCorpus Frequency DataFrequency Order。这时候软件就开始自己统计词汇频率了,之后会出现一个统计表。就像上面的图里面表示的东西一样。表中的左边开始依次是指定单词出现的次数,指定单词出现的频率,指定单词。从表中一下子就对文章中的词汇的出现频率有了整体的了解,是不是也就有助于你做一些词类研究呢?! 我们注意到了FrequencyCorpus Frequency DataAlphabetical Order这个选项。这个也是一个很有用的选项。它会将Word List的统计结果,按照字母表顺序排列,这样你就可以看到,同一个字母开头的词汇,哪些词出现的频率较高,对于词性研究,词类对比,使用对比等,想必是非常有用处的吧。我也不是语言学的专家,有用没有用,还需要大家自己的判断。 Frequency下面还有一个选项,Frequency Options。这个选项主要对于我们的频率检索做一些简单的设定。里面规定了,结果显示行数,最低频率数,最高频率数,大小写区别,TAG区别等,没有特殊的需求,初学者一般不要修改这个选项比较好。 好了!我们现在已经学习了Word List的制作方法,也懂得了一些查询的选项。在开头我也提到了,语料库软件的学习,其实也是培养一种理性地逻辑思维能力。用这种逻辑思维去思考和设计语料库检索处理软件,来为自己的语料研究服务。刚才我们讲了单词频率的统计。那么,我向大家提出一个问题,如果遇到了两篇巨长的文章,我们要同时比较某个单词在这两篇文章中的出现频率,应该怎么做呢?! 细心的你,一定注意到,在Frequency菜单下,有一个 Save as File选项。这是一个伟大的选项。虽然实现的是一个很不起眼,Save 存储这样的小破功能。但是,对于后来我们的比较研究,确是必不可少的一步。 在我给大家提供的下载文件里面,我放入了很多DEMO用的TXT文档文件在SIMPLE文件夹中,还有一篇巨长的小说罪与罚。这都是用来讲解和大家实践用的。 首先,我们运行软件,导入SIMPLE中的TXT文档(poor folk.txt,demo.txt,demo2.txt,demo3.txt)!对!就是不要那个罪与罚。 然后我们统计这四篇TXT文档的Word List。具体统计的操作方法,不会的朋友看上面的教程。 然后我们就看到了下面这个图: 然后我们选择 Frequency Save as File 这个时候会出现一个对话框,这个对话框是提示需要用多少行来表示所统计的数据,一般我们默认为0,也就是用无限行来表示。然后选择OK,这个时候出现保存程序的对话框。我强烈建议,大家把文件不要存成TXT,存文件的时候,把保存类型选择为 All files。然后我们给文件随便命名为 mantou。这样就保存成了一个叫做mantou,但是不能直接运行的程序文件。为什么这样?呵呵!这是一个小诀窍。使用All files来保存这种文本处理的统计文件,你会惊奇的发现,我们可以使用EXCEL轻松地打开这个叫做 mantou的文件,然后可以用EXCEL的强大表格功能来进行编辑。还可以用SQL,MYSQL,ACCESS等数据库文件打开这个叫做 mantou的文件,轻松导入到各种数据库文件中。非常方便! 好了,继续! 现在我们使用Unload Corpus,卸载掉驻留内存的所有文档,然后打开 罪与罚.txt (抱歉里面使用了日语,将就吧)。然后对这一篇文章进行Word List频率统计。就会出现下图: 同样地,为了保险起见,我们也把这篇文章的Word List 存成名叫qianqian的无指定程序运行的文件。 这个时候,我们选择 FrequencyCorpus Comparison,在打开的对话框的文件类型中选择 All Files。然后我们就可以看到mantou那个文件了,选中它,然后打开。这个时候我们就能看到下面这个图。 也许这里看不清,我说说。在这个图表中,左边开始依次是:指定单词目前出现次数,指定单词目前出现频率,指定单词,指定单词上次出现次数,指定单词上次出现频率,两次比较频率差,对数尤度比。 这样就可以清晰地比较出来词汇在不同的文章中出现的频率。不过,这里的比较只能进行1:1的单次比,不能实现复数次数以上的多数比。如果要进行多数比,也就是复数文章以上的,针对指定单词的出现频率和出现次数的比较的话,那么最好是用EXCEL打开多个保存Word List的文件,直接在EXCEL上做统计,表格,图形处理,会比较直观(大家现在也明白我要把文件保存成那样的目的了吧!) 两个Word List进行比较的比较表,使用Save as File 命令,也可以保存哦。至于要保存什么格式,大家自己决定吧!有了这些统计和比较的表格,是不是我们的语言研究就会更加理性一些呢? 有兴趣的朋友,还可以尝试看看Frequency下的 Sort命令,这个是对于比较统计结果的表格进行排列顺序以及显示方式的调整。 好了罗嗦了一下午,也不知道大家感觉如何?是不是很久没有听计算机课的感觉? 在今天的课里,我们主要讲解了MonoConc Pro 2.2的基本使用功能,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 超神数学-高考数学总复习基础篇(一轮)(练习册)专题01集合(含答案或解析)
- 自动步枪斜角射击技巧
- 中国高校新文科发展报告
- 历史隋唐时期的民族交往与交融 课件 2024-2025学年统编版七年级历史下册
- 2025年乡村文化旅游与乡村旅游人才培养研究报告
- 2025年电商平台内容营销与种草经济在宠物医疗行业的互动营销报告
- 2025年海上风力发电场运维管理智能化技术创新路径研究报告
- 2025年特色农产品加工园区社会稳定风险评估与农村社会治理创新研究
- 数字化转型2025年制造业供应链协同管理供应链金融创新报告
- 外卖平台食品安全监管现状及发展趋势报告2025
- 2023-2024学年景德镇市珠山区数学五年级第二学期期末监测试题含解析
- 小镇文旅康养项目可研报告【健康养老】【旅游康养】
- 2024广西公需课高质量共建“一带一路”谱写人类命运共同体新篇章答案
- EHS专项施工EHS管理组织机构
- 2024年南安市国有资本投资运营有限责任公司招聘笔试冲刺题(带答案解析)
- T/CEC 143-2017 超高性能混凝土电杆完整
- MOOC 工程电磁场与波-浙江大学 中国大学慕课答案
- 清罐应急预案
- 《水泥熟料的组成》课件
- 草籽采购(牧草种子采购)投标方案(技术方案)
- 金融纠纷调解培训课件模板
评论
0/150
提交评论