版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2026/03/13数字人文与语言研究实践导入语言与人文研究的关系人文研究是文化传承的重要载体,在几千年人类文明发展当中,语言既是文化的一部分,也是记录文化信息的重要媒介与工具。我国古代“语料库研究雏形”早在西汉,扬雄《方言》就已系统记录各地词汇差异,可视为早期对语言材料加以整理和归纳的形态,为后世提供了类似“语料库”的启发。我国古代“文本数据化雏形”北宋毕昇在11世纪发明的活字印刷,则首次把语言信息转化为可批量复制、排序、重组的字符单位,这一创新在象征意义上可视为文本数据化与可移动信息处理思路的先声。[西汉]扬雄(前53年—18年)[北宋]毕昇(?—1051年)可以说,很大一部分人文研究是以语言文字内容为主要对象的,数字人文在这一点上尤为突出。怎样把语言数据化、如何挖掘语言文字中的信息,通过统计与算法设计实验,从而验证人文领域的观点,始终是数字人文研究中的核心议题之一。数字人文研究绕不开语言这个“重点对象”导入CONTENTS目录01
文本数据化02
语料库03
大模型时代的新方向文本数据化01数据收集与录入01现有语料库资源国内常见语料库包括现代汉语通用平衡语料库(1亿字)、北京语言大学BCC语料库(150亿字)、北京大学CCL语料库等,可用于特定研究目标的语料检索。02已电子化的文本语料除了专业的权威语料库之外,网络上也存在大量的书籍、报刊、杂志等电子化文本,这些文本语料同样是文本数据收集并形成语料的重要来源。*需要注意的是,文学作品、历史文献、官方档案等,往往需要辨别已电子化的语料真伪与否、版本为何。03未电子化的语料如研究对象涉及未电子化的书籍、史料、地方志或语言景观(如碑刻、招牌、标语等)则需要通过光学字符识别(OpticalCharacterRecognition,OCR)或手工进行录入。数据收集与录入04文本数据爬取互联网的普及和发展已经数十年历史,人类在互联网上积累了海量的文本数据,这些数据获取相对容易,数量充足,通常也是数字人文研究中语料的重要来源。批量从各种网站、论坛、社交媒体上获取文本数据,一般采用“网络爬虫”手段。*需注意遵守相关法律法规以及平台、网站的使用规范与隐私条例,以确保数据获取的合法性和合规性。05音视频数据转录与多模态标注除了纯文本数据,音视频数据也包含了丰富的信息。通过对音视频数据进行转录和多模态标注,可以将其转化为文本数据,为研究提供更多的研究素材。06常见数据收集原则需要考虑:1.文本长度;2.文本年代;3.文本质量。文本数据清洗文本校对需专业人员结合工具进行,可借助Grammarly、WPS比较功能或大语言模型辅助,古代文献校对尤为重要文本降噪去除无关信息如HTML标签、广告等,可通过文本处理工具或正则表达式过滤,提高数据纯净度文本标准化统一文件格式为UTF-8编码的TXT,拆分长文本,统一命名实体与术语的表达形式文本转换
中文分词汉语需借助Jieba、HanLP等工具拆分语义单元,如“从前有座山”拆分为“从前/有/座/山”
停用词去除去除“的”“是”等语义贡献小的词汇,可使用停用词表或TF-IDF算法,如“人工智能”的TF-IDF权重高于“的”
词性标注与句法树词性标注是为文本中每个词标注词性(如名词、动词、形容词等)的过程。句法树则是对句子的结构性分析,通常可以展示树状结构、依存关系、语义角色关系等。这对于理解句子的语义和进行复杂的语言分析具有重要意义。语料库02语料库概述
语料库类型按语言类型分为单语、双语、多语语料库;按文本来源分为文学、历史、新闻语料库;按使用目的分为通用、专用语料库。
语料库的作用决定研究对象与范围,推动研究范式从定性向定量与定性结合转变,提高分析效率并发现传统方法难以察觉的模式。
语料库的概念语料库是指经科学取样和加工的大规模电子文本库。它为语言学研究、文本分析、机器翻译等提供了丰富的素材,是数字人文研究的重要基础。语料库设计与分析方法
语料库设计研究目的决定语料库类型,量级需综合考虑研究需求与资源,基础研究语料库规模为几万到几百万字。
常见分析方法1.查询检索2.宏观统计3.回归验证与假设检验大模型时代的新方向03新创意与新方法
翻译与平行语料库构建大模型支持上百种语言互译,尤其擅长小语种与专业术语,通过“大模型翻译+人工后编辑”可构建精准平行语料库语料生成与改写大模型可生成各类文本或改写现有文本,包括风格迁移,但需区分自然语料与AI生成语料,避免研究严谨性下降大模型时代的新挑战
生成语料的幻觉与偏见大模型可能生成虚假内容,需人工核查;训练语料的刻板印象会导致模型偏见,使用时需注意
哲学思考大模型的“生成性”对人类社会、语言发展的影响值得深入探究,需从多学科角度思考其本源与影响关键概念1.语料;2.语料库;3.OCR(OpticalCharacterRecognition,光学字符识别);4.爬取/网络爬虫;5.多模态;6.数据清洗;7.噪声数据;8.文本转换;9.开源;10.微调。本章关键概念拓展思考01根据本章介绍的语料收集方法,尝试围绕某个研究议题收集一些语料,并简单谈一谈各种收集方式的优势与不足。语料收集02尝试使用一款语料库软件的各种功能(这里我们推荐中文界面的免费软件汉语助研7.0),思考一下这些功能都能做怎样的数字人文研究?语料分析03谈一谈你对Deepseek等大语言模型的看法,你认为Deepseek等大语言模型所生成的语料是否应该被数字人文研究?我们又应该从哪些方面研究这些
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 民办合肥滨湖职业技术学院《大众媒介概论》2025-2026学年期末试卷
- 厦门海洋职业技术学院《新闻编辑》2025-2026学年期末试卷
- 甲醇制烯烃操作工创新思维模拟考核试卷含答案
- 福建水利电力职业技术学院《全新大学英语》2025-2026学年期末试卷
- 氯氢处理工安全演练评优考核试卷含答案
- 主提升机操作工安全意识强化测试考核试卷含答案
- 井下作业工岗前安全综合考核试卷含答案
- 陶瓷工艺师持续改进竞赛考核试卷含答案
- 脓毒症性凝血病诊疗中国专家共识总结2026
- 蛋白质和核酸-课件2025-2026学年人教版高中生物
- 资产管理岗位的职责与要求说明
- 青春痘中学生科普
- 需求收入弹性课件
- 宠物营养学知识培训课件
- 幼儿园大班语言《改错》课件
- 小学劳动拖地课件
- 高校实验员招聘面试经典题及答案
- 煤矿安全评价
- A股网格交易讲解
- 2025至2030年中国青瓷市场分析及竞争策略研究报告
- 呛奶急救处理及宣教
评论
0/150
提交评论