(汉语言文字学专业论文)建湖方言词汇研究.pdf_第1页
(汉语言文字学专业论文)建湖方言词汇研究.pdf_第2页
(汉语言文字学专业论文)建湖方言词汇研究.pdf_第3页
(汉语言文字学专业论文)建湖方言词汇研究.pdf_第4页
(汉语言文字学专业论文)建湖方言词汇研究.pdf_第5页
已阅读5页,还剩73页未读 继续免费阅读

(汉语言文字学专业论文)建湖方言词汇研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 江苏境内江淮方言现有研究情况表明:苏北的苏东地区,主要是指自盐城向 北到连云港毗邻地域,方言研究最为薄弱,可以称之为江苏方言研究的“北大荒”。 建湖方言是处于该区域内的江淮方言的一个分支,具有方言学研究价值。 本研究的目标是在田野调查的基础上,描写语音系统,重点研究建潮( 高作 镇) 方言日常会话词汇。首先,结合社会语言学的理论和方法确定方言调查点和 选择方言调查对象,对其活方言进行跟踪性调查。用三个月时间( 2 0 0 3 年3 月 2 0 0 3 年6 月) 实地录音,建立建湖方言语音语料库。其次,把收集的语音语 料整理分类,转换成电子文本,建立建湖方言电子文本语料库,合计五十余万汉 字。然后,采取计算机自动分词程序切分语料文本统计方言词汇出现的词频。 将建湖方言词汇划分为高频词、次高频词、中频词、低频词、罕频词五个等级, 建立建湖方言中高频词词表、建湖方言日常词汇频度表。在此基础上,对 方言特色词语进行词法分析与释义。 本研究的主要方法:一是跟踪性田野调查法,二是采用计算机分词和统计法, 三是方言描写法,即对方言特色词词法和词义进行描写。本研究在探索和实践方 言研究过程和研究成果技术化的同时,填补了建湖方言研究的空缺。 关键词:建湖方言日常会话词频统计中高频词词表特色词 a b s t a c t n 他s t u d yo f j i a n h ud i a l e c ti sv e r yp o o ri nj i a n g s up r o v i n c e j i a n h ul i e si nt h e h i n t e r l a n do fl i x i ar i v e r j i a n h ud i a l e c tm i x e du pt h o s eo fn o r t h e r na n ds o u t h e r n r e g i o m t h e e f o r e , i ti so fg r e a tv a l u ef o rd i a l e c t o l o g ya n dt h eh i s t o r yo fc h i n e s e l a n g u a g e b a s e do n p r o n u n c i a t i o n , p h r a s e so f j i a n h ud i a l e c t ,i n c l u d i n gt h o s e w i t hd i a l e c t a l c h a r a c t e r i s t i ca n dg e n e r a lc h i n e s ep h r a s e s w e r es t u d i e d a n de v e r y d a yp h r a s e so f j i a r t h ud i a l e c tw c a e p i c k e do u t s o e i o l i n g u i s t i ct h e o r ya n dm e t h o dw e r ee m p l o y e da n d t h ej i a n h up r o n u n c i a t i o ns y s t e mw a sv e r i f i e d ap r o n u n c i a t i o nc o l l e c t i o no f 5 0 0 , 0 0 0 w o r d sa n dt h et e x tc o l l e c t i o nw e r es e tu di nt h r e em o n t h s ( f r o mm a r c ht oj u n eh a 2 0 0 3 ) t h eu s ef r e q u e n c yo f e a c hw o r dw a ss t u d i e db ym e a n so fa c o m p u t e rs t a t i s t i c p r o g r a m a c c o r d i n gt ot h es t a t i s t i cd a t a , j i a n l md i a l e c tp h r a s e sc a nb ed i v i d e di n t o5 c l a s s e s :r o o s tf r e q u e n t l yu s e d , f i f e q u e a a t l yu s e d , c o m m o n l yu s e d , i n 蛔u e n tu s e da n d l i t t l eu s e d n 伦t a b l eo ff r e q u e n c yo fj i a n h ud i a l e c t a lw o r dw a se s t a b l i s h e d n l e c h a r a c t e r i s t i c p h r a s e sw c a ee l u c i d a t e dw i t h t h em e t h o d o f p o r t r a y a ll i n g u i s t i c s 。 av a c a n to f t h e s t u d yo f j i a n h ud i a l e c tw a s 丘1 l e du p a sw e l la sa m e t h o d 幻s t u d y c h i n e s ed i a l e c tw a st r i e d t h et e c h n i c a l i z i n go ft h e p r o c e s sa n d r e s u l tw a s a t t e r o p t e d a n da c o m p u t e r - c o n t r o l l i n g m o d e lf o rt h e s t u d y o f c h i n e s ed i a l e c tw a sc o n s t i t u t e d k e y w o r d s :j i a n h ud i a l e c t :e v e r y d a yc o n v e r s a t i o n s t a t i s t i c so fw o r df r e q u e n c y m i d d l ea n d h i 曲f r e q u e n c y w o r dl i s t ;c h a r a c t e r i s t i cw o r d 学位论文独创性声明 本人郑重声明: 1 、坚持以“求实、创新”的科学精神从事研究工作。 2 、本论文是我个人在导师指导下进行的研究工作和取得的研究 成果。 3 、本论文中除引文外,所有实验、数据和有关材料均是真实的。 4 、本论文中除引文和致谢的内容外,不包含其他人或其它机构 已经发表或撰写过的研究成果。 5 、其他同志对本研究所做的贡献均已在论文中作了声明并表示 了谢意。 作者签名: 日期: 学位论文使用授权声明 本人完全了解南京师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版;有权将学位论文用于菲赢利目的的少量复制并允许论 文进入学校图书馆被查阅;有权将学位论文的内容编入有关数据库进 行检索;有权将学位论文的标题和摘要汇编出版。保密的学位论文在 解密后适用本规定。 作者签名: 日期: 刖蟊 建湖方言的历史沿革 建湖县位于苏北里下河腹地,隶属于盐城市辖区。东与射阳县接壤 南与盐城郊区( 今 盐都县) 接邻:西南与宝应县分界:西与宝应、阜宁、淮安( 今楚州区) 三县苇荡毗邻:西 北与阜宁接壤,建湖她域古为淮夷旧地,原居民说古淮夷语。境内春秋先后属吴越,越亡入 楚。两汉扬雄方言提及“吴扬江淮之间”,建湖方言属该方言区域。其时,此地方言尚 属源于古淮夷语的北部原始吴语。永嘉以降,随着人口迁徙与民族融合南北语言互动交融 本地淮夷土语逐步演变为中古江淮方言,成为汉语方言区。建康之蔗,江淮之间多为南迁北 入,这一区域的语言演变为近古江淮方言。中原汉语特征进一步增强建湖方言随之进一步 演变。明初洪武年间,有苏淞等府居民迁入苏北及建湖境内,史称“洪武赶散”。明清期间, 江南吴语逐步与当地近古江淮方言融合近代苏北江淮方言包括建湖方言的底层由此最终奠 定。( 李葆嘉1 9 9 4 ,1 9 9 9 ) 二、建湖方言研究的前沿动态 长期以来方言学界通常将江淮方言划归北方方言区但江苏省方言志( 江苏人民 出版杜,1 9 9 8 ) 将省内方言划分为吴方言、江淮方言、北方方言三区。把江淮方言从北方方 言中区别出来,符合其历史形成过程和现有实际特点。( 李葆嘉2 0 0 2 ) 江淮方言地区,自古 就是南北语言交汇之地,永嘉以降尤为突出,其方言兼具南北特色具有很高的方言学和汉 语史研究价值。 江苏境内方言现有研究情况表孵;苏北方言研究不如苏南方言研究深入:就苏托而言, 淮扬片江淮方言主要集中在研究扬州和淮阴方言,通泰片主要集中在研究泰州和南通方言 徐州方言和赣榆方言研究各具特色;苏北的苏东地区,主要是指自盐城向北到连云港毗邻地 域,方言研究最为薄弱,可以称之为江苏方言研究的“北大荒”。建湖方言研究就处在这个 “北大荒”的中心地带。 1 9 2 7 年,徐宗斌的类音字汇( 上海深柳书屋) 出版,该书根据盐城话音序编排,全 面反映了其时盐城话的语音系统和同音字体系,是一部可贵的描写苏北地域汉语方言的著 作。2 0 世纪5 0 年代,在推广普通话的社会背景下,以县政府所在地作为方言调查点对盐 城境内的方言展开普查,出版了盐城入学习普通话手册( 江苏教育出版社,1 9 5 9 ) ,主要 目的是归纳盐城方言与普通话对应规则。另外,江苏省和上海市方言概况( 江苏教育出版 社,1 9 6 0 ) 也对盐城方言及其辖区内一些县的方言作了简要描写。8 0 年代以后,在新编地 方志的过程中,盐城方言研究有了新的进展。1 9 9 4 年编写的建湖县志方言篇( 江苏人 民出版社t 9 9 4 ) 主要从两方面描写建湖方言情况;l 语音:包括声母( t 8 个) 、韵母( 5 0 个) 、声调( 5 个) ,列出同音字表;2 词汇:列举方言词语二百余条。 除了以上这些地方志中方言描写,描写盐城各市县方言的论文主要有苏晓青( 1 9 9 2 , 1 9 9 3 ) ,顾黔( 1 9 9 3 ) ,杨报国( 1 9 9 7 ) ,赵昌( 1 9 9 1 ) 和平山久雄( 1 9 8 4 ) 等。另与建湖毗 邻的宝应、淮安( 今淮安市楚闸区) 这两地方言,除新编地方志中的描写以外,主要论文有 王世华( 1 9 9 2 ) 黄继林( 1 9 9 2 ) 周慎钦( 1 9 8 6 ) 、汪国淮( 1 9 8 9 ,1 9 9 0 ) 等。对研究建湖方 言,这些论著都具有不可忽视的参考和借鉴价值。 三、研究爵标和研究方法 ( 一) 研究目标 综观建湖方言及其毗邻方言研究现状,可以发现目前这一片方言研究的地点主要围绕政 府所在地,籀写对象主要集中在语音稻基本词语方面,研究方法主要是传统翦调查播写法。 总体说来,研究的广度、深度都远远跟不上语言学发展的要求。 本研究的目标是在语音归纳的基础上重点研究建湖方言日常会话词汇,包括方言特征词 和汉语通用词。本文在相关研究的基础上,运用新思路、新材料、新方法研究建湖方言词汇。 ( 二) 研究方法 1 实地调查法本研究以一位文化程度是小学三年级的老年男性为主,同时对三到四 位中老年人的日常生活语言进行语音实录,然后整理研究。 2 程序统计法对语料进行分词和词频统计。 3 方言描写法描写建潮方言语音系统和日常词汇系统,对方言特色调进行必要的解 释,必要时给出例句。吸取相关方言研究中的考本字成果有音无字的采取同音字标记。 四、研究程序和研究成果 依据“语言科技新思维”的“汉语方言研究的技术化”( 李葆嘉2 0 0 2 ,2 0 0 3 ) ,本文具 有两个特点:社会语言学的调查方法( 采取社会语言学的理论和方法对活方言进行跟踪性调 查) 、电脑技术化的操作程序( 建立方言语料库,采取计算机自动分词程序) ,其程序如下: 1 确定调查点在充分了解本县方言沿革和概貌的基础上,选择本县境内人口居住相 对稳定、经济发展相对迟缓、语言年代相对古老的( 当地入认为“土得摊渣”的土话) 一个 乡镇( 高作镇) 作为调查点。 2 收集语料在调查点中主要选择了一位老年男性和其他几位老年人,依据社会语言 学的理论和方法,对其进行跟踪调查三个月( 2 0 0 3 年3 月底2 0 0 3 年6 月底) 。将其日常 生活用语避行语音实录。共录入语音语料3 2 盘磁带,建立建灞方言语音语辩痒。( 跃度 9 0 分钟的磁带1 6 盘;长度6 0 分钟的磁带1 6 盘) 3 核实音系依据现有建湖县志( 1 9 9 4 ) 中的方言音系,结合所收录的语音语料进 行核实调整,确定建湖方言语音系统。 4 整理编辑在归纳啻系的同时,摄据调查对象、调壹内容整理语料,输入电脑进行 编辑,建立建湖方言电子文本语料库( 5 0 万汉字) 。 5 切分统计适当预处理后,由南京师范大学计算机系曲维光老师( 南京师范大学文 学院计算语言学博士) 采用分词软件进行自动分词。经过本人人工校对后。再进行词频统计。 6 编排词表根据电脑程序统计的缩聚,将建潮方言弱常词汇按出现频度划分五个等 级,其成果是建湖方言中高频词词表( 二抟面文本) 、建湖方言日常词汇频度表( 电子文 本) 。 7 ,特色词语分析与释义对语料中出现的方言特色词语进行分析、释义,必要的给出 倒句。 2 本文在探索和实践汉语方言研究技术化的同时,填补建潮方言研究的空缺。本文的研究 和操作是方言研究过程和研究成果技术化的一个尝试,在研究过程中建构了以计算机为辅助 工具研究汉语方言的操作模型。本文的成果除了作为汉语方言研究的一个专题,还可为社 会语言学、中国语言史、地方戏曲学、民俗文化学的研究等提供参考。特别值得提及的是建 湖是苏北主要地方戏曲之淮尉的发源地,滩剧语言以建湖方吉为基础,建潮方言的细 致描写具有一定的戏曲学价值。同时本选题的一些成果还可以为建湖人学说普通话提供参 考。 第一章建湖方言的语音系统 第一节建湖方言声韵调系统 一、声母1 8 个( 包括1 个零声母) p波布爸表八笔p h批爬匹扑旁碰 m门米毛磨木美f否反放富非风 t s 组扎子着正总 t s h 草车虫产冲趁 s 声上桑身省送 t但大地读当动t h 他提土特躺同那你能鸟耐娘 i里路落日肉连 t 0句叫竞见将就k h雀亲求前桥缺c 夏小修先想胸 k古歌该个过刚k h 哭宽可扩看靠 x河喊换好黄黑 。 无云耍样因用 说明: ( 1 ) 建湖方言无全浊声母。例如:洞= 冻 c 0 日4 5 】:具= 句【t # y 4 5 】。 ( 2 ) 没有普通话的r 【乏】声母。太多数r 【五】声母读【l 】声母。例如:肉i 卖如 | y m 4 3 】:少量 r 嚏j 声母既可读为零声母也可读为 i 】声母。例如:融可读如 i o 矿”】或 1 0 矿”】;还有少部分 r 气】声母可读为 n 】声母或【l 】声母。例如:染读如 r 面5 5 】或【l d ” 。 ( 3 ) 没有卷舌声母。例如:只= 姿【t 订1 】:撤= 沙 s 一1 。 ( 4 ) 不分尖团。例如:酒= 九i y i ”】:精= 经i n j l l 。 二、韵母4 9 个( 包括3 个韵化辅音) ( 一) 阴声韵( 1 8 个) 1 四痴子次i 以米比里 u无路住肚 y 与女许句 a 阿把家哈i a 呀爹斜夏l l a 瓦花夸瓜 o 饿婆磨多 e 爱来带在i 也阶届介u 歪衰外乖 i x 爷姐且写 e i 杯妹队累u e i 为归岁催 。敲跑高好b 要秒票料 唧欧对肉够 i y 有纽流就 ( 二) 阳卢韵( 1 5 个) 4 6 丸半判满 y 6 远卷全选 i i 边片棉天 e 安难蓝赶逆眼减闲简幢万环珊赚 a d 昂帮忙桑i 柚样娘亮想u m 王双光黄 3 n 恩奔森冷i n 应平顶亲u o n 问尊滚混y o n 云群训军 叼翁红中工i 叼用倾胸容 ( 三) 入声韵( 1 3 个) i i ? 一笔吃席 霉? 八抹辣发i r a ? 压略甲峡u 霉? 挖刷刮滑 o ? 拨说割渴 胡剥摸绰壳i a ? 脚雀削约u a ? 握捉嗍郭 3 7 额不革佛u a ? 涡出术骨 y o ? 月绝缺血 3 7 自足读六i o ? 育局曲宿 ( 四) 韵化辅音( 3 个) 【m 】我( 们) d 】我【n 】嗯。 说明: ( 1 ) 阴阳入韵母三分,其中阴声韵1 8 个,阳声韵1 5 个,入声韵1 3 个。普通话中阴声 韵字“亩”、“母”( 雌性) 在方言中读为阳声韵 m i n ” 。 ( 2 ) i 】i 、【u 、 y 】发音时有明显的摩擦,【u 、 y 】发音时嘴唇略微展开。 ( 3 ) 没有 a 蚵、【i 日 韵母。跟= 耕 k o n ”】,亲= 轻“i n “】。 ( 4 ) 普通话中的 。蚰声母在方言中与舌尖前、舌尖中、舌根声母相拼读为 a n 】:例如; 耕= 跟 b n ”】,睁= 真【昀n ”】:与唇音声母相拼读为【o 啊。例如:风读如【f 0 矿1 】;蹦读如 p 叼4 5 。 ( 5 ) 铆u 】介音的韵母逢 t 】、【th 】、 n 、 1 】读开口。例如:吨= 灯 协n ”】:论= 认【l a n 3 1 。 三、声调5 个( 不计轻声) 调类调值例字 阴平3 l 刚知开超婚非 阳平2 1 3陈穷时人文年 上声5 5 古走口好五女 去声4 5对爱抗共用进 入声5 急曲黑各尺六 说明: ( 1 ) 入声不分阴阳,有喉塞尾【7 】。例如:罚= 发 f 琵? 5 】,毒= 督【t 3 7 5 】。 ( 2 ) 本文归纳的是单字声调,语流中的变调现象本文不做研究。 第二节建湖方言声韵配合表 建湖方言不计声调共有音节4 3 1 个,下表列出方言中这些音节。每张表的同一横向表 示声母相同,同一纵向表示韵母相同。表中空格表示没有声韵配合关系。有特殊情况的在表 中标注符号,表后说明情况。 表一 1 a0 l0 y 叩 oe a 日 p 把波致杯包搬板帮 p h 怕婆派配泡判盼旁 m吗 磨卖妹毛满慢忙 f 非反放 t s 资渣坐灾遮找走钻站脏 t s h 迟茶搓菜扯 苴 抽窜蚕欧 s 四沙所晒尿少艘酸桑 t 大多带 堆 到显段但当 一 他拖太腿套头团谈躺 n 拿糯奶内闹暖难 囊 l 拉锣来泪老肉乱蓝浪 t c t c h c 高够家歌 该今管赶刚 k h 卡 科 开靠扣宽砍抗 x 哈 火害 哩 好后换喊航t g 啊饿 爱唉傲欧碗安c 口 说明: 今在今个( 义为今天) i 卖m k e i ”】;在今年中今读为 b n ”】。 6 表二 鲁n o r j ?0 2甜3 t胡 p 奔崩八拨剥不白比 p h 盆朋泼朴拍批 m 门梦抹沫摸没 未米 f 分风发佛福 t s 真 由 砸茁作塞足 t s h 层聪擦撮绰册促 s森送 杀说索色缩 t 等 动答夺 宜得 读地爹 t h 疼通踏 脱托特秃提 n 嫩弄捺懦诺 泥 1 人龙辣落勒 里、 t c 几假阶 t c h 起斜 c 西下 k 更工夹割各 堇 国 k h 日空掐渴壳 嗑哭 x很 红瞎活学 里 或j 1 1 、 。 恩翁鸭沃恶 额屋衣 牙也 说明: 有音无字。如响声词: p i a 3 1 叽( 表示吃饭时咂嘴的声音) 。 有音无字。如词语: p “i a 2 0 】人( 讽刺人) 。 有音无字。如动词: p a ? 5 】拍打使( 灰尘等不好的东西) 远离自己。 脱还有一个读音 t “a ? 5 ( 掉下) 。 有音无字。如词语: 1 0 ? 5t o 1 5 1 ( 邋逼) 。 7 表三 l i1 3 l y 叮 1 il e l a 日 m l o 日 i i ? i r a ? p 表边兵笔 p h 票片 撤 m 秒谬棉名蜜 f t s 展折 t s h 缠吃 s 扇舌 t 掉丢点顶跌 t h 条天听铁 n 鸟牛 芷 娘拧 孽虐 l 料流连亮另历略 t c 姐 口u 就件减将进窘急 田 t g h且桥求刖强亲穷七 c写 小修先闲想新胸席峡 k k h x 0 爷 要又烟眼样应水压 说明: 折多音字又读为暗i ? 勺( 赔本) 。 牛文读音 n i y 2 ”】,白读音 y i i i ”3 】。 眼文读音 i e ”】,白读音晴5 5 。 表四 i a ?i o ? u eu e ll l u a n u a d u ? p 布 p h 葡 m牡 f 副 t s 住抓拽追赚尊装 t s h 初揣吹村窗 s书 耍摔岁珊孙双刷 t 度 t h 土 n 努 l路 t g 脚局 t c h 雀曲 g 削宿 k 古瓜 乖 跪关滚光刮 k h 苦夸快丐环 捆矿 x 湖花 坏 灰还混黄滑 约育无凹外 为万问望挖 说明: 有音无字。方言中有动词:e t s u m ? 5 】( 清扫、清洗) 有音无字。方言中有动词: t s l i l l e 4 1 ( 插) 9 表五 _ u a ?u a ? yy oy o ny a ? m q p p h m f t s 捉 t s h 戳出 s 嗍 米 t t h n 女 l 驴 t c 句卷 至 绝 t c h 去 全群缺 c许 选训血 k 郭骨 k “ 扩窟 x霍 忽 。 握物与 远i 月嗯我 说明: 在“我们”一词中我读为【m ,我单独出现时读为【d 】。 0 第二章建湖方言的调查整理 第一节建湖方言语料的调查 一、方言点的确定 以往方言调查主要围绕地方政府所在地进行。本研究认为选地方政府所在地作为方言调 查点有不妥之处。首先,政府所在地一般是该区域政治、经济、文化中心,其人员构成相对 复杂。四乡人都渴望到政府所在地居住、生活。这些来自四面八方的人带来了各有特色的乡 音、乡语,长期以来这些各具特色的乡音、乡语互动交融形成了政府所在地的方言。无论在 语音还是在词汇方面,政府所在地都很难保持原有的方言面貌。其次,随着改革开放的深入, 经济的渗透外来人员的进入,政府所在地的语言最容易受普通话以及其它方言的影响从而 发生程度不等的变异,其语言已经越来越不能代表方言原有的面貌了。 本研究选择的方言点( 高作镇) 位于县境西北,距离县城1 2 5 公里,是县境古老的乡 镇之一得名于唐代建筑“高作寺”。该镇虽然在6 0 年代已经与县城通车,但所处地理位置 不是交通枢纽,至今除与县城通车外,与其他乡镇、其他县城没有交通班车,是个相对封闭 的乡镇,其语言受外界影响相对较小。在建湖,高作话通常被当作是土得掉渣的语言,这种 土语较好地保持了方言原有面貌,更适合作为方言调查点。 二、方言合作人的选择 为了更好地反映方言原始面貌,本研究在选择方言合作人时遵循以下几条原则: 1 祖籍是高作,自己及父辈没有迁徙历史,很少外出,短期离开建湖高作的经历也要 尽可能少。 2 性别以男性为主,年龄在五十岁以上。 3 文化程度比较低,没有接受过正规普通话教育,受普通话影响尽可能小。 4 思维清晰,善于表达。 本文的主要方言合作人情况如下: 1 李相汉,男性,1 9 4 0 年出生,文化程度是小学三年级,从小生长在高作,自己及父 辈都没有迁徙情况,很少外出,包括建湖县城一年也去不到一两次。这位老人的妻子也是土 生土长的高作人,很少外出,即便外出也基本没有超出建湖这一地域范围。这位老人虽然文 化程度不高,但思维清晰也很健谈,是方言调查的晟主要对象。 2 李相山男性,1 9 3 7 年出生,文化程度是小学四年级,从小生长在高作,1 9 6 0 年曾 在南京矿上工作过一年,但其工作是封闭式管理,而且工作周围都是高作人,与外界基本没 有联系,语言基本没有受南京话影响。该位老人的妻子是土生土长的高作人。这位老人曾经 做过农村干部,生活经历丰富,是本研究的又一调查对象。 3 李相虎,男性,1 9 5 4 年出生高中毕业,从小生长在高作,是乡镇企业负责人,偶 有短期外出现象,此人乐观自信,对建湖方言甚为认同。他思维清晰、语言丰富,也是本研 究的一位凋查对象。 三、方言语料的录入 1 以一人为主线 本研究以一个个体日常词汇研究为主要研究目标和研究内容在语音录入时尽量选择这 个对象( 李相汉) 日常生活会话进行录入。其他人的语音录入围绕该对象进行,多是和该对 象的日常会话。本人调查的语料有8 0 是围绕该对象进行的。 2 跟踪调查 本研究采用社会语言学的理论和方法跟踪调查对象( 李相汉) 三个月( 2 0 0 3 年3 月 2 0 0 3 年6 月) ,对其日常生活的有声语言进行实地录音。这些语音语料有方言合作人与家人 在饭桌上的谈话;有他与亲戚朋友闲暇时的聊天内容;有他对社会生活、社会现象发表的个 人见解;有他对自己和家人过去生活的回忆,内容丰富,涉及日常生活的各个方面。三个月 的跟踪调查共录入语音磁带3 2 盒,其中1 6 盒长度为9 0 分钟;1 6 盒长度为6 0 分钟。 第二节建湖方言语料的预处理 一、语料归类 对所收集到的3 2 盒方言语音语料进行筛选,选出内容丰富充实、语音相对清晰的2 5 盒语音文本,把每盒磁带录入的语音文本整理为一个电子文本,并且以主要谈话人和谈话时 间为线索为每个文本进行标号,同时给出文本标题,标题主要对会话内容进行归纳,一个文 本的标题一般不止一个。如:o l 打牌:婚姻:算命。表示在0 1 文本中,方言合作人会话话 题主要涉及“打牌、婚姻、算命”这三方面内容。每个文本后附有语料附表。附表的内容为: 1 会话者简况以表格形式列出语料中会话者简况,包括姓名、年龄、性别、身份、文 化程度、迁徙情况等。 2 专有名词表列出该文本中涉及到的人名、地名。 2 5 盒语音文本经过三个月的归类、整理,形成2 5 个电子文本,建成本研究的电子语料 库即建湖方言日常会话语料库,共计5 0 多万汉字。 二、话文转换 ( 一) 语音文本的特点 1 模糊性 因为是对日常生活真实语言进行实地录入,所以谈话时,谈话对象不会刻意把每个语音 都发得到位,其中有许多地方吐词含混不清,而且语音录入的外界环境也不够安静,种种原 因造成了语音文本的模糊性。 2 重复性 谈话时因为口语特点、个人的谈话习惯以及说话水平等原因造成词语、句子重复现象时 有发生。 3 跳跃性 谈话过程中说话人常常不能顺着一个话题谈到底,期间可能突然想到其它事情,或者听 话一方或者其他人插了一句嘴,都能改变原有话题。这些思维跳跃使得谈话内容跟着出现跳 跃。 ( 二) 话文转换的原则及做法 本研究所说的话文转换是指从语音文本到电子文本的转换。语音文本的特点为语料转换 带来了困难。在整理文本过程中必须把握好尺度。本研究在语料整理过程中尽可能坚持文 字文本与语音文本内容一致性原则。具体做法有: 1 揣摩法有些语音模糊的,尽可能根据上下文揣摩确定说话的具体内容,将揣摩出 的内容补充到文本中。并用括号标出。例如: 1 2 你家妈那个人,也是个老实人。说的个( 本淡) 话。 这个例子表明在该旬中“本淡”一词是根据上下文及模糊语音揣摩出来的。 2 删除法对那些因为说话人自身说话习惯和其他原因造成无意义重复、i 罗嚓的。需要 删除的则删除。例如: 你说这个、这个、这个、这个又怎么说法? 整理为:你说这个又怎么说法? 3 添加法有些会话因当时有特定的情景,常常出现省略现象,离开具体情景会话内容 常出现难以理解或产生歧义的现象。为了便于正确理解,在整理文本过程中,将其省略的部 分尽可能按照说话对象原有意图补充进去,并用括号标出,以示和原有内容进行区分。例如: 那( 他) 不会说吗? ( 他) 嘴( 被) 绞起来了? ( 要你说? ) 4 释义法对于难以理解的内容,整理文本过程中,用小五号字在难句后解释并用括号 标出。例如: 你把我吃不办吃,吃过了做事。( 若是我,我要赶紧吃吃完了还要做事。) 5 转换法对于语音录入过程中出现内容跳跃、话题转换的,整理时将这部分内容与原 来内容分列,作为另一个话题处理。 文本处理过程中,本人揣摩、添加及释义的内容均用括号标明,在分词及统计时,这部 分内容不参加分词和统计。 三、词形分化 电脑对语料的分词依靠的是对词形的识别。在汉语中,同形词并不一定是同一个词。因 此本研究在分词前对这部分词语进行了分化。 ( 一) 同形同音词 同形同音词是指词形相同、语音相同( 包括词的声、韵、调) 而在意义上需要分别处理 的词。处理同形同音词的方法是在词形右下角标注阿拉伯数字,以示区分。例如: 花标为“花t ”:他家院子长老些花,呢。“花z ”:小二子花。人家钱,她就不好回人家 了。( “回”方言特色词“拒绝”的意思) 。 ( 二) 同形异音词 同形异音词是指词的书写形式相同,而语音却不相同。为了便于电脑识别考虑到方言 中这部分同形异音词与通用语的语音有相应的对应规律,标音时,统一标汉语拼音,并用阿 拉伯数字1 、2 、3 、4 分别代表阴、阳、上、去四个声调。例如: 好分别标为:好( h a 0 3 ) 好( h a 0 4 ) ,长分别标为:氏( c h a n 9 2 ) 长( z h a n 9 3 ) 。 ( 三) 多性多义词 多性多义词是指词形相同、语音相同,意义之间互有联系但词性不同。本研究处理这类 词语的方法是用英文字母在该词语右下角为其标注词性。例如: 苦天天外去苦。钱去我小时候吃了那么多苦,我今天吃的瓜最苦。 四、词项标注 ( 一) 方言特色词的处理 由于电脑不能识别方言特色词,所以在语料进入程序处理之前对方言特色词必须进行人 工区分和标注。 1 方言特色词的确定 方言特色词确定依据以下几条原则: ( 1 ) 语音原则 语音特殊与通用词很难找出对应规律的词语可以认做方言特色词。例如: 落【1 胡5 】子( 篮子) 、手颈脚i l l ”】( - t - - 腕) ,告送 s o r j ”】( 告诉) 。 ( 2 ) 语义原则 与通用词构形相同意义不同的可以看作方言特色词。如“不对”( 关系恶劣) 。与通用词 构形相同但义项多寡不同。如:建湖方言中“桶”除有与通用词相同义项外还有“盆”的意 思,用这个义项的词语应该算作方言特色词。还有一些方言词理性意义与通用词相同,但是 表达色彩上却有鲜明的不同之处,如“猾”在通用语中是贬义,在建湖方言中常用来形容一 个人机灵,用做褒义,这样的词语也看作是方言特色词。构形和构义都有特色的更应当看作 是方言特色词。如“马叉”( 无目的地四处闲逛。四处溜达,四处张望) 。 ( 3 ) 语法原则 方言词语中一部分词语的词法与通用词有别。例如:建湖方言部分a b 式形容词可重叠 为a b b 式 刻薄刻薄薄体面体面面白净白净净 干净一干净净 这样的的词语作为词的构形形式是独特的,也算作方言特色词。 ( 4 ) 搭配原则 方言中某些词语搭配与通用词搭配有别。如建湖方言“吃”既可以与固体食物发生关系, 也可以与液体食物发生关系,如“吃酒”还可以和气体发生关系,如“吃烟”“吃酒、吃烟” 中这两个“吃”也当作方言特色词,本文在标注这类词语时标注了整个组合要素,如【吃烟】、 【吃酒】“烟、酒”本身都不是特色词但整个组合是特色,也就都标在特色词之内。 2 方言特色词的标注 为了便于电脑对方言特色词语识别,本研究在电脑处理文本前对方言特色词语给予了形 式标注,在文本中,用【】将方言特色词语标注出来。如【爹爹】( 祖父) ,括在【】里的 是方言特色词,电脑切分语料时,对这部分词不用切分,只要做出统计就可以了。 ( 二) 专有名词标注 方言语料中出现了许多人名、地名等专有名词,由于是口语会话语料,这些文本里专有 名词比起正常书面文本里出现的专有名词数量多,且不容易识别。如:人名“大毛、燕子、 小雨、大狗”,地名“大墩、大桥、港口、东方”等,这类词语若不加形式标注,电脑分词 处理时很有可能把它们当作普通词语对待。处理这部分词语时,要在形式上给予标注。用【】 将文本中出现的人名、地名等专用名词括在方括号内。如: 大毛 、 燕子 、 小雨】、【大狗】。 电脑分词时将括号内词语作为一个整体对待,不用对其内部切分。 ( 三) 同音替代和国际音标标注 本研究不求考本字,有本字的写本字;本字待考的,采用同音替代。具体做法是在同音 字下加波浪下划线。有音无字的用方框“口”加国际音标表示。 4 第三章建湖方言的词汇统计 第一节建湖方言语料的分词 一、电脑分词中出现的问题 经过电脑分词,出现如下问题: ( 一) 该合的未合 1 新词识别出现困难。如:“手机”切分为:手机 “非典”切分为:非典。 2 歧义字段难以正确处理。如:“大姨娘”切分为:大姨娘: “我家父亲”切分为: 我家父亲:“不可以”切分为:不可以。 3 词语重叠形式不能正确识别。如:“重重叠叠”切分为:重重叠叠、“白白净 净”切分为:白白净净。 ( 二) 该分的未分 1 “一、不、第、老”等字开头的短语没有分开。如:一个、一种、一句话;不想、不 少、不同、不肯、老早、老是等都未能切分出来。 2 高频出现的补充短语常当作一个词语对待。如:听到、看到、反过来等没有做出切 分。 3 高频出现的偏正短语当作一个词语对待。如:很好、很多、很少、最大、最多、最 小、最少、小事等。 ( 三) 可分可台的不能根据情况处理 汉语中有这样一部分词语,既可以看作是词。也可以看作是短语,要断定是词还是短语 需要根据上下文语境。程序处理不能正确区分这部分词语,对此采用一刀切的方法。例如: 一块糖 老师要 不读书 不管下 我不管 一块吃饭 我t 1 读书,不是光看。 将来【没得】饭吃。( 【没得】方言特色词意思是“没有”) 不f 飞? 雨f 舔f 芸。f 悔| ,f 舔| 差| 蔑 鼍f | 不 甚| 就 罢f 二、分词校对原则 分词校对过程中主要面临的问题是词语的界定,在词语界定时主要遵循以下原则: 1 语法原则 严格按照语法学对词语做出的定义:词是最小的能够独立运用的语言单位,界定词与非 词。例如: “一个”切分为:一个;“一种”切分为一种:“不肯”切分为:不肯 2 语义原则 对于一些词语是词还是短语的界定要参考语义原则,看组成成分之间是融合意义还是加 合意义。例如 “读书”在“不读书将来没得饭吃”这个句子里,不是两个词义的简单加合,“读书” 在其发展过程中两个成分已经融合成新的意义“求学”,表达这个意义时,它是一个词,不 是一个短语。在“老师要我们读书不是光看”句中“读书”则是短语。 3 语用原则 词语的运用离不开语言的使用环境,要根据语境对其进行判断,给出合理的答案。例如: 我们不吃面,我们吃饭吧,我想吃饭了。此处“吃饭”是个短语要分开;而在另一个 语境:我一家老小要吃饭,我身上担子重呢。这个句子里“吃饭”是“生活”的意思,把它 看成是词。 待。 4 语感原则 分词校对时,还有一条重要原则是语感原则即大多数人语感上能接受的原则。例如: “手机、非典”这类新词大多数人把它认作是一词语,处理时就把它当作一个词来对 第二节建湖方言词频的统计 一、统计概况 ( 一) 通用词与特色词在词汇总量中所占比例统计 所收的5 0 万汉字语料经过电脑统计表明:语料中包含不同词语1 0 7 5 5 条( 包括标点符 号,人名、地名等专有名词) 经过人工校对,删除标点符号、专有名词后剩余词语为9 6 8 2 条。使用频率最高的前十一位词语分别是:我( 9 0 7 8 ) 、的( 9 0 4 7 ) 、了( 6 5 9 3 ) 、啊( 6 4 4 1 ) 、 这个( 5 3 2 6 ) 、不( 5 3 1 4 ) 、他( 5 2 1 3 ) 、说( 5 1 2 9 ) 、就( 4 5 8 9 ) 、呢( 4 5 1 3 ) 、你( 4 1 8 9 ) 。 这个十一个词语的频次都超过4 0 0 0 次,其中有三个人称代词:我、他、你;一个指示代词: 这个:三个语气词:了、啊、昵:两个副词:一个否定副词:不,一个表时间、语气的副词: 就:一个结构助词:的;一个动词:说。前十一个高频词中没有方言特色词。 使用频次在1 0 0 0 次以上的词语共计4 5 条,其中方言特色词语5 条,按照频次由高到低 依次是:【把】( 相当于通用词的动词“给”) ( 1 4 6 2 ) 、【回了】( 相当于通用词“后来、然后”) ( 1 3 6 5 ) 、【子】( 方言中“子”尾比通用语丰富) ( 1 1 8 4 ) 、【搞】( 相当通用词的介词“跟”) ( 1 1 3 8 ) 、【晓得】( 相当于通用词“知道”) ( 1 0 4 6 ) 。在频次超出1 0 0 0 的词语中方言特色词 占词语总量的1 i ,通用词占8 9 。 频次出现在1 0 0 次以上的词语共计3 4 2 条,其中方言特色词3 9 条占词语总量的1 1 , 通用词占8 9 ;频次出现在3 0 - - 9 9 次之间的词语共有6 3 1 条方言特色词有8 5 条,占总量 的1 3 ,通用词占8 7 :词频出现次数在1 0 - - , 2 9 次之间的词语有1 0 5 5 条,其中方言特色词 有1 7 2 条,占1 6 ,通用词占8 4 ;频次在5 - 9 次的词语共有1 2 5 0 条,其中方言特色词有 2 2 7 条,占1 8 ,通用词占8 2 。频次出现在1 “次的词语6 4 0 4 条,方言特色词语有1 6 0 8 条占2 5 ,通用词占7 5 。随着词频的递减方言特色词的比例在上升。高频词申方言特色 词占比例最小次高频词次之,方言特色词最高的比例也不过占词语总量的四分之一,这说 明在本方言日常会话中通用词汇处于明显的优势地位。 ( 二) 建湖方言日常词汇频次分布规律 6 1 根据统计数据可以看出高频词在日常交际中,数量少但出现频率极高。频次出现在 1 0 0 次以上的词语仅3 4 2 条,其中第一个词语“我”出现频率次9 0 7 8 次。这部分高频词在 汉语会话交际中占有重要地位,是交际中的核心词汇,是学习和研究的重点。 2 词汇数量增长与频次增长成反比规律,随着频次的递减词汇数量递增。如:频次出 现在3 0 次的词语有1 9 条,频次出现在2 0 次的词语4 6 条,频次出现在1 0 次的词语1 3 1 条。 3 词语频次之间落差随着频次递减频次落差越来越小。频次出现最高的词“我”与频 次出现第十一位的词“你”频次落差将近5 0 0 0 次。越到后来频次落差越小,相当一部分词 语之间频次是零落差,这部分词语根据频次很难断定谁在交际中发挥的作用更大。 二、建湖方言日常词汇频度等级 根据词语在语料中出现的频次高低,本研究将日常用语词汇分为五个等级,具体情况如 下表所示: 等级频次词量其中特色词语数量 高频词 1 0 0 9 0 7 83 4 2 3 9 次高频词 3 0 - 9 96 3 i 8 5 中频词 1 口之91 0 5 51 7 2 低频词 5 91 2 5 02 2 7 罕频词 1 46 4 0 41 6 0 8 词语总量 9 6 8 22 1 3 l 说明: 根据词语出现频次将建湖方言词汇分为五个等级:第一级词:高频词,在语料中这类词 语频次出现在1 0 0 次以上( 含1 0 0 次) ,这样的高频词共计3 4 2 条;第二级词:次高频词 频次出现在3 0 - 9 9 次之间这样的词语共计出现6 3 1 条:第三级词:中频词,频次在1 0 - 2 9 次之间,这样的词语总量为1 0 5 5 条:第四级词:低频词,频次在5 曲次之间,这类词语有 1 2 5 0 条;第五级词:罕频词,频次在l 4 次之间,这类词语数量庞大,共计6 4 0 4 条。 高频词的内部统计如下: 高频词出现频次词量其中特色词数量 9 0 5 1 9 0 7 81o 9 0 0 0 一母0 5 0lo 5 0 0 0 次以上8 0 0 8 9 9 90o 7 0 0 0 7 9 9 9oo 6 0 0 0 - 6 9 9 92o 5 0 0 0 一5 9 9 9 4 0 4 0 0 0 - - 4 9 9 9 4 0 1 0 0 0 次以上3 0 0 0 3 9 9 93o 2 0 0 0 2 9 9 950 1 0 0 0 1 9 9 92 55 9 0 0 - 9 9 950 8 0 0 一 9 992 5 0 0 次以上 7 0 0 , - 7 9 992 6 ( i o 叫6 9 992 5 0 0 - v 5 9 91 33 4 0 0 - - 4 9 92 03 3 0 0 3 9 92 3o 1 0 0 次以上 2 0 0 五9 93 46 l o o 1 9 91 3 61 6 总量 3 4 23 9 第三节建湖方言中高频词词表 一、高频词( 3 4 2 条) 我( 9 0 7 8 ) 、的( 9 0 4 7 ) 、了( 6 5 9 3 ) 、啊( 6 4 4 1 ) 、这个( 5 3 2 6 ) 、不( 5 3 1 4 ) 、他( 5 2 1 3 ) 、说( 5 1 2 9 ) 、 就( 4 5 8 9 ) 、呢( 4 5 3 3 ) 、你( 4 4 8 0 ) 、个( 4 1 8 9 ) 、一( 3 8 8 0 ) 、家( 3 2 7 5 ) 、是( 3 7 7 5 ) 、那个( 2 7 2 3 ) 、 有( 2 4 9 0 ) 、在( 2 3 3 3 ) 、她( 2 1 7 7 ) 、人( 2 0 0 0 ) 、到( 1 9 9 6 ) 、也( 1 9 1 5 ) 、去( 1 7 8 9 ) 、又( 1 7 7 9 ) 、 要,( 1 6 8 9 ) 、【把,】( 1 4 6 2 ) 、我们( 1 3 7 1 ) 、【回了】( 1 3 6 5 ) 、人家( 1 3 5 6 ) 、里。( 1 2 9 0 ) 、钱( 1 3 2 5 ) 、 没( 1 2 5 4 ) 、三( 1 2 0 8 ) 、【子】( 1 1 8 4 ) 、十( 1 1 4 8 ) 、【搞。】( 1 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论