2013_7_13AM_如何写基金申请_免费下载1.ppt_第1页
2013_7_13AM_如何写基金申请_免费下载1.ppt_第2页
2013_7_13AM_如何写基金申请_免费下载1.ppt_第3页
2013_7_13AM_如何写基金申请_免费下载1.ppt_第4页
2013_7_13AM_如何写基金申请_免费下载1.ppt_第5页
已阅读5页,还剩80页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

如何写科研基金申请的建议,赵鹤鸣 苏州大学电子信息学院 2013年7月,如何写科研基金申请,科研经费是开展科研的前提条件和物质基础,科研经费又必须通过申报课题才能获得,这里有科研选题、科研设计和科研申请书的写作三个重要环节。,一、科研课题申报渠道,1国家级课题,国家自然科学基金:主要有重大项目、重点课题项目、专项基金项目、面上项目和青年基金项目、国家杰出青年科学基金、优秀青年科学基金、国家基金国际合作基金等。 “863”高技术研究发展计划、火炬计划(发展高新技术产业计划) “973”基础研究计划项目、“973”青年科学家项目 国家重大专项,2省部级课题,部基金:有教育部、国防科工局、卫生部等部委的科学基金,包括回国人员科研启动基金等。 省基金:有省自然科学基金、省自然科学青年基金、省杰出青年基金、重点科研基金等。,其他课题,3、市、厅级课题:包括省教育厅、各个市的科研基金题等。 4、本单位科研基金。 5、横向课题。 6、自选题。,二、科研申请书的格式,国家自然基金申请书的格式,科研申请书的格式因基金种类的不同而有所不同,但大同小异,基本要求大体一致。下面仅就国家自然科学基金的申请格式为代表作一说明。,国家自然基金申请书的格式,一前置部分 1封面 2封二(填报说明) 二主体部分 1基本信息 (1)申请者信息 (2)依托单位信息 (3)合作单位信息 (4)项目基本信息 (5)摘要(研究内容和意义简介,限400字) 关键词(限5个),国家自然基金申请书的格式,2立题依据与研究内容(8000字) (1)项目的立项依据(附主要参考文献) (2)项目的研究内容、研究目标以及拟解决的关键问题 (3)拟采取的研究方案及可行性分析 (4)本项目的特色与创新之处 (5)年度研究计划及预期研究结果 3研究基础与工作条件 (1)工作基础 (2)工作条件 (3)申请人简历(包括项目组主要成员) (4)承担科研项目情况,国家自然基金申请书的格式,4经费预算 包括研究经费(业务费、材料费、仪器设备费、实验室改装费、协作费)、国际合作与交流费、劳务费、管理费等5个方面17项目,非常具体,而且还要求注明经费计算依据与说明,要求十分严格,不可马虎。,国家自然基金申请书的格式,三签字、盖章、承诺部分 1签字、盖章页 2申请者承诺及签字 3项目组主要成员承诺及签字 (包括项目分工、每年工作时间) 4依托单位及合作单位承诺 四推荐与审批部分 1推荐 2审批,国家自然基金申请书,三、书写科研申请书的具体要求,书写科研申请书的具体要求,立题依据充分、国内外动态和信息了解清楚。 课题科学意义重大,具有较好的应用前景。 起点高,科学问题新颖,学术构思巧妙,有创见。 与国内外同类工作相比,有自己的特色,避免重复。 课题研究范围不宜过大,内容不宜过多,主攻方向要明确、集中。 技术路线清楚,设计方案合理可行,研究方法力求先进。,书写科研申请书的具体要求,充分说明已有研究的基础和物质技术条件,研究小组的优势和实力。 预期结果明确。要充分展示预试验的结果,突出把握性和可行性。 申报手续完备,各栏目填写完整、齐全、清楚、实事求是。 认真选择申报学科专业,以便同行评议和终审顺利通过。 研究小组人员结构合理,实力较强,时间保证,符合规定。 申请经费合理、恰当、理由充分。,四、申请书的几大要素,申请书的几大要素,拟研究的内容是一个科学问题 例如:基于jfa 的耳语说话人识别研究 耳语音发音机理问题 建立耳语发音计算模型 模型的求解问题 拟解决的科学问题具有理论研究或潜在的应用价值 拟解决的科学问题具有先进性/创新性,申请书的几大要素,提出具体和可行的解决该科学问题的方法和技术路线 列出所获结果的价值和创新性 申请者和科研小组有较好的工作基础和开展工作的条件,五、浅谈创新性,浅谈创新性,何为创新思维?目前学术界众说纷纭,仁智互见,莫衷一是,但其核心内容是比较一致的,那就是创新思维归根结蒂旨在突破旧概念,建立新概念,它是孕育新概念诞生的一种思维方式。这里所指的新概念,应该作宽泛的理解,它可以是新的知识、理论和见解,也可以是新的方法、技术和产品,总之,是通过科技实践特别是科学研究所获得的具有创新意义的新成果。,浅谈创新性,创新的内涵有三个层面: 一是: 强调原始创新,努力获得更多科学发现和技术发现; 二是: 强调集成创新,使各种相关技术有机融合,形成具有市场竞争力的产品或产业; 三是: 强调对先进技术的消化、吸收和再创新。从这个意义上来讲,创新思维应该贯穿于科技工作特别是科研工作的全过程:从科研课题的选择,科研工作的开展,到科研成果的总结,论文的撰写,都需要运用创新思维。,六、科研选题和科学问题凝练,科研选题和科学问题凝练,在科研选题时,首先要进行调查研究,特别是对国内外文献的调查,然后尽其可能提出多种研究课题的设想,再精心选择出一个最适宜的具有创新意义的具有创新意义的研究课题;或者是对前人的研究进行剖析,然后对各家之长进行整合,避开各家的弊端,提出一个最佳的研究课题,以实现新的突破;或者是对过去的研究结果或理论产生质疑,提出新的科学假说,然后设法去进行论证,得出全新的结论,等等。这些都是在科研选题阶段常见的创新思维过程。,如何选择科研课题,选题原则 需要性(目的性) 科学性(真实性、客观性) 创新性(先进性) 可行性(现实性、效能性),如何选择科研课题,选题程序 初始意念(idea) 文献调研 科学假设 证实手段 确定选题 科研设计,初始意念(idea) 文献调研 初始意念深刻化、理性化、系 寻找、确定证实手段,通过科学 统化、完善化,形成科学假说 的、可靠的方法来证实科学假说 确定选题 科研设计 写科研设计书 反复论证 预试验 形成标书,七、正确处理课题申报中的诸多关系,正确处理课题申报中的诸多关系,创新性与可行性的关系。 课题大与小、研究内容丰富与精深的关系。 形式与内容,科研构想与文字表达的关系。 酝酿准备与形成标书的关系: 一是要厚积薄发,深思熟虑; 二是文献调研要全面、新颖、充分、准确; 三是要认真研究项目申报指南,了解已被批准的项目情况; 四是要认真总结申报工作的成功经验与失败教训; 五是精心选择学科门类,正确处理热门与冷门、熟悉与生疏之间的关系等。,正确处理课题申报中的诸多关系,谦虚谨慎与充分展示自己的实力和已有工作基础的关系。 内部因素与外部因素、自身努力与公关工作的关系。 利用本单位内、校内条件与本单位外、校外条件的关系。 主观努力与客观条件的关系(机遇、公关、宣传)。 科学思想(idea)与科学方法的关系。 申报本项基金与申报其他基金的关系:可以针对不同基金的要求、特点,适当变换,多渠道申报。,八、申请书主要内容举例解读 基于jfa的耳语发音方式下说话人识别研究,(一)、立项依据与研究内容 1、项目的立项依据,研究意义、国内外研究现状及发展动态分析,需结合科学研究发展趋势来论述科学意义; 或结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。 附主要参考文献目录,1、项目的立项依据,耳语音作为一种常见而特殊的发音方式,在很多场合下,人们不便于大声讲话(如会场、图书馆等环境中),或是为了通话的保密性,有时甚至为了刻意不想透露说话人自身的身份,都可能采用耳语发音的方式。在移动通信广泛普及的今天,人们常会采用耳语方式通话来避免对他人的干扰或保持通话内容的保密性;在文语转换系统(tts)中,耳语也常被当作一种特殊的情感语音进行研究;在nam(non-audible murmur)系统里,耳语则作为一种有效的语音转换模式来实现无声语音或是电子喉语音的感知;公安、司法等领域,在破译语音内容,鉴别当事人或罪犯身份时,耳语也常常被涉及。因此,作为一种特殊而常见的语音信号,耳语音有着广泛的应用背景。鉴于此,国外一些语音识别的数据中也包含了对耳语音的要求。,1、项目的立项依据,由于耳语音发音方式的特殊性,其相关的研究(如语音内容识别、说话人识别等)必将面临新的问题,照搬正常语音处理技术难以奏效。耳语音与正常音的发音机理不同,其主要特征有:耳语音的激励源为噪声,声带不振动,因而耳语音没有基音频率;耳语音是气声发音,能量低,信噪比低;声道传输函数改变,增加了额外的零极点,导致共振峰结构有较大变化;耳语音频谱较正常语音平坦,低频段衰减大;耳语音相对正常语音平均时长增加,浊辅音的嗓音起始时间与正常发音有显著差异.另外,耳语发音时较易受发音者心理及环境影响,lombard效应较明显,语音特征变化大,随机性强。鉴于以上特点,诸如耳语音识别等方面的研究必须有针对性地探索其相关的理论问题和研究方法。,1、项目的立项依据,耳语音研究已越来越受到国内外研究机构和学者们的重视,其研究内容包括:耳语音声学特性分析及感知,耳语音识别、转换与合成,耳语音话者鉴别与情感分析等。目前,国外从事耳语音信号处理研究的有:美国乔治亚理工学院、新加坡南洋理工大学、日本宇都宫大学、土耳其伊斯坦布尔科技大学从事的耳语音转换与重构研究1,2,3,4;日本名古屋大学进行的耳语音声学分析和识别研究5;美国卡耐基梅隆大学、德克萨斯大学的耳语音说话人识别研究6,7;瑞典斯德哥尔摩大学关于耳语音声学特性的研究8;加拿大维多利亚大学、荷兰莱顿大学关于耳语音声调感知问题的研究9,10,南斯拉夫贝尔格莱德大学和土耳其安卡拉大学的学者分别以塞尔维亚语和土耳其语为基础11,12,对耳语音共振峰结构方面展开研究;日本奈良先端科技大学、富山县立大学实现了nam至耳语音的映射合成13,14。此外,加拿大皇后大学的学者利用耳语音分析了独立元音的声学特性15;美国坦普尔大学实现了多重语音环境中的耳语音定位16;澳大利亚西澳及卧龙岗大学基于视觉的话者分类17及爱尔兰都柏林大学的话者确认研究18中均涉及到了耳语音;而美国哈佛及麻省理工学院则为耳语音提供了自适应短时切分方案19。产品开发方面,韩国浦项科技大学设计了适于耳语传输的麦克风20。,1、项目的立项依据,国内方面的研究主要有南京大学声学所进行的耳语音信号处理与识别研究21,22,苏州大学本项目课题组关于耳语音声学分析以及耳语音转换方面的研究23,24,东南大学正开展耳语音情感分析的研究25,南开大学关于伪装语音的声学研究也涉及耳语音分析。总体来说,目前关于耳语音的研究当处于探索研究的初步阶段,且目前主要集中在声学分析比较、耳语音转换方法和正常语音识别方法做出修正后用于耳语音识别等几个方面。,1、项目的立项依据,有关耳语音说话人识别的研究更是一个全新的课题。美国卡耐基梅隆大学的最新研究表明6:耳语环境下能对说话人进行识别,但比正常语音的话者识别困难。他们采用典型的mfcc参数作为说话人耳语音特征、基于帧得分的gmm作为识别模型,在与训练模型匹配与失配两种情况下给出了多种实验结果。爱尔兰都柏林大学的研究人员则验证了以语音共振峰及谐波成分为依据计算出的瞬时频率相对于mfcc有更好的耳语音话者识别率,但仍然没有达到期待的识别效果18。这些研究均侧重于正常发音与耳语音说话人识别的比较,没有对耳语音的特点从特征提取和识别模型方面加以进一步探索。美国德克萨斯大学的学者通过修正暂态模式下的mfcc参数及特征映射等手段进行了耳语话者确认7。南京大学林玮博士关于耳语音说话人识别的研究中22采用滤波器组的方法对耳语音频率特性进行了研究,并由此提出了适于耳语音说话人识别的修正mfcc等特征参数,且对隐马尔可夫模型进行了修正,提高了识别性能。但该研究受说话人数量和发音内容的限制。,1、项目的立项依据,耳语音说话人识别与正常语音说话人识别相比的主要难点和尚未解决(尚待深入研究)的问题有: (1)耳语音特征表达问题。由于耳语音不存在基音频率,共振峰偏移且带宽加大,耳语音频谱更为平坦,因而目前对话者识别比较有效的常用特征参数基频无法利用,频谱相关参数提取变得更为困难。 (2)易受噪声及信道环境因素影响问题。由于耳语音是气声发音,声级较低,其信噪比要比同等环境下的信噪比低很多(我们在实验室环境下采集的耳语音样本平均信噪比约为10db),较易受噪声干扰,同时耳语音往往在手机通话时使用,易受信道环境影响。因此耳语音说话人识别系统中信道环境补偿更为重要也更为 困难。 (3)易受说话人心理因素、情绪及发音状态影响问题。耳语发音时,往往受发音场所制约,情感表达受限,且发音状态,心理因素都会产生一定的变化,刻意隐瞒讲话者身份而用耳语发音的情况更是如此。因此消除说话人心理、情感等因素的影响对于耳语音说话人识别系统的鲁棒性提出了更高的要求。,1、项目的立项依据,为此,本项目拟从耳语发音机理出发,根据耳语音特点,建立耳语发音的二维波导模型来提取耳语音特征;在联合因子分析(joint factor analysis, jfa)26思路框架下,建立信道因子模型、说话人因子模型及其联合模型来补偿不同信道和说话人不同状态的影响以对上述三个难点问题作深入研究,在此基础上实现耳语音说话人识别。,1、项目的立项依据,在正常语音说话人识别、语音增强、耳语音声学分析、耳语音共振峰结构和音调感知等研究中,本课题组成员已积累了一定的经验及实验研究数据,课题组成员在多年从事语音信号处理研究的基础上不断深入,同时与德国、日本及国内有关高校合作与交流。课题组负责人已主持完成了两项与语音处理相关的国家自然科学基金项目(详见工作基础),已在语音处理相关领域发表论文60多篇,其中被三大检索收录或同时收录逾40篇,早期参与研制的采用说话人识别技术的语音锁得到了公安部有关部门的认可和市级公安部门的采用,近几年在耳语音声学分析等方面的研究,已在国际刊物和国际学术会议发表论文18篇,项目主持人被国外学者邀请合作编写语音识别著作中关于耳语音分析的专门章节。,1、项目的立项依据,立项依据的结束,一般给出总结,如: 以上表明,对于耳语音说话人识别研究相关的理论问题有待深入研究,并对拓展语音处理技术应用领域有很大作用。本课题组已经具备进行本课题研究的基础和条件,能够确保项目的顺利开展和完成。,1、项目的立项依据,主要参考文献 1 r.w.morris, enhancement and recognition of whispered speech, phd thesis, georgia institute of technology, usa, 2002 2 ahmadi, farzaneh, mcloughlin, ian vince1, sharifzadeh and hamid reza, analysis-by-synthesis method for whisper-speech reconstruction, ieee aisa pac. conf. circuits syst. proc. apccas, 2008: 1280-1283 3 zhu, weizhong and kasuya, hideki, new speech synthesis system based on the arx speech production model, int conf spoken lang process icslp proc, 1996, 3: 1413-1416 4 irem trkmen, h. and elif karsligil, m., normally phonated speech recovery from whispers by melp, proc. 2008 ieee 16th signal processing, communication and applications conference, siu, 2008: 1-4 5 ito, taisuke, takeda, kazuya and itakura, fumitada, analysis and recognition of whispered speech, speech communication, 2005, 45 (2): 139-152 6 jin, qin, jou, szu-chen stan and schultz, tanja, whispering speaker identification, proc. ieee int. conf. multimedia and expo, icme, 2007: 1027-1030 7 fan, xing and hansen, john h. l., speaker identification for whispered speech using modified temporal patterns and mfccs, proc. annu. conf. int. speech commun. assoc., interspeech, 2009: 896-899 8 traunmuller, hartmut and eriksson, anders, acoustic effects of variation in vocal effort by men, women, and children, journal of the acoustical society of america, 2000, 107 (6): 3438-3451 9 gao man, tones in whispered chinese: articulatory features and perceptual cues, m.a. thesis, university of victoria, canada, 2002 10 heeren, w. and van heuven, v.j., perception and production of boundary tones in whispered dutch, proc. annu. conf. int. speech commun. assoc., interspeech, 2009: 2411-2414 11 slobodan t. jovii and zoran ari, acoustic analysis of consonants in whispered speech , journal of voice, 2008, 22 (3): 263-274 12 icat, filiz and ilk, h. gkhan, investigation on differences between whispered and phonated sustained turkish vowels, proc. ieee sign. process. commun. appl. conf. siu, 2004: 564-566 13 nakagiri, mikihiro, toda, tomoki, kashioka, hideki and shikano, kiyohiro, improving body transmitted unvoiced speech with statistical voice conversion, interspeech intl. conf. spoken lang. proc., interspeech icslp, 2006: 2270-2273 14 otani, makoto, shimizu, shota and hirahara, tatsuya, vocal tract shapes of non-audible murmur production, acoustical science and technology, 2008, 29 (2): 195-198 15 purcell, david w. and munhall, kevin g., compensation following real-time manipulation of formants in isolated vowels, journal of the acoustical society of america, 2006, 114 (9): 2288-2297 16 carlin, michael a., smolenski, brett y. and wenndt, stanley j., unsupervised detection of whispered speech in the presence of normal phonation, interspeech intl. conf. spoken lang. proc., interspeech icslp, 2006: 685-688 17 kim, jeesun, davis, chris, kroos, christian and hill, harold, speaker discriminability for visual speech modes, proc. annu. conf. int. speech commun. assoc., interspeech, 2009: 2259-2262 18 grimaldi, marco and cummins, fred, speaker identification using instantaneous frequencies, ieee trans. audio speech lang. process., 2008, 16 (6): 1097-1111 19 rudoy, danie, quatieri, thomas f. and wolfe, patrick j., time-varying autoregressive tests for multiscale speech analysis, proc. annu. conf. int. speech commun. assoc., interspeech, 2009: 2839-2842 20 choi, sungjoon, moon, wonkyu and lee, jeong hyun, a new microphone system for near whispering, journal of the acoustical society of america, 2003, 114 (2): 801-812 21 li, xue-li and xu, bo-ling, formant comparison between whispered and voiced vowels in mandarin, acta acustica united with acustica, 2005, 91 (6): 1079-1085 22 lin, wei, yang, lili and xu, boling, a new frequency scale of chinese whispered speech in the application of speaker identification, progress in natural science, 2006, 16 (10): 1072-1078 23 chen, xue-qin and zhao, he-ming, perceiving of tone in whispered chinese based on auditory model, acta electronica sinica, 2009, 37 (4): 864-867 24 gang, l.v. and zhao, heming, formant frequency estimations of whispered speech in chinese, archives of acoustics, 2009, 34 (2): 127-135 25 jin, yun, zhao, yan, huang, chengwei and zhao, li, study on the emotion recognition of whispered speech, pro. of the 2009 wri global congress on intelligent systems, gcis 2009, 3: 242-246 26 patrick kenny ,gilles boulianne, et al. joint factor analysis versus eigenchannels in speaker recognition, ieee transactions on audio speech and language processing, 2007 ,15(4): 1448-1460,2、项目的研究内容、研究目标, 以及拟解决的关键问题,研究内容: 本项目拟研究耳语发音情况下的文本无关说话人识别问题。任何一个说话人识别系统,主要涉及两大问题:说话人特征表达和识别模型。对耳语发音方式,由于发音机理不同,这两方面的问题都有其特殊性而大大增加了难度。在特征表达方面,因耳语音基频的缺失使声道结构如共振峰等相关参数成为表示耳语音话者的关键特征,而耳语发音的共振峰带宽变宽、峰点偏移、频谱较正常发音变得更平坦,这使得共振峰相关参数的有效提取也更为困难,为此,需寻求新的特征表达;在识别模型建立方面,由于耳语音为非正常发音,往往受环境因素和说话人心理变化等多方面的影响,发音特征变异大,因此目前常用的gmm模型对耳语音说话人识别的性能大为下降。我们已进行的这方面实验也论证了这一点:在多种实验条件下,我们得到的大致结果为:如采用相同的参数(mfcc)及识别模型(gmm),正常发音的话者识别率超过90%时,耳语音则下降到30%以下。由于耳语发音受说话人和环境两种变化因素影响,因此自适应建模方法或变得复杂或难以有效。为此,需要新的建模方法。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,(一)建立基于联合因子分析(jfa)的耳语音说话人识别模型 联合因子分析方法是新近提出的一种用于实际环境下说话人识别的新方法,但最近的研究主要集中在用该方法实现信道影响的消除或补偿,实际上主要考虑的是信道因子单一作用,没有考虑说话人变化因子,对应的jfa方法也演变为本征信道(eigenchannel)分析单一因子分析方法。这对于正常发音方式是有效的,因为此时说话人因子的影响相对较小,可以忽略说话人状态变化因素而突出信道环境这一影响真实环境下说话人识别性能的主要因素。如前所述,在耳语发音方式下,说话人每次发音的差异性很大,同时信道或环境的多样性和随机性因素同样需要考虑,因此在此方式下必须同时考虑信道变化因素和说话人变化因素。本项目研究提出用联合因子分析方法处理解决耳语发音多种因素变异大的问题。该方法针对耳语音特点引入两类变化因子:(这里借用fa算法中的术语:将观察不到的随机量称为因子)说话人自身变化因子和通话信道环境变化因子,并分别建立相应的模型。前者反映每次发音时说话人自身因心理、说话气氛、刻意强调或伪装发音等耳语发音常见的变化因素;后者主要反映通话信道(如耳语音常在手机通话时运用)以及环境的变化。jfa假设:描述与说话人和信道环境相关的超矢量为说话人超矢量与信道环境超矢量之和,且与是统计独立的,都为正态分布),即: (假设一) 而对随机选择的说话人,其超矢量可假设为: (假设二) 上式中:为与说话人、信道环境无关的超矢量,其最简单的估计可从通用背景模型ubm得到; 和为隐随机矢量,并统计独立,且都具正态分布,称为说话人变化因子;称为说话人变化补偿因子;为的导入矩阵(描述说话人子空间)、为的导入矩阵。在说话人变化空间中起主导作用,为补偿项作为说话人变化因子的补偿,因为对的实际估计可能会有偏差。,假设二则转化为标准fa问题,可用最大后验概率(map)来估计。 信道环境超矢量同样可用信道环境因子和相关的引入矩阵(描述信道环境子空间)来表示: (假设三),2、项目的研究内容、研究目标, 以及拟解决的关键问题,在上述三个假设中,我们对各随机量和导入矩阵作进一步说明,进一步假设相互独立且为正态分布,且说话人识别模型有个混合分量,声学特征矢量为维,则假设二中是均值为,协方差矩阵为的正态分布。这里我们假设为的对角阵,为的低秩矩阵()。如假设为零,即只需要估计空间,则 jfa方法变为本征信道方法,假设二可用标准最大后验概率估计,且其估计随训练数据的增加而渐近为最大似然估计。假设二中,之所以假设为低秩的,是源于主分量分析(pca)的思想,即把超矢量压缩至低维空间,而估计精度下降有限,这样当训练增加新的说话人时只要少量的训练数据即可较快地自适应为表述方便,对应的map称之为本征音map(eigen-voice map):此概念近来在语言识别自适应训练得到应用。在假设二中,实际上我们结合了标准map和本征音map估计两者的优点。同样地,在假设三中,矩阵也是低秩的,可设为(其中,)。 由假设一至假设三,构成了既考虑信道环境变化因素、又考虑说话人状态变化因素的联合因子分析(jfa)模型,该模型适合用于实际环境下耳语音说话人的识别。jfa分析即是对超参数集的估计,其中为块对角阵,由每个联合分量的协方差矩阵块组成。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,建立基于耳语音说话人识别模型,其相关研究的主要内容有: (1)联合因子分析似然函数 若给出超参数集,对任一耳语话者是的第次()发音(或录音),其观察特征矢量为,并用表示共次发音(或录音),对应为。这在jfa模型中为观察量。再设是可隐随机矢量,组成的联合矢量,由于隐矢量未知, 因此要计算观察的似然度需要对条件似然函数积分得到:,其中为标准高斯核)。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,(2)话者无关超参数集估计 对于给定的训练集(每个说话人会有若干段不同状态的耳语发音),超参数集可用似然度增加算法来估计,例如em算法能使训练数据的总似然数随迭代次数增加而增加。由于总似然度涉及所有说话人的训练数据,因此称其为话者无关超参数集估计。除em算法外,还可用其他的方法,为此将对此估计算法作比较研究。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,(3)不同训练集数据估计算法的自适应 jfa模型训练中,话者无关超参数集估计的有效性,一般对训练集数据变化(每个话者的多个不同发音或录音,耳语发音更突出)比较敏感,如何使用不同的训练数据集都能有效对超参数集估计,或者通过对已估计的超参数集再用其它训练数据自适应,是本研究中一个待探讨的问题。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,(4)待识别耳语音话者超参数集估计 对一个待识别的耳语音说话者,可由其训练数据估计相应的超参数和,并用kullback-leiber距离最小和分布对作后验估计。对任一说话人,其超参数集。 (5)似然比统计量 由研究内容(1)的似然函数可构造多种形式的似然比统计量用于耳语音说话人识别。一种方法是由话者无关超参数集和待识别话者超参数集计算似然度和,以其对数比作为似然比统计量。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,(二)构建耳语音二维波导网格声道模型 波导网格模型是描述声道特征的物理模型,由一组偏微分方程来计算声道时变参数,其计算较为复杂。2008年8月k.van den doel博士发表在上的论文提出了一种实时计算波导网格一维离散模型的计算方法,适合用于共振峰及带宽的计算,论文以耳语元音发音为例给出了实例。我们拟以该方案为基础,并根据耳语音语速慢、发音时声道气体体积速度大的特点,合理选择网格结构和相关参数,建立二维网格模型,并将其离散化并进行数值求解。 一维模型假设声道长度恒定(如18cm),且设网格是一维的,通过计算网格内每一节点的声压、声道面积来描述发音特征。声道长度恒定和均匀网格的假设主要为了便于计算。我们拟建立的二维模型中,假设:(a)声道长度缓慢变化,这一假设符合耳语发音慢的特点;(b)网格模型中的每个节点受四个不同方向上的相邻节点相互影响(传递正反向压力),这一假设是一维模型的拓展,更能反应声道动态特征;(c)网格是非均匀的,此假设有利于表达耳语发音声道气体体积速度大的特征。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,建立二维波导网格声道模型,其相关研究的主要内容有: (1)根据语音发音机理,建立描述时变声道长度、声道面积,声道内气体压力和声道气体体积速度相互关系的物理模型,其形式为一组偏微分方程。其中模型结构、相关物理参数,结合耳语发音特点选取。 (2)将上述二维波导网格模型时域离散,空域节点化形成研究相应的模型数值求解方法。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,(3)由二维波导网格模型得到的物理参数转换为描述耳语发音环境下说话人个性特征参数,以便用于说话人识别系统的训练和识别。主要研究: 研究声道面积与共振锋(对耳语音而言,f2、f3更为重要)之间的定量关系、声道面积变化与共振峰轨迹变化的对应关系。 研究确定声道反射系数与二维网格模型中各节点阻抗大小的关系。声道反射系数由各节点的阻抗共同决定,而网格各节点的阻抗由该节点与相邻节点传递的正反向压力有关。 研究声道反射系数与共振峰宽带的关系。 研究声道变化的特征、声道内气体压力与耳语音声调感知对应的特征关系。正常语音发音时,基频轨迹可确定汉语音调,而耳语音没有基频,但人能感知耳语声调。 研究耳语发音时,二维波导网格模型相关特征参数表征说话人个性特征的有效性。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,根据我们已完成的一维模型计算得到的耳语音汉语元音的共振峰估计,并与其他多种常用共振峰估计结果比较得出,波导网格模型在表征耳语音发音说话人声道特点方面有特征参数离散性小,受噪声等其它因素影响比较小的优点,预计二维波导网格模型比一维模型更有效地反映耳语发音时说话人个性特征。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,本项目的研究目标: (1) 研究基于联合因子分析模型的实际环境下耳语音说话人识别方法,并提出相应的算法,在此基础上实现耳语音发音情况下的文本无关说话人识别系统。 (2) 在不同发音环境,说话人耳语发音状态变化较大的情况下能有效辨识讲话者,并与目前研究较多的本征信道模型、传统的gmm模型比较,识别正确率有明显提高。拟定的测试集包括300名不同的说话人以及各说话人的多种发音状态和不同的耳语音通话信道环境。 (3)建立完整的表征时变声道特征的二维波导网格模型,模型可以数值求解,并具有相对低的计算复杂度。,2、项目的研究内容、研究目标, 以及拟解决的关键问题,为此,拟解决以下几个关键问题: (1) 说话人因子分析与模型估计。对于正常发音方式下的说话人识别这个问题并不突出,因而在已有的联合因子分析中尚未有深入研究,但对发音变异离散性大、状态变化因素多的耳语音话者识别而言,是一个关键问题。 (2)jfa模型参数估计问题。由于我们进行的联合因子分析需要同时估计说话人子空间和信道环境子空间,因此需要建立完整的联合因子分析模型,并有效估计其模型参数。 (3)二维波导网格模型的建立与计算实现。考虑耳语音特点,选择合适的网格模型结构和参数,并依据物理原理建立耳语发音过程中描述声道时间、位置变化特性的微分方程,由此导出二维波导网格模型,并研究提出模型的数值求解算法,利用计算机编程实现。,3、拟采取的研究方案及可行性分析,拟采用的研究方案及可行性分析。(包括有关方法、技术路线、实验手段、关键技术说明 ) 研究方法: 首先建立不同说话人耳语发音数据库 由于耳语音发音时,说话人变化因素和信道环境变化因素明显,因此,耳语音语料库的建立必须尽可能地反映这种特点。 语料库文本的设计(已完成)。考虑到语料库的通用性,语料文本包含:数字串、一组适于情绪状态表达的语句(含词组、单一声调语句、不同声调组合语句)、50句电话通话及电视节目中摘取的常用语。设计该语料库时充分考虑了包括韵律在内的汉语发音特性。 考虑不同说话人群体,选取不同区域、不同年龄、不同性别的说话人300名。 不同发音情绪状态的选择:录音人在项目组成员的引导下,采用平静、惊奇、伤心、恐惧、高兴、生气、愤怒等多种情绪模式,以自然口语交流方式进行录音。 录音环境的选择:分为一般环境、电话传输、手机通话、录音笔记录及带一定噪声环境等。 经将近一年时间,目前已完成大部分工作,并为所录耳语音做好标注文件。这一工作量非常庞大。将录制的不同话者的耳语音语料,三分之二用于训练,三分之一测试(测试的另一类型为直接说话人发音)。,研究方法,建立波导网格声道模型 波导网格声道模型本身可针对任何语音,这里考虑道耳语音发音特点,选择其作为重要的特征表达参数。 先建立一维网格模型,再推广至二维模型。 一维网格模型建立时,先建立简化线性无损模型,再考虑声道关闭存在能量损耗的情形。在推广至二维模型时,网格模型中每个节点采用与相邻四个节点连接的形式,该形式的选取既考虑弥补一维模型反映声道变化动态特征不够、无关考虑不同边界条件下激励速度函数变化的影响的不足,又考虑了计算量的因素。,研究方法,从网格模型提取特征并与其他耳语音发音特征进行比较 对于不同的耳语音发音,从二维波导网格声道模型提取声道面积、阻抗等参数,并将其转换为典型声道相关参数(如共振峰、反射参数等),以利于与不同特征方法进行比较。为便于比较,将对相同语料用不同于本网格模型的方法(如一些常规的典型方法)进行特征提取。比较特征提取有效性的方法有二:一是不同特征提取方法提取的参数用于同一jfa模型,以识别结果比较;二是以f比(一致性测度)和d比(可分性测度)来比较。 在耳语音说话人识别、训练两个阶段采用相同的二维波导网格声道模型和特征提取方法。,研究方法,建立耳语说话人情绪状态分析模型 提取适于表达耳语说话人情绪状态的特征参数 一是可借助已有的情感分析研究成果中的有效特征表达,二是用二维网格声道模型中的相关特征,以多种特征参数的时间轨迹作为一类参数,并对轨迹曲线计算若干统计量,构成二类特征,并构成特征向量用于状态分析。 选择高效的特征降维算法 可采用sffs算法或采用主成份分析方法实现对特征向量进行降维,通过正确分类率的置信区间理论,实现分段检索,降低运算量,提高分析效率。 选择隐马尔可夫模型进行话者情绪状态分析 采用情绪状态分析既可采用隐马尔可夫模型,也可采用混合高斯模型或神经网络的方法。我们初步的工作表明,对耳语发音的情况,用隐马尔可夫模型进行说话人不同情绪状态分析和分类是可行的。,研究方法,训练jfa模型 全局(通用)背景模型ubm 假设二中的由ubm估计得到,由于ubm表示与说话人无关的特征分布,所以选择语料时应尽可能覆盖可能遇到的各种耳语音类型,即充分反映不同的说话人因子和信道环境因子。为使训练得到的ubm模型避免或少受不平衡数据(不同因子数据不平衡)的影响,拟采用不同子集训练模型再将模型合并的方法来解决。 不考虑信道环境因子的模型训练 由ubm模型解决估计后,先不考虑信道环境变化问题,即假设每个说话人可用单一的超矢量来建立与信道环境因素独立的模型。由“研究内容”一节 可表示为:,设矩阵为对角阵,为补偿项,其参数由标准map方法来估计;矩阵为低秩矩阵(,),项主要反映说话人状态变化的因素,其参数由本征发音map(eigen-voice map)方法来估计。 加入信道环境因子的jfa模型训练 设说话人的录音数为,对每次发音(或录音),与说话人、信道环境都相关的超矢量表示为,低秩矩阵(,)和信道因子矢量的参数由类似于本征信道估计方法来估计。,研究方法,jfa模型参数的自适应 在jfa模型中通过自适应模型参数的方法求出目标说话人的模型,自适应算法分为两步:第一步类似于em算法的e步,对jfa的每个成分计算目标说话人训练耳语音的充分统计估计;第二步则与em算法的m步不同,这些新的充分统计估计与原来的统计用一个混合参数相结合,混合加权参数是与语料相关的。 根据jfa模型进行耳语音话者识别 首先对待识别耳语音样本由二维波导网格声道模型计算特征参数矢量序列,再由jfa模型将测试特征矢量序列代入每个说话人训练模型计算似然比统计量,比较后即得出识别结果。,技术路线,技术路线: 在对耳语音说话人识别的相关文献进行调研论证的基础上,采用两条彼此既独立又相互影响的研究路线。 第一方面的研究路线为理论研究:首先在文献中已有一维波导网格声道模型的基础上建立二维波导网格声道模型,并由模型计算得到的参数转换为适于表示耳语音特征的相关参数;其次是话者情绪状态分析模型的理论研究,针对耳语音采用相关特征参数并经降维处理后经分析模型进行分类;最后是联合因子分析模型的理论研究,联合因子分析的关键问题是如何估计出说话人子空间和信道环境子空间,在文献中已有联合因子分析的框架基础和信道因子(本征信道)估计方法,在此基础上研究同时估计信道因子和说话人因子的方法,建立完整且可实现的联合因子分析模型。,技术路线,第二方面的研究路线为实验研究:这方面的研究与理论研究中的模型分析直接相关,在二维网格声道模型中网格结构和模型参数优化既与理论分析相关,也与实验结果联系;耳语音说话人情绪状态分析中的参数提取、降维算法和识别模型均需要通过实验及统计加以确定;而联合因子分析模型中超参数集的估计则在确定估计策略、迭代方法后通过实验确定。,可行性分析,可行性分析: 我们前期进行的大量试听实验表明:对于耳语发音方式,不同说话人的发音是可区分的;但正常发音的gmm说话人识别系统,用常规特征表示耳语音时,话者识别正确率大大下降,但当针对耳语音有效提取其特征时(如我们已建立的一维波导网格声道模型),即使采用传统的gmm方法也能提高识别率。 国外学者(如美国卡耐基梅隆大学学者)最新的初步研究表明,耳语音方式下说话人识别是可行的,但必须针对耳语音特点。我们的初步研究也得出同样的结论。,可行性分析, 我们对耳语音分析处理已作了比较充分的研究,在2008底完成的上一个国家自然科学基金项目:“耳语音讲话中的语音增强与耳语音正常语音转换研究”中对耳语音的发音机理,与正常发音的异同比较有了比较深入的分析,得到的一些相关的结论,可供本研究借鉴。 本项目相关研究工作已作了大量前期研究,已建立了一维波导网格声道

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论