手语项目可行性报告_第1页
手语项目可行性报告_第2页
手语项目可行性报告_第3页
手语项目可行性报告_第4页
手语项目可行性报告_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2010 年 省院合作 项目 重大科技 专项 可行性报告 项目 名称: 基于数字电视的虚拟人手语播报系统关键技术及终端产品 项目承担单位: 广东中大讯通软件科技有限公司 项目联合单位: 中国科学院研究生院 项目负责人: 殷 伟 二 一 年 二 月 1 目 录 一、立项依据 . 3 (一)项目的目的及意义 . 3 (二)国内外技术发展现状与趋势 . 5 (三)项目的产业化前景分析 . 9 二、研究开发内容、方法、技术路线 . 12 (一)主要研究内容 . 12 1.多 媒体流驱动的中国手语合成 . 12 2.虚拟人手语播报系统平台 . 14 (二)拟解决的关键技术 . 17 关键技术一:面向中国手语的自然语 言文本理解 . 17 关键技术二:基于多媒体流的虚拟人手语行为建模 . 17 关键技术三:手势、文本、表情、唇动和语音信息的协同表达 . 18 关键技术四:数字电视嵌入式中间件平台 . 18 关键技术五:面向数字电视访问请求的手语动画界面自适应表现 . 19 关键技术六:基于数字电视的手语动画压缩及传输方法 . 19 (三)拟采用的方法、技术路线以及工艺流程 . 20 1.多媒体流驱动的中国手语合成 . 20 2.基于数字电视的虚拟人手语播报系统 . 22 (四)项目的特色和创新突破点 . 31 项目特色一:人与人之间的无障碍信息交互 . 31 项目特色二: 基于数字电视的应用交互平台 . 31 技术创新点一:多模式的手语信息同步表达 . 31 技术创新点二:基于脚本驱动的数字电视手语交互系统 . 31 技术创新点三:基于数字电视的三维图形数据压缩及显示技术 . 32 (五)项目完成后预期实现的技术、经济指标及社会和经济效益,对产业的带动和提升作用。 . 32 1.项目产品及成果 . 32 2.主要产品技术指标 . 33 3.主要经济指标 . 34 4.间接经济效益 . 34 5.社会效益 . 34 (六)项目的阶段与进度 . 36 (七)项目的经费预算情况 . 38 1.经费的筹措 . 38 2.经费 的配套 . 38 3.经费的使用 . 38 三、省院合作优势分析(包括工作基础、合作优势分析等) . 39 (一)承担单位概况 (人员、资产、 业务与管理状况 ) . 39 1.广东中大讯通软件科技有限公司 . 39 2.中国科学院研究生院 . 43 (二)本项目现有的研究工作基础 (包 括已有的阶段性成果、现有科研装备条件、合作单位之间以往合作情况 ) . 44 2 1.已有阶段性成果 . 44 2.现有科研装备条件 . 50 3.合作单位以往合作情况 . 51 (三)项目的组织实施和运行机制 . 53 1.管理架构 . 53 2.合作单位间的任务分工 . 58 3.运行机制 . 58 4.技术推广模式与保障措施 . 59 (四)合作单位之间的存在的优势互补(或强强联合)情况分析。 . 62 四、以往承担项目完成情况及主要成果 (近五年内 )(中科院、高校的主要以课题团队的成绩为主) . 64 (一)承担国家省部级有关课题完成情况 . 64 (二 )以往科技成果转化情况 . 65 (三)项目获奖及已发表的与本课题研究有关的主要论文、专著情况 (年度刊物等说明 ). 68 (四)与项目相关的专利或版权情况列表 . 69 3 一、立项依据 (一)项目的目的及意义 随着我国数字家庭产业蓬勃发展、数字电视的整体转换以及宽带网络的大规模普及,越来越多的进入千家万户,并被大众所接受。 基于数字电视的手语播报系统的研究 作为一种 民族文化数字内容动画产品的开发及产业化 技术 具有重要的理论意义和应用价值,它不仅是针对 2010 年亚运会的研究课题,更是利用高科技手段为聋人 提供无障碍信息服务 的研究课题 。 通过手语播报系统与数字电视相结合, 并使 虚拟人动画 融入互动内容, 为聋人提供更加便捷、易于接受和可懂度更高的信息交流方式,使得聋人能够拥有和健听人同样广泛的信 息渠道,建立聋人与健听人之间无障碍信息交流,使其能够更好的融入社会。 目前,在我们的社会中存在着大量有听力功能障碍的人群。 统计数字显示,迄今全球大约有 1.2 亿聋人,仅中国就有 2067 万人以上,其中处于 1到 14 岁年龄段的就高达 117 万,并且每年新生聋儿也以2到 3万的速度在增加。他们在生活中所遇到的困难往往是健听人难以想象的。如今我国正处于精神与物质生活高速发展时期,人民生活水平稳步提高,网络、智能交互等高科技手段更是在不同层次丰富、便捷着我们的生活。但这些对于残障人士来说却往往是可望而不可及的,在一定程度上反 而使他们更加脱离了社会群体。随着信息的飞速膨胀,交换信息早已成为我们日常生活中不可或缺的一个重要组成部 4 分。研究如何能让聋人与健听人一样快速而准确地获得信息是一项富有挑战性,但同时对提高聋人生活质量极有意义的工作。 手语是聋人交流时使用的语言,其通过手形状、位置与方向的变化来表达特定的语义。目前我国大多数聋人都使用中国标准手语作为交流的工具,而聋校等教育机构已经成为标准化手语表达的核心推动力量。有统计数字表明,聋人对文字信息的接受速度仅为 15-25WPM;与之相对比,而对于手语信息的接受速度却高达 175-225WPM,是理解文字信息速度的 7到 10 倍左右。这主要是因为手语语法与汉语文法有着很大的不同,所以导致聋人在阅读和理解速度上对文字信息有一定的障碍。由此可见,手语在聋人交流过程中起到了非常重要的作用,可以说手语是聋人掌握信息、交流信息的第一工具。 在实际生活中,人们已在通过手语的信息传播方面进行了多种尝试。例如将手语表达应用于信息传播最通用的媒介 新闻播报。通过手语培训的新闻播报员直接将新闻翻译成手语动作来进行播报,从一定程度上解决了一部分聋人看新闻难的问题,但效果却并不理想并且在推广普及方面更存在着一定的 问题:首先,培训手语播报员需要的周期长,对播报员本身的素质要求很高;其次,由于媒体众多,也没有足够的人力来满足这么大的需求量;此外,对于未来的媒体发展形式来说,手语播报将是一种面向用户的服务,需要它是一种多语种、可调控的自适应式的媒体,所以由人本身来实现这样的需求,难度可想而知。正是由于手语播报在面向聋人的信息传播上有着不可忽视的作用,并且通过人力本身难以达到实际的需求,这才引发了我们引入 5 动画合成技术、用虚拟人来代替真人进行手语播报,利用数字视频在数字电视中显现出来。 数字电视和数字视频点播系统是世界各国公 认的朝阳产业之一,随着家庭数字化和网络化的发展,人们在家里就可以通过数字电视和网络开始来获得信息,这使其成为一种理想的信息传播渠道。我们获得信息的方式主要有以下几种:音频、视频、文字及其他媒体等 (如网页浏览、 Flash 等 )。而对于聋人来讲,音频信息他们无法获得,视频信息也只得其形不得其声,因而文字信息的理解速度也是远远低于实际需要。 在数字电视方面,我们 研究成功的数字电视机顶盒已经 可以 提供有标清电视和高清电视以及数据广播、电子政务等多项业务。为提高聋人的生活质量同时也促进数字电视产业链发展,因此研究一种通 过数字电视进行手语信息播报的系统对于帮助聋人更快捷、有效的掌握信息,扩大聋人与正常人群的交流,增加他们的受教育机会与推广手语的标准化过程都有着极为重要的作用和深远的意义。 (二)国内外技术发展现状与趋势 近些年来,国内外在手语表达方面做出了大量的研究与探索。通过不断的努力,使用虚拟人进行手语表达已经在多个国家初具规模。但由于整个系统中涉及到多项技术,包括计算机图形学、计算机动画、自然语言处理、机器学习等,所以对于实现一套完整的基于网络的手语信息播报系统是具有相当的难度的。在国外,最早的计算机手语合 6 成的研究是 1982 年美国的 Shantz 和 Poizner 制作了一种用计算机合成美国手语的程序。之后,许多国家都进行了自己国家的手语合成研究。日本日立研究中心以及通信研究中心分别将基于拼接的手语合成系统用于了从语音到手语的合成原型系统中。 Vcom3D 也发布了基于拼接的北美手语合成应用系统,其中 Vcom3D 采用的是运动跟踪数据而 SignTel 使用的是视频数据。 Televirtual公司也开发了基于拼接合成的系统 -Simon,目前这套系统被集成到 ViSiCAST系统,主要用于英国手语识别与合成。有学者专门研究了在手语表 达中人脸表情还有其他模式的重要性,结果表明缺乏人脸动画的手语合成的可懂度只有 60%-70%。 Normal Badler 提出 PAR(Parameterized Action Representation)参数化运动表达模型,用于 EMOTE 系统中,该模型根据知识可以让虚拟人自动生成一些控制参数用于美国手语以及表情合成。 Vcom3D Inc 开发了一个 3D 虚拟人 Signing Avatar,可以通过手语和脸部表情在 Internet上与其他人交流。 I. Wachsmuth 和S. Kopp给出了基于时间的协同控制机 制,使虚拟人可以合成手语并保持与语音同步。 在国内,徐琳从机器翻译的角度对中国手语进行了语言学方面的分析工作,并实现了语言上的中国语言拆分技术以及基于规则的中国手语合成系统。中国科学院 计算技术 研究所 、中国科学院研究生院和北京工业大学 通过数十人的研究人员以十年的研究时间研究出一整套中国手语的表达系统,并可以在通过网络进行手语信息的表达,目前已经取得国家科技进步奖二等奖一项与 中国高等学校科技进步一 7 等奖 一项。 YiQiang Chen 实现了基于拼接的文本到手语的合成,在显示方法上实现了基于多角色虚拟人模型的中国手语 三维显示,采用了多模式行为协同韵律模型,实现了手势运动与唇动、面部表情的协同同步。王海泉等也通过 OpenGL 制作出了手语表达系统等。从功能上讲,中科院研究的手语表达系统与网上新闻发布系统已经可以进行手语新闻播报。但是考虑到实际应用的效果,无论是在系统结构上还是在进行新闻播报过程中,由于传输数据量过大而使服务吞吐量与鲁棒性都受到了严重的影响,从而限制了系统的实用性。 而国内数字电视发展是很快的,随着数字化产品及信息服务在家庭不断渗透并日益融合,数字家庭已成为新的消费热点,并且迅速发展成一个规模巨大、产业关联 性强的行业。为抓住数字家庭发展机遇,世界各国政府和企业纷纷采取有力的措施,促进数字家庭产业发展。国家发展改革委、广电总局、信息产业部等部门也高度重视和支持数字电视的发展。国内一些知名企业也积极参与产业推进工作。 数字电视取代模拟电视是全球广播电视发展的必然趋势。数字机顶盒是收看数字电视的必备设备,国际市场容量巨大并稳步增长,国内市场整体平移已实质性启动并快速增长。我国现有有线电视用户 1亿户,模拟电视机 4.7 亿台。我国主要大中城市有线广播电视网已经基本完成了节目采集、制作、播出的数字化,卫星和光缆干线也基本实 现了数字信号的传输。但是在接收环节,由于用户电视机还是模拟的,无法接收数字电视节目,已经成为影响广播电视数字化的瓶颈。要打破这个瓶颈,实现有线电视数字化,关键就是将接收环节的电视 8 机装上机顶盒,能够接收数字信号,从而使数字电视信号畅通无阻,实现全程数字化。广播电视数字化就是将模拟用户整体平移成数字用户。 广东省在 2005 年 10 月启动了“ 广东数字家庭行动计划 ”,由于有线电视用户与电脑用户相差了一个数量级,两者比例大概为 10:1,选择以电视为中心的数字家庭模式更容易解决信息化成果进入家庭的问题 。按照计划,在 2006 年底, 广东 省数字电视整体转换将在珠三角发达地区完成,在 2008 年底完成其它地市的数字电视整体转换后,广东省数字电视用户 达 到 1000 万户,由于一户多个终端的存在,实际终端数将远远超过 1000 万台。 而 在过去七年, 全国 有线数字电视用户数量的增长呈现出飞速上升的势头, 2003-2006 年有线数字电视用户数量分别为 28 万户、 102 万户、 345 万户、 1300 万户, 2007年突破了 2800 万户的大关。按规划,到 2010 年全国绝大部分地区城镇的有线电视基本实现数字化,有线数字电视用户规模将超过 1 亿户 。 根据中国投资咨询网发 布的 2008 年中国数字电视产业分析及投资咨询报告,到 2010年中国数字电视机顶盒市场规模将达到 2050万台,整个数字电视产业的规模预计将达到 1.5 万亿元。 数字电视给用户带来的不仅仅是频道更多、图象质量更清晰的电视节目。数字电视和模拟电视最大的不同是,提供丰富的综合业务功能,促进业务内容从单一化向综合化、多样化方向发展,从广播性服务向个性化服务方向发展。用户付费接收多媒体娱乐内容,用户购买的是服务。只有用户享受到了传统模拟电视所不能享受到的服务,认 9 为物有所值,才能心甘情愿地买单,用户规模才能迅速发展。新 技术的发展,将为全面数字化提供有效手段,为数字电视提供了一系列新业务、新功能,将大大推动数字电视用户的发展。电视营运模式也将从过去以广告收入为主体的电视节目服务,改变为增值服务、付费电视等互动电视。数字家庭未来发展趋势,从服务面来看未来将走向电视商务服务、增值服务、付费电视、视频点播服务,从应用环境面看将朝家庭网络 (Home Network)发展。充分交互、互动,面向多业务,促进收看方式个性化将充分展现数字电视的优势,充分拉动需求, 形成 巨大的 需求, 并带动电子设备产业(电视机、电子元器件、核心软件、集成电路、 付费电视等)、服务提供运营商(游戏开发商、学校、医院、商场等)的产业发展 。 综上所述,本项目旨在能够在数字电视上利用虚拟人将手语表达出来,能够为残疾人事业的发展提供切实有利的帮助。设计一个功能强大、鲁棒性强、服务吞吐量大、内容完备的系统以满足其在网络推广方面的需求。满足残疾人的实际需要。 (三)项目的产业化前景分析 而随着数字电视产业化的发展,我们可以利用数字机顶盒来收看数字电视获得相关信息,我们获得信息的方式主要有以下几种:音频、视频、文字及其他媒体等 (如网页浏览、 Flash 等 )。而对于聋人来讲,音频信 息他们无法获得,视频信息也只得其形不得其声,文字信息的理解速度也是远远低于实际需要。因此研究一种通过网络进行手语信 10 息播报的系统对于帮助聋人更快捷、有效的掌握信息,提高聋人的生活质量,扩大聋人与正常人群的交流,增加他们的受教育机会与推广手语的标准化过程都有着极为重要的作用。 正是基于上述的需求,我们考虑设计并实现一个基于数字电视的通过虚拟人动画的形式来传递信息的手语播报系统。通过虚拟人的手势动作、表情等配合其他传统媒体形式来使聋人能够从多方面捕获信息,帮助他们更加及时、准确而高效地获得信息、分享信息以及利用信 息,进一步缩短他们与健听人之间的交流障碍。 首先,本系统可以作为新型的数字视频点播系统为广大聋人所接受。 传统的新闻发布系统只支持对于文字 、 音频 、 视频以及向 flash 这样的传统媒体的发布,但是 这样的媒体是不适宜聋人所使用的。我们的系统提供将信息转化为 手语 进行播报 ,使聋人能够 真正 看懂 信息 。 这在科技亚运的推广方面显得尤为重要,本系统利用虚拟解说员通过手语对体育比赛做实况的播报,可以极大地活跃赛场聋人群体的气氛、充分调动聋人的情绪,使聋人和健听人一样可以享受体育的快感,体会奥林匹克的精神,真正地参与到全民活动中 去。 其次,本系统还可以利用网络这个全球化的信息平台为聋人提供更加全面、便捷的资讯服务。目前,网络对于我们健听人来说早已成为了日常生活的百科全书和信息交换平台。求医问药、咨询、导购等都早已成为网络的基本功能。其中绝大部分需求都是通过获取相关的文字信息来实现信息的获取,这对于聋人来说是困难且不便的。本系统恰可以提供这样一个转换的平台,将文字信息转换为聋人更易于接 11 受的手语视频,使其能够和所有健听人一样来享受网络带来的便捷生活,真正体现网络“网聚一切”的力量。 此外,本系统还可以辅助于残疾儿童的教育事业。 随着现代 化步伐的加快,现代高科技越来越关注弱势群体,相关技术成果在残疾人康复、教育等方面的应用力度越来越大,应用领域越来越广泛,尤其是在残疾儿童少年的教育中愈来愈发挥着重要的作用。 本系统可以帮助学龄的儿童更早、更规范的掌握中国手语,为他们提供简单的网络教学课程,将生动有趣的课外读本作成手语版的电子图书。相信科技本身活泼、生动的特性将更有利于提升儿童的学习兴趣,同时为他们提供更广泛的学习环境以及更多的学习资源。 综上所述,本系统自身具有非常广泛的应用价值, 是 为残疾人 提供无障碍信息服务一项核心技术,可以为残疾人 事业的发 展提供切实有利的帮助。并且,系统中涉及的理念及相关的技术点也具有很强的理论价值和推广意义。如中国手语自动分词对于针对中国手语的自然语言处理系统具有普遍的应用价值;真实感绘制部分提出的算法是提高系统可懂性的关键,同时也是提升各种虚拟人系统实用性、生动性、趣味性以及交互性的核心;压缩传输部分的技术研究更是网络环境下一直被普遍关注的问题,并且可以随着数字电视产业的发展而普及开了。 12 二、研究开发内容、方法、技术路线 (一)主要研究内容 基于数字电视的虚拟人手语播报系统以数字电视节目中的多媒体流为驱动源,实现虚拟人动 画形式的、与电视节目内容对应的中国手语解说。 本项目的 主要设计构想是 数字电视客户端通过向数字电视媒体 服务器发送 信息点播 请求信息,在服务器端通过验证后下载包含相应信息 多媒体流 , 通过数字电视机顶盒 解析正文并加载数据,然后通过手语播报的方式将手语信息 进行自适应表现,再 同传统媒体信息一同进行发布,为客户提供更加便捷、可懂度更高的信息接受方式。 图 2 - 1 虚拟人手语播报系统体系结构 1.多媒体流驱动的中国手语合成 ( 1)中国手语标记语言的研究 中国手语标记语言 是自然语言文本与手语行为动画之间的桥梁, 13 其面向中文文本提供文本语义、语法标记,面向手语 行为建模 过程提供标记符号与手语基元之间的映射,提供文本驱动手语合成系统的框架解决方案。 自 然 语 言文 本 理 解多 模 式手 语 行 为 建 模虚 拟 人 绘 制文 本 标 记 语 言 文 本音 频视 频音 视 频数 据 分 析韵 律 参 数动 画 脚 本 文 件动画多 媒 体 流图 2 - 2 多媒体流驱动的中国手语合成 ( 2)虚拟人手语行为建模 虚拟人手语行为建模基于数字电视节目多媒体流中的文本提取手语行为的基本动作参数和基本韵律参数,基于多媒体流中的视频、音频描述提取手语行为韵律参数,后一类参数用于实现手语动作模型中关键点的实时修正,最大程度地实现手语动画 与数字电视节目内容在语义上的匹配。 图 2 - 3 虚拟人建模范例 ( 3)多模式手语信息的同步表达 在多模式信息的协同中,相关的研究问题主要有两个: 1)单一模式信息韵律模型的学习获取,主要研究在合成单一模式信息过程 14 中,控制合成的韵律变化规律; 2)多模式信息协同韵律控制模型的学习生成,主要研究多模式信息之间如何保持精确和准确的同步和协调运动。 图 2-4多模式手语信息协同表达 2.虚拟人手语播报系统平台 基于数字电视的虚拟人手语播报系统,采用 嵌入式 中间件组件化的设计思想,使其能够运行于特定资源限制和功能性能要求系统的软件平台。针对数字电视的要求,建立灵活的硬件适配层, 实现 虚拟人手语播报系统。 基于数字电视的虚拟人手语播报系统 平台中,服务器、固定计算终端被部署在社会公共服务网络中, 由此形成了服务器、固定计算终端、移动终端资源共享、协同工作的分布 式计算网格。 15 数 字 电 视图 2 - 5 手语交互系统的体系架构图 该系统主要包括资源主动察觉、传输控制、动画控制、渲染显示和资源信息自适应表现等模块。 a.资源主动察觉模块:通过分散在节点上的传感器、存储文件、目录服务等技术方法,构成普适计算环境中的资源主动觉察体系。自动、实时发现和收集这些计算资源的状态,从动态变化的资源池中采用高效的资源发现算法,选择合适的计算资源进行协同计算。 b.传输控制模块:通过操作系统提供的网络接口 API,针对普适网络条件,完成 对服务器或其他终端的访问,获得手语动画的模型和脚本数据。考虑到普适网络的动态性特点,为解决延时过长的问题,我们对数据采用流式传输的方法,即系统不等待整个文件完全下载,支持对已接收的部分进行动态流式的显示。 c.动画控制模块:根据接收到的脚本数据,对三维模型数据进行流式的操作。渲染显示模块利用 OpenGL ES 提供的 3D 图形接口,根 16 据脚本数据中的显示要求,完成三维人体模型在终端上的渲染和显示,形成手语动画。 d.资源信息自适应表现模块:根据终端显示性能,一方面对应用于手语动画的三维模型进行调整,同时对动画、图 片和文本等界面元素进行自适应布局。用户还可以在普适终端上通过键盘、鼠标或触摸屏对手语动画的内容和显示进行交互控制。 ( 1) 嵌入式系统平台体系架构 本项目针对数字电视的特点, 采用 嵌入式 中间件的设计思想 ,研究如何通过家庭中的数字电视机双向互动机顶盒来完成虚拟人手语播报系统 , 以 保证 项目中 程序的可移植性 ;并研究动态组件跟实时多任务内核的交互技术,以提高中间件平台的性能和效率 。 ( 2)自适应交互界面生成及表示 本项目将研究面向数字电视访问请求的界面自适应表现方法,需要根据访问内容的特征,在服务器端建立界面调配功能, 自适应生成基于 XML 标准的界面描述语句,定义多媒体信息在数字电视上的显示风格和特征,实现内容媒体在数字电视上的交互界面自适应表现。 ( 3) 手语动画数据压缩、传输及显示 面向数字电视 的手语播报系统是一个服务密集型的应用,需要应付大吞吐量的业务,这就要求系统本身的性能是非常理想的。但是由于系统运作本身涉及大量数据,因此网络传输时如何能够有效地压缩数据并降低数据的传输量,成为了影响系统效应的瓶颈问题。所以, 17 我们有必要考虑数据的存储以及传输方式,尽量降低网络的负载,从而保证系统的性能。 本项目 研究手语动画的 压缩、传输 及表示方法,根据客户端的能力和网络传输等外在影响因素,进行自适应传输,以实现手语动画的实时绘制及显示。 (二)拟解决的关键技术 关键技术一: 面向中国手语的自然语言文本理解 面向中国手语的自然语言文本理解实现自然语言文本到中国手语书面表达形式的转换,给出自然语言文本的中国手语标记语言描述文本。中国手语标记语言的具体体现形式为基于 XML 的自定义符号及规则集合,其中的标记符号分层次定义,高层符号定义中国手语的韵律特征,底层符号定义中国手语表达的多维语义描述参数。 关键技术二: 基于多媒体流的虚拟人手语行为建模 基于 中国手语标记语言文本中的手语行为描述,辅助以从视频流、音频流获取的行为韵律描述,实现虚拟人手语行为建模。一个文本形式的手语词在手语动画中可能需要虚拟人的多个不同模式的行为协同表达,不同模式行为间的协调、融合以及单个模式行为韵律的确定都是虚拟人手语行为建模部分要解决的关键问题。 18 图 2 6 虚拟人手语手语行为建模 关键技术三: 手势、文本、表情、唇动和语音信息的协同表达 因为聋人手语是一个典型的多模式人体行为协同的示例,需要有协同的手势动作、口型和唇动、表情和头部运动。因此,本项目将以中国聋人手语合成为示例,基于学习的方法,以多模式真实运动数据为素材,学习多模式人体行为的协同关系,将这些结果抽象为可以理解和使用的知识,并应用这些知识实现文本 /语音驱动的、多模式人体行为协同与合成。 图 2 -7 多模式人体行为协同与合成。 关键技术四: 数 字电视嵌入式中间件平台 本项目研发的虚拟人手语播报系统是 数字电视交互应用,需要以 19 数字电视为中心,利用数字 电视双向互动机顶盒 实现数据的双向传输。 在数字电视系统上,如何提供有效的动态组件支持,包括动态加载、重定位和中间线程库等,提高灵活性和可扩展性,是数字电视 嵌入式 中间件平台要研究的重要问题。 关键技术五: 面向数字电视访问请求的手语动画界面自适应表现 自适应交互界面生成技术是智能感知人机交互界面的表现,体现了 数字电视 以用户为中心的透明服务思想。因此,如何针对 数字电视设备访问事务的特征,实现自适应交互界面生成技术 ,是推进 数字电视服务人性化 的关键问题之一。 关键技术六: 基于数字电视的手语动画压缩及传输方法 在手语播报系统中,三维模型本身是由网格与纹理数据构成的。本项目 重点研究在数字电视上的 3D图形和 3D动画的 压缩传输及 显示技术 ,通过使用 基于几何序列的多分辨率粗粒度压缩算法 、 基于DC-LZMA的手语数据压缩算法 和 基于自适应位平面的纹理数据压缩算法 来提高交互电视系统的服务吞吐量与可用性 。 同时 研究 三维网格图形数据在数字电视的上的显示技术。通过使用 一种插值逼近细分的统一模式 实现手语模型的显示。 在同一曲面内实现部分插值部分逼近 。只通过修改一个参数值即可实现局部插值,计算时间复杂度为 O(1)。使得显示能够达到实时同步和逼真。 20 (三)拟采用的方法、技术路线以及工艺流程 项目 总体研究 技术路线 如下图所示。 图 2 - 8 项目 研究 技术路线示意图 1.多媒体流驱动的中国手语合成 ( 1)中国手语标记语言的研究 中国手语标记语 言的研究目标是定义中国手语的机器语言描述方式,重点在于符合文本语义的手语韵律的定义与标记, 下图 是拟采用的中国手语标记结构图。 21 图 2 - 9 中国手语标记结构图 ( 2)基于多媒体流的虚拟人手语行为建模 数字电视节目的多媒体流提供了节目内容对应的文本、视频、音频形式描述,虚拟人手语行为建模基于这些描述提取手语行为的基本参数和韵律参数,建立富含韵律的、多模式协同的手语行为模型。基于文本提取的动作参数和韵律参数给出了手语行为的基本描述,该描述中给出的手语行 为基本参数需要依据应用语境进行参数冲突消解、语义修正等相关计算,分析多媒体流中的视频、音频数据即可以获取用于对手语行为描述进行实时修正的韵律参数。 中 国 手 语 标 记 语 言音 频视 频音 视 频数 据 分 析动作韵律参数韵 律 参 数冲 突 消 解标 记 语 言 文 本处 理动作韵律参数动 作 韵 律 参 数动 作 参 数多 模 型 行 为协 同手 语 动 画 参 数图 2 - 10 基于多媒体流的中国手语行为建模 22 ( 3)多模式 手语 信息 同步 表达 多模式信息表达将首先利用运动跟踪设备以及视频采集卡,采集大量真实人在表达时的多模式行为数据,在这些数据的基础上,综合利用各种统计学习,数据挖掘技术,发现各种模式行为合成中的韵律模式以及这些模式行为之间的同步关系以及协同关系,并将这些关系用于虚拟人多模式行为的表达上,从而得到具有多 模式行为(语音,唇动,人脸,手语)表达能力的 虚拟人。 图 2 -11 手部、头部、口型等部位各关节点运动表达方法 2.基于数字电视的虚拟人手语播报系统 ( 1)数字电视 嵌入式 中间件平台 本课题建立数字电视嵌入式中间件平台。我们按嵌入式产品生命周期,包括:产品定义、软件与硬件划分、详细的硬件与软 件设计、硬件与软件的集成、产品测试与发布、持续维护与升级等阶段,加速嵌入式产品软件开发,减少产品项目任务的风险。 课题 中还需要设计一些必要的应用支撑软件,这些应用支撑软件 23 需要设计得通用,扩展性好,使用灵活。在设计的过程中计划按照面向对象的设计方式,组件对象模型的设计思想,尽量减少工具平台中各个模块之间的耦合性,使得整个工具平台中各个模块的结构层 次清晰。同时还将提供一种低耦合的对象通讯机制,方便对象间的通讯 。 ( 2)面向数字电视的三维图形及脚本手语动画脚本的表示方法 脚本是用基于脚本的创作工具提供的语言所编写 的一段代码,以类似程序设计语言的形式控制多媒体素材。手语动画脚本的定义,首先要考虑手语语意信息的表达。对于手语而言,影响信息表达的因素除了肢体,尤其是手部的动作之外,还包括面部的细节动作。像表情动作、唇动、眼动等面部的细节动作对于手语含义的理解都具有重要的辅助作用。同时,手语动画的脚本还要考虑普适网络环境的特点,根据脚本的传输需求设计相应的功能结构。我们提出的脚本定义,使用 XML语言,以单个动画帧为最小单位。 如下图所示,一个单帧动画脚本的主要结构包括: 图 2 - 13 手语动画脚本定义图 24 标签 标签部分是主要用于脚本流式传输的控制结构,其主要结构如下 : 其中, (版本号)和 (编码格式)包含了脚本的版本、格式及相应处理器等信息; (脚本信息)说明了该脚本的内容及总帧数等信息; (该帧编号)和(帧间延时限制)分别标识了该动画帧的编号和系统或动画语意允许的该帧与下一帧之间的最大帧 间延时时间。 帧动作控制元素 帧动作控制元素主要包括帧控制时间、肢体动作控制数据和面部动作控制数据,用于驱动三维人体模型,完成手语动画。具体内容如图所示: 图 2 - 14 帧动作控制元素内容 其中 (帧控制时间)控制该动画帧的播放时间,可以用于调整手语节奏和韵律; (肢体动作控制数据)用于控制与手语表现有关的人体模型各肢体关节的转动角度和方向,以生成动画;(面部动作控制数据)控制面部与表情、唇动和眼动有关的各 25 关键点的运动。 ( 3) 基于细分的模型精确显示方法 细分作为一种 主流曲面建模工具之一,可以提供模型在终端上的精确显示方法,帮助终端根据用户选择或者终端显示能力,对粗糙网格进行细化,获得更好的显示效果。细分有插值细分和逼近细分之分,各具优势。我们给出一种插值逼近细分的统一模式,在同一曲面内实现部分插值部分逼近。不同于现存的采用反求控制顶点的方法实现局部插值细分的方法,我们所提出的方法无需反求控制顶点,也即无需求解全局方程,只通过修改一个参数值即可实现局部插值,计算时间复杂度为 O(1)。 多分辨率分解作为细分方法的一个重要应用之一。然而逼近细分每次细分得到的网格相比上一层都 会“收缩”,而插值细分则相反,会“膨胀”。因而在做多分辨率分解和还原时,会产生“跳跃”现象。我们设计的插值逼近细分的统一模式在某个程度上很好的解决了这个问题。 下 图是采用我们的方法实现的局部插值和用于解决“跳跃”问题的例子: 图 2 - 15 统一插值逼近细分效果图 针对目前 P3,P2 细分奇异点处 mask 的权值无法显式表示的问 26 题。采用插值逼近细分的统一模式直接从逼近细分生成新的插值细分,无需再计算奇异点处 mask。解决了 P3,P2 细分奇异点处 mask 的权值无法显式表示的问题。图是采用插值逼近细分统一模 式生成的插值 P3细分 mask的细分例子: 图 2 - 16 统一插值逼近细分效果图 ( 4)手语数据压缩与传输 a. 三维网格数据压缩 在手语播报系统中,三维模型本身是由网格与纹理数据构成的。为了有效地进行多分辨率网格压缩,我们把几何图的概念扩展到几何序列上。首先通过使用 Hoppe 提出 的方法将三维模型展开为一个多分辨率的描述 M0, M1 .Mn,定义网格质量函数 Q(M),使得 这样的多分辨率网格定义就更加直接与明了。通过使用几何图方法,这一系列的网格就会被转成一张张的几何图 GI0, GI1, ., GIn,它们满足: GIi = Parameterize(Mi) 下图所示为一个几何序列的生成过程: 27 图 2 - 17 几何序列的生成过程 因为不同的几何图代表了不同的三维层次细节,所以它们的 大小不同,而在视频压缩中,每帧的大小都是相同的,所以在这里需要经过一个图像对齐的过程,将图像对齐到最大层次细节的几何图的大小,在对齐过程中涉及到将低分辨率的几何图放大的问题,我们使用双线性插值算法对图像中间的象素进行处理,使用近邻法对边缘象素进行插值,这样就可以保证在恢复原始分辨率的时候,保证重构模型可以正 常完成缝合。经过了对齐过程之后,所有的几何图都处于同一大小上,就可以选用合适的视频编码器对几何序列进行压缩了。 b. 基于 DC-LZMA的手语数据压缩 针对手语动作驱动数据的特征,我们设计了基于 DC-LZMA的手语动作数据压缩算法。该算法的原理框图如 下 图所示: 图 2 - 18 基于 DC-LZMA 的手语数据压缩算法原理框图 由于手语动作驱动数据与视频序列有着相似的帧间相关性,在处 28 理这种相关性的时候是使用了运动补偿的方法,相同的方法也可以被借鉴到手语动作数据的处理中。不同的是手语帧中这样的相关性更容易被 消除,因为两帧之间关节的位置是对应的,所以不需要使用位置匹配或是滤波预测等技术进行处理,而只是需要直接进行相差就可以。我们称这一过程为差异补偿 (DisparityCompensation,简写为DC)。 可以看出,通过连续两帧之间的差异去相关,动作角本文件的能量已经大大下降。这样也更有利于进一步的压缩。在手语动作数据去相关之后,因为每个角度数据的浮点位后都只保留五位小数位,这样我们就可以将手语动作数据中的所有空格都从角本中删除,这在角本数据中就只有数字、小数点与负号需要进行压缩了,这样也有利于对上下文进行更 有效的建模。 c.基于自适应位平面的纹理数据压缩算法研究 经过小波分析, 原始纹理图像 I 被分解为一系列的频带 LLn, LHn,HLn,HHn, LLn-1, ., HH0。其中 LLn 是最低频的系数,而HH0是最高频的系数。低频系数对重建原始系数的作用要大于高频系数,而且低频系数的值也要远大于高频系数。图像的小波系数建模方法是通过位平面的原则进行扫描的。也就是说对于一个系数 M,假设当前编码的位平面数为 n,那么对于系数 M的显著性测试是比较 M是否

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论