绿色造纸术-纳米石科纸生产技术研究进展及语音识别技术_第1页
绿色造纸术-纳米石科纸生产技术研究进展及语音识别技术_第2页
绿色造纸术-纳米石科纸生产技术研究进展及语音识别技术_第3页
绿色造纸术-纳米石科纸生产技术研究进展及语音识别技术_第4页
绿色造纸术-纳米石科纸生产技术研究进展及语音识别技术_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

PAGEPAGE1网站大数据统计系统的软件测试策略的研究摘要:网站大数据统计系统是当前互联网最流行的基于大数据的软件系统之一;对网站大数据统计系统进行严格测试是保证其质量的重要手段。首先介绍软件测试的通用的基本理论和基本方法;然后以公司的运营统计系统软件测试为案例,研究了大数据统计系统软件的特点;提出了一种基于经验反馈的软件测试模型,并分析了该模型的特点;最后提出了一套适用于网站大数据统计系统软件测试的策略。关键词:网站统计;软件测试;大数据;黑盒测试;白盒测试0引言 网站大数据统计系统,是用来统计和分析一个web站点的使用情况,而对该系统的测试,它既有一般软件测试的特点即找bug,也有着一般软件系统不一样的特点,即找数据相关性而不是找准确的因果性,即它的模糊性。本文首先介绍了软件测试的基本理论和基本方法,然后以本公司的运维统计系统软件测试为案例,研究网站数据统计系统的特点,提出了一种基于经验反馈的软件测试模型,并分析了该模型的特点;最后提出一套适用于网站大数据统计系统的软件测试的模型。1软件测试方法 软件测试在软件生存期中占有非常突出的重要地位,也是保证软件质量的重要手段。1983年IEEE提出的软件工程标准术语中给软件测试下的定义是:使用人工或自动手段来运行或测定某个系统的过程,其目的在于检验它是否满足规定的需求或是弄清预期结果与实际结果之间的差别。 从其贯穿软件生命周期全过程来看,软件测试可分为单元测试、集成测试、确认测试等阶段。从是否运行被测程序来看,软件测试可分为静态测试和动态测试。从是否关注被测程序结构来看,软件测试还可以分为黑盒测试和白盒测试,几种分类方法是从不同角度来划分的,在实际的工作中它们是交织在一起的,比如在单元测试阶段要先进行静态测试,后进行动态测试,静态测试的时候又有基于程序结构的白盒测试,动态测试时要进行黑盒测试和白盒测试。本文主要从黑盒、白盒分类方法讨论软件测试。黑盒测试黑盒测试又叫功能测试、数据驱动测试或基于规格说明的测试。这种方法是把测试对象看作一个打不开的黑盒子,测试人员完全不考虑被测程序内部的逻辑结构和内部特性,只依据程序的需求规格说明书考虑确定测试用例,检查程序的功能是否符合它的功能说明。黑盒测试的测试用例设计方法主要有以下几种:等价类划分方法、边界值分析法、因果图法、判定表驱动分析方法、正交实验设计方法、错误推测法。白盒测试软件的白盒测试又称为结构测试、逻辑驱动测试或基于程序的测试。它允许测试利用程序内部的逻辑结构及有关信息,设计或选择测试用例,对程序所有逻辑路径进行测试。程序结构分析。白盒测试的主要依据是程序的结构形式。程序结构分析主要有以下方法:控制流分析、数据流分析、信息流分析、编码规则检查、LCSAJ分析等。逻辑覆盖。白盒测试要求对某些程序的结构特性做到一定程序的覆盖,或者说是“基于覆盖的测试”。最为常见的程序结构覆盖有:语句覆盖、判定覆盖、条件覆盖、判定/条件覆盖、分支条件组合覆盖、修正条件/判定覆盖。网站大数据统计系统的特点网站大数据统计系统,是用来统计和分析一个web站点的使用情况,以往都是人工统计或者基于后台服务器端代码的统计,又或者使用google统计系统或者是baidu统计系统。而本统计系统也是采用google统计类似的原理,基于JavaScript的事件捕获机制,每当有用户在web站点上进行任何操作,都会触发系统内置的脚本统计模块,然后统计模块会将当前用户的操作发送给大数据统计系统,而大数据统计系统负责整个web站点页面或功能或按钮的统计和分析,并以图表的形式展现出来。该系统有如下几个特点:典型的Web站点,具有很高的并发性多终端性,用户可能是IE,也可能是firefox,也可能是chrome,还可能是safari,而且每个浏览器的版本还可能不一致,这就给我们的测试工作带来了很多的不确定性。数据的海量性,数据有可能是GB级别,也可能是TB级别,也可能是PB级别,主要取决于网站规模的大小和使用量的大小。实时性要求并不高。前台是多用户在并发操作,后台是队列写入数据,并延迟统计,最终要的结果可能是某一个结论:用户对并不习惯操作该功能。所以单条的数据对整体的结论的影响微乎其微。数据的准确性要求不严格。既然对全部数据作分析所以就不怕数据中有错误数据的干扰2+2=3.9也是挺好的3、网站大数据统计系统的软件测试策略研究3.1基于经验反馈的软件测试模型通过对网站大数据统计系统软件测试的实践,充分考虑到该系统的特点,提出一种适合该系统的软件测试模型。该软件模型具有以下特点:本模型所有环节要求测试经验实时反馈,不不反馈,具有很强的动态调整性。反馈回来的经验形成各种不同的知识集合,对于实时调整、改进测试工作提供了最新的依据,使软件测试工作形成一个良性循环的闭环反馈形式。强调了测试人员在软件测试中的作用,突出了软件测试中人员培训的地位。软件测试人员的综合素质对测试结果、效率都会有很大的影响。本模型注重了测试人员的培训。培养的测试人员具有层次性。该模型在测试人员培训后有一个优秀人才选拔,进行单元、集成、确认各测试阶段知识的交叉培训过程。经过该培训过程的测试人员对大数据网站统计系统有了整体把握,是很重要的人才贮备,这样培训出的人员将有一定的层次性,做到人尽其用。强调了测试经验在软件测试中的作用。前一个版本软件的测试结果对后一个版本软件的测试具有很重要的参考价值;前一阶段的各种软件文档应作为反馈,输入到当前阶段的软件测试工作中。突出了错误推测法、正交实验设计方法在软件测试中的应用。因为该模型基于经验反馈,丰富的测试经验正是错误推测法、正交实验设计方法的关键因素。3.2网站大数据统计系统测试整体策略(1)采用交叉测试方法。一般采取宿主机—目标机交叉测试的方法,合理的再宿主坏境、目标环境之间分配测试的工作量,尽可能消除目标环境的瓶颈制约。在目标环境下进行测试时,由于目标机器软硬件资源相对匮乏,因此测试工具运行在宿主机上,被测程序运行在目标机上,测试所需要的信息通过物理、逻辑连接传输到宿主机上,由测试工具进行分析。 (2)选择适当的测试工具。该测试工具应该具备如下条件:支持标准验证;能自动进行数据流分析、软件度量分析、调用关系分析、控制流程分析、代码覆盖率分析、运行时间分析,并能把这些分析结果已最直观的方式展现给测试人员;支持宿主机、目标机测试;支持单元、集成、确认、系统测试。 (3)确定合理的测试步骤:单元测试、集成测试、确认测试。 3.3单元测试策略 3.3.1单元测试原则 (1)充分性。 (2)尽可能在宿主机上测试。 (3)对单元的执行时间进行严格控制,以确定其满足实时性的要求。 3.3.2单元测试的步骤和方法 (1)首先进行静态测试。 (2)进行动态黑盒测试 (3)进行动态白盒测试 (4)对每个单元时间特性进行分析 3.4集成测试策略 3.4.1集成测试原则 (1)集成测试之前必须进行充分的单元测试,对单元测试中出现的问题进行了改正,并通过了回归测试。 (2)采用自底向上渐增式的集成测试方法。此方法使可能出现的错误逐步暴露,便于定位错误,利于程序错误的改正。而且此方法使用的辅助模块较少,减少了辅助性的测试工作。 (3)确定集成的层次。集成测试方案一般基于构建之间实现的相依性,所以要分析构件的体系结构。根据实现的功能,对模块、接口进行合理的划分,先进行模块内集成测试,后进行模块间的集成测试。 3.4.2集成测试步骤和方法 (1)模块内集成测试:脚本采集模块、队列模块、分析模块、展示模块等集成。 (2)如单元测试的步骤,对集成模块进行静态测试、动态黑盒测试、动态白盒测试、回归测试。主要采用动态黑盒测试,重点进行如下测试:模块之间的接口和异常;一个模块是否会对其它模块的功能产生不利的影响;各个子模块组合起来能否达到预期要求的父功能;全局数据是否有问题;单个模块的误差积累起来,是否会放大,从而达到不能接收的程度。 (3)最后,再进行模块间集成测试。3.5确认测试策略 3.5.1确认测试原则 (1)程序已经经过了充分的集成测试,模块接口存在的问题已经消除 (2)确认测试要在真实目标环境下进行,尽可能的消除测试环境给测试结果带来的影响。 3.5.2确认测试步骤和方法 (1)进行有效性测试。在真实目标环境下,运用黑盒测试方法,对系统软件需求规格说明书所列出的各种需求进行一一验证。确定软件特性是否与需求相符,是否所有软件功能都能得到满足,是否所有软件性能需求都能达到,是否所有文档都是正确且便于使用的。根据测试结果得出测试结论。如果测试结果与预期结果不符,说明软件这部分功能或性能特征与需求规格说明书不一致,此时要形成错误报告。 (2)进行软件配置审查。软件配置审查是确认测试过程的环节,其目的是保证软件配置的所有成分都齐全,各方面都符合要求,维护阶段所必须的细节及已经编排好分类的目录。4、结束语 本文首先介绍了软件测试的基本理论和基本方法,然后以某网站大数据统计系统为案例,研究了大数据统计系统的特点,提出了一种基于经验反馈的软件测试模型,并分析了该模型的特点;提出了一套适用于大数据统计系统软件测试的策略。该策略在已经完成的网站大数据统计系统软件测试工作中证明是十分有效的。 语音识别1摘要语音识别对于多年的研究人员来说一直是迷人、有趣的话题。过去几年在这一领域已经取得了很大进展,主要是由于多年的研究和高性能系统和算法的可用性。语音识别是一个声音信号转换为一组词的过程。许多不同的技术和应用都参与了识别的过程。该模板和统计方法是两大模式识别模型。首先是这样一个模型,它采用平均程序派生出词组和一个距离测度的比较模式。隐马尔可夫模型(HMM)是一种广泛使用的统计方法的例子,这是基于语音信号的特点可以作为参数随机过程的想法。语音识别被几种不同类别的用户使用。那些使用他们的手型有困难的人、专业人士,和有学习障碍的人是它的主要使用者。语音识别既有的优势也有局限。该软件可以给各种各样的使用者和许多因技术的提高而有生活乐趣的人提供了福利。尽管几十年的研究和技术的显着改善,但仍需要很大的努力,必须采取进一步的研究以应付存在的限制,重要的缺点是,使用者对处理器的功耗和低准确率的高要求。2目录1摘要 13简介 34语音识别的一般问题 34.1历史回顾亮点 34.2过程概述 44.3用户和使用领域 45语音识别过程 55.1难点 55.2工艺步骤 55.2.1数字化 65.2.2代表 65.2.3搜索 65.3鲁棒性 65.4识别模型 65.4.1隐马尔可夫模型(HMM) 65.4.1.1声学模型 75.4.1.2字和单元模型 75.4.1.3语言模型 75.5系统的范例 75.6优点和局限性 86结论 93简介现在和几乎过去的五十年,由机器实现自动语音识别是语音科学家和工程师的最终目标。在过去几年中,在语音识别技术已经发生了戏剧性的好转。这是由于有效的系统和算法有很大的进步,以及多年的研究。语音输入,对于有或没有残疾的人似乎都有很大的潜力。语音识别可用在不同的领域,如在电话网络的自动化,提高运营商服务。在过去的今年中这项研究已经取得了不断的进展。但是我们仍然远未达到让一个智能的机器可以理解任意发言者讲的每一句话的期望目标。基本的和语音识别过程都是本报告的考虑范围。4语音识别的一般问题4.1历史回顾亮点许多对声学语音学的基本思路的研究都发生在20世纪50年代。这是第一步,用机器建立自动语音识别装置系统。1952年在贝尔实验室,一个分离单扬声器的数字识别系统建成。尝试识别10个不同的音节,体现在10个单音节词,这是一个演讲者1956年在RCA实验室做成的。1959年,在英国大学学院,建成了一个音素识别器,它能识别四元音和九常数。频谱分析仪和模式匹配被用表彰这个仪器。另一个亮点是在1959年,元音识别器在麻省理工学院林肯实验室被建造出来。这种识别器可识别嵌入在任意一个音箱/b/-vowel-/t中的10个元音。几个基本的突破发生在1960年。识别器的硬件和硬件元音音素识别都于1962年在京都大学建成。1963年在NEC实验室建立了硬件数字识别。这十年包括三个关键研究项目,它们是在过去20年对语音识别的研究和开发的主要问题。首先,一套基本的时间归一化方法,伴随着降低变量作为任务识别的分数,在RCA实验室被创建。第二,Vintsyuk提出了一种对话语进行修辞调整的时间动态规划方法。在20世纪70年代孤立词的识别是研究领域的关键。在俄罗斯,美国和日本的研究产生了“孤立词”技术的效用。在过去的20年里,IBM的研究人员在“大词汇量语音识别”领域研究了三个不同的任务。在AT&T贝尔实验室中进行了“真正的扬声器独立扬声器识别系统”的实验[1]。1980年,连字识别成为了一个重要的焦点。许多连字算法制定和实施了意图识别流利口语话的字符串匹配,这是基于单个单词的级联模式。在这十年中通过了两项新技术。首先,统计建模方法是关注的焦点。隐马尔可夫模型尤为广为传播。使用神经网络来解决问题

被重新提出。国防高级研究计划局(DARPA)社区实施了大词汇量连续语音识别系统的研究[1]。DARPA的项目是一直持续到20世纪90年代。在这十年中,语音识别技术被广泛应用在电话网络[1]。4.2过程概述语音识别是声音信号转换成一组词的过程。该语音输入设备是麦克风或电话。在诸如文件的编写应用程序的最终结果是公认的词语。公认的词语也可以作为输入,以进一步实现语音理解语言处理的意图。在许多不同的技术和应用中都涉及语音输入的过程。(见图1)不同的语音识别工具使用与语音输入不同的信息。对于识别说话人的例子,语言和口头语言的内容是没有影响的。在识别说话人的过程中,唯一有用的是找出扬声器,例如使用这个信息来建立受控访问的语言环境。诸如银行服务等的一些领域,语音识别语言都是有用的[2]。图1显示了一个典型的传统系统,其中用户和计算机是活动的。首先发言的输入处理,通过语音识别组件。接下来,自然语言组件和识别器产生一个代表的意义。代表的含义,可用于检索相应的在文本,表格和图形的形式的信息。为了产生口语反应,你可以使用自然语言生成技术和语音合成。在整个过程中,如下图所示是话语信息的维护和反馈到语音识别和语言理解组件。反馈的目的是为了确保句子在上下文中的正确理解[2]。Figure1:Overviewofaspeechrecognitioninterface4.3用户和使用领域语音识别软件帮助计算机用户把所说的话转变成书面文字。该软件被很多具有不同需求和目标的人使用。三种典型的用户类别[3]:•用户与握手问题有困难使用他们的手型,但能说话清楚的人这些用户有肌肉的问题或协调性差,例如因受伤或后天的神经系统问题,或只是那些打字不好的人。另外一些用户是那些被截肢的人。•专业那些没有时间输入或没有好的打字员的人。这组人包括商界人士,医疗或法律领域和一些经常需要书面报告沟通的人,并聘请誊写键入它们。该软件可以节省时间,金钱,让使用者能在纸上获得信息。这些典型的用户有医生,律师,心理学家,销售代表等等。•有学习障碍的用户有学习障碍的人们从这些清晰的字迹中防止那些情况。5语音识别过程5.1难点语音识别的主要问题之一是它的无规则性。它跨越多个领域,但研究人员往往能从自己的领域方向与之匹配。下列学科已应用于语音识别的问题[9]。••••信号处理从语音信号提取相关信息的过程要尽可能有效和有力。这包括频谱分析,以及预处理和后处理的信号。•物理它主要用于处理声学和人类语言的生理机制(声道和听觉机制)。•模式识别该组算法用于为原型模式的簇数据,并匹配其特征为基础的模式对。•通信与信息理论检测特定的语音模式的方法。•语言学声音,句法,语义,语用学,以及它们之间的关系。当然还有语法和语言分析。•生理了解在人类神经系统中生产和感知言语的机制。•计算机科学在软件或硬件上创建用于实施各种方法的有效的算法。•心理学理解使技术在实际工作由人类所使用的因素。5.2工艺步骤语音识别是由几个组件技术组成。5.2.1数字化称之为取样的过程是用于数字化的模拟信号。在自动语音识别这通常的速度是6.6-20千赫。5.2.2代表数字化的信号可以表示许多不同的方式。这些陈述的目的是保护信号中的试图渗透的因素的语音信息,如坏电话线引入噪声,或演讲者的情绪状态,和尽可能的紧凑。更常见的表现之一是谱图。5.2.3搜索测量的结果是用来寻找最有可能的候选字。缩小搜索是利用声,词汇和语言模型。在整个过程中训练数据用于确定模型的参数值。5.3鲁棒性语音识别的一个重要目标是实现鲁棒性。换句话说,系统在困难的条件下具有良好的识别,即当输入的语音质量是差的。鲁棒性的另一个特点是一个强大的系统出现故障,并逐步正常,而不是

在某一点出现灾难。这些目标是能够达到使用最优估计程序,以获取新的参数,赔偿的程序,并通过培训系统使用过滤信号。5.4识别模型语音识别有两个主要的模式识别模型。第一种模式是模板方法,它是基于语音帧序列的模式(如一个字)是根据一些平均程序的想法,提倡使用局部谱距离的措施去比较模式。第二个模型包括统计方法。这些方法都是基于语音信号可以很好地描述为一个参数随机过程这样的假设。在随机过程的参数估计也可能是一个定义良好的方式。隐马尔可夫模型(HMM)是众所周知的和广泛使用的统计方法[4]。5.4.1隐马尔可夫模型(HMM)它是一个每10-30毫秒的复合载体。对声学参数向量序列被视为是声词用于计算观察序列的载体时,词序列W是明显的概率模型观测。给定一个序列,一个词序列W是由ASR(自动语音识别)系统生成的,其中:W对应一个最大后验概率(MAP)的候选对象。是声学模型的计算方法,是语言模型的计算方法。如何执行搜索取决于对词汇的大小。搜索过程分两个步骤来完成。首先N-最佳词序列字格是生成简单的模型来计算近似实时的可能性的。在第二阶段更准确的可能性是比较有限的假设。一些系统伴随着这个步骤产生一个字序列的假说。这个搜索导致了一个字序列的假说。例如生成一个虚拟词序列的搜索,如果该任务是听写[5]。5.4.1.1声学模型该模型包含了用于构建字表述语言单位的基本概率模型。一个序列的声学参数从口语表达形式中提取。该序列被看作是一个由隐马尔可夫模型所描述的基本过程的级联实现。一个HMM的是两个随机过程的结合,隐马尔可夫链和过程分别观察。隐马尔可夫链描述了时间上的变化,而进程是一个可观察的光谱变化[5]。该模型是强大的,它的灵活性使含有数万字的目录可以被识别[5]。5.4.1.2字和单元模型音素网络代表的字,和路径代表对这个词的发音。音位变体,或字,模型是该模型在不同情况下发音音素。许多因素影响的选择是有多少变体,应考虑给定音素。它存在的大量变体模型。三种模型的例子是多音,分布和集聚。音位变体模型是状态,转换和概率分布作出的HMM模型。5.4.1.3语言模型该模型计算了一个单词序列的概率。通过词语的生成假说需要的概率已收到。生成的结果可以是一个字的顺序,在的N-最佳词序列的集合,或在一个假设的部分重叠的字格[5]。5.5系统的范例图2显示了所谓的“目录听检索”,它提供了从口语拼写地名信息来访问目录的应用程序。一个典型的用例包括以下步骤:1.通过电话,用户使用“STOP”拼写名字,姓氏和说些之间,以及之后的首字母:"RABINER-STOP-LR-STOP"2.语音识别决定了在特定目录的名字,它是最匹配的口语输入3.语音识别者讲该名称的目录信息给用户。出于这个原因,拼写字母的识别是非常容易出错。电话簿提供了一个功能强大的任务语法形式,自动检测并纠正不当。例如,字符串“RJVYMZR—急STOP—LR—STOP”将被解码成正确的字符串,由于限制该字符串必须同时匹配字母拼写的声学特性,并成为一个有效的字符串目录[6]。随着18000名在一个独立的扬声器系统目录操作并拨打行动电话线,还有利用孤立词拼写的名称,一个正确的名字的正确率可超过98%。Figure2:ADirectorylistingretrievalsystembasedonspokennames5.6优点和局限性语音识别方法有两个缺点和优点。仍然有许多悬而未决的问题,从而导致而来该技术的局限性。首先,该技术适合工作在受控制的和安静的环境下。高分贝噪音,就不可能找到有用的技术优势。旧纯语音识别并没有需要考虑语境。这样导致了一个只是文字结合的输出,它仅仅是由用户利用他们的感觉。这也很容易在使用大量的词汇时混淆一个识别器。词汇量越大,越容易使系统变得混

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论