




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 期 李松斌等 :基于统计模型及 的低速率语音编码 隐写检测 融合特征向量中的子向量在隐写前后的取值 发生了 改变 ; 对于 所有文件的 , 均值为 , 对于 因此可以认为本文所提 该值为 隐写将导致该特 取的特征对隐写是非常敏感的 征发生显著性变化 这对隐写检测非常有利 用支持向量机作为分类器 分类器是一种监督 学习分类器 , 它是通 过 使 用 某 些 已 标 注 类 别 的 样 本 , 进行训练获得的 对于特 征 向 量 分类器 的训练 和预测步骤如下 : ( ) 获取尽 可 能 多 的 类 别 低 速 率 压 缩 编 并使用 分组码本使用 码语音片段 , 嵌入方法( 文献 算法进行 优
2、 化 划 分 ) 进行隐写以获得 类别中每个样本对应的 并做好标注 ; 样本 , ( ) 抽取上一步 骤 所 获 得 的 两 类 样 本 的 特 征 向 , 标记每个向量的类别 ; 量 ( ) 训 练 分 类 器: 使用上一步骤获得已标记类 别的特征向量集合训练分类器 , 获得分类器 ; ( ) 使用分类器 对未 知 类 别 样 本 进 行 隐 写 检 , 测: 对于 未 知 类 别 样 本 首 先 抽 取 特 征 向 量 将 作 分类器输出即为隐写检测结 为分类器 的 输 入 , 果 本文基于 是 一 个 优 秀 的 工 具 , 进行分类器的训练和预测 基于机器学习的隐写检测 假设有一个未
3、知 是 否 存 在 隐写的压缩语 , 音片段 隐写检测的目标即判定 是 否 存 在 隐写 假设通过对 进行处理所抽取的可用于隐写检 , ) 测的特征向量为 则隐写检测过程可用式( 表示 : ) , ( ) , ( 其中函数 为 隐 写 检 测 器 其 输 出 结 果 即 为 检 测 结 若 , 表 示 不 存 在 隐 写, 否 则 存 在 隐 写 果, 显然函数 是一个 二 值 分 类 器 , 隐写检测过程实质 上是分类过程 : 假设 时 属 于 未 隐 写 类 ( 称 , 为 称为 类 ) 时 属 于 隐 写 类 ( , 类) 则隐写检测就是将未知类别的样本 分为 对 于 分 类 问 题,
4、基于机器学习 类或 类 的分类方法是当前主流 , 本文也采用这种方法 对于 未知类别的压缩语 音 片 段 , 本文基于机器学习的隐 写检测过程如图 所示 显然 , 隐写检测的关键是确 定特征向量 和分类器 实验及讨论 本文选择 和 作为实验测试所 用的低速率语音编码器 , 并采用文献 给出的方法 本文 针 对 两 种 编 码 器 分 别 进 行 了 本 作为隐写算法 文隐写检测方法的性 能 测 试 , 并与文献 给出的 隐写检测方法进行了比较 为了阐 明 算 法 具 有 较 好 的 普 适 性, 本文选择 不同发音 人 的 多 个 语 音 片 段 组 成 语 音 样 本 库 所 用语音片 段
5、样 本 包 含 个 种 类, 分别是中文男声 图 压缩语音片段隐写检测过程 ( , , 包含 中文女 ) 个 语 音 片 段; , , 包含 英 声( ) 个语音片段 ; , , 文男声 ( 包含 ) 个 语 音 片 段; , , 英文女声 ( 包含 ) 个语音 片段 语音片段总计 每个语音片段的时长 个 , , 为 采样率为 对每个采样点用 进 行量化 , 用 格式存储 我们称没有进行信息隐藏的压缩语音片段为未 , 隐写类 ( 否则称其为隐 写 类 ( 不同类别 类) 类) 发音人的语 音 片 段 编 码 所 得 的 类 及 其 对 应 的 类压缩语音流片段构成进行分类器进 行 训 练 和
6、预 由于本文已将隐写检测问题转化为 测时的数据集 ) 分类问 题 , 因此本文采用式( 定义的分类准确率 在文献 中, 特征向量的提取必须首先对压 缩语音片段进行解 码 , 其后基于解码获得的语音数 据计算基于 这种特征提取 的统计特征向量 , 方法需要进行解码操作 , 甚为耗时 上一节中我们介 绍了本文的特征提 取 方 法 , 该方法不需要对压缩语 音进行解码 , 直接在压缩域抽取特征向量 , 计算速度 较快 为此 , 本文将上节给出的音素分布特性量化向 量 作为特征向量 关于分类器的设计 , 现有研究中 , 不同的对象分 这些方法大致可分 类识别系统有不同 的 训 练 方 法 , 为两大类
7、 : 判别法( 和生成 ) ) 法( 判别法可以灵活地选择用 来识别的特征 , 检测速度也较快 , 为此本文采用基于 判别法的分类器 在判别型分类器中 , 由于支持向量 , 机( 较适合小样本 ) 训练的情况 , 本文考虑到训练时间和训练样本量 , 使 对检测算法的性能的进行评估 : ( ) 其中 和 是数据集中的 类和 类样本的个数 , 和 则是被分类器准确判定类别的 类和 类 样本 计 算 机 学 报 年 的个数 低速率语音编码器 隐写检测结果 对语音样本库中 中 的 每 个 格 式 存 储 的语音片段使用 获得 编 码 器 进 行 压 缩 编 码, 没有进行信 息 隐 藏 的 个 压缩语
8、音流片 , 段, 由于 因此每个片段 包 含 的帧长为 这些压缩语音片段组成未隐写类 个 帧, 别( 样本 使用文献 介绍的 类) 算 法 方 法 对 进行矢 量 量 化 时 的 个 分 裂 矢 量 码 本 进 获得进 行 再次 行优化划分 , 嵌 入 的 分 组 码 本 对每个 格式的语音样本进行基于 标准 的编码压缩 , 并 且, 在对每个帧的 系数进行矢 量量化时使用 获得包含隐 机制嵌入机密信息 , , 藏信息的 个 压缩语音流片段 这些压缩语 样本 音片段组成隐写类别 ( 类) 类及其对应的 类压缩语音流片段构成进行分类器训练和预 测时的 同 理 可 得 、 这 数据 集 和 数 据
9、 集 数 据 集 个数据集的 所 有 样 本 构 成 混 合 ( ) 因此 , 本文在 个不同的数据集上评估了算法性能 用类 似 的 方 法 获 得 使 用 作为低速率 进 行 检 测 算 法 性 能 评 估 的 数 据 集 语音编码 器 时 , , 由于每 个 语 音 片 段 的 长 度 为 的帧 , 长为 因此每个 压缩语音片段包含 个帧 对上述的每个数据集 , 选择 的 类样本及 其对应的 类样本 , 组成该种类分类器的训练样本 剩余的 库, 样本组成测试样 本 库 用 于 评 估 训 练 表 给 出 了 测 试 结 果, 所得分类器 的 分 类 准 确 性 表 中列 是使用本文方法获得
10、的隐写检测 结果 , 列 的方法获得的隐写 是使用文献 检测结果 从测试结 果 看 本 文 方 法 在 个 测 试 数 据 的 方 法, 在语音片段时长为 集上均 优 于 文 献 对于两种低速率语音编码标准 , 本文方法检 时 , 测准 确 率 均 超 过 而文献 的方法对于 , 对个数据集检测 基本上无法 有 效 检 测 : 准确率均低于 表 语音片段时长为 时的测试结果 数据集名 使用 的结果 使用 的结果 上面获得的测试结果所用的语音片段的时长为 本文面向的是 中低速率编码的 压 缩 语 音 流的 隐 写 检 测 ; 进行隐 中 的 语 音 流 是 实 时 流, 为了达到较快检测以 写检
11、测前必须进行 流 的 存 储 及减少存储的数据 量 , 显然达到可以接受的隐写检 测准确率时 , 我们希 望 所 需 要 存 储 的 语 音 流 时 长 越 为此 , 我们在下文对语音片段时长与隐写检 短越好 测的性能进行了评估 压缩语音流时长对隐写检测结果的影响 为了评估语音片段时长对隐写检测结果的影 响, 首先根据不同的低速率编码器的帧长 , 对数据集 中的 对于 长 度 的 语 音 片 段 进 行 截 短 处 理 , 由于其帧 长 为 , 长 度 的 语 音 片 段 总共包含 了 截 取 前 ( 个帧 帧, ) 编码所需的采样值 , 构成时长为 × 的 新 的 对这些新的 、
12、、 、 和 数 据 集 数据 集 进 行 分 类 器 的 训 练 并 测 试 分 类 准 确 性 表 给出了不同 语 音 片 段 时 长 时 ( 的检测 取 不 同 值) 结果 表 压缩语音流时长变化时的 隐写检测结果 时长 的检测结果 的检测结果 的检测结果 的检测结果 的检测结果 为了 更 直 观 地 比 较 两 种 方 法 的 性 能 , 图给出 了 个数据集的平均检测准确率与语音片段时长的 从该 图 可 以 看 出, 随着语音片段时长的增 关系图 加, 隐写检测准确率也随之提升 ; 本文方法在任一时 长下其检测准确率均 优 于 文 献 的 方 法; 在语音 片段时长为 时本文方法已能够
13、达到有效检测 ( , 检测准确率已经超过 而此时 文 献 的方 ) 法仍不超过 因此 , 对 于 在语音片段时 , 期 李松斌等 :基于统计模型及 的低速率语音编码 隐写检测 ; 长较小时本文方法性能远优于文献 在语音片段 ) , 时长较大时 ( 超过 本文达到 的 隐 写 检 测准确率 , 这一点是文献 无法达到的 个帧编码所需的 采 样 值 , 构成时长为 × 的 新的 、 对这些 、 、 和 数 据 集 新的数据集进行分 类 器 的 训 练 并 测 试 分 类 准 确 性 表 给出了 不 同 语 音 片 段 时 长 时 ( 的 取 不 同 值) 为了更好地比较两种方法的性能 ,
14、 图给 检测结果 出了 个数据集的平均检测准确率与语音片段时长 从该图可以看出 , 随着语音片段时长的增 的关系图 加, 本文方法的隐写检测准确率也随之提升 , 但是文 的方法其检测准确率一直低 于 可以认 献 ( 为无 法 对 隐 写 作 出 检 测 ) 其 原 因 可 能 是 每 的采样值采用文献 的 隐写方法仅 嵌入 嵌入率太低导致解码后 的 语 音 秘密信息 , 这使基 采样值序列并不因 隐 写 而 产 生 较 大 的 改 变 , 于采样值序列统计 的 特 征 对 隐 写 不 够 敏 感 , 从而导 但是本文方法是压缩域方法 , 不考察解 致检测率低 码后的语音数据 , 因此仍能获得较
15、好的隐写检测准 在语音片段时 长 较 大 超 过 本文方法检 确率 : 时 , 测准确率超过 图 个数据集的 隐写检测平均准确率 , 由于 的 帧 长 为 长 度 的 语 ) 音片段总共包含了 仍截取前 ( 帧, 表 压缩语音流时长变化时的 隐写检测结果 时长 的检测结果 的检测结果 的检测结果 的检测结果 的检测结果 总 结 本文对在低速 率 语 音 编 码 过 程 中 的 隐写 给出了高效的检测 方 法 本文发现一段语音中的音 素其分布存在不均 衡 性 和 相 关 性 , 据此本文提出了 一种基于压缩域的 隐 写 检 测 特 征 抽 取 方 法 , 并结合 支持向量机构建了 隐 写 检 测 分 类 器 与基于时域的 , 特征抽取方法相比 本 文 方 法 不 仅 具 有 较 高 的 检 测 而且节省了压缩语音的解码时间 , 实现了对 准确率 , 压缩语音流的快速 隐 写 检 测 本文方法借鉴了文档 正是利用这些 的向量空间表示方 法 及 其 分 类 模 型 , 方法所蕴 含 的 深 刻 思 想 建 立 了 本 文 的 隐 写 检 测 算 图 个数据集的 隐写检测平均准确率 法 本文方法为隐写检测提供了一种新的思路 参 考 文 献 根据 上 述 实 验, 本文方法对于两种典型
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中语文叙事散文的思辨性阅读教学研究
- 妇科护理常规指南
- 患者身份识别培训
- 中班健康:赶走蛀虫牙
- 皮肤科激光治疗的护理
- 颈椎护理课件视频
- 比较思想政治教育
- 保育师培训活动
- 预防性驾驶技术课件
- 项目级安全教育培训课件
- 学霸提优第四单元《我们讲文明》重难点梳理 课件
- 安徽青硕建设有限公司招聘笔试真题2024
- 公司适用法律法规标准清单2025年08月更新
- 2025年4月自考00077金融市场学试题
- 国家开放大学机考答案 5个人与团队管理2025-06-21
- 大庆师范学院《跳高》2023-2024学年第一学期期末试卷
- 2025年广元市中考语文试卷真题(含标准答案)
- 幸福与健康课件
- 幼儿弱视防治指南
- 2025人教英语初中七年级下册期末测试卷(含答案)
- 窗帘实施方案(3篇)
评论
0/150
提交评论