CN111164682B 使用机器学习的音频重建方法和设备 (三星电子株式会社)_第1页
CN111164682B 使用机器学习的音频重建方法和设备 (三星电子株式会社)_第2页
CN111164682B 使用机器学习的音频重建方法和设备 (三星电子株式会社)_第3页
CN111164682B 使用机器学习的音频重建方法和设备 (三星电子株式会社)_第4页
CN111164682B 使用机器学习的音频重建方法和设备 (三星电子株式会社)_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020.03.27PCT/KR2017/0117862017.10.24WO2019/083055KO2019.05.02US2016093308A1,201WO2009114656A1,2009.0机器学习来重构从比特流获得的解码参数或音数;基于包括在所述多个解码参数中的第一参第二参数和第二参数的特性来获得重建的第二2通过解码包括音频信号的比特流获得根据当前帧中的频率的信基于对应于与第一频率相邻的频率的信号幅度,确定在所述第通过将机器学习模型应用于在所述第一频率处的所述信号幅度的所述范围以及根据基于所述重建的在所述第一频率处的信号幅度来解码来自所述比特流的所述当前帧通过将所述重建的在所述第一频率处的信号幅度校正为处于在所述第一频率处的所得所述范围内的最接近所述重建的信号幅度的值作为所述校正后的型来确定在所述第一频率处的所述信号幅度的5.根据权利要求1所述的音频信号重建基于所述机器学习模型,选择在所述第一频率处的所述信号幅度原始音频信号和至少一个根据所述频率的所述基于所述解码的音频信号和至少一个根据所述频率的所述信号幅通过使用所选择的机器学习模型来重建所述解码的音基于所述起始频率和所述解码的音频信号的频率,选择所述解3通过解码包括音频信号的所述比特流来获得根据当前帧中的频率的信基于对应于与第一频率相邻的频率的信号幅度,确定在所述第通过将机器学习模型应用于在所述第一频率处的所述信号幅度的所述范围以及根据基于所述重建的在所述第一频率处的信号幅度来解码来自所述比特流的所述当前帧置为通过将所述重建的在所述第一频率处的信号幅度校正为处于在所述第一频率处的所置为通过使用基于根据所述频率的所述信号幅度而预训练的机器学习模型来确定在所述置为通过基于所述范围确定在所述第一频率处的所述信号幅度的候选并基于所述机器学习模型选择在所述第一频率处的所述信号幅度的所述候选中的一个候选来获得所述重建置为进一步基于前一帧的多个解码参数中的至少一个解码参数来获得所述当前帧的所述置为基于所述解码的音频信号和至少一个根据所述频率的所述信号幅度从多个机器学习18.一种计算机可读记录媒体,所述计算机可读记录媒体在其上记录了用于执行权利4于对输入数据的特性进行自动分类/学习的算法技术,元素技术是指通过使用诸如深度学[0006]可应用AI技术的各个领域的示例如下所述。语言理解是指识别和应用/处理人类5[0009]提供了一种通过使用机器学习来重建从比特流获得的解码参数或音频信号的方个解码参数中的至少一个解码参数、第二参数和第二参数的特性来获得重建的第二参数;[0012]确定所述第二参数的特性可以包括:基于所述第一参数确定所述第二参数的范[0016]所述机器学习模型可以是通过机器学习原始音频信号和所述多个解码参数中的述多个解码参数中的至少一个解码参数,从多个机器学习模型中选择一个机器学习模型;以及通过使用所选择的机器学习模型来重建所述解码的[0018]所述机器学习模型可以是通过机器学习所述解码的音频信号和原始音频信号来[0019]选择所述机器学习模型可以包括:基于所述多个解码参数中的至少一个解码参[0020]选择所述机器学习模型可以包括:基于所述多个解码参数中的至少一个解码参6[0022]所述至少一个处理器可以进一步被配置为通过基于所述第二参数的特性校正所述重建的第二参数来获得校正后的第二参数,并基于所述校正后的第二参数解码音频信[0023]所述至少一个处理器可以进一步被配置为通过使用基于所述第一参数和所述第二参数中的至少一个而预训练的机器学习模型来确定所[0024]所述至少一个处理器可以进一步被配置为通过基于所述第二参数的特性确定所述第二参数的多个候选并基于所述机器学习模型选择所述第二参数的所述多个候选中的[0025]所述至少一个处理器可以进一步被配置为进一步基于前一帧的多个解码参数中[0026]所述机器学习模型可以是通过机器学习原始音频信号和所述多个解码参数中的音频信号和所述多个解码参数中的至少一个解码参数从多个机器学习模型中选择一个机7非易失性随机存取存储器(NVRAM)、可编程只读存储器(PROM)、可擦除可编程只读存储器8重建为高质量的方法之一是使用机器学习的方法。现在将参考图1至图15描述通过使用编解码器的解码参数和机器学习来改进解码音频的质[0055]音频重建设备100可以包括接收器110和解码器120。接收器110可以接收比特信息提取器210可以等同地对应于图1的接收器110。至少一个解码器可以包括第一解码器解码器223中的至少一个可以等同地对应于图1的解码器可以将原始音频编码并压缩到比特流中。编解码器信息提取器210可以通过有线或无线通信从编码设备或存储介质接收比特流。编解码器信息提取器210可以将比特流存储在存储码原始音频的技术可以包括例如MPEGLayer-3(MP3)、高级音频编码(AAC)或高效AAC(HE-AAC)技术。编解码器信息提取器210可以基于编解码器信息从至少一个解码器中选择解码解码器信息提取器210从至少一个解码器中选择的解码器可以基于比特流解码音频信号。损解码器231接收至少一个解码参数。逆量化器232可以对至少一个解码参数进行逆量化。逆量化的解码参数可以是单声道信号。立体声信号重建器233可以基于逆量化的解码参数来重建立体声信号。逆转换器234可以转换频域的立体声信号并且输出时域的解码的音频9频谱仓乘以尺度因子增益和全局增益来获得频域的特性确定器240可以接收至少一个解码参数并确定至少一个解码参数的特性。参数特性确码参数的特性。参数特性确定器240可以将至少一个解码参数和解码参数的特性输出到参型来重建该至少一个解码参数。音频信号解码器230可基于重建的至少一个解码参数来输个解码参数和解码参数的特性。参数重建器250可以通过将机器学习模型应用于至少一个解码参数和解码参数的特性来输出重建的参数。参数重建器250可以通过将机器学习模型应用于至少一个解码参数来输出重建的参数。参数重建器250可以基于参数特性来校正重[0071]参数重建器250可以将重建的至少一个解码参数和校正后的参数中的至少一者输240可以基于前一帧的至少一个解码参数和校正后的参数中的至少一者来输出当前帧的参数特性。参数重建器250可以基于前一帧的至少一个解码参数和校正后的参数中的至少一备100可以基于重建的第二参数来解码音[0075]音频重建设备100可以通过对比特流进行解码来获得当前帧的多个解码参数(操特流可以包括关于解码参数需要输出到何处的信息。音频重建设备100可以基于包括在比[0076]当可以在不对多个解码参数中的至少一个解码参数进行修改的情况下确保高音无损解码器231可以将至少一个解码参数输出到参数重建器250。音频重建设备100可以通过使用机器学习模型基于解码参数来获得重建的解码参数。音频重建设备100可以基于重建的解码参数来解码音频信号。音频重建设备100可以基于重建的解码参数来提供具有改无损解码器231可以将多个解码参数输出到参数特性确[0079]参数特性确定器240可以基于多个解码参数中包括的第一参数来确定包括在多个[0082]参数重建器250可以通过将机器学习模型应用于多个解码参数中的至少一个、第建的第二参数来解码音频信号(操作340)。基于通过应用机器学习模型而重建的第二参数比数据应用器420更早地运行。参数特性确定器240和参数重建器250可以包括数据学习器[0086]数据获取器411可以接收输入数据431。输入数据431可以包括原始音频信号和解[0087]预处理器412可以预处理输入数据431以用于学习。预处理器412可以以使得下面将要描述的机器学习器413可以使用输入数据431的方式将输入数据431处理为预设格式。供给机器学习器413。预处理器412可以根据预设标准从预处理数据中选择学习所需的数据。预处理器412可以根据预设标准通过下面将要描述的机器学习器413的学习来选择数入数据可以包括多个解码参数和原始音频信号中的至少一者。机器学习模型432可以包括用于从多个解码参数中重建至少一个参数的标准。机器学习器413可以学习以最小化原始音频信号和基于重建的解码参数所解码的音频信号之间的差异。机器学习器413可以学习用于选择输入数据431的一部分以从多个解码参数中重建至少一个参[0090]机器学习器413可以通过使用输入数据431来学习机器学习模型432。在这种情况432可以使用深度神经网络(DNN)模型、递归神经网络(RNN)模型或双向递归深度神经网络输入数据431或默认训练数据高度相关的机器学习模型确定为要被训练的机器学习模型。[0093]机器学习器413可以通过使用例如学习算法(例如误差反向传播或梯度下降)来训[0094]机器学习器413可以使用输入数据431作为输入值通过例如监督学习来训练机器使用关于通过学习做出的决定的结果是否正确的反馈进行强化学习来训练机器学习模型[0101]机器学习器413可以通过使用任意权重W和任意偏转参数b来获得预测数据。预测以在矩阵中表示与最小成本相对应的权重和偏转参数。机器学习器413可以通过使用与最在这种情况下,机器学习器413可以将训练后的机器学习模型432存储在数据学习器410的[0104]在这种情况下,存储有训练后的机器学习模型432的存储器还可以存储例如与电[0105]模型评估器(未示出)可以将评估数据输入到机器学习模型432,并且当使用评估[0106]例如,当与基于评估数据训练的机器学习模型432的结果中的不准确结果相对应中的超过20条评估数据输出错误结果时,模型评估器可以评估训练后的机器学习模型432分数的顺序预设的一定数量的机器学习模型确定为最终机件芯片的形式或作为通用处理器(例如,中央处理单元(CPU)或应用处理器)或专用图形处学习器413和模型评估器中的一些可以被包括在电子设备中,而其他的可以被包括在服务结果提供器423。数据应用器420接收输入数据441和机器学习模型432并输出输出数据442[0112]数据获取器421可以获取输入数据441。输入数据441可以包括用于解码音频信号以使得将在下面描述的结果提供器423可以使用输入数据441的方式将输入数据441处理为处理器422可以从预处理的输入数据中选择用于改进音频信号的质量的至少一个解码参的质量的预设标准来选择预处理的输入数据的一部分或全部。预处理器422可以根据通过机器学习器413的学习而预设的标准来选[0114]结果提供器423可以通过将预处理器422选择的数据应用于机器学习模型432来输建设备100可以基于重建的解码参数来输出接近于原始音频信号的解码的建的解码参数。结果提供器423可将前一帧的输出数据442提供给预处理器422。预处理器供器423可以不仅通过反映当前帧的重建的解码参数而且还反映关于前一帧的信息来生成[0116]模型更新器(未示出)可以基于对结果提供器423提供的输出数据442的评估来控提供器423和模型更新器中的一些可以被包括在电子设备中,而其他的可以被包括在服务[0120]现在将参考图5至图11详细描述图1的音频重建设备100的操作以及图4的数据学[0124]多个解码参数可以包括第一参数和第二参数。参数特性确定器240可以基于第一以基于第一参数的趋势来确定第二参数的特性。第二参数的特性可以包括第二参数的范以确定与第二参数相对应的信号幅度513的范围在信[0126]图2的参数特性确定器240可以包括图4的数据学习器410。机器学习模型432可以[0127]例如,参数特性确定器240的数据学习器410可以接收对应于原始音频信号的信进行高质量编码而获得的信息。参数特性确定器240的数据学习器410可以接收解码参数。参数特性确定器240的数据学习器410接收的参数可以对应于至少一帧。参数特性确定器240的数据学习器410可以基于数据获取器411、预处理器412和机器学习器413的操作来输出机器学习模型432。数据学习器410的机器学习模型432可以是用于基于第一参数来确定第一参数和第二参数中的至少一个来确定第二参数的特性。参数特性确定器240可以使用[0130]根据本公开的另一实施例,音频重建设备100可以通过重建比特流中不包括的第关频率f0处的信号幅度的信息。音频重建设备100可以基于第一参数来估计频率f0处的信信号幅度524大于对应于频率f2的信号幅度522,所以音频重建设备100可以确定对应于第二参数的信号幅度523的范围大于或等于信号号幅度534小于对应于频率f2的信号幅度532,所以音频重建设备100可以确定对应于第二参数的信号幅度533的范围小于或等于信号与第二参数相对应的信号幅度543的范围在信号幅度[0135]音频重建设备100可以使用多个帧来确定帧中的解码参数的特性。音频重建设备的至少一个信号幅度来确定包括在曲线图660中的信号幅度662的特性。音频重建设备100可以检查曲线图640的信号幅度641、642和643的趋势。音频重建设备100可以检查曲线图可以基于曲线图640和650来确定曲线图660的趋势。音频重建设备100可以确定信号幅度[0138]根据本公开的另一实施例,音频重建设备100可以基于包括在曲线图640、650和幅度并且大于或等于在f5处的信号幅度。音频重建设备100可以包括图4的数据学习器410和数据应用器420中的至少一个。上面提供了对数据学习器410或数据应用器420的操作的[0139]根据本公开的实施例,音频重建设备100可以使用一个帧的先前帧来确定该帧中包括的解码参数的特性。音频重建设备100可以基于先前帧中的取决于特定频率的信号来确定当前帧中的取决于特定频率的信号的特性。音频重建设备100可以基于例如先前帧中[0140]例如,音频重建设备100可以基于包括在曲线图640和650中的至少一个信号幅度可能是听不到的声音。因此,音频重建设备100在编码或解码过程中可以忽略f0的当前信频重建设备100在编码或解码过程中不可以忽略f0的[0146]音频重建设备100可以将尺度因子和掩蔽阈值中的量化步长设置为较小的值。音频重建设备100可以基于量化步长来确定频谱建设备100可以通过使用机器学习模型基于多个解码参数中的至少一个来获得重建的第二[0150]返回参考根据本公开的实施例的图3,参数重建器250的数据学习器410和数据应器学习模型432。参数重建器250的数据应用器420可以通过反映第二参数的特性来输出输[0151]参考根据本公开的另一实施例的图7,参数重建器250的数据学习器410和数据应二参数的特性的情况下输出机器学习模型432。参数重建器250的数据应用器420可以在不重建器250可以通过基于第二参数的特性校正重建的第二参数来获得校正后的第二参数。参数重建器250可以将校正后的参数输出到音频信号[0156]曲线图810示出了取决于频率的信号幅度。在曲线图810中示出的虚线815可以对812、813和814之间的差异可能是由于对原始音频信号进行编码和解码时造成的错误而导频重建设备100可以使用机器学习模型来确定解码参数的特性。上面关于图5和图6提供了以在f0处不接收解码参数。音频重建设备100可以基于与f0有关的解码参数来确定在f0处设备100可以通过使用与f0相邻的频率的频谱仓和与当前帧相邻的帧的频谱仓来确定在f0[0162]音频重建设备100可以重建解码参数。音频重建设备100可以使用机器学习模为了重建解码参数,音频重建设备100可以将至少一个解码参数和解码参数的特性应用于850中对应于频谱仓的点854可以远离由虚线860表示的原始音当重建的频谱仓不在频谱仓的可用范围878内时,音频重建设备100可以获得范围878的最接近重建的频谱仓的值作为校正后的频谱仓。当与重建的频谱仓相对应的点874的值大于范围878的最大值时,音频重建设备100可以获得范围878的最大值作为与校正后的频谱仓[0166]音频重建设备100可以基于校正后的解码参数来解码音频信号。利用在频率f0处频重建设备100可以使用机器学习模型来确定解码参数的特性。上面关于图5和图6提供了过使用多个比特来表示频谱仓。音频重建设备100可以与用于表示频谱仓的比特数成比例地精细地表示频谱仓。音频重建设备100可以增加用于表示频谱仓的比特数,以微调频谱[0173]由音频重建设备100接收的解码参数的幅度可以对应于点1020。解码参数的幅度建设备100可以通过将当前帧的解码参数和前一帧的解码参数中的至少一个应用于机器学[0179]解码参数可以包括第一参数和第二参数。音频重建设备100可以使用与第二参数[0180]参考曲线图960,音频重建设备100可以获取选择的解码参数961。音频重建设备数。音频重建设备100可以使用与第二参数相关联的第一参数来选择第二参数的多个候选[0187]解码参数可以包括第一参数和第二参数。音频重建设备100可以基于第一参数来音频重建设备100可以将解码参数1111和1113的符号确定为解码参数1111和1113的特性。解码参数1112的幅度可以为0。音频重建设备100可以将0的幅度确定为解码参数1112的特[0189]根据本公开的实施例,音频重建设备100可以通过将解码参数应用于机器学习模[0190]音频重建设备100可以基于解码参数的特性,通过校正重建的解码参数来获得校线图1150,音频重建设备100可以通过校正重建的解码参数1131和1133的符号来获得校正后的解码参数1151和1153。音频重建设备100可以通过将重建的解码参数1132的幅度校正[0191]根据本公开的另一实施例,音频重建设备100可以通过将机器学习模型应用于解码参数和解码参数的特性来获得重建的解码参数。即,音频重建设备100可以基于曲线图1110所示的解码参数来获得曲线图1150所收比特流并确定用于对比特流进行编码的技术。用于编码原始音频的技术可以包括例如时域噪声整形(TNS)信息和感知噪声替代(频编码设备可能不会发送任何频谱仓或发送不准确的频谱仓。音频重建设备100可以将带器1230可以将关于频率的信息发送到重建方法选择器1230可以将指示帧是稳态信号还是瞬态信号的信息发送到重建方法选择将指示帧是稳态信号还是瞬态信号的信息发送到重建方法选择编码设备可以使用在对稳态信号进行编码之后剩余的可用比特来对瞬态信号进行编码。[0204]PNS信息是关于在频域中产生孔(hole)的部分的信息。孔是指针对其不发送频谱以将关于孔的位置的信息发送到重建方法选器中的一个基于重建方法选择器1240的中的至少一个可以接收解码的音频信号和解码参数中以通过使用由机器学习模型改进的带宽扩展技术来输出重建的音[0210]根据本公开的另一个实施例,解码后的参数的特性可以包括关于孔的位置的信方法选择器1240可以使用用于与孔的位置相对应的信号的第二重建器1260。第二重建器1260可以通过使用机器学习模型来输出重建的音[0211]因为可以通过重建方法选择器1240基于音频信号的特性来选择重建解码的音频[0213]在操作1310中,音频重建设备100通过对比特流进行解码来获得当前帧的多个解[0214]基于图13的音频重建设备100和基于图3的音频重建设备100均可以改进解码的音[0218]比特流分析器1230可以基于比特流获得解码参数的特性。例如,比特流分析器[0219]参考曲线图1460,音频编码设备可以针对低于频率f的频率区域准确地发送频谱[0220]重建方法选择器1240可以基于起始频率f和解码的音频信号的频率来选择用于解[0221]当解码的音频信号的频率低于起始频率f时,重建方法选择器1240可以选择某个机器学习模型。可以基于解码的音频信号和原始音频信号来预训练特定的机器学习模型。音频重建设备100可以通过使用机器学习模型来重建解[

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论