版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
(19)国家知识产权局(10)授权公告号CN111797885B(65)同一申请的已公布的文献号(30)优先权数据(73)专利权人三星显示有限公司地址韩国京畿道(72)发明人李章焕审查员高东奇(74)专利代理机构北京德琦知识产权代理有限公司11018专利代理师史迎雪康泉用于分类的系统和方法模型一种用于分类的系统和方法。在一些实施例中,该方法包括:从被标记的输入数据集形成第一训练数据集和第二训练数据集;利用第一训练数据集训练第一分类器;利用第二训练数据集训练变分自编码器,变分自编码器包括编码器和解码器;通过将伪随机向量馈入解码器来生成第三数据集;使用第一分类器标记第三数据集以形成第三训练数据集;基于第三数据集形成第四训练数据集;以及利用第四训练数据集训练第二分类21.一种用于将被制造的部件分类为良品或次品的方法,所述方法包括:从被标记的输入数据集形成第一训练数据集和第二训练数据集;利用所述第一训练数据集训练第一分类器;利用所述第二训练数据集训练变分自编码器,所述变分自编码器包括编码器和解码通过将伪随机向量馈入所述解码器,来生成第三数据集;使用所述第一分类器标记所述第三数据集,以形成第三训练数据集;基于所述第三数据集形成第四训练数据集;并且利用所述第四训练数据集训练第二分类器,其中,所述第一训练数据集是所述被标记的输入数据集,或者所述形成第一训练数据集包括:对所述被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合所述被标记的输入数据集和所述第一补充数据集,以形成所述第一训练数据集;其中,所述第二训练数据集是所述被标记的输入数据集,或者所述形成第二训练数据集包括:对所述被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合所述被标记的输入数据集和所述第一补充数据集,以形成所述第二训练数据集。2.根据权利要求1所述的方法,其中,所述对所述被标记的输入数据集进行过采样包括使用合成少数类过采样技术。3.根据权利要求1所述的方法,其中,所述对所述被标记的输入数据集进行过采样包括使用自适应合成过采样技术。4.根据权利要求1所述的方法,其中,所述第四训练数据集与所述第三训练数据集相5.根据权利要求1所述的方法,其中,所述形成第四训练数据集包括:组合所述被标记的输入数据集的第一部分和所述第三训练数据集,以形成所述第四训练数据集。6.根据权利要求1所述的方法,其中,所述形成第四训练数据集包括:组合所述被标记的输入数据集的第一部分、所述第一补充数据集和所述第三训练数据集,以形成所述第四训练数据集。7.根据权利要求6所述的方法,进一步包括:利用与所述被标记的输入数据集的所述第一部分不同的所述被标记的输入数据集的第二部分,来验证所述第二分类器。8.根据权利要求1所述的方法,其中,所述被标记的输入数据集包括:包括第一数量的数据元的多数类数据和包括第二数量的数据元的少数类数据,所述第一数量超过所述第二数量至少五倍。9.根据权利要求8所述的方法,其中,所述第一数量超过所述第二数量至少十五倍。10.一种用于将被制造的部件分类为良品或次品的系统,包括:从被标记的输入数据集形成第一训练数据集和第二训练数据集;利用所述第一训练数据集训练第一分类器;利用所述第二训练数据集训练变分自编码器,所述变分自编码器包括编码器和解码通过将伪随机向量馈入所述解码器来生成第三数据集;3使用所述第一分类器标记所述第三数据集,以形成第三训练数据集;基于所述第三数据集形成第四训练数据集;并且利用所述第四训练数据集训练第二分类器,其中,所述第一训练数据集是所述被标记的输入数据集,或者所述处理电路被配置为:对所述被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合所述被标记的输入数据集和所述第一补充数据集,以形成所述第一训练数据集;其中,所述第二训练数据集是所述被标记的输入数据集,或者所述处理电路被配置为:对所述被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合所述被标记的输入数据集和所述第一补充数据集,以形成所述第二训练数据集。11.根据权利要求10所述的系统,其中,所述处理电路被配置为使用合成少数类过采样技术对所述被标记的输入数据集进行过采样。12.根据权利要求10所述的系统,其中,所述处理电路被配置为使用自适应合成过采样技术对所述被标记的输入数据集进行过采样。13.一种用于将被制造的部件分类为良品或次品的系统,所述系统包括:处理电路,所述处理电路被配置为:从被标记的输入数据集形成第一训练数据集和第二训练数据集;利用所述第一训练数据集训练第一分类器;利用所述第二训练数据集训练变分自编码器,所述变分自编码器包括编码器和解码通过将伪随机向量馈入所述解码器来生成第三数据集;使用所述第一分类器标记所述第三数据集,以形成第三训练数据集;基于所述第三数据集形成第四训练数据集;并且利用所述第四训练数据集训练第二分类器,其中,所述第一训练数据集是所述被标记的输入数据集,或者所述处理电路被配置为:对所述被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合所述被标记的输入数据集和所述第一补充数据集,以形成所述第一训练数据集;其中,所述第二训练数据集是所述被标记的输入数据集,或者所述处理电路被配置为:对所述被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合所述被标记的输入数据集和所述第一补充数据集,以形成所述第二训练数据集。4用于分类的系统和方法[0001]相关申请的交叉引用[0002]本申请要求2019年4月5日提交的题为“用于跟踪数据集的数据扩充的系统和方法”的第62/830,131号美国临时申请的优先权和权益,该申请的全部内容通过引用合并于技术领域[0003]根据本公开的实施例的一个或多个方面涉及分类器,并且更具体地涉及在训练分类器时使用的用于数据扩充的系统和方法。背景技术[0004]当使用对二元类具有数据不平衡的数据进行训练时,或者当在给定输入数据维度的情况下训练数据的量相对小时,自动分类器可能表现出相对差的性能。发明内容[0006]根据本发明的实施例,提供了一种用于分类的方法,该方法包括:从被标记的输入数据集形成第一训练数据集和第二训练数据集;利用第一训练数据集训练第一分类器;利用第二训练数据集训练变分自编码器,变分自编码器包括编码器和解码器;通过将伪随机向量馈入解码器来生成第三数据集;使用第一分类器标记第三数据集以形成第三训练数据集;基于第三数据集形成第四训练数据集;并且利用第四训练数据集训练第二分类器。[0007]在一些实施例中,第一训练数据集是被标记的输入数据集。[0008]在一些实施例中,第二训练数据集是被标记的输入数据集。[0009]在一些实施例中,形成第一训练数据集包括:对被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合被标记的输入数据集和第一补充数据集,以形成第一训练数据集。[0010]在一些实施例中,对被标记的输入数据集进行过采样包括使用合成少数类过采样[0011]在一些实施例中,对被标记的输入数据集进行过采样包括使用自适应合成过采样[0012]在一些实施例中,第四训练数据集与第三训练数据集相同。[0013]在一些实施例中,形成第四训练数据集包括:组合被标记的输入数据集的第一部分和第三训练数据集,以形成第四训练数据集。[0014]在一些实施例中,形成第四训练数据集包括:组合被标记的输入数据集的第一部分、第一补充数据集和第三训练数据集,以形成第四训练数据集。[0015]在一些实施例中,该方法进一步包括:利用与被标记的输入数据集的第一部分不同的被标记的输入数据集的第二部分,来验证第二分类器。5[0016]在一些实施例中,形成第二训练数据集包括:对被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合被标记的输入数据集和第一补充数据集,以形成第二训练数据集。[0017]在一些实施例中,被标记的输入数据集包括:包括第一数量的数据元的多数类数据和包括第二数量的数据元的少数类数据,第一数量超过第二数量至少五倍。[0018]在一些实施例中,第一数量超过第二数量至少十五倍。被标记的输入数据集形成第一训练数据集和第二训练数据集;利用第一训练数据集训练第一分类器;利用第二训练数据集训练变分自编码器,变分自编码器包括编码器和解码器;通过将伪随机向量馈入解码器来生成第三数据集;使用第一分类器标记第三数据集,以形成第三训练数据集;基于第三数据集形成第四训练数据集;并且利用第四训练数据集训练第二分类器。[0020]在一些实施例中,第一训练数据集是被标记的输入数据集。[0021]在一些实施例中,第二训练数据集是被标记[0022]在一些实施例中,处理电路被配置为:对被标记的输入数据集进行过采样,以产生第一补充数据集;并且组合被标记的输入数据集和第一补充数据集,以形成第一训练数据集。[0023]在一些实施例中,处理电路被配置为使用合成少数类过采样技术对被标记的输入数据集进行过采样。[0024]在一些实施例中,处理电路被配置为使用自适应合成过采样技术对被标记的输入数据集进行过采样。[0025]根据本发明的实施例,提供了一种用于将被制造的部件分类为良品或次品的系形成第一训练数据集和第二训练数据集;利用第一训练数据集训练第一分类器;利用第二训练数据集训练变分自编码器,变分自编码器包括编码器和解码器;通过将伪随机向量馈入解码器来生成第三数据集;使用第一分类器标记第三数据集,以形成第三训练数据集;基于第三数据集形成第四训练数据集;并且利用第四训练数据集训练第二分类器。附图说明[0026]将参考说明书、权利要求和附图来领会和理解本公开的这些和其他特征以及优[0027]图1是根据本公开的实施例的用于分类的系统的框图;[0028]图2是根据本公开的实施例的用于训练和验证分类器的方法的流程图;[0029]图3A是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;[0030]图3B是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;[0031]图3C是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;[0032]图3D是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;[0033]图3E是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;[0034]图3F是根据本公开的实施例的用于训练和验证分类器的方法的一部分的流程图;6[0035]图4是根据本公开的实施例的测试结果的表格;以及[0036]图5是根据本公开的实施例的测试结果的表格。具体实施方式[0037]以下结合附图阐述的详细描述旨在描述根据本公开提供的用于数据扩充的系统和方法的示例性实施例,并且不旨在表示本公开可被构造或利用的唯一形式。描述结合所例示的实施例阐述了本公开的特征。然而,应理解,相同或等效的功能和结构可以通过旨在也被涵盖在本公开的范围内的不同实施例来完成。如本文中其他地方所指代的,相同的附图标记旨在指示相同的元素或特征。[0038]二元类的分类器可以具有将数据样本分配给两个类中的一个的任务,并且用于训练这种分类器的训练数据可能存在显著失衡。例如,在用于制造电子部件的制造过程中,可能的情况是多数的部件是可接受的或“良好的”,而少数的部件在某些方面有缺陷或“不良好的”。为此,当在制造和测试过程期间获得数据时,大多数的数据可能来自良好的设备,不平衡可能成为障碍。要被分类的项目(诸如被制造的部件)的测量值的集合)的维度可能很大。当训练自动分类器时,尤其是鉴于每个数据元的维度当任一类的训练数据元的数量少时,这可能是进一步的障碍。[0040]例如,当制造移动显示器时,可以在显示面板的制造过程期间获取跟踪数据。跟踪数据可以包括例如作为时间的函数的、在制造过程中的温度和压力的测量值。可以使用多个温度传感器和压力传感器,并且每个传感器可以被采样多次(例如,在几天的时间内,每天三次或四次)。由这些测量值产生的跟踪数据可以例如包括大约64次跟踪,每次跟踪具有大约304个测量值,例如,总计超过19000个测量值,使得每个数据元具有超过19000个维度。[0041]如以下进一步详细描述的,各种方法可以被使用以解决以上提到的障碍中的一些。参考图1,在一些实例中,用于检测故障部件的系统包括一个或多个数据收集电路105(数据收集电路105可以包括例如温度传感器和压力传感器、放大器以及模数转换器)、数据预处理电路110(数据预处理电路110可以对数据进行重新格式化,如以下进一步详细讨论的)以及可以是深度学习(DL)神经网络的分类器115。[0042]数据预处理电路110可以从数据收集电路105接收原始跟踪数据(例如,如以上提到的多次跟踪),并且可以将原始跟踪数据重新格式化为例如二维阵列(例如,224×224阵列)。二维阵列的大小可以被选择为与通常由神经网络分类的图像的大小相当。然后,重新格式化可以使得有可能重新使用实现图像的神经网络分类器的代码的特定部分,以在一些实施例中使用。[0043]图2示出了在一些实施例中用于训练和验证分类器的流程图。从数据预处理电路110接收被标记的输入数据集(或“输入数据集”)205,被标记的输入数据集205包括每个被标记为“良好”(或“G”)的第一数量的数据样本(例如,几千个数据元)以及每个被标记为“不采用过采样(如以下进一步详细讨论的)以生成包括一个或两个类的附加数据样本的第一7补充数据集。然后,被标记的输入数据集205和第一补充数据集可以用于在215处使用利用第一训练数据集(第一训练数据集可以是,可以包括被标记的输入数据集205和第一补充数据集两者的组合(或“联合”))的监督式学习来训练第一分类器(或“基一些实施例中,可以省略在210处的过采样的步骤或过采样的结果,并且可以仅使用被标记的输入数据集205来训练第一分类器。[0044]然后,在220处,可以使用由第一分类器(例如,利用由第一分类器的训练产生的权重进行编程的、训练后的第一分类器或其神经网络的副本)的训练产生的模型来标记第三数据集,以形成第三训练数据集。机器学习模型可以是包括分类器、回归器、自动编码器等的多种形式中的任一种。在225处,第三数据集可以通过使用变分自编码器的数据扩充方法来生成,如以下进一步详细讨论的。在225处,数据扩充方法可以使用第二训练数据集作为输入,该第二训练数据集可以是例如被标记的输入数据集205,或者被标记的输入数据集205和第一补充数据集的组合。[0045]然后,在230处,可以使用(i)被标记的输入数据集205的第一部分235(由数据集分离器240从被标记的输入数据集205产生)、(ii)第一补充数据集以及(iii)第三训练数据集据集205的第二部分250(也由数据集分离器240从被标记的输入数据集205产生)验证由第二分类器(例如,利用由第二分类器的训练产生的权重进行编程的、训练后的第二分类器或其神经网络的副本)的训练产生的模型。第二部分250(用于验证)可以与第一部分235(用于训练)不同,例如,第二部分250可以是被标记的输入数据集205的其余部分。[0046]在245处的验证步骤中,训练后的第二分类器的性能(即,由第二分类器的训练产生的模型的性能)可以用于评估第二分类器是否适合用于生产,例如,用于针对每个被制造的部件确定该被制造的部件是要使用还是丢弃(或返工)。[0047]图3A是过采样步骤(在图2中的210处)的流程图。在210处,对被标记的输入数据集205进行过采样,以形成第一补充数据集(或“过采样的数据集”)305。可以使用SMOTE(合成向每个数据元添加一个小的随机向量(或“偏移”)来偏移所产生的数据元中的每个数据元,以减少第一补充数据集305的数据元可能干扰其他类(例如,可以是“良好”类的多数类)的可能性。[0048]图3B是第一分类器的在215处(图2)的训练的流程图。在215处,使用(i)被标记的输入数据集205和(ii)第一补充数据集305中的一个或两者来训练第一分类器,从而得到第[0049]图3C是数据扩充(在图2的225处)的流程图。变分自编码器可以包括编码器和解码器。编码器可以将每个接收到的数据元映射或“编码”为满足以下约束条件的向量或“本征向量”:本征向量具有近似于单位高斯分布(即,近似于向量的元素是独立的高斯分布的向量分布,例如,每个元素具有均值和方差)的分布。解码器可以执行编码器的操作的近似逆;解码器可以将编码器产生的每个本征向量映射到一(合成)数据元,该数据元近似于编码器会映射为该本征向量的数据元。编码器和解码器可以利用高斯分布的正则化与代表数据元的训练集(例如,以上提到的第二训练集)和代价函数一起训练,该代价函数是对编码器的8输入和解码器的输出之间的差的度量。一旦训练了编码器和解码器,就可以将伪随机本征向量(被生成以具有单位高斯分布)馈入解码器中,以生成合成数据元(例如,以生成第三数据集315(或“VAE数据集”))。如果利用来自两个类的数据元(即,同时具有“不良好”数据元)训练变分自编码器,则合成数据元可以是未标记的。[0050]图3D是标记(在图2中的220处)第三数据集以形成第三训练数据集的流程图。第三数据集315通过第一分类器模型310被分类,并且第三数据集315的每个数据元被标记,以形成第三训练数据集(或“被标记的VAE数据集”)320。图3E是训练第二分类器(在图2中的230处)的流程图。在230处,使用(i)被标记的输入数据集205的第一部分235(由数据集分离器240从被标记的输入数据集205产生)、(ii)第一补充数据集305以及(iii)第三训练数据集320中的一个或多个(或一个或多个的相应部分)来训练第二分类器,从而得到第二分类器模型(或“二元分类器模型”)325。图3F是分类器验证(在图2中的245处)输入数据集205的第二部分250的每个数据元被馈入训练后的第二分类器(或“第二分类器模型”)325,并且在330处将产生的每个分类与数据元的标记进行比较。然后基于分类与标记相符的程度评估第二分类器的性能。[0051]图4的表格示出了使用过采样和原始G数据集的80%、利用基线二元分类器模型310的一个实施例执行的测试的结果。根据图2中图示的方法处理包括“良好”类中的3936个数据元和“不良好”类中的22个数据元的被标记的输入数据集205。使用过采样(在图2中的210处)来将(i)“不良好”数据元与(ii)“良好”数据元的比率增加到0.1:1或1:1。图4的表格(在第一列中)示出了所使用的训练数据集的“良好”数据元和“不良好”数据元的分类准确度,并且(在第二列中)示出了验证数据集的“良好”数据元和“不良好”数据元的分类准确度。[0052]图5的表格示出了在一个实施例中第二分类器模型325的性能测试的结果。利用(i)来自VAE的合成样本(第三训练数据集320),包括3238个G样本和6762个NG样过过采样产生的2000个NG样本,以及(iii)从输入数据集205中的G样本中随机选择的2000[0053]可以看出,图5中示出的性能明显比图4中示出的性能好,即,在分别与图4和图5对应的测试中第二分类器明显胜过第一(基线)分类器。此外,使用输入数据集205的G样本中较小的一部分达到了图5的结果;输入数据集205的G样本的80%在产生图4的结果的测试中用于训练分类器,然而输入数据集205的G样本(2000个G样本)中只有50.8%在产生图5的结果的测试中用于训练分类器。[0054]在一些实施例中,k折验证用于获得对根据本文描述的方法构造的分类器115的准确度的更可靠的评估。[0055]在一些实施例中,第一分类器(或“第一分类器模型”310)和第二分类器(或“第二分类器模型”)325中的每一个可以是如本文所描述的适当训练后的SqueezeNet、ResNet或VggNet神经网络。可以如在/abs/1312.6114可获得的、D.Kingma和M.Welling的“自动编码变化贝叶斯(Auto-EncodingVariationalBayes)”中所描述的来构造变分自编码器,其全部内容通过引用合并于此。[0056]在一些实施例中,数据预处理电路110、分类器115和执行图2中图示的方法的系统中的一个或多个以一个或多个处理电路实现。术语“处理电路”在本文中用于指被采用以处9理数据或数字信号的硬件、固件和软件的任何组合。处理电路硬件可以包括例如专用集成电路(ASIC)、通用或专用中央处理单元(CPU)、数字信号处理器(DSP)、图形处理单元(GPU)和诸如现场可编程门阵列(FPGA)的可编程逻辑器件。在处理电路中,如本文中使用的,每个功能由被配置(即,被硬连线)为执行该功能的硬件执行,或由被配置为执行存储在非暂时性存储介质中的指令的更通用的硬件(诸如CPU)执行。处理电路可以在单个印刷电路板(PCB)上被制作或分布在几个互连的PCB上。处理电路可以包含其他处理电路;例如,处理电是指数据集的适当的子集或者整个数据集。[0059]本文中使用的术语仅用于描述具体的实施例的目的,并且不旨在限制本发明构度的术语,并且旨在考虑会被本领域普通技术人员所认识到的测量或计算的值中的固有偏合物或产品中任何其他单一成分的量大的成分。比较而言,术语“基本成分”是指构成组合物、聚合物或产品的至少50%重量或更多的成分。如本文中使用的,术用于多个项目时是指项目的至少一半。[0060]如本文中使用的,单数形式的“一”旨在也包括复数形式,除非上下文另有明确指组件和/或其组合的存在或附加。如本文中使用的,术语“和/或”包括所关联列出的项目中的一个或多个的任意和全部组合。诸如“…中的至少一个”的表达,在位于元件列表之后时,修饰整个元件列表并且不修饰列表的个别元件。此外,在描述本发明构思的实施例时,使用或邻近于另一元件或层,或者可以
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 乡镇宠物营养品认知市场调研
- 2026年抖音电商运营品牌授权展示规范调研
- 2026年县域智能垃圾桶清理便捷性调研
- 2026年新媒体文案非遗传承文案传播调研
- 企业信息技术基础设施建设方案
- 公路桥梁施工监理技术方案范文
- 车间生产线效率优化方案
- 日照市重点中学2026届高三上数学期末复习检测试题含解析
- 2026届四川省遂宁市生物高一上期末检测试题含解析
- 2026届甘肃省武威一中 高三语文第一学期期末达标测试试题含解析
- 2025年福建省领导干部任职前廉政法规知识测试题库及答案
- 2025年清远市公安局分局警务辅助人员招聘考试试题(附答案)
- 2025年煤矿煤矿维修设备操作与维护人员专业安全培训试卷及答案
- 某某县高级中学教学综合楼及学生食堂建设工程可行性研究报告
- 中国环丙胺行业市场前景预测及投资价值评估分析报告
- 重庆市建筑工程施工图设计文件编制技术规定(2024年版)
- 液压支架装配翻转平台施工方案
- DB32-T 5189-2025 社区家政服务网点建设规范
- 蒙城县采煤塌陷区应急预案
- 压实度试验灌砂法课件
- 房地产客服维保工作总结
评论
0/150
提交评论