CN111082729B 机器学习装置、控制装置以及机器学习方法 (发那科株式会社)_第1页
CN111082729B 机器学习装置、控制装置以及机器学习方法 (发那科株式会社)_第2页
CN111082729B 机器学习装置、控制装置以及机器学习方法 (发那科株式会社)_第3页
CN111082729B 机器学习装置、控制装置以及机器学习方法 (发那科株式会社)_第4页
CN111082729B 机器学习装置、控制装置以及机器学习方法 (发那科株式会社)_第5页
已阅读5页,还剩32页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

WO2018151215A1,2018.08制装置的至少一个滤波器的系数进行优化的机所述测量装置根据伺服控制装置中频率变化的2状态信息取得部,其取得包含测量装置的测量信息和所述滤波述伺服控制装置的输入输出增益和输入输出的相位延迟中行为信息输出部,其向所述滤波器输出行为信息,该行为信息包含在所所述测量信息包含所述输入输出增益和所述输入输出当所述测量信息中包含的所述伺服控制装置的输入输出增益是根据所述伺服控制装该正弦波由频率生成装置生成,该频率生成装置设置所述标准模型的输入输出增益在规定的频率以上所述回报输出部计算回报以使所述输入输出的相所述机器学习装置具有:优化行为信息输出部,其根据由所述价值函测量装置,其根据所述伺服控制装置中频率变化的服控制装置的输入输出增益和输入输出的相位延迟中7.一种机器学习装置的机器学习方法,该取得包含测量装置的测量信息和所述滤波器的系数在内的状3所述测量信息包含所述输入输出增益和所述输入输出当所述测量信息中包含的所述伺服控制装置的输入输出增益是根据所述伺服控制装4[0001]本发明涉及进行对伺服控制装置中的滤波器的系数进行优化的机器学习的机器[0003]专利文献1记载了一种伺服致动器,该伺服致动器具有控制电动机速度的速度反出的共振特性来设定陷波滤波器单元的频率和Q值的陷波滤波器幅,将振幅的变化率从正转为负时的转矩指令值信号的频率设定为陷波滤波器的中心频[0010]专利文献1的伺服致动器根据速度反馈环的频率响应特性来调整陷波滤波器的特5置于伺服控制装置(例如,后述的伺服控制[0017]所述频率变化的输入信号是频率变化的正弦波,该正弦该频率生成装置设置于所述伺服控制装置内或[0026]当所述测量信息中包含的所述伺服控制装置的输入输出增益是根据所述伺服控6服控制装置的输入输出增益和输入输出中的相位延迟[0046]图6是表示标准模型的伺服控制部以及学习前和学习后的伺服控制部的输入输出[0050]图10是说明本发明的一实施方式的机器学习部的优化行为信息输出部的动作的7[0072]图1是表示包含本发明的一实施方式的机器学习装置的控制装置的框图。控制装[0073]控制装置10具有:伺服控制部100、频率生成部200、测量部300以及机器学习部[0076]减法器110求出输入的速度指令与速度反馈的检测速度之差,将该差作为位置偏[0077]速度控制部120将积分增益K1v乘以速度偏差进行了积分而得的值、与比例增益[0079]数学公式1(以下表示为数学式1)表示作为滤波器130的陷波滤波器的传递函数F8[0084]通过设置于伺服电动机150的旋转编码器(未图示)来检测伺服电动机150的旋转[0086]频率生成部200一边使频率变化一边将正弦波信号作为速度指令,输出给伺服控号的速度指令和成为输出信号的检测速度的图。图3是表示输入信号与输出信号的振幅比[0091]在以下的说明中对机器学习部400进行强化学习的情况进行说明,但是机器学习[0092]在进行机器学习部400所包含的各功能块的说明之前,首先对强化学习的基本结构进行说明。智能体(相当于本实施方式中的机[0096]Q学习以在某种状态S时从能够取得的行为A中将价值Q(S、A)最高的行为A选择为t)rt9就是说,使某种状态下的某种行为的价值接近该行为导致的下一状态下的最佳行为价值。为价值传播至其前一个状态下的行为价值的结[0107]“Human_levelcontrolthroughdeepreS包含根据滤波器130的传递函数的各系数通过执行学习程序而产生的机械端的振动为最小那样的行为A(即,滤波器130的传递函数ωc量出的输入输出增益Gs与预先设定的标准模型的各频率中每一个的输入输出增益Gb进行[0122]图6是表示标准模型的伺服控制部与学习前和学习后的伺服控制部100的输入输模型的理想的虚拟输入输出增益,将标准模型的输入输出增益作为固定值而通过直线MC12[0124]在超过输入输出增益变得足够小的频率的区域B中,即使学习前的输入输出增益的曲线RC1超过标准模型的理想的虚拟输入输出增益的曲线MC11,对稳定性的影响也变小。[0126]在以下的说明中,通过D(S)表示状态信息S有关的状态变量即相位延迟,通过D[0146]行为信息生成部4023针对当前状态S选择Q学习的过程中的行为A。行为信息生成以及衰减系数k的动作,可以生成行为信息A,将生成的行为信息A输出给行为信息输出部[0154]价值函数存储部404是存储价值函数Q的存储装置。价值函数Q例如可以按状态S、[0155]优化行为信息输出部405根据价值函数更新部4022进行Q学习而进行了更新的价算处理装置执行程序之后暂时需要的数据的RAM(RandomAccessMemory,随机存取存储在主存储装置上展开读入的应用软件或OS,一边进行根据这些应用软件或OS的运算处理。机搭载GPU(GraphicsProcessingUnits,图形处理器),称为GPGPU(General_Purpose载了这样的GPU的计算机来构筑计算机集群,通过该计算机集群所包含的多个计算机来进[0164]接下来,参照图9的流程对本实施方式中的Q学习时的机器学习部400的动作进行取得最初的状态信息S。所取得的状态信息输出给价值函数更新部4022或行为信息生成部[0166]通过使用频率发生变化的正弦波即速度指令来驱动伺服控制电路100而从测量部D(S0Gs(S0[0179]上述的控制装置所包含的各结构部可以通过硬件、软件或者它们的组合来实[0180]可以使用各种类型的非临时性的计算机可读记录介质(non_transitorycomputerreadablemedium)来存储程序并将该程序提供给计算机。非临时性的计算机可读记录介质包含各种类型的有实体的记录介质(tangiblestoragemedium)。非临时性的外,程序也可以通过各种类型的临时性的计算机可读记录介质(transitorycomputer控制装置10的不同点在于:n(n是2以上的自然数)个伺服控制~100A_n分别对应于伺服控制装置,此外机器学习部400A_1~400A_n分别对于伺服控制部100A_2~100A_n和机器学习部400A_2~400A_n也与伺服控制部100A_1和机~400A_n的n个组经由网络500而连接,而关于伺服控制部100A_1~100A_n与机器学习部这些伺服控制部100A_1~100A_n与机器学习部400A_1~400A_n这n个组,例如可以在同一分别为一对一的组以能够通信的方式进行连接,但例如一台机器学习部也可以经由网络~100A_n分别对应的n个机器学习部400A_1~400A_n时,可以共享各机器学习部400A_1~

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论