版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
201710803886.72017.09.08生成机器学习样本的组合特征的方法及系统提供了一种生成机器学习样本的组合特征组合特征以作为机器学习样本的组合特征,其排序结果筛选出一部分候选组合特征以组成候选择重要性较高的至少一个候选组合特征作为较少运算资源的情况下有效地实现自动特征组2其中,针对每一轮迭代,对候选组合特征集合中的各个从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标其中,所述搜索策略旨在对关于组合离散特征的搜索树轮迭代中生成的未被选择作为目标组合特征的候34特征的机器学习模型在引入所述选择的目标组合特征之后的效果变化来检验所述选择的执行如权利要求1到22中的任一权利要求所述的方法的特征组合装置,用于按照搜索策略,在基于所述多个属其中,针对每一轮迭代,特征组合装置对候选组合特征集合根据再排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标其中,所述搜索策略旨在对关于组合离散特征的搜索树及合中筛选出重要性较高的候选组合特征以组5组合装置通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进行两两组合来生重要性不低于与未被选择的分箱运算对应的分箱特学习模型对应预排序基本特征子集和所述每一个候6习模型对应再排序基本特征子集和所述每一个候特征的机器学习模型在引入所述选择的目标组合特征之后的效果变化来检验所述选择的中筛选出另外的一部分候选组合特征以组成新的候7[0007]本发明的示例性实施例旨在克服现有技术中难以对机器学习样本的特征进行自从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标8轮迭代中选择的目标组合特征之间进行两两组合来生成下一轮迭代的候预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱整体机器学习模预定数量的分箱运算对应的分箱特征之中的每一个分箱特征,得到分箱复合机器学习模9机器学习模型在引入所述选择的目标组合特征之后的效果变化来检验所述选择的目标组习样本的组合特征的情况下,将所述选择的目标组合特征作为机器学习样本的组合特征,[0032]根据本发明的另一示例性实施,提供一种生成机器学习置通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进行两两组合来生成下一体机器学习模型,基于各个分箱整体机器学习模型的效果来确定各个分箱特征的重要性,合机器学习模型,基于各个分箱复合机器学习模型的效果来确定各个分箱特征的重要性,对应预排序基本特征子集和所述每一个候选机器学习模型在引入所述选择的目标组合特征之后的效果变化来检验所述选择的目标组过特定方式的预排序和再排序从每一轮迭代中生成的组合特征中筛选出一部分以最终形[0055]从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其他方面和[0056]图1示出根据本发明示例性实施例的生成机器学习样本的组合特征的系统的框[0060]图5示出根据本发明示例性实施例的生成机器学习样本的组合特征的方法的流程[0063]图8示出根据本发明另一示例性实施例的生成机器学习样本的组合特征的方法的一部分目标组合特征以形成机器学习样本的组合[0067]图1示出根据本发明示例性实施例的生成机器学习样本的组合特征的系统的框[0071]上述数据可通过输入装置输入到数据记录获取装置100,或者由数据记录获取装100中的文本分析模块等数据转换模块转换[0072]特征组合装置200用于按照搜索策略,在基于所述多个属性信息生成的至少一个200对候选组合特征集合中的各个候选组合特征进行重要性的预排序,根据预排序结果从择重要性较高的至少一个候选组合特征作为目[0073]这里,特征组合装置200可首先基于历史数据记录的多个属性信息来生成可进行特征可构成候选组合特征池,以便特征组合装置200通过再排序而从中进一步筛选出重要[0078]候选组合特征生成单元210可首先在第一轮迭代中,基于历史数据记录的属性信[0080]举例说来,可将历史数据记录中的某种连续值属性信息直接作为对应的连续特[0084]候选组合特征生成单元210执行的分箱运算可以在分箱方式和/或分箱参数方面[0087]在随后的迭代中,候选组合特征生成单元210可按照搜索策略来生成新的候选组仅基于上一轮迭代中选择的目标组合特征为基础来生成新的候选[0088]预排序单元220用于针对每一轮迭代,对候选组合特征集合中的各个候选组合特220可利用任何判断特征重要性的手段来衡量候选组合特征集合中的各个候选组合特征的[0089]相应地,再排序单元230用于对候选组合特征池中的各个候选组合特征进行重要220相同的方式来衡量候选组合特征的重要性,只是在判断时基于数量更多的数据记录以作出更为准确的判断。再排序单元230可选择候选组合特征池中最重要的预定数量个候选迭代中继续筛选合适的目标组合特征,则可根据预排序结果重新确定新的候选组合特征[0091]图3示出根据本发明另一示例性实施例的特征组合装置200的框图,在图3所示的组合特征并不会被直接用作机器学习样本的组合特征,而是需经过检验单元240的验证处[0093]图1(结合图2和图3)所示的系统旨在产生机器学习样本的组合特征,该系统可独据记录获取装置100可以是具有接收并处理数据记录的能力的装置,也可以仅仅是提供已[0096]此外,机器学习样本生成装置300用于产生至少包括一部分所产生的组合特征的[0098]机器学习模型训练装置400用于基于机器学习训练样本来训练机器学习模型。这用与组合特征生成装置200为了衡量相关特征重要性所采用的模型相同或类似的机器学习[0100]以下结合图5来描述根据本发明示例性实施例的生成机器学习样本的组合特征的完全通过计算机程序以软件方式实现,还可通过特定配置的计算装置来执行图5所示的方数据记录。此外,数据记录获取装置100可通过全自动的方式从数据源系统地取出数据记网络和/或外部网络来实现全自动获取数据的方式,其中可包括通过互联网来传送加密的[0106]作为示例,数据记录获取装置100中可包括文本分析模块等数据转换模块,相应所述多个属性信息生成的至少一个离散特征之间迭代地进行特征组合以生成候选组合特针对每一轮迭代,特征组合装置200对候选组合特征集合中的各个候选组合特征进行重要排序结果从候选组合特征池中选择重要性较高的至少一个候选组合特征作为目标组合特中,由候选组合特征生成单元210基于历史数据记录的属性信息来生成至少一个离散特征据本发明的示例性实施例,每一个连续特征在与其他特征进行组合时需转换为离散特征。[0122]相应地,候选组合特征生成单元210可从预定数量的分箱运算中选择所述至少一[0123]具体说来,预定数量的分箱运算可指示在分箱方式和/或分箱参数方面存在差异选组合特征生成单元210可确定这些分箱特征的重要性,并进而选择较为重要的分箱特征[0124]这里,候选组合特征生成单元210可采用任何适当的方式来自动确定分箱特征的[0125]例如,候选组合特征生成单元210可针对与所述预定数量的分箱运算对应的分箱征机器学习模型在相同测试数据集上的效果(例如,AUC(ROC(受试者工作特征,Receiver[0127]又例如,候选组合特征生成单元210可针对与所述预定数量的分箱运算对应的分整体机器学习模型的样本由分箱基本特征子集和所述每一个分箱特整体机器学习模型(其中,每一个分箱整体机器学习模型的样本特征包括固定的分箱基本[0129]又例如,候选组合特征生成单元210可针对与所述预定数量的分箱运算对应的分复合机器学习模型(其中,每一个分箱复合机器学习模型基于固定的分箱基本特征子集和合特征生成单元210可通过在固定分箱基本子模型的情况下,分别针对每一个分箱特征fm训练分箱附加子模型来构建各个分箱复合机[0135]这里,预排序单元220可利用任何判断特征重要性的手段来衡量候选组合特征集特征机器学习模型(其中,每一个预排序单特征机器学习模型基于相应的单个候选组合特体机器学习模型的样本由预排序基本特征子集和所述每一个候选组合特征220可利用至少一部分历史数据记录来构建N个预排序整体机器学习模型(其中,每一个预排序整体机器学习模型的样本特征包括固定的预排序基本特征子集和相应的候选组合特征fn),然后衡量这N个预排序整体机器学习模型在相同测试数据集上的效果(例如,AUC、MAE等),并基于效果的排序确定候选组合特征集合之中的各个候选组合特征的重要性顺220可利用至少一部分历史数据记录来构建N个预排序复合机器学习模型(其中,每一个预单元220可通过在固定预排序基本子模型的情况下,分别针对每一个候选组合特征fn训练预排序附加子模型来构建各个预排序复合机器业务人员指定来确定相对重要或基本的特征作为预排[0143]在通过预排序确定了候选组合特征集合之中的各个候选组合特征的重要性顺序之后,预排序单元220可基于排序结果从候选组合特征之中筛选出至少一部分以组成候选元220可根据预排序结果从候选组合特征集合中筛选出重要性较高的候选组合特征以组成[0144]假设第一轮迭代的候选组合特征集合包括1000个作为候选预排序单元220可从中筛选出预排序结果中最为重要的10个离散特征以组成候选组合特征[0146]这里,再排序单元230可利用任何判断特征重要性的手段来衡量候选组合特征池可利用至少一部分历史数据记录来构建10个再排序单特征机器学习模型(其中,每一个再排序单特征机器学习模型基于相应的单个候选组合特征来针对机器学习问题进行预测),然后衡量这10个再排序单特征机器学习模型在相同测试数据集上的效果(例如,AUC、MAE机器学习模型的样本由再排序基本特征子集和所述每一个候选组合特征可利用至少一部分历史数据记录来构建10个再排序整体机器学习模型(其中,每一个再排序整体机器学习模型的样本特征包括固定的再排序基本特征子集和相应的候选组合特可利用至少一部分历史数据记录来构建10个再排序复合机器学习模型(其中,每一个再排架来针对机器学习问题进行预测),然后衡量这10个再排序复合机器学习模型在相同测试230可通过在固定再排序基本子模型的情况下,分别针对每一个候选组合特征训练再排序业务人员指定来确定相对重要或基本的特征作为再排[0154]在通过再排序确定了候选组合特征池之中的各个候选组合特征的重要性顺序之后,再排序单元230可基于排序结果从候选组合特征池中筛选出至少一个较为重要的候选合机器学习模型中的预排序基本子模型和/或再排序复合机器学习模型中的再排序基本子样本训练顺序和/或样本训练集质量来进一步确保组合特征的[0158]作为示例,预排序单元220可基于相对较少的历史数据记录来训练预排序单特征机器学习模型,而再排序单元230可基于相对较多的历史数据记录来训练再排序单特征机学习模型,而再排序单元230可基于相对较多的历史数据记录来训练再排序整体机器学习元230采用的历史数据记录可包含至少一部分预排序单元220采用的历史数据记录,或者,组合特征生成单元210针对第二轮迭代重新选择用于离散化的至[0162]这里,候选组合特征生成单元210可按照与第一轮类似的各种方式将连续特征再元210利用分箱整体机器学习模型或分箱复合机器学习模型来衡量分箱特征的重要性,则代中选择的目标组合特征可被加入第一轮迭代的分箱基本特征子集以形成第二轮迭代的[0164]在候选组合特征生成单元210如上所述重新得到由连续特征转换而来的离散特征方法可直接从步骤S210开始执行下一轮迭代而无需再次执行步骤述,候选组合特征生成单元210可通过将当前轮迭代中选择的目标组合特征与基于历史数据记录的多个属性信息生成的至少一个离散特征进行组合来生成下一轮迭代的候选组合[0169]以上示出了候选组合特征生成单元210逐阶地生成候选组合特征的示例,在该示本发明的示例性实施例,可从当前轮和/或先前轮迭代中生成的所有候选组合特征之中选[0171]这里,预排序单元220可按照与第一轮类似的各种方式对候选组合特征集合之中[0172]特别地,在预排序单元220利用预排序整体机器学习模型或预排序复合机器学习入第一轮迭代的预排序基本特征子集以形成第二轮迭代的预排序基本特征子[0173]在预排序单元220于步骤S220中通过预排序处理以得到新的候选组合特征池之[0174]这里,再排序单元230可按照与第一轮类似的各种方式对候选组合特征池之中的[0175]特别地,在再排序单元230利用再排序整体机器学习模型或再排序复合机器学习入第一轮迭代的再排序基本特征子集以形成第二轮迭代的再排序基本特征子选组合特征生成单元210可通过在当前轮迭代和先前轮迭代中选择的目标组合特征之间进序基本特征子集和/或再排序基本特征子集随着每一轮选择的目标组合特征而更新时,最后一轮迭代下的上述子集中的组合特征可作为机器学习样本的[0181]在步骤S400中,可由机器学习模型训练装置400基于机器学习训练样本来训练机(或分箱基本子模型或分箱附加子模型)、预排序复合机器学习模型(或预排序基本子模型或预排序附加子模型)或再排序复合机器学习模型(或再排序基本子模型或再排序附加子特征。图8示出根据本发明另一示例性实施例的生成机器学习样本的组合特征的方法的流S240中,可由检验单元240验证在步骤S230中得到的目标组合特征是否适于作为机器学习[0186]作为示例,检
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 客户服务水平与满意度评价系统
- 财务管理规范指南操作手册
- 2026年基于深度学习的视网膜OCT图像黄斑病变分析
- 2026年古诗词吟诵疗法理论与实践探索
- 历史隋唐时期的科技与文化教学课件 2025-2026学年统编版七年级历史下册
- 小秋签下的协议书
- 电梯外呼板协议书芯片
- 无协议书脱欧最终时间
- 语言角活动策划方案(3篇)
- 结构框架施工方案(3篇)
- 2025-2030中国硼矿行业营销模式及竞争格局分析研究报告
- 云南省公路工程试验检测费用指导价
- 2025-2026学年辽宁省沈阳市浑南区七年级(上)期末英语试卷(含答案)
- 航空发动机维修技术手册(标准版)
- 品质检验流程培训
- 2026小学道法教研组工作计划
- DB11∕T 751-2025 住宅物业服务标准
- 2026年保安员考试题库及答案(1000题)
- 如何应对强对流天气主题班会教案
- 低血糖课件教学课件
- 中央空调系统风机盘管维护指南
评论
0/150
提交评论