版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
备和介质,涉及大数据分析和人工智能技术领根据数据分档的分界线分别确定各样本的特征样本的数值高低程度和标注信息构建用于大语2针对所述多维度特征中的每个维度特征,将所述各样本在所根据所述数据分档的分界线,分别确定所述各样本的特征数据在所根据所述各样本在所述每个维度特征下的数值高低程度以及所述各样本的标注信息,基于统计假设校验法,获取所述每个维度特征对应的观如果所述统计特性值满足正态分布的统计特性判断标准根据所述正态分布相似度和预设阈值判断所述观测数据是否符合根据所述统计特性判断标准计算所述统计特性值各自将所述统计特性值各自的偏离度与各自的权重系数相乘,并对所述相乘的结果求和,tt的观测数据的均值和标准差,pt表示根据当前时刻t的观测数据得到的统计假设校验值,2,t3,t4,t5,t分别表示统计特性值在当前时刻t的权重系数。35.根据权利要求4所述的方法,其特征在于6.根据权利要求4所述的方法,其特征在于,所述观测数据确定模块,用于针对所述多维度特征中的每个维度特征根据判断结果分别为所述每个维度特征对应的观测数据构建数数值高低程度确定模块,用于根据所述数据分档的分界线训练样本数据集构建模块,用于根据所述各样统计假设校验值获取单元,用于基于统计假设校验法正态分布相似度计算单元,用于如果所述统计特性值满足正态4偏离度计算子单元,用于根据所述统计特性判断和值计算子单元,用于将所述统计特性值各自的偏离度与正态分布相似度计算子单元,用于计算所述和值与所述统计假设校验值tt的观测数据的均值和标准差,pt表示根据当前时刻t的观测数据得到的统计假设校验值,2,t3,t4,t5,t分别表示统计特性值在当前时刻t的权重系数。5实现如权利要求1_6中任一项所述的训练数执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1_6中任一项所述的6[0001]本申请涉及大数据分析和人工智能技术领域,尤其涉及一种训练数据构建方法、[0010]根据所述各样本在所述每个维度特征下的数值高低程度以及所述各样本的标注[0014]分界线构建模块,用于判断所述每个维度特征对应的观测数据是否符合正态分7被处理器执行时实现如本申请实施例中任一所述的训练化地为每个样本的特征数据确定其数值高低程度,再根据数值高低程度来构建训练样本,[0025]图4为本申请实施例提供的训练数据构建方法中判断观测数据是否符合正态分布8[0032]图1为本申请实施例提供的一种训练数据构建方法的流程图。本实施例可适用于对金融指标数据进行分析,并根据分析结果构建训练样本数据以供大语言模型学习的情9差构建数据分档的分界线。计算单一特征的观测数[0045]Q1=μ-2×σ(近似2.5%分位点)[0046]Q2=μ-1.6×σ(近似6%分位点)[0047]Q3=μ-1.2×σ(近似12%分位点)[0048]Q4=μ-0.8×σ(近似22%分位点)1.5×IQR0.5×IQRQ5’566778[0064]图2为本申请实施例提供的训练数据构建方法中数据分档的示意图一,示出了按照正态划分法进行分档的情况。图3为本申请实施例提供的训练数据构建方法中数据分档据的数据分档的分界线之后,根据数据分档的分界线确定各样本特征数据的数值高低程[0066]例如,将已经获取的不同特征指标数据的等级划分结果和相应的处理方式(标注……………………[0071]图4为本申请实施例提供的训练数据构建方法中判断观测数据是否符合正态分布[0076]本申请实施例中是结合统计假设校验和正态分布的统计特性来综合判断观测数设定阈值可以判断观测数据是否符合正态分布。例如,将观测数据输入KS(Kolmogorov_kurtosis为4,并且其均值增加1、2、3倍标准差σ后对应的分位点值分别为84%、98%、[0084]本申请实施例中,对于0.999设检验法和正态分布统计特性的判断方法结合起来,将统计假设校验法计算的p值和正态2,t3,t4,t5,t分别表示统计特性值在当前时刻t的权重系数。数据被收集或者有老用户的原有指标发生改变等,都会造成特征的观测数据集发生变化。[0095]本申请实施例中,当前时刻t的权重系数是基于上一时刻t-1的权重系数计算得是基于t时刻和t_1时刻的偏α5,t-1的影响,并且这种影响的衰变趋势呈指数级下降;其二,每个当前时刻的权重函数[0101]在计算出正态分布相似度lik之后,根据正态分布相似度和预设阈值判断观测数专家经验的辅助,但也可以通过特征数据分布直方图对是否符合正态分布的形状进行检1本在所述每个维度特征下的特征数据作为观[0110]分界线构建模块430,用于判断所述每个维度特征对应的观测数据是否符合正态本的特征数据在所述每个维度特征下的数值高低[0112]训练样本数据集构建模块450,用于根据所述各样本在所述每个维度特征下的数[0120]和值计算子单元,用于将所述统计特性值各自的偏离度[0121]正态分布相似度计算子单元,用于计算所述和值与所述2,t3,t4,t5,t分别表示统计特性值在当前时刻t的权重系数。[0125]在一些实施例中,所述当前时刻t的权重系数是基于上一时刻t-1的权重系数计[0130]需要说明的是,应理解以上装置的各个模块的划分仅仅的方案。处理器122可以是通用处理器,包括中央处理器CPU、网络处理器(network[0133]存储器123通过系统总线与处理器122连接并完成相互间的通信,存储器123用于(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(random[0138]本申请实施例还提供一种计算机程序产品,该计算机程写用于执行本申请操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言,算机或服务器上执行。在涉及远程
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 滁州职业技术学院《系统解剖学》2025-2026学年期末试卷
- 中国医科大学《小儿传染病》2025-2026学年期末试卷
- 中国矿业大学徐海学院《计量经济学实验课》2025-2026学年期末试卷
- 仰恩大学《高等学校教师职业道德修养》2025-2026学年期末试卷
- 宣化科技职业学院《中国传统文化》2025-2026学年期末试卷
- 客运计划员岗前标准化考核试卷含答案
- 熔炼浇注工岗前理论能力考核试卷含答案
- 热缩材料制造工岗后水平考核试卷含答案
- 农机驾驶操作员创新思维能力考核试卷含答案
- 钻井柴油机工安全操作强化考核试卷含答案
- 2025年《中华人民共和国疫苗管理法》知识测试试题及答案
- 管住屏幕成就人生+高二下学期文明上网主题班会
- AI在水土流失治理植被覆盖监测与评估应用
- 2026年北京市丰台区高三一模语文试卷(含答案详解)
- 清明假期安全教育课件
- 会后工作课件
- 无菌试验指导方案
- 高速铁路大桥转体施工测量方案
- 千斤顶说明书
- 滑模组装检查验收及记录 表
- 北京大学博士学位论文修改说明表(答辩前)
评论
0/150
提交评论