DB34∕T 5379-2026 面向终身学习的用户画像技术要求_第1页
DB34∕T 5379-2026 面向终身学习的用户画像技术要求_第2页
DB34∕T 5379-2026 面向终身学习的用户画像技术要求_第3页
DB34∕T 5379-2026 面向终身学习的用户画像技术要求_第4页
DB34∕T 5379-2026 面向终身学习的用户画像技术要求_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS03.180

CCSA18

34

安徽省地方标准

DB34/T5379—2026

面向终身学习的用户画像技术要求

Technicalrequirementsforuserprofilinginlifelonglearning

2026-01-05发布2026-02-05实施

安徽省市场监督管理局发布

DB34/T5379—2026

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由科大讯飞股份有限公司提出。

本文件由安徽省工业和信息化厅归口。

本文件起草单位:科大讯飞股份有限公司、湖南大学、北京交通大学、中国科学技术大学、西安电

子科技大学、长沙理工大学、安徽省质量和标准化研究院、合肥高新技术产业开发区市场监督管理局。

本文件主要起草人:陈恩红、李鑫、刘淇、闵芳、黄振亚、曹嵘晖、吴一鸣、惠治儒、徐军玲、赵

官豪、于峻浩。

I

DB34/T5379—2026

面向终身学习的用户画像技术要求

1范围

本文件规定了面向终身学习的用户画像的流程、要求和数据安全。

本文件适用于面向终身学习的用户画像。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T35273—2020信息安全技术个人信息安全规范

GB/T37988—2019信息安全技术数据安全能力成熟度模型

GB/T43782人工智能机器学习系统技术要求

3术语和定义

下列术语和定义适用于本文件。

用户画像userprofiling

通过收集、汇聚、分析个人信息,对某特定自然人个人特征,如职业、经济、健康、教育、个人喜

好、信用、行为等方面作出分析或预测,形成某个人特征模型的过程。

注:直接使用特定自然人的个人信息,形成该自然人的特征模型,称为直接用户画像。使用来源于特定自然人以外

的个人信息,如其所在群体的数据,形成该自然人的特征模型,称为间接用户画像。

[来源:GB/T35273—2020,3.8]

终身学习用户lifelonglearninguser

使用各类学习平台或系统通过正式教育、非正式教育及自我学习等多种途径,不断提升知识、能力

与素养实现终身学习的个体。

4缩略语

下列缩略语适用于本文件。

API:应用编程接口(ApplicationProgrammingInterface)

CSV:逗号分隔值(Comma-SeparatedValues)

JDBC:Java数据库连接(JavaDatabaseConnectivity)

ODBC:开放数据库连接(OpenDatabaseConnectivity)

XML:可扩展标记语言(ExtensibleMarkupLanguage)

5流程

1

DB34/T5379—2026

终身学习用户画像的流程分为数据采集、数据预处理、数据分析、画像输出、验证和更新迭代。终

身学习用户画像的流程见图1。

图1终身学习用户画像流程图

6要求

数据采集

6.1.1数据采集输入数据的类型包括但不限于:

a)用户注册信息:用户在平台注册时提供个人信息,包括姓名、年龄、性别、学历、联系方式等

结构化数据;

b)课程基本信息:用户在平台所选课程的基础信息,包括课程编号、名称、类别、所属学科、授

课教师等结构化数据;

c)知识点与学习资源:记录用户在课程学习过程中接触到的知识点和学习资源,包括但不限于讲

义、教学视频、教学音频、练习题、自测题等非结构化数据;

d)课程学习数据:

1)学习时长:包括但不限于在线学习视频观看时间、在线学习页面浏览时长、作业完成时长

等结构化数据;

2)学习次数:记录用户在课程上学习的次数,包括但不限于登录次数、课程点击次数、视频

浏览次数、页面浏览次数等结构化数据;

e)学习反馈数据:

1)师生互评评语:用户和教师之间的互相评价和反馈信息,包括但不限于用户学习态度评语、

作业完成情况,课堂表现等半结构化数据;

2)阶段测试成绩:用户在学习后进行自测的成绩,包括但不限于自测分数等结构化数据;

2

DB34/T5379—2026

f)互动数据:用户在课程社区中发布的帖子数量;用户在课程发布的帖子内容,包括但不限于提

出问题、讨论、笔记等文字内容;用户在课程中学习过程中产生的视频和音频数据等非结构化

数据。

6.1.2数据采集数据源接入的方式包括但不限于:

a)数据库直连:通过JDBC、ODBC等标准协议直接访问源数据库;

b)接口调用:通过调用API、WebService等数据接口以同步或异步方式获取数据;

c)文件解析:支持导入并解析CSV、JSON、XML等文件;

d)人工录入:提供系统界面供用户手动填写或批量导入数据。

数据预处理

6.2.1通用预处理要求

针对可直接处理的结构化数据,数据预处理的方式包括但不限于:

a)数据解析:支持从原始数据中解析出目标字段或特征;

b)格式标准化:统一数据格式、编码与命名规范;

c)异常值处理:检测并处理数据中的异常值或无效数据;

d)去重操作:识别并移除重复的数据记录或样本。

6.2.2非结构化、半结构化数据预处理要求

针对非结构化及半结构化数据,除满足6.2.1的通用要求外,其预处理还宜依据数据类型,分别符

合下列特定要求:

a)音频数据预处理宜符合下列要求:

1)预处理对象:包括知识点与学习资源中的教学音频以及互动数据中的音频;

2)预处理方式:采用梅尔频率倒谱系数作为主要语音特征,支持配置帧长、帧移、滤波器组

数等参数;

3)数据标准化:提取结果统一为定长定维格式,支持静音段剔除、幅度归一化处理。

b)视频与图像数据预处理宜符合下列要求:

1)预处理对象:包括知识点与学习资源中的视频以及互动数据中的视频、图像截图、学习任

务截图、界面截屏等视频或图像格式数据;

2)预处理方式:对视频类数据执行关键帧提取,采用内容变化检测、图像差值法等方法提取

信息代表帧;

3)数据标准化:对图像和视频帧进行尺寸统一、格式转换、去噪、亮度归一、色彩标准化等

操作;每帧图像应保留与原始数据关联的标识信息(如帧时间戳、视频编号)。

c)文本数据预处理宜符合下列要求:

1)预处理对象:包括用户评论、搜索关键词、教学问答、学习笔记、对话内容等原始文本数

据;

2)预处理方式:支持分词、去停用词、词干还原、特殊字符清除、拼写纠错等基础清洗流程,

并支持命名实体识别、情感分析等语义增强模块;

3)数据标准化:统一编码格式,支持向量化输出形式。

数据分析

6.3.1数据分析方法宜包括三大类方法:统计类、算术规则类以及机器学习类。

6.3.2对于学习时长、学习进度等直接画像特征,宜采用统计方法进行分析;对于个人关键词分析等

3

DB34/T5379—2026

间接画像特征,宜运用算术规则方法进行解析;而对于知识掌握程度预测、学习性格评估等更为复杂的

间接画像特征,宜采用机器学习方法进行深入的学习分析。具体要求如下:

a)统计规则类模型宜符合下列设计要求:

1)模型范畴:包括频率统计、比例分析、加权均值、中位数、标准差、变化率等基础统计类

方法;

2)数据依赖:直接作用于清洗与聚合后的预处理数据或画像维度数据,支持批处理与增量更

新模式;

3)时序支持:支持基于时间窗口的滑动计算与对比分析;

4)精度与可追溯性:保留计算来源与时间戳,支持结果溯源与二次验证;

5)异常处理能力:设有缺失值补全、极端值排除、归一化等前置机制,保证统计模型鲁棒性。

b)算术规则类模型宜符合下列设计要求:

1)模型范畴:采用基于特征字段的加权评分、区间映射、规则匹配等预设数学模型;

2)规则来源:规则设定基于专家经验、业务逻辑或调研问卷,具备可解释性与人工校验能力;

3)规则管理:支持规则模块化配置、版本控制与策略更新机制;

4)结果透明性:每条规则触发记录具备完整日志,输出结果可标注来源规则、计算过程及所

依赖维度;

5)冲突检测与优先级机制:当多条规则可适配同一数据时,支持冲突检测与优先级判定机制,

确保结果一致性。

c)机器学习类模型设计宜符合GB/T43782的相关规定,并遵循以下设计要求:

1)模型范畴:树模型(如决策树、随机森林、梯度提升决策树)适用于需高可解释性、特征

重要性明晰的结构化数据分类、回归场景,如用户知识掌握程度预测;神经网络模型适用

于从非结构化或高维数据(如学习反馈与互动数据)中通过表征学习自动提取复杂模式的

场景;

2)训练要求:具备明确的模型评价函数以指导训练过程,如平均绝对值误差、交叉熵损失等;

3)权限管理:具备严格的模型全生命周期权限控制机制。实现对模型训练、调参、部署、推

理及下线等操作的角色权限管理,并对核心模型参数、结构及训练数据进行安全访问管控,

防止未授权访问与泄露。

画像输出

6.4.1输出内容

画像输出宜包含用户基本信息与学习过程成绩等特征模型,特征模型的示例见附录A。

6.4.2输出接口

输出接口宜符合下列要求:

a)数据源定义:支持按用户账号、标签维度、时间窗口等条件查询;

b)接口规范:响应格式应进行统一,字段命名清晰、结构扁平或嵌套可配置;

c)实时性能:接口支持高并发访问;

d)接口权限控制:支持多重访问控制机制,防止非法调用。

6.4.3输出展示

输出展示宜支持多种终端与系统的接入需求,满足画像在不同业务系统中的可视化展示与智能调

用:

4

DB34/T5379—2026

a)输出形式:支持Web前端系统展示、移动端应用集成、第三方系统拉取等输出方式;

b)数据展示适配:支持主流可视化图表库,将用户画像结果格式化为图表(如雷达图、热力图)、

标签列表、指标评分等结构化展示格式;

c)数据导出功能:支持将画像数据供分析或归档使用;

d)调用频率控制:对不同级别用户(系统内部、第三方平台)设定日调用次数限制和访问速率上

限。

验证

6.5.1验证原则

进行用户画像后,宜对其输出的特征模型进行验证以确保准确性与可用性。评估验证宜遵循以下原

则:

a)用户中心原则:直接或间接地以目标用户为根本依据,确保画像评估结果源于用户实际而非内

部假设;

b)多方印证原则:采用多种验证方法和信息来源进行交叉比对,以提高验证结果的可靠性与有效

性。

6.5.2验证指标

6.5.2.1准确性

准确性的指标计算:若一次用户画像所输出的特征模型,与用户的自我认知一致,则可判定此次用

户画像是准确的。计算公式见式(1):

퐴푐푐=()×100%····································································(1)

式中:

Acc——画像准确性;

M——准确画像次数;

N——总画像次数。

6.5.2.2可用性

可用性的指标计算:若在用户画像后,基于其输出的特征模型对用户进行学习干预后,用户在同一

标准测试中的成绩获得提升,则可判定此次用户画像过程是有效的。其有效性可通过用户画像价值系数

衡量,计算公式见式(2):

Y−X

U=×100%········································································(2)

X

式中:

U——画像可用性;

X——画像前的测试成绩;

Y——画像后的测试成绩。

更新迭代

6.6.1迭代内容

迭代内容宜包括:

5

DB34/T5379—2026

a)直接信息:个人基础信息、总体学习成绩、总体学习时长、总体学习进度、阶段学习成绩等;

b)间接信息:师生印象、学习投入度、学习心情、学习性格、个人词云、知识掌握程度等。

6.6.2迭代触发机制

画像迭代机制宜包括:

a)即时级:实时更新用户学习行为、反馈等数据,增量更新其总体学习成绩、总体学习时长、总

体学习进度;

b)周期级:按天/周/月更新用户阶段性学习成绩、个人词云、知识掌握程度、学习心情、学习投

入度、师生印象等;

c)人生阶段级:当用户因核心社会角色(如成为父母)、关键生活状态(如毕业、退休)或生活

重心发生根本性转变时,触发个人基础信息等特征整体性、结构性重置。

7数据安全

基本原则

用户画像个人数据处理应遵循GB/T35273—2020中第4章的基本原则,包括但不限于以下要求:

a)目的明确与最小必要:每个阶段的数据处理有明确、合理的业务目的,并仅限于实现该目的所

必需的最小范围和数据粒度;

b)数据分类分级:对所有涉及的数据(特别是个人信息和敏感数据)进行分类分级,并根据级别

实施相应的安全管控措施;

c)权限管控与职责分离:实施访问控制策略,遵循最小权限原则。确保数据采集、处理、分析、

输出等关键角色的权限分离;

d)安全审计与日志留存:所有关键操作(如数据访问、查询、导出、模型修改)记录完整、防篡

改的审计日志,日志留存时间不少于法定期限;

e)人员安全:对所有接触数据的员工、外包人员进行背景审查、安全培训并签订保密协议。

全周期数据安全

用户画像中数据采集、数据预处理、数据分析、画像输出、验证、更新迭代的数据安全,应符合GB/T

37988—2019中第6-10章规定的各周期数据安全要求。

6

DB34/T5379—2026

附录A

(资料性)

用户特征模型示例

用户特征模型示例见表A.1。

表A.1用户特征模型示例

类别维度名称数据来源维度含义是否必选

直接信息个人基础信息统计用户个人注册信息是

直接信息总体学习成绩统计基于学习反馈数据统计的总学习成绩是

直接信息总体学习时长统计基于课程学习数据统计的总学习时长是

直接信息总体学习进度统计基于课程学习数据统计的学习进度是

直接信息阶段学习成绩统计

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论