版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
2025年机器学习工程师时序数据预处理面试题(含答案与解析)时序数据中常见的缺失模式有哪几类?不同模式下如何选择填补方法?缺失模式主要分为三类:完全随机缺失(MCAR)、随机缺失(MAR)、非随机缺失(MNAR)。MCAR指缺失与数据本身及其他变量无关,如传感器临时故障导致的随机丢点;MAR指缺失仅与观测到的数据相关,如温度传感器在低温时更易断开;MNAR指缺失与未观测到的数据相关,如用户因满意度低而停止上报数据。填补方法选择需匹配缺失模式:MCAR可采用简单统计(均值/中位数)或时间序列插值(线性插值、样条插值),因缺失无偏;MAR需利用已知变量信息,如用其他同步变量构建回归模型预测缺失值,或使用KNN(基于相似时间点的特征);MNAR需引入外部信息或假设机制,如用隐含变量模型(如状态空间模型)或因果推断方法(如逆概率加权),因缺失本身携带信息,简单填补会引入偏差。例如,电力负荷数据中,夜间缺失可能因电表休眠(MAR),可用历史同期负荷与温度的回归关系填补;而工业设备异常停机导致的缺失(MNAR),需结合设备状态日志构建混合模型。如何判断时序数据是否满足平稳性?ADF检验和KPSS检验的核心区别是什么?平稳性需满足均值、方差、自协方差不随时间变化。常用检验方法包括ADF(增广迪基-富勒)检验和KPSS(Kwiatkowski-Phillips-Schmidt-Shin)检验。ADF检验原假设是“存在单位根(非平稳)”,若p值小于显著性水平(如0.05)则拒绝原假设,认为序列平稳;KPSS检验原假设是“序列平稳”,若p值小于阈值则拒绝原假设,认为存在趋势或季节非平稳。核心区别:ADF关注是否存在单位根(趋势非平稳),KPSS关注是否存在确定性趋势或季节成分。实际中需结合两者:若ADF不拒绝非平稳且KPSS拒绝平稳,说明存在单位根非平稳;若ADF拒绝非平稳但KPSS拒绝平稳,说明存在确定性趋势(如线性增长);若两者都不拒绝,则可能为平稳序列。例如,GDP季度数据常存在单位根非平稳(ADF不拒绝),而气温日数据可能因年度周期存在确定性季节成分(KPSS拒绝平稳)。处理非平稳时序数据时,除了差分还有哪些常用方法?各自适用场景是什么?除差分(一阶或季节差分)外,常用方法包括:1.趋势拟合:对确定性趋势(如线性/非线性增长),用多项式回归或指数函数拟合趋势项,提取残差作为平稳序列。适用于趋势明确且可数学表达的场景(如人口增长)。2.季节分解:通过STL(季节性和趋势分解)或X-13ARIMA-SEATS分离季节项,对残差进行建模。适用于季节周期固定(如周/月周期)的零售销售数据。3.变换法:对异方差序列(方差随时间增长),采用对数变换、平方根变换稳定方差。例如,股价数据常因波动放大需取对数。4.状态空间模型:如局部水平模型(LocalLevelModel),通过卡尔曼滤波动态估计趋势和误差项,适用于趋势缓慢变化的场景(如能源消耗)。需注意,差分可能丢失低频信息(如长期趋势),而趋势拟合可能因模型假设错误(如用线性模型拟合非线性趋势)导致残差仍非平稳,需结合ACF/PACF图验证处理后序列的平稳性。滚动窗口特征(RollingFeatures)和扩展窗口特征(ExpandingFeatures)的本质区别是什么?在特征工程中如何选择?本质区别:滚动窗口的窗口大小固定,仅包含最近N个时间点的数据(如过去7天),窗口随时间滑动;扩展窗口的窗口从序列起点开始,逐渐包含更多历史数据(如从第1天到当前天)。选择依据:滚动窗口捕捉近期局部模式,避免早期数据对当前预测的过度影响,适用于数据分布随时间变化(概念漂移)的场景(如股票短期波动);扩展窗口保留全部历史信息,反映长期累积效应,适用于需要全局统计量的场景(如用户累计消费金额预测)。例如,预测次日用电量时,滚动均值(过去7天)能反映近期用电习惯,而扩展最大值(历史最高)可用于设备容量预警。需注意滚动窗口大小需与数据周期匹配(如周周期选7天窗口),过小会引入噪声,过大则模糊短期变化。多变量时序数据中,如何处理变量间的滞后相关性?请举例说明。滞后相关性指变量Y的当前值与变量X的过去k期值相关(如k=2时,Y_t=f(X_{t-2}))。处理步骤:1.滞后交叉相关分析(CCF):计算X与Y的交叉相关系数,找到最大相关系数对应的滞后阶数k。例如,工业锅炉温度(Y)可能与30分钟前的燃料供应量(X)相关(k=3,假设5分钟采样一次)。2.构建滞后特征:为X提供滞后k期的特征(X_{t-k}),作为Y_t的预测因子。3.验证因果性:通过格兰杰因果检验(GrangerCausalityTest)确认X的滞后项是否能显著预测Y,避免虚假相关(如温度与冰淇淋销量的滞后相关可能由季节共同驱动)。例如,预测城市PM2.5浓度时,需考虑周边工厂废气排放的滞后影响(如2小时传输时间),通过CCF确定滞后阶数后,将废气排放量的滞后2小时值加入特征集,同时排除风速、湿度等混淆变量的干扰。时序数据中的异常点通常有哪几类?基于统计方法和基于模型方法检测异常的核心差异是什么?异常点分为三类:点异常(单个时间点值异常,如传感器突发故障)、上下文异常(值在时间上下文中异常,如夏季突降暴雪)、模式异常(连续时间点偏离正常模式,如销量持续暴跌)。统计方法与模型方法的差异:统计方法依赖假设(如正态分布),通过均值±3σ、分位数(如95%分位)或箱线图(IQR×1.5)检测,适用于单变量、分布已知的场景,但对非正态或多变量数据效果差。模型方法通过学习正常模式(如ARIMA、LSTM、孤立森林),计算预测值与实际值的残差,残差超过阈值则为异常。适用于复杂模式(如多变量依赖、非线性关系),但需足够训练数据,且可能因模型欠拟合将正常模式误判为异常。例如,电力负荷数据中,点异常(如某时刻负荷突增10倍)可用3σ法检测;上下文异常(如工作日中午负荷低于夜间)需结合时间特征(是否为工作日)用回归模型预测正常范围;模式异常(负荷连续3天下降20%)需用LSTM建模时序模式,比较预测序列与实际序列的差异。非等间隔时序数据(如事件驱动型数据)预处理的关键步骤有哪些?与等间隔数据处理有何不同?关键步骤:1.时间戳标准化:将不规则时间戳转换为统一时间格式(如ISO8601),提取时间特征(如事件间隔Δt)。2.重采样或插值:若需转换为等间隔,采用前向填充(ffill)保留最近值,或基于时间间隔加权插值(如Δt1和Δt2之间的值为t1(Δt2)/(Δt1+Δt2)+t2(Δt1)/(Δt1+Δt2))。3.构建时间相关特征:如自上次事件以来的时间(TimeSinceLastEvent)、事件计数(EventsinLastHour),捕捉事件频率变化。4.处理稀疏性:对极稀疏数据(如每小时<1次事件),按时间段聚合(如每小时事件数),转换为等间隔计数序列。与等间隔数据的区别:等间隔数据关注时间步的连续性(如t,t+1,t+2),非等间隔数据需显式建模时间间隔(Δt)的影响。例如,用户点击日志(非等间隔)预处理时,除点击行为特征外,还需加入“自上次点击时间”作为特征,而等间隔的温度数据(每分钟采样)只需关注相邻时间步的差值。时间序列分解时,如何确定趋势项、季节项和残差项的合理复杂度?过拟合或欠拟合可能导致什么问题?复杂度确定需结合数据特性和业务背景:趋势项:若趋势平滑(如GDP缓慢增长),用低阶多项式(一次/二次)或移动平均(窗口大小=周期长度);若趋势剧烈变化(如疫情期间的线上流量),用高阶多项式或分段趋势模型(如变点检测后分段拟合)。季节项:若季节周期固定且振幅稳定(如月度销售额的春节效应),用正弦/余弦函数(固定频率);若季节振幅随时间变化(如电商大促活动增强的年度购物季),用STL分解(允许季节项随时间调整)。残差项:理想残差应是白噪声(无自相关),可通过Ljung-Box检验验证。若残差仍有自相关,说明趋势或季节项复杂度不足(欠拟合);若残差方差随时间变化(异方差),可能因趋势项过度拟合(如用5次多项式拟合线性趋势)。过拟合:趋势或季节项过度匹配噪声,导致残差包含真实模式(如将随机波动误判为趋势变化),后续建模时无法捕捉有用信息;欠拟合:未分离出主要趋势/季节成分,模型需额外学习这些低阶模式,增加过拟合风险。例如,用线性趋势拟合非线性增长的用户量数据(欠拟合),残差会呈现明显的二次趋势,导致ARIMA模型需增加高阶项,降低泛化能力。对于高频率时序数据(如秒级)降采样到低频率(如小时级)时,聚合函数的选择需要考虑哪些因素?请给出3种常用聚合方式及适用场景。需考虑:1.业务目标:预测峰值选最大值,预测平均水平选均值,预测总量选求和。2.数据分布:存在极端值(如交易金额)时,中位数比均值更稳健;数据连续变化(如温度)时,均值保留趋势信息。3.周期性:与原数据周期对齐(如秒级数据降为分钟级,窗口=60秒),避免跨周期聚合(如秒级数据的25秒窗口导致分钟边界混乱)。常用聚合方式:1.均值聚合:适用于连续、无极端值的数据(如服务器CPU利用率),保留平均水平。2.最大值聚合:适用于峰值敏感场景(如电力负荷,需检测过载风险)。3.最后值(LastValue)聚合:适用于状态类数据(如设备开关状态),避免中间波动干扰。例如,工业传感器秒级压力数据降为小时级时,若关注设备是否超压,用最大值;若分析长期运行状态,用均值;若记录设备最后状态(运行/停机),用最后值。标准化(Z-score)和归一化(Min-Max)在时序数据预处理中如何选择?时间序列标准化时是否需要按时间窗口分块处理?为什么?选择依据:标准化(Z=(X-μ)/σ):适用于数据分布接近正态、模型对尺度敏感(如SVM、神经网络),保留数据的分布特性(均值0,方差1)。归一化(X'=(X-min)/(max-min)):适用于数据范围明确(如像素值0-255)或模型需要固定范围输入(如激活函数sigmoid的0-1区间)。时间序列标准化需分块处理(如按训练集计算μ和σ,测试集用训练集的统计量),避免未来信息泄露。若全局标准化(用全部数据计算μ和σ),测试集的统计量会包含训练集未观测的信息,导致模型在实际预测时性能下降。例如,用2020-2023年数据训练模型,2024年作为测试集,标准化时需仅用2020-2023年的均值和标准差,对2024年数据进行转换,确保模型训练时不“看到”未来数据的分布。处理长时序序列(如10年以上的日数据)时,直接输入模型可能遇到哪些问题?预处理阶段可采取哪些优化策略?直接输入的问题:1.计算复杂度高:长序列导致模型(如LSTM)的时间步过长,梯度消失/爆炸问题加剧。2.概念漂移:早期数据与近期数据分布可能不同(如用户行为随技术发展变化),模型过度拟合早期模式。3.冗余信息:长期趋势可能掩盖短期波动(如年度销售数据中的季节性),模型难以捕捉局部模式。优化策略:1.分窗处理:将长序列划分为不重叠或重叠的子窗口(如每365天为一个窗口),分别提取特征(如窗口内均值、趋势斜率),降低序列长度。2.差分或分解:去除长期趋势(如用二阶差分)或分离季节项,保留残差中的短期模式。3.动态加权:对近期数据赋予更高权重(如指数加权移动平均),减少早期数据的影响。4.降维:用主成分分析(PCA)或时间序列特征提取(如TSFRESH)压缩冗余特征,保留关键信息。例如,处理10年的日股票数据时,先通过STL分解分离长期趋势和年度季节项,对残差进行分窗(90天窗口),提取每个窗口的波动率、最大回撤等特征,输入模型预测短期价格变动。时序数据中周期检测的常用方法有哪些?如何验证检测到的周期是否显著?常用方法:1.自相关函数(ACF):ACF图中显著峰的位置对应周期长度(如ACF在k=7、14、21处显著,可能存在周周期)。2.周期图(Periodogram):计算数据的傅里叶变换,峰值频率对应的周期(1/频率)为潜在周期。3.小波分析:同时捕捉时间和频率信息,适用于变周期数据(如气候数据的年周期逐渐变长)。4.统计检验:如Ljung-Box检验结合ACF,判断是否存在显著的周期性自相关。显著性验证:对于ACF,用巴特利特公式计算置信区间(±1.96/√n),若ACF(k)超出区间则认为周期k显著。对于周期图,用卡方检验(自由度=2)判断峰值是否显著高于白噪声的期望功率。结合业务知识:如检测到7天周期需与周工作日/周末模式对应,避免将随机波动误判为周期。例如,零售销售额的ACF在k=7、14处显著,且业务中存在周消费习惯,可确认周周期;若周期图在k=15处有峰但无业务解释,可能为噪声。类别型时间特征(如星期几、节假日)如何编码更有利于模型捕捉时序模式?One-Hot编码和嵌入编码的优缺点是什么?编码策略需保留时间的顺序或周期性:对于有序特征(如月份1-12),可用循环编码(sin(2πt/T),cos(2πt/T)),保留周期性(如1月和12月相邻)。对于无序类别(如星期几、是否节假日),可结合One-Hot编码和嵌入编码:One-Hot编码:提供二进制向量(如星期几提供7维向量),简单直观,适用于树模型(如XGBoost)捕捉类别间差异。嵌入编码:通过神经网络学习低维连续向量(如7维→2维),捕捉类别间隐含关系(如周一与周五的相似性),适用于深度学习模型(如LSTM)。优缺点:One-Hot:优点是可解释性强,模型易理解类别独立影响;缺点是高维稀疏(如100个节假日标签提供100维向量),可能导致维度灾难。嵌入编码:优点是压缩维度,捕捉类别间潜在关联(如春节与国庆的消费模式相似);缺点是需要足够数据训练嵌入层,否则嵌入向量可能无意义。例如,预测外卖订单量时,星期几用循环编码保留周周期性,节假日用嵌入编码学习不同节日的订单模式(如春节与双11的差异),比单纯One-Hot更能提升模型效果。多变量时序数据中,如果部分变量存在不同步的采样频率(如变量A每分钟采样,变量B每5分钟采样),预处理时如何对齐?对齐步骤:1.确定目标频率:选择最高频率(如每分钟)或业务相关频率(如每5分钟)作为基准。2.上采样/下采样:变量B(每5分钟)上采样到每分钟:用前向填充(保留最近值)或线性插值(假设变量B在5分钟内线性变化)。变量A(每分钟)下采样到每5分钟:用均值/最大值聚合(如取5分钟内的平均A值)。3.时间戳对齐:将所有变量的时间戳统一到基准频率的时间点(如00:00:00,00:01:00,...),确保同一时间点的多变量数据同步。4.验证合理性:检查插值/聚合后的数据是否符合业务逻辑(如设备状态变量B不能用线性插值,需用前向填充保留离散状态)。例如,处理工业传感器数据时,温度(A,每分钟)和压力(B,每5分钟)对齐到每分钟,压力用前向填充(避免插值导致的虚假连续变化),温度用5分钟均值下采样到压力频率,根据模型需求选择目标频率。时序数据中的“未来信息泄露”(LookaheadBias)通常出现在哪些预处理步骤中?如何避免?常见泄露场景:1.标准化/归一化:用包含测试集的全局统计量(如均值、最大值)处理训练集,导致训练集隐含未来信息。2.缺失值填补:用测试集数据填补训练集的缺失值(如用全部数据的均值填补),或在滚动窗口特征中使用未来数据计算统计量(如计算t时刻的滚动均值时包含t+1的数据)。3.特征工程:构建滞后特征时错误设置滞后阶数(如用t+1时刻的变量X预测t时刻的Y),或在降采样时用未来时间点的聚合值。避免方法:时间分块处理:按时间顺序划分训练集、验证集、测试集(如训练集:2020-2022,验证集:2023,测试集:2024),预处理时仅用当前块之前的数据计算统计量(如训练集的均值用于验证集和测试集的标准化)。滚动窗口隔离:计算滚动特征时,窗口仅包含当前时刻及之前的数据(如t时刻的滚动均值为t-6到t时刻的数据)。交叉验证:采用时间序列交叉验证(如前向链式验证),确保每次验证的模型仅使用训练时间点之前的数据。例如,用2020-2022年数据训练时,标准化的均值和标准差仅基于2020-2022年,2023年验证集用该统计量转换,避免泄露2023年的信息。基于深度学习的时序预处理方法(如TemporalCNN、Transformer)与传统方法相比,在处理长程依赖和非线性关系时的优势是什么?可能引入哪些新问题?优势:长程依赖:Transformer的自注意力机制可直接捕捉任意时间步的依赖关系(如t和t-1000的关联),优于LSTM的门控机制(随序列长度衰减);TemporalCNN的扩张卷积(DilatedConvolution)通过增大感受野(如扩张率2^k覆盖2^k时间步),无需增加层数即可处理长序列。非线性关系:深度神经网络的多层非线性激活函数(如ReLU)可拟合复杂的非线性模式(如温度与能源消耗的非单调关系),而传统方法(如ARIMA)假设线性关系,需手动设计非线性特征。多模态融合:可同时处理时间特征(如星期几)、静态特征(如地理位置)和多变量时序,通过特征拼接或注意力机制自动学习特征重要性,传统方法需手动融合。新问题:计算成本高:自注意力的时间复杂度为O(n²)(n为序列长度),长序列(n=10000)训练需大量GPU资源。可解释性差:注意力权重虽能指示关键时间点,但难以像ARIMA的系数一样明确解释变量间的因果关系。过拟合风险:深度模型参数多,若数据量不足(如短序列),可能过度拟合噪声,需加强正则化(如Dropout、权重衰减)。例如,用Transformer处理10年的日销售数据(n=3650)时,虽能捕捉年度周期与促销活动的长程依赖,但需限制注意力头数或采用稀疏注意力(如仅关注最近100天)降低计算量。对于包含多个季节周期(如日周期、周周期、月周期)的时序数据,预处理时如何同时捕捉不同周期特征?处理策略:1.多周期分解:用STL分解的扩展版本(如MSTL,多季节分解)同时分离日、周、月季节项,或用傅里叶变换提取不同频率的正弦/余弦分量(如日周期频率=1/24,周周期=1/168)。2.特征工程:显式构造多周期特征,如:日周期:sin(2πt/24),cos(2πt/24)(t为小时数)。周周期:sin(2πt/168),cos(2πt/168)(t为小时数,168=24×7)。月周期:sin(2πt/720),cos(2πt/720)(t为小时数,720≈24×30)。3.模型适配:使用支持多季节的模型(如Prophet,默认处理日、周、年周期),或在深度学习模型中加入多周期位置编码(如Transformer的位置嵌入同时包含不同周期的正弦函数)。例如,城市交通流量数据同时存在早高峰(日周期)、周末低峰(周周期)、月末拥堵(月周期),预处理时用MSTL分解出三个季节项,残差作为趋势和噪声;或构造三组循环特征(日、周、月),与原始数据拼接后输入LSTM模型,模型通过权重学习不同周期的重要性。时序数据中趋势项和季节项的分离是否会影响后续模型的残差分析?如果分离不当可能导致什么问题?会影响。残差分析的目标是验证模型是否捕捉了主要模式(残差应为白噪声)。若趋势或季节项分离不当:过度分离(如将正常波动误判为趋势):残差可能包含负趋势(原趋势被过度扣除),导致后续模型(如ARIMA)需拟合负趋势,增加参数复杂度。分离不足(如未分离显著季节项):残差会呈现明显的季节自相关(ACF在季节周期处显著),模型需额外学习季节模式,可能因过拟合降低泛化能力。例如,用线性趋势拟合实际为二次增长的销售额数据(分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 放射科护士年终总结
- 2026年新课标 I 卷高考语文专题突破组合卷(含解析)
- 2026年新高考全国卷一英语专题突破练习卷含解析
- 小学6年级暑假语文阅读理解专项练习(记叙文+说明文+文言文)
- 钠离子电池前景谈
- 工业型煤工安全宣教知识考核试卷含答案
- 渣油热加工工操作能力考核试卷含答案
- 紫胶漂白工安全生产意识知识考核试卷含答案
- 山西吕梁市2026届高考考前适应性测试语文试题含答案
- 药剂师职业发展前景
- 堆与堆排序课件
- 浙江省金华市(2026年)辅警协警笔试笔试真题(附答案)
- 养老护理员工作倦怠与应对
- 破碎岩石施工方案(3篇)
- 安徽华师联盟2026届高三4月质量检测语文试卷(含答案详解)
- 2026广东佛山市南海区大沥镇镇属企业员工招聘9人建设笔试参考题库及答案解析
- 2026山西晋中市寿阳县国有资本运营有限公司及下属公司中高层管理人员招聘12人考试备考题库及答案解析
- 建筑工程进场材料、构配件和设备质量控制工作标准
- 2025年河南省初中学业水平考试中考(会考)地理试卷(真题+答案)
- 2022~2023血站上岗证考试题库及答案参考85
- 第五章-钢的热处理及表面处理技术课件
评论
0/150
提交评论