下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、CDA数据分析师(CDA.cn)真本事,心舒适时间序列数据的特征提取当你想对时间序列数据做分类时,有两种选择,一个是用时间序列特定的方法,比如说说LSTM模型。另外一种方法就是来从时间序列中提取特征从而将这些特征用在有监督的模型上在这篇文章中,我们来看下如何使用tsfresh包自动的提取时间序列数据。这份数据的来源是TimeSeriesClassificationRepository。这个网站中提供对很多数据集有高精度的模型,如何有兴趣的,可以去详细了解一下。时间序列比一般标准的目标要难一些,这是因为在时间序列里的数据本身每个样本就不是独立的,两个时间上月接近的样本,就越有相关性。比如说温度,
2、如果今天的温度问20度,那明天更加有可能是15或者25度,而不是5或者35度。这表明这我们不能用常见的分类器来拟合数据,因为对于普通的分类器来说,数据的假设前提都是需要是样本和样本是独立的。并且更重要的是,有的和时间相关的数据集有更加复杂的结构,一个样本包含了多个特征,比如说温度,湿度,分速等等。虽然说时间序列的数据很特别,但是我们可以使用特征提起的方法将一个序列降低到一个点。比如说,如果我们现在是在对一个月内的天气相关的数据做处理,我们可以使用以下多个特征1.最小最大温度2.温度平均值3.温度方差4.最小最大湿度CDA数据分析师(CDA.cn)真本事,心舒适这里只是给出了几个例子而已,当然了
3、这里可以有很多种特征,将他们全部列举出来会特别麻烦,幸运的是,有一个tsfresh包,可以自动的提取出很多特征。tsfresh包在提取出的众多的特征中,需要选取其中最为相关的,最具有预测能力的特征。并且为了防止过拟合,需要首先对数据集做切分,并且只对训练集做特征选择,否则会造成过拟合的问题。tsfresh包使用的是成对检验法来做特征选择的。我们先来从数据列表列提取3个时间序列数据集,FordA,FordB,和Wafre并且这些数据集中提取特征。首先我们需要将这些1维的数据给上下拼接起来。In9:d.head()21.01430-0.977710.59777-0.979981.1963031.0
4、1430-1.016900.59777-1.012101.25610Out9:0101.014301.0143-0.88485-1.03750.580400.5804-0.88390-1.03711.105001.2856需要使用stack做一次拼接d=d.stack()d.index.rename(id,time,inplace=True)d=d.reset_index()得出以下的结果In11:d.head()Out11:idtime00001.0143011.0143021.0143031.0143041.0143特征提取的工作量是非常大的,所以tsfresh使用分布计算的方法来高效的做
5、特征提取。另外一种方式就可以直接设置n_jobs为1。具体代码为以下f=extract_features(d,column_id=id,column_sort=time)#FeatureExtraction:20it22:33,67.67s/it这个时候f中有一些特征是空值,可以使用tsfresh提供的impute函数过滤掉这些特征impute(f)assertf.isnull().sum().sum()=0当做特征选择的时候,有一个fdr_level超参数,这指的是所有不相关特征占总体的理论期望阈值,默认值为5%,也就是从生产的特征中,删除掉最不相关的特征,且这部分特征占总比的5%。有的时候我们还是需要加大这个值到0.5,甚至0.9,从而可以选取最重要的特征,并且防止纬度灾难。In2:runselect_features.pyloadingdata/wafer/features.csvselectingfeatures.selected247feature
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 上海市嘉定区嘉一中2026届高二上生物期末监测试题含解析
- 校庆活动策划方案国庆(3篇)
- 兽药销售培训课件模板
- 科技项目评审现场管理制度(3篇)
- 兽药监管培训课件班讲话
- 进口核酸检测准入管理制度(3篇)
- 餐饮企业提案管理制度(3篇)
- 《GA 1373-2017警帽 礼仪卷檐帽》专题研究报告深度
- 《GA 735-2007警服材料 针织罗纹布》专题研究报告
- 2026年及未来5年市场数据中国供应链物流行业市场全景监测及投资战略咨询报告
- 脚手架国际化标准下的发展趋势
- 购销合同范本(塘渣)8篇
- 屋面光伏设计合同协议
- 生鲜业务采购合同协议
- GB/T 4340.2-2025金属材料维氏硬度试验第2部分:硬度计的检验与校准
- 销售合同评审管理制度
- 资产评估员工管理制度
- 泳池突发安全事故应急预案
- 2025开封辅警考试题库
- 湖北省武汉市汉阳区2024-2025学年上学期元调九年级物理试题(含标答)
- DB37-T 5316-2025《外墙外保温工程质量鉴定技术规程》
评论
0/150
提交评论