下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、智能(特征数据提取)特征程数据提取机器学习(Machine Learning, ML)是门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现类的学习为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善的性能。它是智能的核,是使计算机具有智能的根本途径,其应遍及智能的各个领域,它主要使归纳、综合不是演绎。(本是个的笔记,有些内容是引)有这么句话在业界泛流传:数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限已。那特征程到底是什么呢?顾名思义,其本质是项程活动,的是最限度地从原始数据中提取特征以供算法和模型使。说了特征程就是将
2、你收集到的数据转化为算法需要的数据形式。下图是个例特征程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从提了对未知数据的模型准确性接下来介绍种较常见的特征抽取字典特征抽取(使sklearn)字典数据抽取:把字典中些类别数据,分别进转换成特征,因为原始数据中的有的数据是本的或者字符串的形式存在的,这时候计算机并不能识别此类型的数据,因此需要对这些数据进特征抽取。对于本来就是数值型的数据如说温度等直接保留,对于有类别的数据则要先转化为字典数据,sklearn中采one-hot编码的式处理。下是one-hot编码的举例:原字典city:北京,temperature:100,city:上
3、海,temperature:20,city:杭州,temperature:90one-hot编码后的字典:city=北京:1.0, temperature: 100.0, city=上海:1.0, temperature: 20.0, city=杭州:1.0,temperature: 90.0经过sklearn处理后转化成的数组:可以清楚的看到city是类别的,所以说先将city=城市名转化为特征名(个类别对应个特征名),接着如果1代表符合特征,0代表不符合。下是使sklearn编写的简单字典数据抽取的代码:字典特征抽取作:对字典数据进特征值化类:sklearn.feature_extract
4、ion.DictVectorizerDictVectorizer(sparse=True,)DictVectorizer.fit_transform(X)X:字典或者包含字典的迭代器返回值:返回sparse矩阵DictVectorizer.inverse_transform(X)X:array数组或者sparse矩阵返回值:转换之前数据格式DictVectorizer.get_feature_names()返回类别名称DictVectorizer.transform(X)按照原先的标准转换流程1:实例化类DictVectorizer2:调fit_transform法输数据并转换 注意返回格式f
5、rom sklearn.feature_extraction import DictVectorizer运结果:本特征提取作:对本数据进特征值化类:sklearn.feature_extraction.text.CountVectorizerCountVectorizer(max_df=1.0,min_df=1,)返回词频矩阵CountVectorizer.inverse_transform(X)X:arraysparse矩阵返回值:转换之前数据格式CountVectorizer.get_feature_names():单词列表实例测试:data=cv.fit_transform(life is short,i like python,life is too long,i dislike
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年临期药品行业政策环境与法规解读报告
- 2026年公司产能分析报告
- 2026年2030年人工智能伦理问题研究题库
- 2026年城市数字大脑建设运营规范题库
- 2026年事业单位津贴补贴管理问答
- 2026年精神文明建设面试题目及答案
- 2026年高新技术企业认定复审优惠题库
- 2026年个人金融信息保护技术规范与信息分类及保护及生命周期考核
- 2026年街道志愿服务时长记录制度题
- 2026年机关干部档案法应知应会知识测试题库
- 22G101三维立体彩色图集
- 第九届全国大学生化学实验邀请赛笔试试题
- 水利工程施工完整危险源辨识及评价
- 高速公路改扩建工程监理实施细则
- 亚洲史越南史大南实录正编列传初集8
- 蛋白质高级结构性质及分离纯化
- 金蝶kis专业版操作手册V2.0
- 五郎河流域特性分析
- 第08章-电解质溶液
- RB/T 040-2020病原微生物实验室生物安全风险管理指南
- GA/T 974.87-2015消防信息代码第87部分:灭火剂种类代码
评论
0/150
提交评论