大数据预处理代码_第1页
大数据预处理代码_第2页
大数据预处理代码_第3页
大数据预处理代码_第4页
大数据预处理代码_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第一个例子:import matplotlib.pyplot as pltimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.decomposition import PCAfrom sklearn.pipeline import make_pipelinefrom sklearn.preprocessing import FunctionTransformerdef _generate_vector(shift=0.5, noise=15): return np.arange(1

2、000) + (np.random.rand(1000) - shift) * noisedef generate_dataset(): """ This dataset is two lines with a slope 1, where one has a y offset of 100 """ return np.vstack( np.vstack( _generate_vector(), _generate_vector() + 100, ).T, np.vstack( _generate_vector(), _generat

3、e_vector(), ).T, ), np.hstack(np.zeros(1000), np.ones(1000)def all_but_first_column(X): return X:, 1:def drop_first_component(X, y): """ Create a pipeline with PCA and the column selector and use it to transform the dataset. """ pipeline = make_pipeline( PCA(), Function

4、Transformer(all_but_first_column), ) X_train, X_test, y_train, y_test = train_test_split(X, y) pipeline.fit(X_train, y_train) return pipeline.transform(X_test), y_testif _name_ = '_main_': X, y = generate_dataset() lw = 0 plt.figure() plt.scatter(X:, 0, X:, 1, c=y, lw=lw) plt.figure() X_tran

5、sformed, y_transformed = drop_first_component(*generate_dataset() plt.scatter( X_transformed:, 0, np.zeros(len(X_transformed), c=y_transformed, lw=lw, s=60 ) plt.show()第二个例子:from _future_ import print_functionprint(_doc_)# Code source: Thomas Unterthiner# License: BSD 3 clauseimport matplotlib.pyplo

6、t as pltimport numpy as npfrom sklearn.preprocessing import StandardScaler, RobustScaler# Create training and test datanp.random.seed(42)n_datapoints = 100Cov = 0.9, 0.0, 0.0, 20.0mu1 = 100.0, -3.0mu2 = 101.0, -3.0X1 = np.random.multivariate_normal(mean=mu1, cov=Cov, size=n_datapoints)X2 = np.random

7、.multivariate_normal(mean=mu2, cov=Cov, size=n_datapoints)Y_train = np.hstack(-1*n_datapoints, 1*n_datapoints)X_train = np.vstack(X1, X2)X1 = np.random.multivariate_normal(mean=mu1, cov=Cov, size=n_datapoints)X2 = np.random.multivariate_normal(mean=mu2, cov=Cov, size=n_datapoints)Y_test = np.hstack(

8、-1*n_datapoints, 1*n_datapoints)X_test = np.vstack(X1, X2)X_train0, 0 = -1000 # a fairly large outlier# Scale datastandard_scaler = StandardScaler()Xtr_s = standard_scaler.fit_transform(X_train)Xte_s = standard_scaler.transform(X_test)robust_scaler = RobustScaler()Xtr_r = robust_scaler.fit_transform

9、(X_train)Xte_r = robust_scaler.transform(X_test)# Plot datafig, ax = plt.subplots(1, 3, figsize=(12, 4)ax0.scatter(X_train:, 0, X_train:, 1, color=np.where(Y_train > 0, 'r', 'b')ax1.scatter(Xtr_s:, 0, Xtr_s:, 1, color=np.where(Y_train > 0, 'r', 'b')ax2.scatter(X

10、tr_r:, 0, Xtr_r:, 1, color=np.where(Y_train > 0, 'r', 'b')ax0.set_title("Unscaled data")ax1.set_title("After standard scaling (zoomed in)")ax2.set_title("After robust scaling (zoomed in)")# for the scaled data, we zoom in to the data center (outlier c

11、an't be seen!)for a in ax1: a.set_xlim(-3, 3) a.set_ylim(-3, 3)plt.tight_layout()plt.show()# Classify using k-NNfrom sklearn.neighbors import KNeighborsClassifierknn = KNeighborsClassifier()knn.fit(Xtr_s, Y_train)acc_s = knn.score(Xte_s, Y_test)print("Testset accuracy using standard scaler:

12、 %.3f" % acc_s)knn.fit(Xtr_r, Y_train)acc_r = knn.score(Xte_r, Y_test)print("Testset accuracy using robust scaler: %.3f" % acc_r)Scikit-learn Preprocessing 预处理本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法,主要包括标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。内容比较简单,仅供参考!首先来回顾一下下面要用到的基本知识。一、知

13、识回顾均值公式:x¯=1n_i=1nxi方差公式:s2=1n_i=1n(xix¯)20-范数,向量中非零元素的个数。1-范数:|X|=_i=1n|xi|2-范数:|X|_2=(_i=1nx2i)12p-范数的计算公式:|X|p=(|x1|p+|x2|p+.+|xn|p)1p数据标准化:当单个特征的样本取值相差甚大或明显不遵从高斯正态分布时,标准化表现的效果较差。实际操作中,经常忽略特征数据的分布形状,移除每个特征均值,划分离散特征的标准差,从而等级化,进而实现数据中心化。二、标准化(Standardization),或者去除均值和方差进行缩放公式为:(X-X_mean)/X

14、_std 计算时对每个属性/每列分别进行.将数据按其属性(按列进行)减去其均值,然后除以其方差。最后得到的结果是,对每个属性/每列来说所有数据都聚集在0附近,方差值为1。首先说明下sklearn中preprocessing库里面的scale函数使用方法:sklearn.preprocessing.scale(X, axis=0, with_mean=True,with_std=True,copy=True)根据参数的不同,可以沿任意轴标准化数据集。参数解释:· X:数组或者矩阵· axis:int类型,初始值为0,axis用来计算均值 means 和标准方差 standar

15、d deviations. 如果是0,则单独的标准化每个特征(列),如果是1,则标准化每个观测样本(行)。· with_mean: boolean类型,默认为True,表示将数据均值规范到0· with_std: boolean类型,默认为True,表示将数据方差规范到1一个简单的例子假设现在我构造一个数据集X,然后想要将其标准化。下面使用不同的方法来标准化X:方法一:使用sklearn.preprocessing.scale()函数方法说明:· X.mean(axis=0)用来计算数据X每个特征的均值;· X.std(axis=0)用来计算数据X每个特

16、征的方差;· preprocessing.scale(X)直接标准化数据X。将代码整理到一个文件中:from sklearn import preprocessing import numpy as npX = np.array( 1., -1., 2., 2., 0., 0., 0., 1., -1.)# calculate meanX_mean = X.mean(axis=0)# calculate variance X_std = X.std(axis=0)# standardize XX1 = (X-X_mean)/X_std# use function preprocess

17、ing.scale to standardize XX_scale = preprocessing.scale(X)最后X_scale的值和X1的值是一样的,前面是单独的使用数学公式来计算,主要是为了形成一个对比,能够更好的理解scale()方法。方法2:sklearn.preprocessing.StandardScaler类该方法也可以对数据X进行标准化处理,实例如下:from sklearn import preprocessing import numpy as npX = np.array( 1., -1., 2., 2., 0., 0., 0., 1., -1.)scaler =

18、preprocessing.StandardScaler()X_scaled = scaler.fit_transform(X)这两个方法得到最后的结果都是一样的。三、将特征的取值缩小到一个范围(如0到1)除了上述介绍的方法之外,另一种常用的方法是将属性缩放到一个指定的最大值和最小值(通常是1-0)之间,这可以通过preprocessing.MinMaxScaler类来实现。使用这种方法的目的包括:· 1、对于方差非常小的属性可以增强其稳定性;· 2、维持稀疏矩阵中为0的条目。下面将数据缩至0-1之间,采用MinMaxScaler函数from sklearn import

19、preprocessing import numpy as npX = np.array( 1., -1., 2., 2., 0., 0., 0., 1., -1.)min_max_scaler = preprocessing.MinMaxScaler()X_minMax = min_max_scaler.fit_transform(X)最后输出:array( 0.5 , 0. , 1. , 1. , 0.5 , 0.33333333, 0. , 1. , 0. )测试用例:>>> X_test = np.array( -3., -1., 4.)>>> X_

20、test_minmax = min_max_scaler.transform(X_test)>>> X_test_minmaxarray(-1.5 , 0. , 1.66666667)注意:这些变换都是对列进行处理。当然,在构造类对象的时候也可以直接指定最大最小值的范围:feature_range=(min, max),此时应用的公式变为:X_std=(X-X.min(axis=0)/(X.max(axis=0)-X.min(axis=0)X_minmax=X_std/(X.max(axis=0)-X.min(axis=0)+X.min(axis=0)四、正则化(Normal

21、ization)正则化的过程是将每个样本缩放到单位范数(每个样本的范数为1),如果要使用如二次型(点积)或者其它核方法计算两个样本之间的相似性这个方法会很有用。该方法是文本分类和聚类分析中经常使用的向量空间模型(Vector Space Model)的基础.Normalization主要思想是对每个样本计算其p-范数,然后对该样本中每个元素除以该范数,这样处理的结果是使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。方法1:使用sklearn.preprocessing.normalize()函数>>> X = 1., -1., 2.,. 2., 0.,

22、0.,. 0., 1., -1.>>> X_normalized = preprocessing.normalize(X, norm='l2')>>> X_normalized array( 0.40., -0.40., 0.81., 1. ., 0. ., 0. ., 0. ., 0.70., -0.70.)方法2:sklearn.preprocessing.StandardScaler类>>> normalizer = preprocessing.Normalizer().fit(X) # fit does nothin

23、g>>> normalizerNormalizer(copy=True, norm='l2')然后使用正则化实例来转换样本向量:>>> normalizer.transform(X) array( 0.40., -0.40., 0.81., 1. ., 0. ., 0. ., 0. ., 0.70., -0.70.)>>> normalizer.transform(-1., 1., 0.) array(-0.70., 0.70., 0. .)两种方法都可以,效果是一样的。五、二值化(Binarization)特征的二值化主要

24、是为了将数据特征转变成boolean变量。在sklearn中,sklearn.preprocessing.Binarizer函数可以实现这一功能。实例如下:>>> X = 1., -1., 2.,. 2., 0., 0.,. 0., 1., -1.>>> binarizer = preprocessing.Binarizer().fit(X) # fit does nothing>>> binarizerBinarizer(copy=True, threshold=0.0)>>> binarizer.transform(X

25、)array( 1., 0., 1., 1., 0., 0., 0., 1., 0.)Binarizer函数也可以设定一个阈值,结果数据值大于阈值的为1,小于阈值的为0,实例代码如下:>>> binarizer = preprocessing.Binarizer(threshold=1.1)>>> binarizer.transform(X)array( 0., 0., 1., 1., 0., 0., 0., 0., 0.)六、缺失值处理由于不同的原因,许多现实中的数据集都包含有缺失值,要么是空白的,要么使用NaNs或者其它的符号替代。这些数据无法直接使用scikit-learn分类器直接训练,所以需要进行处理。幸运地是,sklearn中的Imputer类提供了一些基本的方法来处理缺失值,如使用均值、中位值或者缺失值所在列中频繁出现的值来替换。下面是使用均值来处理的实例:>>> import numpy as np>>> from sklearn.prepro

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论