下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第python数据分析之聚类分析(clusteranalysis)在图像理解中,有一种称为基于区域的提取方法。基于区域的提取方法是在图像分割和对象识别的前提下进行的,利用对象模板、场景分类器等,通过识别对象及对象之间的拓扑关系挖掘语义,生成对应的场景语义信息。例如,先以颜色、形状等特征对分割后的图像区域进行聚类,形成少量BLOB;然后通过CMRM模型计算出BLOB与某些关键词共同出现的概率。
异常检测
异常检测有多种实施方法,其中常用的方法是基于距离的异常检测方法。即使数据集不满足任何特定分布模型,它仍能有效地发现离群点,特别是当空间维度比较高时,算法的效率比基于密度的方法要高得多。算法具体实现时,首先算出数据样本间的距离(如曼哈顿距离、欧氏距离等),然后对数据做预处理后就可以根据距离的定义来检测异常值。
例如,可以使用K-means的聚类可以将离中心店最远的类或者不属于任何一个类的数据点提取出来,然后将其定义为异常值。
聚类算法的选择:
数据为高维数据,那么选取子空间聚类(如谱聚类)
数据量在100万条以内,那么使用k均值较好;如果数据量超过100万条,那么可以考虑使用MiniBatchKMeans
如果数据中存在噪点,那么可以使用基于密度的DBSCAN
如果最求更高的分类准确度,那么选择谱聚类将比K均值准确度更好
python代码实现
importnumpyasnp
importpandasaspd
fromsklearn.clusterimportKMeans
fromsklearnimportmetrics
importmatplotlib.pyplotasplt
fromsklearn.datasetsimportmake_blobs
%matplotlibinline
#数据准备
data=make_blobs(n_samples=2000,centers=[[1,1],[-1,-1]],cluster_std=0.7,random_state=2025)
X=data[0]
y=data[1]
#设置聚类数量
n_clusters=2
#建立聚类模型对象
kmeans=KMeans(n_clusters=n_clusters,random_state=2025)
#训练聚类模型
kmeans.fit(X)
#预测聚类模型
pre_y=kmeans.predict(X)
###模型效果指标评估###
#样本距离最近的聚类中心的总和
inertias=kmeans.inertia_
#调整后的兰德指数
adjusted_rand_s=metrics.adjusted_rand_score(y,pre_y)
#互信息
mutual_info_s=metrics.mutual_info_score(y,pre_y)
#调整后的互信息
adjusted_mutual_info_s=metrics.adjusted_mutual_info_score(y,pre_y)
#同质化得分
homogeneity_s=metrics.homogeneity_score(y,pre_y)
#完整性得分
completeness_s=pleteness_score(y,pre_y)
#V-measure得分
v_measure_s=metrics.v_measure_score(y,pre_y)
#平均轮廓系数
silhouette_s=metrics.silhouette_score(X,pre_y,metric='euclidean')
#Calinski和Harabaz得分
calinski_harabaz_s=metrics.calinski_harabaz_score(X,pre_y)
df_metrics=pd.DataFrame([[inertias,adjusted_rand_s,mutual_info_s,adjusted_mutual_info_s,homogeneity_s,completeness_s,v_measure_s,silhouette_s,calinski_harabaz_s]],
columns=['ine','tARI','tMI','tAMI','thomo','tcomp','tv_m','tsilh','tch'])
df_metrics
##模型可视化##
centers=kmeans.cluster_centers_
#颜色设置
colors=['green','pink']
#创建画布
plt.figure(figsize=(12,6))
titles=['Real','Predict']
forj,y_inenumerate([y,pre_y]):
plt.subplot(1,2,j+1)
plt.title(titles[j])
#循环读类别
foriinrange(n_clusters):
#找到相同的索引
index_sets=np.where(y_==i)
#将相同类的数据划分为一个聚类子集
cluster=X[index_sets]
#展示样本点
plt.scatter(cluster[:,0],cluster[:,1],c=colors[i],marker='.')
ifj==1:
#簇中心
plt.plot(centers[i][0],centers[i][1],'o',markerfacecolor=colors[i],markeredgecolor='k',markersize=6)
plt.savefig('xx.png')
plt.show()
评估指标解析:
inertias:inertias是K均值模型对象的属性,表示样本距离最近的聚类中心的总和,它是作为在没有真实分类结果标签下的非监督式评估指标。该值越小越好,值越小证明样本在类间的分布越集中,即类内的距离越小。
adjusted_rand_s:调整后的兰德指数(AdjustedRandIndex),兰德指数通过考虑在预测和真实聚类中在相同或不同聚类中分配的所有样本对和计数对来计算两个聚类之间的相似性度量。调整后的兰德指数通过对兰德指数的调整得到独立于样本量和类别的接近于0的值,其取值范围为[-1,1],负数代表结果不好,越接近于1越好意味着聚类结果与真实情况越吻合。
mutual_info_s:互信息(MutualInformation,MI),互信息是一个随机变量中包含的关于另一个随机变量的信息量,在这里指的是相同数据的两个标签之间的相似度的量度,结果是非负值。
adjusted_mutual_info_s:调整后的互信息(AdjustedMutualInformation,AMI),调整后的互信息是对互信息评分的调整得分。它考虑到对于具有更大数量的聚类群,通常MI较高,而不管实际上是否有更多的信息共享,它通过调整聚类群的概率来纠正这种影响。当两个聚类集相同(即完全匹配)时,AMI返回值为1;随机分区(独立标签)平均预期AMI约为0,也可能为负数。
homogeneity_s:同质化得分(Homogeneity),如果所有的聚类都只包含属于单个类的成员的数据点,则聚类结果将满足同质性。其取值范围[0,1]值越大意味着聚类结果与真实情况越吻合。
completeness_s:完整性得分(Completeness),如果作为给定类的成员的所有数据点是相同集群的元素,则聚类结果满足完整性。其取值范围[0,1],值越大意味着聚类结果与真实情况越吻合。
v_measure_s:它是同质化和完整性之间的谐波平均值,v=2(均匀性完整性)/(均匀性+完整性)。其取值范围[0,1],值越大意味着聚类结果与真实情况越吻合。
silhouette_s:轮廓系数(Silhouette),它用来计算所有样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 茂名市茂港区2025-2026学年第二学期四年级语文第五单元测试卷(部编版含答案)
- 永州市祁阳县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 毕节地区金沙县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 德阳市中江县2025-2026学年第二学期六年级语文第五单元测试卷部编版含答案
- 服装公司营销策划方案
- 深度解析(2026)《AQ 5203-2008电镀生产装置安全技术条件》
- 代数考试陷阱题及答案
- 《高考快车道》专题1 信息类文本阅读(课后习题)(学生版)(有答案)高三 二轮专题复习讲义 语文
- 市场调研与预测专业知识与实践技能试题及答案
- 前厅服务员职业技能考核题目及答案
- 2026年电子信息工程专业信号与系统真题单套试卷
- DB36T+2220-2026饮用水水源蓝藻水华应急防控技术指南
- 2026年员工体检组织计划
- 5.1 人民代表大会制度 课件(内嵌视频)-2025-2026学年统编版道德与法治八年级下册
- 2026江西省江盐集团盐品事业部招聘24人笔试参考题库及答案解析
- 2026年危险废物经营许可证管理办法题库及答案
- 安全管理人员考勤制度
- 运维技术人员考核制度
- 起重安全生产管理制度
- (完整版)泵站工程监理实施细则
- 模具钳工技能培训
评论
0/150
提交评论