




免费预览已结束,剩余71页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于特征学习的ECG身份识别 ECG biometric authentication based on feature learning 摘 要基于特征学习的ECG身份识别随着社会信息数据的快速发展,人类的信息安全面临着巨大的安全隐患。生物特征识别技术作为具有高度安全性与唯一性的新型识别技术,逐渐进入大众视野。心电信号因其处理简单,易采集,难伪造等特点,使得ECG身份识别逐渐成为生物身份识别领域的一个研究热点。这一技术不但推动身份识别领域的快速发展,并且有效补充了现有的生物特征识别技术。目前为止,尽管在该方面取得了许多技术突破,但仍存在识别精度不高,时效性不好的问题。针对这一问题本文从心拍特征提取,和特征学习两方面进行研究。为了更贴近实际应用场景,采用数据来源中每个个体的心率、身体健康状况与情绪状态不受限制。在特征提取的过程中,根据信号的采样频率、心电信号与干扰噪声的频率特点,采用九层小波去噪,得到较纯净的信号。然后采用二阶差分阈值法进行心拍检测,最后分别提取了信号的形态学特征与小波特征。为了获取最优的分类心拍特征,通过在不同分类器下的实验对比可知,相对于采用单一形态学特征(维度425维,心拍分类准确率为74%,身份识别准确率90%)或小波特征(维度172维,心拍分类准确率为72%,身份识别准确率93%),采用形态学与小波的组合特征(维度624维,心拍分类准确率为76%,身份识别准确率93%)分类准确率更好。然而采用组合特征作为系统的输入特征,虽然提高了身份识别的准确率,但同时也造成特征维度急剧增加从而引入了过多特征冗余,导致身份识别模型的计算复杂度高、存储空间消耗大,识别效率低下。针对此问题的解决,本文采用核主成分分析法(KPCA),弥补了线性变换PCA无法深层表示非线性信号内在联系的不足。通过实验可知KPCA算法(维度500维,心拍分类准确率为76%,身份识别准确率94%)能够降低特征维度,使得在不影响分类准确率的同时提高系统的时效性。但是KPCA算法并不适用于现实ECG身份识别的应用场景,为解决此问题采用特征学习网络来进一步提高系统的时效性。采用稀疏自编码网络来设定特征学习网络的初值,利用全局参数微调来提高此网络的识别性能,最后采用L-BFGS算法对网络参数寻优,从而降低ECG特征学习算法的时间复杂度与空间复杂度。最后通过实验对比,特征学习网络(维度50维,心拍分类准确率为87%,身份识别准确率96%)与KPCA算法相比较,不仅能够有效地对特征降维,并且提高身份识别的分类准确率,从而保证识别模型的身份识别准确率,时效率与鲁棒性。关键词:身份识别,特征组合,层次型SVM,KPCA,稀疏自编码,特征学习AbstractECG biometric authentication based on feature learningWith the rapid development of social information data, information security of human beings are facing the huge security risk. As the new identification technology with high security and uniqueness, biometric identification technology is gradually entering the public. As a new biometric identification technology, ECG signal has simple preprocessing, easy collection and difficult falsification characteristics and gradually become a research hotspot in the field of biometric authentication. The technology not only promotes the rapid development of the field of biometric authentication, but also effectively complements the existing biometric identification technology. Although many technologies have made breakthroughs in the respect so far, there are still some problems of low identification precision and bad efficiency. To solve these problems, the paper researches the feature extraction of heart beats and feature learning.In order to be closer to the actual application, the sources of data are not be restricted that include heart rate, physical condition and emotional state of every individual. In process of the feature extraction, according to the signal sampling frequency, frequency characteristics of ECG signal and noise, the paper adopts wavelet denoising of nine layer to obtain the pure signal. Then we use two-order difference threshold method to detect heart beats and extract the morphological features of signal and wavelet feature. In order to obtain the optimal heart beats features for classification, the experimental contrast for different classifier has been made. Compared with the single morphological features (dimension is 425, heart beat classification accuracy is 74%, identification accuracy is 90%) and wavelet features (dimension is 172, heart beat classification accuracy is 72%, identification accuracy is 93%), the compound feature (dimension is 624, heart beat classification accuracy is 76%, identification accuracy is 93%) could achieve higher classification accuracy.While the compound feature improves identification accuracy as input feature for system, the sharp increasing of feature dimension leading too much feature redundancy which causes high complexity and low efficiency of identification system. To solve this problem, the paper uses kernel principal component analysis (KPCA) to make up the deficiency of linear transform PCA which couldnt express the intrinsic connection among nonlinear signal. We realize that KPCA algorithm (dimension is 500, heart beat classification accuracy is 76%, identification accuracy is 94%) could reduce feature dimension and improve system efficiency without affecting the classification accuracy. But KPCA algorithm is not suitable for the practical application of ECG identification, the paper adopts feature learning network to further improve system efficiency. Firstly the paper uses sparse autoencoder to set initial of feature learning network and utilizes global parameter tuning to improve the recognition performance of the network. At last, we adopt L-BFGS algorithm to optimize network parameters and reduce time complexity and space complexity of ECG feature learning algorithm. Finally, compared with KPCA algorithm, the feature learning network (dimension is 50, heart beat classification accuracy is 87%, identification accuracy is 96%) not only can effectively reduce feature dimension and improve identification accuracy through experiments. So it ensures the accuracy, efficiency and robustness of authentication system.Keywords:Identity recognition; Compound feature; Hierarchical SVM; Kernel principal component analysis; Sparse autoencoder; feature learningIII目 录第1章 绪 论11.1 研究背景及意义11.2 心电信号产生原理31.3 ECG身份识别的可行性31.4 国内外研究现状51.5 研究内容71.6 论文结构8第2章 ECG身份识别基础知识112.1心电信号特点112.1.1 心电信号形态学特点112.1.2 心电信号频域特点132.2 主成分分析132.2.1 主成分分析(PCA)的基本思想与数学模型132.2.2 主成分分析(PCA)主要步骤152.3 支持向量机(SVM)162.3.1 支持向量机原理172.3.2 核化支持向量机192.4 稀疏自编码(SparseAE)202.4.1 自编码原理202.4.2 稀疏化自编码212.5 ECG-ID数据库简介222.6 本章小结23第3章 基于组合特征和SVM的ECG身份识别253.1 心电信号预处理253.1.1 心电信号小波去噪253.1.2 心电信号心拍检测283.2 ECG身份识别的特征提取313.2.1 形态学特征323.2.2 小波特征333.3 基于最优类别间隔的ECG身份识别333.4 实验结果对比373.5 本章小结39第4章 特征学习ECG身份识别算法414.1 核主成份分析(KPCA)414.1.1 KPCA原理414.1.2 KPCA核函数的选择434.1.3 KPCA流程444.1.4 KPCA实验结果444.2 特征学习神经网络464.2.1初始参数选取474.2.2微调特征学习网络参数494.2.3特征学习网络参数优化504.2.3特征学习网络的实验结果514.3 本章小结55第5章 总结与展望575.1 总结575.2 展望58参考文献59作者简介及科研成果63致 谢67VII第1章 绪论第1章 绪 论1.1 研究背景及意义随着网络科技的快速发展,个人身份识别技术被广泛的应用到银行证券自助开户、网上银行交易、访客管理系统、公安系统、交通系统等领域。个人身份识别技术具有稳定性、可靠性和实用性,它的操作简单,成本低廉,应用前景广泛,市场价值大。传统的个人身份鉴定技术例如印章、钥匙、身份识别卡和数字密码等认证方法都需要携带或记忆信息,安全性和便携性极差。尤其是随着互联网和大数据时代的到来,利用个人身份认证安全的缺失引发的经济损失逐年上升。近些年随着互联网和生物技术的发展,一种新的个人身份识别技术应运而生,这种新的技术利用人的生物特征1进行个人身份识别。生物特征识别一般是指根据人类的生理特征(如指纹、虹膜和面部特征等)和行为特征(如眨眼、点头和摇头等)来进行个人身份的鉴定,由于人类的生理特性是独一无二的,所以生物特性识别比传统的身份认证方式更具有安全性和可靠性,传统的身份认证方式比较容易出校丢失、遗忘或者毁坏的情况,然而,个人身份识别技术不会出现这些情况。与此同时,在国际上,个人身份识别已经成为了身份识别技术研究领域的热门课题。科技研究表明可作为生物识别的生理特征和行为特征有很多种,例如生理特征一般包括掌纹、虹膜、人脸、语音、DNA(脱氧核糖核酸)等,行为特征有字迹、步态等,不同的生物特征在身份识别应用上各有优缺点,当前理论研究比较成熟甚至已经用于商业化的身份识别有以下几种:(1)指纹识别:指纹识别是最早商业化识别的身份识别技术,目前在刑侦,考勤,金融、保险,门禁以及电子产品都有广泛应用,几乎现在所有的智能手机都配备有指纹识别。由于指纹识别只需要指端一小部分的纹理,获取方便适用于大众化。相较于别的身份识别方法采集和处理过程简单,实时性好,且准确率也比较高。但是由于指纹是外在生理特征,易于通过指纹贴、断指来伪造,因此安全性不是很好。(2)虹膜识别:虹膜识别的及时性较好、准确率较高,但是虹膜的采集设备要求较高,随之而来的采集成本也提上去了,所以虹膜识别的推广普及率较低,应用范围较小另外虹膜也属于外在生理特征,因此也有易于假冒的风险。(3)人脸识别:人脸识别是最容易被别人接受的生物特征身份识别之一,并且人脸易于采集,识别率高,适用于大众化,但是由于原始数据量比较大,计算复杂度高实时性不是很好,年龄,表情,以及拍照的角度等因素也会影响识别率。并且还具有外在的生理特征普遍的共性缺点:易于仿冒,不利于隐私保护。(4)DNA识别:目前为止,DNA技术发展成熟且绝对可靠,是生物身份识别最稳定的生理特征。但是由于其对专业知识要求较高,并且采集过程复杂,采集成本昂贵,识别时间长。以上因素极大的制约了其应用领域和范围。目前只在几个特殊的领域应用例如亲子鉴定,刑侦破案在一些领域,指纹识别、虹膜识别、人脸识别和DNA技术已经满足部分市场的需求并且正式投入使用,但是这些个人身份识别技术都不是很完美,在某些方面都存在着一些缺陷。因此,研究者们一直都在努力寻找一种可靠性更高,适用性更加普遍的个人身份识别技术。心电信号(ECG, Electrocardiograph),是一种生理信号,主要描绘心脏起搏的电活动过程,反映了人体潜在的生理特征2。由于心电信号蕴涵了个体丰富的身份信息,满足于生物特征用于个人识别的重要特性,从近几年各大期刊逐年增加的论文量可知(如图1.13为仅在知网上的ECG身份识别期刊收录趋势),关于心电信号的个人身份识别的研究已经是身份识别技术领域的一个热门课题。图1.1 知网ECG身份识别发文量趋势1.2 心电信号产生原理心电信号是由心肌细胞除极和复极过程产生的如图1.24所示,伴随着生物电信号的变化,通过心电描记器从体表引出多种形式的电位变化的图形称为心电图(Electrocardiogram, ECG)。图1.2 除极复极过程心肌细胞产生心电信号需要具备以下条件:1) Na+离子和K+离子在心肌细胞膜的两侧的分布不均。2)由于细胞膜通透性改变导致Na+,K+离子发生跨膜运动。正常情况下,离子要发生跨膜移动需要具备以下条件:1. 细胞膜对不同离子的通透性发生改变;2. 细胞膜内外存在明显电位差;3. 细胞膜内外个离子的浓度不对称;4. 钠-钾泵技能能力。心电信号是心脏内数量繁多心肌细胞活动的综合反映,其中心肌细胞的除极与复极过程与心电信号的产生联系最为紧密。1.3 ECG身份识别的可行性一种生理信号能否作为生物识别特征,关键要看这种生理信号能不能满足以下四个条件:普遍性:心电信号具有普遍性,一个人从胎儿长出心脏开始直到死亡ECG伴随人的一生。唯一性:任何两个个体都有差异,由于每个人的心脏的大小,位置,胸腔结构等因素的影响,即使是双胞胎的ECG也不尽相同。如图1.5呈现的不同的个体以R波峰值点为对应标准前后各截取120个点可见每个个体的心电图差异性挺大的。图1.3 不同个体心电图对比稳定性:在没有外力损伤和突发疾病的情况下,心电信号在相当长的一段时间内不会发生变化稳定性好。如图1.331为一个个体在三十分钟内不同时间间隔下的心拍对比,图1.431为一个个体在六个月内不同间隔下的心拍对比图。从图上可以看到在此时间间隔内此人的心拍一直没有加大变化,图中微小变化肯能主要是由运动、坐姿,或者情绪引起的心率改变。虽然六个月的时间还是比较短,但从此仍然可以体现出心电信号的稳定性。图1.4 同一个体半小时内心拍对比图1.5 同一个体六个月间隔的心拍对比可采集性:心电信号的采集历史已经有了一百多年,采集技术非常成熟,并且目前可以用拇指电极进行心电信号采集,使用起来非常方便。由上可知,通过上述描述可知,ECG不仅能够作为生物识别信号,有很大的优势,首先ECG是一维信号,相比二维的人脸,虹膜,指纹等图像信息处理起来更容易,实时性更好;具有周期性,相比语音更有规律。采集历史悠久技术成熟,采集成本低下,相比DNA识别应用领域更广阔。另外由于心电信号产生于人体内部,相比指纹人脸不具有外部直观性,以此不易被仿制,有利于个体隐私保护。1.4 国内外研究现状近年来,利用心电信号对个体身份识别的关键技术有了一系列的进展6。一方面对于特征的提取有基于基准点特征与非基准点特征提取算法,前者依赖于时间间期内单一的心跳波形及波形的基本信息。后者依据从心电信号中提取的有效判决信息,而无需定位波形的基准点7-10。另一方面对于识别模型的建立,以信号的形态学信息、频率分量、关键点的指标等特征为依据,利用监督分类算法、基于统计学习理论的机器学习模型及神经网络模型对个体进行分类8-11。但是,随着数字信息时代的到来,数据规模的空前加大,数据从简单的处理对象转变为一种基础性资源,这大大增加了心拍数据的特征提取与分类的复杂度,尤其身份识别是一个类别空间规模巨大的问题。使得现有的身份识别技术手段难以满足识别精度和效率的要求,具体表现为以下三个方面:(1)基准点特征提取:基于基准点特征一般提取的是时域特征11,例如Lugovaya T.S.在自己创建的ECG-ID数据库上提取一个完整的心拍250维作为特征,然后采用PCA对特征降维,最后采用LDA在90个个体上取得了96%的分类准确率;MasakiKyos12采用P波宽度、QRS波群持续时间及PQ、QT间期共6参数为提取特征,采用马氏距离在9个个体取得100%的识别率;T.wshen13通过截取QRS波群波形然后对其采用相关性分析,最后在20个健康个体样本空间里取得95%的身份识别准确率,然后又采用RR间期,P、QRS, T等各个波段的宽度、间隔、峰值的幅值等参数作为特征最后利用DBNN(决策神经网络)取得80%的个体识别率,最后将上面两种特征相结合作为最终的特征取得100%的个体识别率;stevenA.Israe14-15通过提取P、Q,R,S,T波的峰值点,计算各个波段间期,再对以上波段起点、终点进行定位获得最小局部曲率,然后以这些参数为特征采用LDA(线性判决法)在29个个体取得81%的心拍识别率和100%的身份识别率。虽然提取的特征直观,有明确的意义,但是对数据的基准点的定位将会是一个巨大的工作量,有时还需要一定得专业知识,识别的准确率严重依赖于标注的精度。况且心电信号并不是严格意义上的周期信号,加上噪声的干扰,使得基准点的定位面临重大挑战。而且基于基准点特征提取往往只是关注局部信息,忽视信号的整体特质,使得识别精度提不上去。(2)非基准点特征提取:非基准点特征提取一般是将时域信号转换到另一个域上。例如CanYe16通过小波变换和ICA(独立成分分析)提取形态学特征,然后采用PCA对特征降维,最后采用SVM完成识别,最终获的99.6%的身份识别率; Chan17采用自相关系数和小波距离测量度作为特征在50个个体分类获得90.08%的识别率。非基准点特征提取一般采用的方法有频域特征18、小波特征19,矢量量化编码20,稀疏编码21-22,从而建立模式空间对ECG信号进行个体分类。虽然这些特征包含信号的全部信息,但是由于很多特征不具有个体鉴别性,对个体识别没有贡献。从而造成了数据冗余,使得系统的实时性不高。而身份识别的很多领域对系统的实时性要求较高如果不解决就会制约其应用范围。(3)由于识别的准确率与效率和特征的鉴别性和特征的维度密切相关,随着个体数目的增大,类别规模急剧增大,计算量将会急剧增加,则在特征提取与个体分类的过程中降低维度与运算量十分必要。因此如何解决身份识别最优特征子集选取问题,是实现高精度、高实时性的ECG信号身份识别的关键所在。在分类器的设计与选择方面,KNN是最简单的分类器,具有很好的鲁棒性,但是其不能很好的挖掘数据的区分性因此分类效果不是很理想。SoftMax分类器是LR(逻辑回归)多分类情形的推广,与LDA14-15(线性判决法)相比其为非线性分类器,更能适用于复杂场所,且有较好的分类准确率。支持向量机(SVM)是将低维特征映射到高维空间,解决了特征的维度灾难,采用高斯核的SVM23-26能很好的避免过拟合提高模型的泛化性。并且SVM有最优的类别间距提高了模型的鲁棒性。NN(神经网络) 40-41具有自动学习的能力,不仅可以进行有监督学习45-46也可以进行无监督学习34,具有别的分类器无可比拟的适应性,因此神经网络广泛应用在机器学习和深度学习中1.5 研究内容识别模型的分类准确率,鲁棒性和实效性是设计ECG身份识别系统的主要考虑因素。如何在保证识别的精度下提高识别模型的实效性和健壮性是本文的主要研究内容。为了提高身份识别的识别准确率,本文提取了多种形式的特征,通过实验发现组合特征比单一特征具有更好的分类准确率。对比多种不同模型的识别结果,发现采用具有最优类别间隔的SVM分类模型不仅识别精度,而且鲁棒性好,为了降低SVM训练时间,本文采用SMO算法加快训练的收敛速度和对SVM层次化来减少SVM模型的训练个数从而减少SVM的时间开销。由于采用组合特征,使得特征维度急剧升高,降低了系统的时效性,为了解决此问题,本文分别采用KPCA和特征学习网络予以解决,采用KPCA虽然降低了特征的维度,弥补了传统PCA现行映射无法从分表达信号间的内在联系。但是其原理说明了它并不适用于实际身份识别的场景。为了解决此问题本文采用特征学习网络进行解决,为了加快特征学习网络的训练,采用稀疏自编码网络进行初始参数确定,然后进行全局参数微调来提高网络的识别性能,最后采用L-BFGS来降低算法的时间和空间复杂度。1.6 论文结构本文论文组织结构如下:第1章为绪论,1.1节对本课题的意义及当前研究背景予以详细阐述,介绍了心电信号身份识别的优势和必要性;1.2节详细阐述了心电信号在生理学上的的产生机制;1.3节对心电信号身份识别的可行性进行了分析,通过分析可以看出它满足所有生物特征作为身份识别必须满足的条件;1.4节介绍当前ECG身份识别的国内外研究现状,结合当前情况分析了ECG身份识别目前尚未解决的问题;1.5节对本文主要的研究内容进行介绍;1.6节则给出了本文的文章结构组织安排。第2章为ECG身份识别基础知识,2.1节详细介绍了心电信号各波段的形态学信息和频率信息,以及对常见的干扰噪声的产生原因和频率分布予以分析和介绍;2.2节与2.3节和2.4节介绍了本文处理ECG身份识别需要用到的数学方法,分别介绍了主成分分析算法、支持向量机分类算法和稀疏自编码的理论知识;2.5节简要介绍本文所采用的用于身份识别的数据库:ECG-ID;2.6节对本章进行内容小结。第3章为采用组合特征建立最优类别间隔的ECG身份识别。3.1节对心电信号进行了预处理为后续的特征提取做准备,预处理包括 采用权值调整的软阈值小波进行信号去噪,通过二阶差分采用动态阈值法对R波波峰进行检测;3.2节对心电信号进行了特征提取,分别提取了形态学特征和小波特征;3.3节介绍具有最优类别间隔的SVM算法,并且采用SMO算法和层次型划分大大降低SVM算法的训练时间;3.4节在ECG-ID数据集上进行试验,发现SVM与其它的分类器相比往往具有更好的识别精度,并且采用形态学和小波的组合特征比采用单一特征识别精度更好;3.5节对本章内容进行小结。第4章由于采用组合特征,使得特征维度急剧升高,造成识别系统时效性降低,本文分别采用KPCA和特征学习网络予以解决。4.1节介绍了KPCA的数学原理,然后通过实验发现在不损失系统识别精度的前提下,采用KPCA处理的特征维度确实有了大幅度降低;4.2节考虑实际应用场景,发现KPCA并不适合实际生活中的ECG身份识别,本文采用特征学习网络予以解决; 4.3节对本章内容进行小结。第5章对本文内容进行总结与展望。5.1节给出了总结;5.2节给出了展望。9第2章 ECG身份识别基础知识第2章 ECG身份识别基础知识本章首先对正常心电信号各波段做了一个简单的介绍,为之后的心拍去噪,和心拍检测做基础;然后对ECG身份识别用到的数学工具例如PCA,SVM和神经网络稀疏自编码(SparseAutoEncoder)的原理进行了阐述;最后,对本文实验中用到的ECG-ID数据库进行介绍。2.1心电信号特点2.1.1 心电信号形态学特点一个典型的ECG波形如图2.1所示,心肌细胞一次完整的除极复极过程产生一个心动周期(或心拍)5,其由P波、QRS波群、T波和U波(有时也可能没有)组成。这些波形蕴含了大量的医学信息和个体差异性信息,为心脏疾病的诊断和ECG身份识别提供了基础。图2.1 一个典型心动周期P波:P波的形态上呈钝圆形,在ECG上表现不是很明显很容易淹没在噪声中。它的持续时间一般小于0.12s,在多种导联下其幅值一般小于0.25mV,P波的频率较小大部分分布在10-15HZ之间,P波相当与给心脏起振时的一个激励,心脏起搏器就是在心动过缓起搏无力的情况下安装的P-R间期:P-R间期的生理学意义是从心房除极开始到心室除极开始之间时间间隔。心率在正常范围时,在ECG上表现为从P波起点到Q波的起点之间的时间,PR间期为0.12-0.20s。在心律改变的情况下,PR间期相应的改变,例如在幼儿心律过大的情况下,P-R间期缩短。在老年人及心律过小情况下,PR间期变长,但无论心律怎么变,正常情况下P-R间期不超过0.22s。QRS波群:QRS波群是ECG波形中最显著的波群,起伏变化剧烈,在不同的导连下呈现不同的形态,例如在V1,V2导联下QRS波群呈现rS型,在V5、V6导联QRS波群可呈qR、qRs、Rs、R型,且无论哪种形态R波幅值一般不超过2.5mV。QRS波群有一个显著的特点是:同一个体在心率急剧变化的过程中,虽然QRS在形态上会发生改变,例如心率增加导致舒张持续时间缩短(心电图的基线片段)心室去极化间期变小(心电图ST段)和R波振幅衰减,但是QRS波群的持续时间保持稳定,以此个体的QRS波群的持续时间与其心率没有显著变化。QRS波群的频率范围主要分布在3-50HZ之间。R峰时间:R峰时间(R peak time)指的是从Q波的起始位置到R波峰值点位置之间的持续时间。一般情况下R峰时间不应该超过0.05s,这位寻找Q波的峰值位置提供了依据。S-T段:S-T代表的是从S波终点到T波起点这一段心电信号,代表心室缓慢复极化过程,在正常情况下S-T段可能有稍微的偏移,但是上偏移不能操过0.03mv,下偏移不能超过0.05mv。在心率改变的情况下S-T段的持续时间也会发生相应的改变。其频率范围一般在0.7HZ至2HZ之间。T波:在生理学上,心室的快速复极过程表现在ECG图上即为T波的位置,它的波形一般比QRS波群小,并且T波的持续时间受心律的影响比较大。当心动过速的情况下,T波持续时间变小,当心动过缓的情况下,T波的持续时间变长。T波的频率范围以般在10-15HZ。QT间期:QT间期代表的的是从Q波起点到T波终点这段心拍片段所持续的时间,它是心室完成一次从除极到复极所需要的所需要全部时间,并且QT间期严格受心率变化的影响,这导致心电信号并不是严格意义上的周期信号,一边情况下QT间期的持续时间在0.3-0.4s。U波:伴随着在T波之后下一个心拍的P波之前的有可能会出现U波,U波波形的幅值极小,常常淹没在噪声中,不易观测,目前为止其产生原理还未完全明了。2.1.2 心电信号频域特点通过对数据库中原始心电信号转换到频域进行频谱分析27-30,发现ECG信号的频谱主要集中在0.05-100HZ,其中大部分能量集中在10-70HZ之间。在心电图中变化剧烈占主导地位的QRS波群,通过频谱分析可以看出它的频率范围大约在3-50HZ之间,P波和T波相对于QRS波群的频率,其频率比较小一般在10-15HZ之间,T波的频谱主要分布在10-15HZ,S-T段的频谱在0.7-2HZ。心电信号属于弱生物电信号,在采集的过程中容易引入各种噪声,分析噪声的来源主要有:基线漂移、工频干扰、肌电干扰和运动伪迹等。其中基线漂移与运动伪迹频率比较低一般小于5HZ,确切来说,基线漂移50一般由呼吸引起主要频率在0.05-1HZ之间。肌电干扰带一般频率比高范围比较广,它的的频谱大约在30-300HZ,工频噪声一般在50或者60HZ左右。2.2 主成分分析(PCA)主成分分析(Principal Component Analysis PCA)32可以去除原始信号的相关性找到信号内在联系的主要影响因素,揭示事物的本质,从而使得问题简单化。具体来讲就是在保存数据原始信息的情况下把一个多变量的复杂问题映射到低维空间的从而使得问题简化PCA主要适用于参数线性相关比较大的数据。通过去除数据之间的相关性保留主要成分来达到降维的目的。而心电信号为时间连续信号。前后采样点相互关联。因此可采用PCA进行心拍特征处理,降低冗余。2.2.1 主成分分析(PCA)的基本思想及其数学模型PCA的几何解释:从几何上说PCA的原理是找到一组标准正交基使得去极化数据在上面的投影距离更大。也就是去极化数据映射到那组标准正交基上能够获得最大方差。如图2.1所示可以看出u1是数据变化的主方向,而u2是次方向,以此组成的新的坐标基。假设数据原始维度为n我们只选取前k个最大主方向的坐标值代替原始数据,这样既保存了原始数据的主要信息又达到降维的目的。图2.2 PCA示意图PCA的最大方差解释:有了PCA的几何解释,下面的问题就是如何找到该组标准正交基。在模式识别中,信号之间的方差越大,认为信号之间的分离度可能越大,通常分离度较大的数据,往往具有更好的可分性。而信号主要功率是由信号方差体来现得,在信息处理中一般认为信号占主要成分,故信号的功率一般比噪声的大。 如图2.1 信号在横坐标上的投影方差明显大于纵坐标上的投影方差,那么认为纵坐标上的投影是由噪声引起的。最好的 k 维特征可以认为是将原始信号的 n维样本点映射为 k 维后,在新映射的坐标里每一维上的样本方差都很大。假设原始数据每一维度都进行过去极化处理,即数据的每一维度的均值都为零。假设一个有m个样例的样本集X=x1,x2,x3,xm,每个样例的维度为n,第i个样例xi=x1i,x2i,x3i,xni在 u 上的投影,离原点的距离是xi,u即(uTxi或xiTu)。由于这些样本都经过去极化处理,因此投影到 u 上的样本点的均值仍然是 0。因此方差为:=1mi=1mxi,u2 (2-1) 展开为:=uT1mi=1mxi,xiTu(2-2)其中令:=1mi=1mxi,xiT (2-3)其中为样本集的协方差矩阵,故公式2-13可以简化为:=uTu(2-4)由于u为基坐标故u为正交单位矩阵。所以uTu=1所以原式可以写为u=u (2-5)由于为协方差矩阵,所以为是对称矩阵。由于实对称矩阵必有正交的单位为其特征矩阵,而u即为协方差矩阵的特征向量。为其对应的特征值。将原始样本映射到前k个最大特征值对应特征向量构成的新的空间,可得新的特征zi=(z1i,z2i,z3i,zki),其中:zji=ujT,xi (2-6)2.2.2 主成分分析(PCA)主要步骤在进行PCA数据处理时一般遵循以下步骤:(1)数据去均值:xij*=xij-xi i=1,2,n;j=1,2,m (2-7)(2)求协方差矩阵:设协方差矩阵为:=r12r13r21r21r1nr2nrn1rn1rnn(2-8)其rij为样本xi与xj的协方差rij=1mcovxi,xj (2-9)(3)求的特征值d和特征矩阵U(4)将特征值d和特征向量U组成的键值对,以特征值为关键值进行从大到小排列。(5)保留最前面k个最大特征值对应的特征向量,计算其保留原始信号的主成分ci。ci=dii=1ndi (2-10)(6)将原始特征映射到上述k个特征向量构建的新的空间中。输入:原始特征集X过程:1. 中心去极化处理for i : 1-n X(i,:) -= averagei2. 求取X的协方差矩阵Rfor i : 1-n for j : 1-n R(i,j)=/m3. 且协方差矩阵特征值和特征向量(U,d) = eig(R) 4. 将特征矩阵按特征值的大小从大到小排列argsort(U:d) 5. 选取特征值最大的前k个特征向量并转置U=U(:,1:k).T 输出: 求得降维后的特征更新XX=U*X以下是此过程的伪代码:2.3 支持向量机(SVM)支持向量机(SVM)是机器学习中一种具有最优类别间隔的有监督分类算法。它具有其他分类算法所不具备的优势,首先,寻找对特征空间划分的最优超平面是SVM的目标,因此它具有最优的类别间隔;再者,分类器的建立只与最难分的样本(这些样本被称为支持向量)有关,与大多数分离度比较大的样本无关,这样可以减少了样本空间,剔除冗余样本;最后,少数支持向量决定了最终结果,这样可以增加系统的鲁棒性。由于ECG身份识别是大类别分类问题,当类别数较大时,容易造成特征交叉使得分类准确率下降,而SVM具有最优类别间隔,因此比较适合该问题。2.3.1 支持向量机原理最优间隔分类器( optimal margin classifier),是指在对数据分类时,得到的决策面的一个性质,此性质为支持向量到决策面距离的几何间隔最大。 可以使用置信度对它来进行解释,对于线性可分数据,可以得到无数个决策面,直观上看,数据点距离决策面越远,决策面对数据点的预测可信度就越高。最优间隔分类器即是寻找一个决策面,使之对数据点预测的置信度达到最高,而SVM就是根据最优间隔决策面推导出来的。假设决策问题为分类问题,类别空间为Y=-1,1,找到一个超平面分割两个类别gz=signz (2-11)hw,bx=gwTx+b (2-12)w,b 可以确定一个决策超平面。为了保证该决策超平面具有最优的分类间隔需要满足公式2.4-3服从的约束:max,w,b (2-13)s.t. yiwTxi+b , i=1,2,mw=1 其中,|w|=1 保证了目标值是几何间隔。公式2.4-3的含义是通过改变 w,b,寻找一个最大的,使得对于训练集中所有的点到决策面的几何距离都大于该问题不易解决,因为该约束是非凸性约束,容易使结果收敛到局部最优,而无法获得全局最优解。 于是,我们对该问题进行转换,将非凸性的约束条件转移到目标函数中,使得问题变成凸性问题得到:max,w,b w(2-14)s.t. yiwTxi+b , i=1,2,m 为了使使公式2-14更为简单,进行等比例对 w,b 进行缩放,这样做不会改变决策面的位置。假设已经得到 w,b,那么就能求出通过缩放 w,b使得的值为1这样可以使原问题更为简单:minw,b 12w2 (2-15)s.t. yiwTxi+b1, i=1,2,m 将公式2-15写成拉格朗日乘子式的形式为:Lw,b,=12w2-i=1miyiwTxi+b-1(2-16)在求解时可以将原问题的求解过程转化为求解原问题的对偶问题,求解对偶问题时,首先要固定,以 w,b 为变量,最小化 L;最小化 L 时,将 L 对 w和 b 的偏导置为零 ,可以得到:wLw,b,=w-i=1miyixi=0w=i=1maiyixi(2-17)bLw,b,=i=1miyi=0 (2-18)将w和b带入拉格朗日乘子式可以使公式2-17和2-18得到简化:Lw,b,=12w2-i=1miyiwTxi+b-1(2-19)=12wTw-i=1miyiwTxi-i=1miyib+i=1mi =i=1mi-12i=1mj=1mijyiyj(xj)Txi 原问题针对参数 w,b 上做了最小化操作后,其对偶问题就要针对参数做最大化操作。将对偶问题中存在的约束条件作为最大化操作的约束条件,得到经过对偶化后的简化问题如下max i=1mi-12i=1mj=1mijyiyjxj,xi (2-30)s.t. i0 ,i=1,2,mi=1miyi=0 然而以上是针对数据为线性可分的情况下进行的建模,当数据是线性不可分时,就需要引入松弛因子来使得问题可解,此时问题的模型为:minw,b 12w2+Ci=1mi (2-31)s.t. yiwTxi+b1-i , i=1,2,mi0 , i=1,2,m 将2-31改写成拉格朗日乘子式的形式为:Lw,b
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024桂林信息科技学院辅导员招聘笔试真题
- 翻译(俄语)岗位考试试卷及答案
- 2025年航空制造和材料专用设备项目合作计划书
- 2025年聚烯烃类线缆项目建议书
- 2024年杭州市委党校萧山区分校招聘真题
- 2025年吉安县农业产业发展中心人员招聘笔试考试试题【答案】
- 消费偏好变迁下的产品创新
- 湘艺版音乐一年级上册牵牛花当喇叭教案
- 2025年装订活动及印刷用附件项目建议书
- 2025年电动护理床合作协议书
- 公司年终答谢宴策划方案
- 2025年成人高考高升专语文全真模拟试卷(含作文范文)真题演练
- 舞台租赁协议模板与舞台设备租赁合同3篇
- T/CIES 035-2024生鲜食用农产品照明光源显色性规范
- 湖北中考英语真题单选题100道及答案
- 二维材料光电子器件集成-全面剖析
- 母婴店转让协议书范本
- 《赵丽颖概述》课件
- 2025-2030中国医疗IT行业市场深度调研及竞争格局与投资研究报告
- 沼气补充合同协议
- 豪爵购车合同协议
评论
0/150
提交评论