身份识别技术的发展趋势_第1页
身份识别技术的发展趋势_第2页
身份识别技术的发展趋势_第3页
身份识别技术的发展趋势_第4页
身份识别技术的发展趋势_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

身份认同技术的发展趋势目前,随着电子商务和电子政务的发展,随着GSM、CPRS、CDMA、WLAN等无线移动通信技术和应对业务的发展,身份认证理论和技术在不断成熟的基础上,出现了一些研究热点。2.1图像密码技术传统的口令认证技术主要以文本口令为基础,大多数安全系统要求选择长而复杂的口令来保证口令的安全性,这种文本口令提高了安全性,但难以记住,输入不方便,很多用户都很弱图像密码技术使用由一系列图像组成的集合而不是文本字符串集合,并且用户通过从图像集合中选择p个图像来合成自己的密码。 认证系统在认证时给予t个图像,用户选择自己生成密码时的p个图像。 由于图像中包含的信息远远大于文本,实现自动词典攻击是很困难的。 而且,这个密码难以记录,难以与人共享,安全性增加。该系统的安全性是从t个图像中选择p个图像密码的组合数的大小,为了提高安全性,应该设为组合数/(T-P )! p! 尽量增加。2.2生物特征识别技术上述传统的认证方式都是基于一切。 你知道什么? 或。 我爱你。 的验证手段仅仅是说明用户具有登录权限,并不是说明用户是伪造者,而是直到生物认证技术的出现和普及为止。 比尔盖茨断言,生物识别技术将是未来几年IT产业的重要创新。 越来越多的个人、企业和政府承认基于当前身份、密码和智能卡的身份识别系统不够,生物特征识别技术在未来身份识别中占有不可或缺的地位。生物认证技术是通过提取人体的生物特征数据或行为的特征属性来进行认证的技术。 生物学特征是通过人体特有的测量所得到的,可以利用的身体和行为特征,分类为身体和行为特征。 具体特点为:DNA结构,指纹、虹膜、视网膜、脸型、头发硬度等行为特点为:色调、标志、步态等。 生物识别技术的出现,可以解决真正意义上的身份证明,江林升教授提出的网络化试验中使用实时的脸部识别技术,身份证明的效果显着,但是实现这种技术所需的硬件、网络带宽等要求很高,因此难以实现,普及也比较困难2.3基于数据挖掘的身份随着数据挖掘技术的出现,产生了基于数据挖掘技术的身份技术。 生物识别技术不需要个人的生物特征,仅凭个人的行为特征,克服了传统身份单一性的缺点。 它挖掘人们的历史行为,获得人们的行为模式,根据相应的预测算法,辨别身份的真实性。目前较热的Web挖掘不仅能为网站发掘有价值的信息,还能为网站安全提供安全参考。 基于数据挖掘技术的异常数据采集、用户可靠行为分析等应用也已经成熟,可以验证用户身份的真实性基于三数据挖掘的个人识别信息自动识别模型基于本文提出的数据挖掘技术的个人识别信息自动识别模型如图1所示。该模型主要由基于正则表达式的信息匹配、文本预处理、权重计算、特征语降维和机器学习四部分组成。 其中基于正则表达式的信息匹配主要是易于从电子邮件快速匹配包括个人身份信息的电子邮件的模块,即文本预处理,用于将基于非结构化人类自然语言的文本转换为机器可识别文本的权重计算和特征降维, 机器学习(即为分离的词语执行一定的处理以便进行机器学习)训练特征向量,最终形成个人识别信息识别模型。3.1正则表达式目前有很多匹配个人身份信息的算法,文献2提出了一种基于正则表达式的邮件类协议识别和跟踪协议识别方法,通过提取协议应用特征和关键词,建立了相应的正则表达式。 正则表达式是用于查找字符串中是否包含子字符串、替换匹配子字符串或检索匹配子字符串的工具,是用于模式匹配和替换的工具,在Linux中广泛使用。 程序(如Vi编辑器、Awk和Sendshell )基于正则表达式。 另外,正则表达式超出了语言和系统的界限,广泛应用于计算机程序,用户制作基于正则表达式的匹配模式,将这些匹配模式与web数据输入等数据进行比较,根据比较结果执行适当的操作。 正则表达式可用于匹配和替换字符串模式。 最简单的模式是要搜索的字符串。 模式在处理文件的作业中是非常一般的,句子select * from table1where name=“tomsmith”的字符串“Tom Smith”是简单的模式。 在实际应用中,用户寻求更一般且更一般的模式。 正确使用正则表达式进行数据库查询不仅可以降低查询语句的复杂性,还可以简化错误语句的修复。 本文运用正则表达式进行个人身份信息筛选,因为它简单易用,同时也是正则表达式表达的匹配能力。3.2特征词的提取与降维用正则表达式匹配的电子邮件的主题和内容作为文本形式的文件被存储,由于变换的文件全部没有结构化,因此不利于计算机自动解析处理,因此需要对文本实施一定的预处理。 基于向量空间模型的方法提取特征词。 其基本原理是用于以文档为特征项的权重为分量的向量表示:(W1,W2,Wn )的简化,其中Wi是第I个特征项的权重。 权重采用归一化的相对词数,其计算方法TF-IDF式:其中,W(t,d )是单词t在文本d中的权重,tf(t,d )是单词t在文本d中的字数,n是训练文本的总数,nt是训练文本集合中出现的t的文本数,分母是正规化因子。 通过上述处理和计算,文档库可表示为文档矩阵:其为m*n的术语在式(2)中,m表示文档库所包含的所有不同词语的数量,即ij表示通过式(1)计算出的W(t,d )为第I个词语出现在第j个文档中的权重。 不同的词对应矩阵a的不同行,每个文件对应矩阵a的列。 通过上述过程产生的向量空间是高维向量空间,其可以达到几万维或几十万维。 因为在高维特征空间中进行训练或分类是有问题的或困难的,所以有必要执行降维处理以根据训练样本的数量来压缩特征维的数量。 降维后可消除噪音,避免过去的学习现象,提高分类效率和分类精度。 本文采用相互信息的特征选择方法,算法的基本思想是,特征语t和类别c的相互信息越大,与特征t中包含的类别有关的鉴别信息越多。 算法的基本过程基于表达式为每3360个词计算词与类别的互信息量:其中:在此,N(t,Ck )是t词在Ck中出现的比重,d是该类的训练文本数,N(t,dI )dI中的t的词数,v表示总词数,Ntj,diDi=1=表示该文本类中的位置有词的词数之和。 P(t )表示词在所有训练文本中的比重。 计算公式相同,但d的意思是训练整体的文本数。 根据式(3)的计算结果,留下值最大的前m个特征来降维。 m值的确定通常在给出初始值后,根据实验测试和统计结果逐渐确定最佳值。 在预处理文本之后,每个文本可以表示为d=(w1,w2,wm ),其中n个文本被转换为m维单位向量。3.3机械学习分类是数据挖掘和机器学习领域的主要任务。 分类需要解决的问题是对某些事件或对象进行分类。 其特征是首先定义不同的类别,由预先分类的样本构成训练集,对各类别进行正确的描述,创建分析模型,挖掘分类规则,对其他数据库中的数据进行分类。 用于分类分析的技术很多,典型的方法有作为统计方法的贝叶斯分类#机器学习的判定树摘要分类#神经网络的后方传播分类等。 另外还有K-最近邻分类、遗传算法、粗糙集和模糊集方法、支持向量机等分类方法。 本文构建的个人识别信息识别模型以分类技术为基础。 具体而言,将个人识别视为文本的分类问题,利用支持向量机和Lingpipe。 用分类算法实现。 支持向量机是一种基于统计学习理论的机器学习技术,在解决小样本、非线性问题中显示出独特的优势,根据结构风险最小化原则,具有较强的学习能力和泛化性能,能够很好地解决小样本、高维度、非线性、局部极小等问题,能够有效地进行分类、回归、密度估计等由于这些优点,支持向量机成为机器学习领域的研究热点。 Lingpipe是Alias开发的非常强大的自然语言处理软件包。 其中包括的模块主要包括主题分类、名称实体识别、词性标记、句子问题检测和语法检测。等等。 查询拼写错误(QuerySpellChecking )、兴趣短语检测(InterestingPhraseDetection )、聚类(Clustering )等。 Lingpipe展示的不仅仅是套件从基本的文字语言模型到语义水平的倾向性发掘,可以找到很多有关自然语言处理的信息,从传统研究到最新动向,都有很多参考价

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论