基于量子自组织神经网络的DeepWeb分类方法研究_图文_第1页
基于量子自组织神经网络的DeepWeb分类方法研究_图文_第2页
基于量子自组织神经网络的DeepWeb分类方法研究_图文_第3页
基于量子自组织神经网络的DeepWeb分类方法研究_图文_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 5. 3 距 离阈值 对分类误差的影响 对 Deep Web 查询接 口主 题进 行分 类时 , 如 果测 试样 本 取得的 获 胜 神 经 元 并 不 在 获 胜 神 经 元 集 合 中 , 那 么 D R Q SOF M _Classificat ion 算法将根据距 离阈值 来 计算与该 测 试样本获胜神经元距离最小的神经元编号 。从上一 个实验的 结果来看 , 距离阈值 的选择对于分类结果具有一 定的影响 , 尤其当获胜神经 元远离 类别 簇中 心时 , 选 择不 当可 能会 造 成从其 他类别簇 中误选最近 的获胜神经 元 , 从 而导致分 类结 果错误 , 影响精度。本实验 使用

2、 M SE 作为误 差函数 , 其 中 t k 表示样本的实 际 领域 类 别 , ak 表 示由 算 法 1 输 出 的分 类 结 果 , 目标 误差设为 0. 01 。实验分别在 = 1, = 2, = 3 三 种情 况下进行 , 图 9 显示了相应的误差曲线。从图中可以看出 , 当 = 1 时 , 在训练初期 , 误差迅速下降 , 此时 各个类 别簇之间 的 边界十分明显 , 分类精度并未受到影响 , 迭代次数超 过 500 次 时 , 误差减小的速率变缓 , 各个类别的获胜神经元开 始出现交 叉 , 最终在迭代次数达到 1421 次时 误差减 小到 目标值 , 算 法 收敛。 = 3

3、对应的曲 线表 明 , 在迭 代过 程中 , 由 于距 离阈 值 过大 , 造成在训练的过程中获胜神经元的误选 , 因此 误差曲线 比较粗糙 , 最终 M SE 误差 为 0. 0182766, 没 能达 到目 标误 差 值 , 算法 未收敛。当 = 2 时 , 误差 曲线 相 对平 滑 , 并 且在 第 961 次迭代时达到 了目标 误差 值。以上 结果 表明 , 距 离阈 值 的理想取值为 2, 且算法收敛的 概率较高。 率为 93. 97% , 平均精度为 94. 10% , 其中在 A irfar es, Book 和 Job 领域的 查全 率、 精度都 在 95% 以上 , 在 Ca

4、rR ental, M usic 领域相对较低 , 但也 达到 90% 以 上。分析样 本可知 , CarRen2 tal 和 Auto mobile 领域的 特征 空间 重合 区域 较 多 , 因此 对 分 类结果产生了一定的影响。而 M usic 领域的样本通常源于 综 合性信息网站 , 这些 网站集 图书、 音像制 品、 玩 具和家 电等 商 品信息于一体 , 查询表单中包 含了一些非 M usic 领域的特征 , 从而导致了 分类 精度 下 降。与 SOF M 相比 , DR 2Q SOFM 的 平均查全率和平均精度分别 提高了 4. 38% , 5. 16% ; 与 SVM 相比 ,

5、 两值分 别提高了 3. 92% , 5. 36% 。 以上结 果表明 , DR2 Q SO FM 综合选择 5 种不同位置的特征 和样本的领 域知识 参 与 Deep Web 查询接口 主题的 分类 过程 , 对分 类 精度 和召 回 率产生了积极的影响 , 与 SOF M 和 SV M 相比其 分类 效果 得 到一定的提高。 结束语 实验结果表明 , 提出的 RankFW 权重 计算方 法 综合考虑了不同位置的文本在 Deep Web 接口主 题分类中 的 不同影响 , 所选文 本特 征更加 符合 领域特 点 ; DR 2Q SOF M 在 适当的 距离阈值下 能够使特征 在竞争层 上的映

6、射更 加集中 , 簇边界更加明显。在 T EL28( Ex 数据 集上 的实验 表明 , DR2 Q SO FM 与 SOF M , SV M 相 比在查全率和精 度上具 有一定 的 优势。 参 考 文 献 1 2 3 申德荣 , 聂铁铮 , 余恩运 , 等 . 支 持 Web 深层数 据库网格的部 分 关键技术的研究 J . 计算机科学 , 2007, 34( 8 : 123 2 125 赵朋朋 , 崔志 明, 高岭 , 等 . 关于中 国 Deep W eb 的规 模、 分布 和 结构 J . 小型微型计算机系统 , 2007, 10: 179921802 马军, 宋玲 , 韩晓晖 , 等

7、 . 基于网页上下文的 D eep Web 数据库 分 类 J . 软件学报 , 2008, 19( 2 : 2672274 黄健斌 . 基于条 件概率图 摸型的 D eep Web 数据 抽取与 集成 研 究 D . 西安 : 西安电子科技大学 , 2007 5 Gao Ling, Zhao p eng2 peng, Cui Zhi 2m ing. A ut omat ic Judgemen t of Deep Web Q uery Int erf aces J . Comput e t echnol ogy and de2 velopment , 2007, 17( 15 : 148215

8、1 6 Xu H e2xiang, Zh ang Cheng2 hong, Hao Xiu2lan, et al . A M achine Learning A pproach Classif icat ion of Deep Web Sources C M Fou rt h Int ern at ional Conf erence on Fuzzy S yst em s and K now2 ledge D iscovery. 2007, 4: 561 2565 7 Xu H e2xiang, Hao X iu 2 lan, W ang Shu2yun , et al. A M et hod

9、 of Deep Web Classf icati on C M Proceedings of t he Sixt h Int erna2 t ional Conf erence on M achin e Learn ing and Cybernet ics. 2007: 4009 24114 8 Lin Pei 2gu ang, D u Y i 2 bing, T an Xiao2h ua, et al . Research on A u2 t omat ic Classif icat ion f or Deep W eb Q uery Int erf aces C M In2 t erna

10、ti on al S ymposium s on Inf ormat ion Process ing. 2008: 313 2 317 9 Li Zh i 2t ao, Liu Q uan, Cui Zhi2ming, et al. A M et hod t o A ut o2 m at ically D iscover and Class ify D eep W eb D at a Source U sin g M ult i 2 Classif ier C M 2009 W orld Congress on Compt er S cience and Inf ormat ion Engin

11、 eering. V ol. 3, 2009: 736 2740 10 IC TCLA S O rg EB/ O L . ht t p: M ict clas. org, 2010 26 229 11 Seb ast iani F. M achin e learn ing in au tomat ed t ext cat egorizati on J . A CM Comput ing Surveys, 2002, 34( 1 : 1 247 图9 不同取值的误差曲线 4 5. 4 D R 2Q SO FM 的分类性能 本实验目的 在于 检验 DR 2 QSO FM 的 分类 能力 , 采用

12、召 回率和精度作为性 能评估 标准。模型 网络结 构为 282625, 竞 争层神经元采用栅格排列 , 初始学习速 率为 1, 初 始邻域半 径 为 3, 距离阈值为 2 。从 T EL28( Ex 8 个领域中分别随机 抽出 三分之一 ( 共 562 个 的的 SF 样本作为测试样本 , 其余三分之 二 ( 共 1124 个 的 SF 样 本 作 为 训 练 样 本。 实 验 结 果 与 SOF M , SV M 进行比较 , SOF M 采用和 DR 2Q SOF M 相同 的网 络结构 , SVM 采用默认设置。实 验进 行 3 次 , 取 3 种方法 所 得的分类精度和召回率的平均值作

13、为最终 结果 , 如表 1 所列。 表1 Do main Airf ares H ot el C arRent Bo ok Mov ie Music Jo b Auto A vg DR2 Q SO FM 与 S OFM , S V M 的分类性能对比 DR 2QSOFM R( % P( % 95. 33 94. 41 92. 67 96. 52 91. 04 93. 83 96. 56 91. 39 93. 97 96. 63 96. 07 91. 57 95. 18 92. 40 90. 92 97. 63 92. 43 94. 10 SOF M R( % P( % 90. 20 91. 13 88. 37 89. 52 87. 44 90. 12 92. 45 87. 51 89. 59 88. 33 89. 24 86. 73 92. 84 89. 17 87. 53 89

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论