




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 / 9浅谈基于内容管理系统中内容分类实现方法的研究本问来自免费范文网,主要介绍管理学其它相关论文范文,以下是论文开始:论文关键词:内容管理系统内容分类方法 论文摘要:随着信息量以爆炸般的速度在急剧增长,当前在信息管理方面所面临的最严峻的挑战不再是信息匾乏,而是缺少时间和精力来对如此众多的信息进行分析、归类与操作。探讨了在内容管理系统中内容分类的实现方法。 0 引言 随着信息量以爆炸般的速度在急剧增长,当前在信息管理方面所面临的最严峻的挑战不再是信息匾乏,而是缺少时间和精力来对如此众多的信息进行分析、归类与操作。因此内容的分类不仅有利于更快捷地实现内容的查询,而且有效的分类方法同样有助于对纷杂的信息进行组织与归类,有助于人们缩小查询的范围,节省时间和精力。可见内容管理对内容分类的要求是十分必要的。 2 / 9现在分类的方法大体上分为人工分类、自动化分类以及人机结合的混和方法三种。显而易见,人工分类是最容易被想到的。但是这种方法显而易见的过多的依赖于个人,且成本太高。并且当内容量过大的时候,单单依靠手工方法进行分类也不太现实,很容易成为系统的瓶颈。因此,人们更加关注于自动化分类方法。现在主要应用的自动化分类方法主要有以下几种方法。 1 自动化分类方法 基于规则的分类方法:这种方法需要由对相关内容极为了解的专家创建与维护一套规则用于将某篇文档划分到某个类中。专家使用 If-Then 的规则形式组织归类的相关概念。规则能够支持复杂的操作,而且建立在规则之上的决策树也相当准确。规则衡量了一个给定的文档是否符合某个主题的判断标准。显然,建立这样一种规则并不容易,并且专家对相关内容知识的了解程度也相当重要。 3 / 9基于自然语言的学习算法:该方法利用神经网络的方法,通过分析文档的内容区分文档并将文档进行分类。由于这种方法具有较高的容错能力及语言独立的操作性等特点,正在成为一种相对稳定的分类方法。这种方法通过选择文档的表示方式或可能的格式,利用神经网络实现对内容的分类,可以被应用到文档或文本片断的分类中去。 语义分析:这是以从文档中提取关键的概念作为分类与检索的基础。语义分析过程共分为两个阶段,第一个阶段的工作主要集中于一系列的语言算法以及语言独立的统计技术的实现。当用户对系统中收集的信息进行查询时则触发该过程的第二阶段,系统可以根据用户的查询需求以及可视化的分类结构呈现给用户个性化的、相关的查询结果。 模式匹配:这种方法是指寻找经常聚在一起的一组词或词组的过程。一个主题可能通过语义分析进行处理。其他的识别模式还包括词在文档当中的出现频率、词的位置、词与词之间的亲近程度以及相关词的聚类。模式匹配方法具有语言独立的特点。 4 / 9聚类分析:这是通过识别内容中的共性元素将内容划分为相似内容子集。每篇文档可以看作一些内容的合集,聚类本质上就是将每一袋中的相似内容聚为一组。 以上每一种分类方法都有其自身的优点与不足,没有哪一种单一的分类方法是十全十的。每种方法都有其适用的方面。所以,现在人们往往采用混合的分类方法。下面我们着重分析一种基于神经网络的分类方法。 2 基于聚类分析的分类方法 聚类分析是一种解决分类问题的探测性的数据分析方法。它的目标是把人、事务、事件等聚为组或类,每一类描述它的对象所属的类。该方法是通过建立一个对象间的相似性度量,使得类间的相似性尽量小,而类内的相似性尽量大,从而得到在某种判别准则之下的最佳分类,这种分类的结果未必使用简单的概念就可以描述的。换言之,其分类的标准并不是显而易见的。 5 / 9假设特征向量由 n 个特征参数 x,x,x 组成聚类分析按照一定的准则,将这些特征向量点划分为若干个群。聚类也用于将一个内容的集合划分为子集,也就是类。每一类内的对象之间都比该类对象与属于其它类的对象之间具有更大的相似性。 芬兰学者提出一种可以使得输入信号映射到低维空间,且保持相同特征的输入信号在空间上对应邻近区域的学习方式,称为 Kohonen 自组织特征映射(self-organizingfeaturemaps,SOFM)也称 Kohonen 自组织神经网络。Kohonen 自组织神经网络是一种前馈型网络。在这种类型的神经网络中各神经元接受前一层的输入,并输出给下一层,没有反馈。节点分为两类,即输入单元和计算单元,每一计算单元可有任意多个输入,但只有一个输出。前馈网络可分为不同的层,第 I 层的输入只与第 I-1 层的输出相连,输入和输出节点与外界相连,而其它中间层则称为隐层。 前馈型网络,由于 Kohonen 自组织特征映射网络除了具备以下主要性能,因此采用 Kohonen 自组织神经网络6 / 9来实现内容的聚类。对输入数据有聚类作用,并可用聚类中心代表原输入,起到数据压缩作用。保持拓扑有序性,输入中特性相似的点映射后在空间上是邻近的。分布密度匹配,原数据中分布密的区域在映射图上对应较大的区域,分布稀的则对应的区域也较小。 自组织网络采用没有指导的学习过程,不必给定应有的输出,训练数据只有输入而没有输出,网络只靠输入模式本身的特征,根据一定的判断标准自行修改单元连接的强度,使权矢量在输入向量空间中的分布近似于样本的分布。这也就是为什么采用自组织神经网络来解决内容的分类问题的原因和依据,因为在对内容进行聚类前,可以分成什么样的类以及不同的内容归属的类别本来就是未知的。 3 实现的步骤及方法 在此研究一种利用智能技术得到内容的分类结构的7 / 9方法。该方法通过人或统计工具对文本内容进行预处理,将文本内容以标准化的特征向量表示,然后利用 Kohonen自组织特征映射网络实现内容的自动聚类。现将对文本内容进行聚类的方法与步骤简单描述如下: 用标准的矢量形式表示文本内容。要实现内容的自动聚类,首先要把待聚类的内容集用标准的矢量形式表示出来。由于给不同的文本内容建立关键字是可行的,而且关键字又是最易于代表文本内容语义的,因此可以通过文本内容的关键字作为中间桥梁将内容表示成标准的矢量形式。用标准的矢量形式表示文本内容,这是利用神经网络实现内容的自动聚类的基础。 选择样档。Kohonen 网络采用的是无监督学习算法,因此在通过该网络对内容进行聚类前需要选择样本内容作为训练集,使自组织网络学习如何对内容进行聚类。样本的选择应当具有代表性与广泛性。 初始化网络的输入节点、输出节点以及连接权值。将以 n 个关键字或文本特征表示文本内容的 n 维矢量作为输入向量,同时生成含有 m 个输出节点的二维映射。 8 / 9将代表文本内容的特征向量输入到网络中。 在输出节点中选择最佳匹配节点。计算输入节点与所有的输出节点权值的接近程度,选择距离最小,即输出节点权值与输入值最接近的节点作为获胜节点。 调整权值。调整获胜节点及其邻域的节点的权值,从而使这些输出节点的权值与输入值更接近。 标注代表不同类的输出节点。不断重复以上过程,学习算法结束后,各输出节点的权值显示了聚类中心,将不同的类加以标注,以示区分。经过训练的网络可以用上述同样的方法对新的文本内容
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年低压电工考试题库及答案
- 2025年铁路安全教育培训考试试题及答案
- 2025年教师师德师风及法律知识网络知识竞赛题库及答案
- 2025年衡阳市雁峰区(中小学、幼儿园)教师招聘试题及答案
- 合成材料制造的绿色技术创新考核试卷
- 2025年二级造价工程师考试《建设工程造价管理基础知识》真题汇编及答案详解
- 废弃食品垃圾处理与资源化技术考核试卷
- 热环境对压力容器操作员生理和心理的影响考核试卷
- 太仓市双凤镇新湖明秀五金制品厂迁建五金制品项目报告表
- 安全文化建设在企业安全技术创新中的应用模式研究考核试卷
- 市场专员笔试试题及答案
- 江苏岚泽能源科技有限公司岚泽大丰港年产30万吨绿色甲醇项目环评资料环境影响
- 大班早期阅读培训
- 2025中国南水北调集团新能源投资有限公司中层及职员社会招聘笔试参考题库附带答案详解
- 2025年精细化工技术考试试卷及答案
- 广西大学附属中学2024-2025学年高一下学期期中考试英语试题
- 食品生产企业食品安全培训
- 2025至2030中国彩色墨粉行业项目调研及市场前景预测评估报告
- Q-GDW 10831.1-2025 飞行器展放初级导引绳施工工艺导则第1部分:多旋翼无人机
- 公司关键岗位管理制度
- DB13(J) 148-2012 建筑地基基础检测技术规程
评论
0/150
提交评论