基于WEB文本挖掘的统计分析VB+ACCESS.doc_第1页
基于WEB文本挖掘的统计分析VB+ACCESS.doc_第2页
基于WEB文本挖掘的统计分析VB+ACCESS.doc_第3页
基于WEB文本挖掘的统计分析VB+ACCESS.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于WEB文本挖掘的统计分析VB+ACCESS 基于WEB文本挖掘的统计分析-用户兴趣建模与中文网页自动分类摘要本文介绍了运用Web文本挖掘技术,在Windows平台上实现用户兴趣建模和智能网页推荐系统的方法和过程。首先简要介绍了目前国内外的研究动态和水平,然后介绍了兴趣模型的相关知识,主要包括:web文本挖掘的分类,web文本挖掘的静态和动态统计分析,兴趣模型的发现与建立,用户兴趣模型的获得与实现,中文分词技术等内容。在简单介绍现有算法的基础上,经过实践调查统计,根据课题的需要和实际情况,提出1种相对简单的用户兴趣模型的建立和实现的方法。并用VB6.0和Aessxx实现了相关功能。 关键词:Web文本挖掘;网志分析;统计分析;用户兴趣模型;中文分词StatandAnalyseBasedonWebTextualMining-UsersInterestsModelingandChinesePagesAuto-ClassifyAbstractInthispaper,introducedthemethodandprocessofhowtorealizeUsersInterestModelingandChinesePagesCommendSystemonWindowsplatform,whichusesWebTextualMining.Inthebegining,weintroducetheresemblethesissresearchdevelopmentsandlevelathomeandabroad.Then,weintroducethecorrelationknowledgeofinterestmodeling,whichincludetheclassesofWebTextualMining,staticanddynamicstatisticandanalyzeofWebTextualMining,detectandbuildtheinterestmodel,obtainandrealizetheusersinterestmodel,ChineseSplitWordtechniqueetc.Forthetasksrequirementsandpracticalsituation,afterintroducedsomealgorithminexistenceweproducearelativesimplewayofusersinterestmodelingandtherealizemethods,byinvestigateandstat.ThesystemsrealizetoolisMicrosoftVB6.0andMicrosoftAessxx.Keywords:WebTextualMining;Web-loganalyse;Statandanalyse;UsersInterestsModel;Wordsplit 目录1前言11.1课题背景11.2国内外研究动态和水平11.3本文的主要工作21.4课题研究的意义31.5论文的大致结构32WEB文本挖掘42.1数据挖掘42.1.1WEB挖掘的概述及分类42.1.2Web挖掘的任务52.1.3Web数据挖掘几个步骤62.1.4Web数据挖掘的分类72.2WEB文本挖掘93兴趣模型的发现与建立113.1现有算法介绍113.1.1用户主动提供113.1.2相关反馈123.1.3现有兴趣发现算法的缺陷133.2静态和动态相结合的方法133.2.1Web访问动机的静态分析143.2.2Web访问动机的动态分析173.3结论与模型的建立173.3.1根据隐式反馈6建立和更新用户兴趣模型174用户兴趣模型获得与实现224.1COOKIES224.1.1Cookies的概述及属性224.1.2Cookies的存取方法234.1.3Cookies安全需求和造成的安全威胁244.1.4Cookies的作用254.2收藏夹分析264.1.1获取“收藏夹”文件264.1.2收藏夹的目录结构284.1.3如何分析网志中的页面284.3中文分词技术介绍304.3.1中文分词和对兴趣收集的重要意义304.3.2CSW5.0中分词组件简介324.3.3本系统调用CSW5.DLL示例334.4VB中的钩子344.4.1钩子的概述和分类344.4.2VB中钩子的实现365中文网页自动分类技术385.1文档自动分类算法的类型385.2实现中文网页自动分类的1般过程395.3影响自动分类的关键因素405.3.1分类体系405.3.2特征提取415.3.3分类算法介绍416系统设计与实现426.1系统可行性研究426.1.1背景426.1.2可行性研究的前提426.1.3要求426.1.4进行可行性研究的方法426.1.5设备426.1.6局限性436.1.7技术条件方面的可行性436.1.8社会因素方面的可行性436.1.9结论436.2需求分析436.2.1任务概述436.2.2需求规定446.2.3数据管理456.2.4故障处理要求456.2.5运行环境规定456.3总体设计456.3.1系统实现方案456.3.2功能模块分解456.3.3数据库设计466.4详细设计476.4.1结构程序设计476.4.2人机界面设计536.5系统实现537结论54致谢55参考文献56附录1CSW5.0分词软件DLL介绍57附录2汉语词性对照表北大标准/中科院标准61附录3部分程序源代码63 1前言1.1课题背景近年来,Inter的网络和应用都在以惊人的速度在发展。根据中国互联网络信息中心xx年1月公布的中国互联网络发展状况的统计数据,在中国,上网计算机总数达到2083万,上网用户总数达到5910万,站点数约为371600个。而就全世界而言,上网用户数达到数亿。同时,各种各样的网络应用早己走进各行各业,尤其是远程教育、电子商务、搜索引擎等等。但是由于Inter是1个开放、分布的信息空间,它本身所固有的3个特点己经明显地阻碍了人们充分地使用Inter上的信息资源:1(1)Inter上可利用的信息是无组织的,多种结构形式的,并且分布在全世界的各个站点上;(2)数据和服务的类型以及数量每天都在大量增加,因而信息可利用性和可靠性也在不断地变化;(3)由于信息源的动态性以及潜在的有用信息的更新和保存问题,信息常常是模糊的:有时甚至是错误的。由于上述原因,在Inter上进行信息检索经常会出现“信息过载”,即网上的信息是海量和无组织的,易发生“资源迷向”,即用户不知道如何更加有效地利用资源等问题。人们迫切需要1些智能的和个性化的工Inter系统,能学习和了解用户的兴趣爱好,成为用户的助手或秘书,能帮助用户从浩如烟海的工Inter信息中快速而准确地搜索出他们感兴趣的内容:能为用户提供主动的、最新的信息服务和推荐;能帮助用户实现个性化的远程学习等。而这些系统的基础都离不开1个“个性化的用户兴趣模型”。电子商务(E-Business)发展到现在,它提供的高效和安全的服务,让人们体会到了Inter应用的神奇。但是,电子商务服务提供商和用户同时对它的提出了新的要求:如何才能象现实生活中的商家和客户交流1样,商家为客户推荐适合其兴趣爱好的商品和服务,这在现实生活中,是靠商家与客户的多次不同形式的交流达到的,然而,通过什么的途径,能够在Inter上,在商家与客户没

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论