已阅读5页,还剩58页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于分层的个性化推荐软件系统项目可行性研究报告基于分层的个性化推荐软件系统项目可行性研究报告目录一、总论41.1. 项目的主要内容及技术原理简述41.1.1. 主要内容41.1.2. 技术原理简述41.2. 项目的目的和意义71.2.1. 项目的目的71.2.2. 项目的意义71.3. 相关技术领域国内外发展现状、趋势101.4. 项目申请单位、主要合作单位及项目负责人的基本情况131.4.1. 项目申请单位基本情况131.4.2. 主要合作申请单位基本情况141.4.3. 项目主要负责人基本情况141.5. 有关本项目的现有工作基础和支撑条件18二、项目实施方案192.1. 项目达到的目标及考核的主要技术、经济指标192.1.1. 主要技术指标192.1.2. 主要经济指标192.2. 项目的主要研究(开发)内容202.2.1. 研究内容202.2.2. 系统设计流程202.2.3. Web使用挖掘212.2.4. 层次网页分类器302.3. 试验(开发)规模及地点352.4. 主要技术关键及创新点352.4.1. 技术关键352.4.2. J2EE技术352.4.3. 项目的创新点422.5. 实施方案(含技术路线、工艺流程及技术关键的解决方案)432.5.1. 技术路线432.5.2. 系统总体架构442.5.3. 实施方案452.5.4. 技术风险分析502.5.5. 分年度的工作内容、目标512.5.6. 申请单位、合作申请单位及主要人员的分工512.5.7. 组织及管理的运行机制522.5.8. 项目实施基础条件532.5.9. 有关本项目的国内外知识产权状况分析55三、市场分析553.1市场预测(含同类项目的国内外市场情况)553.2本项目的市场竞争优势、风险及市场策略563.3经济效益分析573.4社会效益分析573.5推广应用及产业化分析58四、经费预算及筹措方案594.1经费预算(总资金)594.2筹措方案594.3申请经费的主要用途594.4分年度用款计划(含申请经费)60五、技术经济可行性的综合评价61六、附件62一、 总论1.1. 项目的主要内容及技术原理简述1.1.1. 主要内容本课题的研究目标是设计和实现一个基于分层的个性化推荐软件系统,可广泛应用于电子商务、电子政务、网页信息搜索和数字化图书馆等。在用户行为分析与预测上,本项目运用层次分类的理论建立用户群层次分类图,用户之间存在一定的联系;其次,在用户群层次分类图的基础上,运用偏序关系原理,构建全部用户具有偏序结构的关键浏览路径层次图,同时用网页内容来调整层次结构,用户的会话识别就依据层次类别图进行识别,从而达到用户的网页浏览行为的分析与预测,最终进行个性化信息定制的目的。在推荐引擎中,用多元统计分析中的偏最小二乘原理,建立基于偏最小二乘的层次文本分类模型,从而为不同兴趣的用户群推送具有层次的网页内容。此外,采用分层分类的理论可以在一定程度上解决定义不同兴趣的用户类别和网页内容的类别重叠问题,解决大规模电子商务、电子政务和数字图书馆的个性化推荐系统面临的网页内容分布不均匀、推荐算法的可扩展性等问题。1.1.2. 技术原理简述1、 推荐系统推荐系统(recommender systems)是数据挖掘的一个分支,是一种较为特殊的数据挖掘系统,主要体现在推荐系统的实时性和交互性上。推荐系统是根据用户的兴趣爱好,推荐符合用户兴趣爱好的对象,也称个性化推荐系统(personalized recommender systems)。推荐系统不但根据用户以往的历史纪录,更需要结合当前一段时间的行为动作做出实时地反应,并根据与用户交互的反馈结果修正和优化其推荐结果。同时与其它数据挖掘系统不同的是,推荐系统主要面对的是客户,而非管理研发人员。当然推荐系统收集的数据信息会反馈到管理员,并协助其做出正确的决策。个性化推荐系统的关键是建立用户模型。推荐系统的热点问题是推荐技术和推荐算法的研究。推荐算法是整个推荐系统的核心,它的性能决定了最终推荐结果的好坏。为了建立合理的用户模型,保证不同用户对实时性,推荐方式等的要求,产生了一系列的推荐技术和算法。例如协同过滤技术、分类和聚类技术、关联规则挖掘技术、神经网络技术等。2、 Web挖掘Web挖掘就是从Web文档和Web活动中抽取感兴趣的潜在的有用模式和隐藏的信息。Web数据主要包括:1)Web内容:主要是文本、图像、声音和动画等;2)Web结构:这些数据描述Web内容的组织,页面内的结构信息包括页面内不同的HTML和XML标记(tag)的布局,页面间的结构信息主要是页面间的链接;3)Web使用数据:描述Web页面的使用模式,包括Web访问日志(如IP地址、页面引用、访问时间等)和应用服务日志等;4)用户注册信息和profile信息。按照这些Web数据对象,一般将Web挖掘分为3大类:Web内容挖掘(Web content mining),Web结构挖掘(Web structure mining)和Web使用记录挖掘(Web usage mining)。Web内容挖掘是从Web文档内容或其描述中抽取知识的过程。Web内容挖掘分为文本挖掘和多媒体挖掘两大类。对于文本文档(包括TXT, PostScript, PDF, HTML等)的挖掘称为文本挖掘。Web文本挖掘的数据对象既可以是结构化的,也可以是非结构化和半结构化的。Web文本挖掘可以是对文档进行自动摘要、分类、聚类和关联分析,还可以利用Web文档进行趋势预测等。多媒体信息挖掘,主要是指通过对Web上的图像、音频和视频进行处理,应用存储和搜索技术与标准的数据挖掘方法的集成,对其中潜在的、有意义的信息和模式进行发掘的过程。多媒体信息挖掘可以应用于语音识别、图形和图像处理等研究领域。Web结构挖掘是从Web的链接关系和组织结构中推导知识,目的是应用页面间的结构和页面内的Web,运用社会网络(Social Network)分析方法对Web本身潜在的链接结构进行建模。建模基于超链的拓扑结构,这些结构具有或者没有链接描述。对Web拓扑结构建模具有代表性的方法有HITS算法和Page-Rank算法。典型的系统有Clever和Google。Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、挖掘有用模式和预测用户浏览行为的技术。它关注于用户和Web进行交互时的用户行为预测,而挖掘的对象正是这一交互过程中产生的数据,主要包括:Web服务器日志(包括服务器日志、客户日志和代理日志)、用户简介、注册信息、用户对话或交易信息、用户提问方式等。3、 层次文本分类自动文本分类是将自然文本文件根据内容自动分为预先定义的一个或几个类别的过程。自动文本分类技术的研究目标就是实现文本分类的自动化,以达到降低分类成本、提高分类效率和改善分类性能等目的。自动文本分类主要有两种基本实现途径:基于知识的(Based-Knowledge)和基于学习的( Based-Learning)。也有两者结合的方式。基于知识也称基于规则的(Based-Rule),它的分类规则通常由一些领域的专家手工建立。这种方式的优点是可以达到非常高的分类准确率,但是它非常耗费人力和时间,对于各个领域的文本信息需要不同领域的专家。基于学习的自动文本分类系统是利用机器学习技术从预先定义的类别中自动提取分类规则,自动导出文本分类器。它是因十九世纪九十年代计算机性能大幅提高而兴起的,目前几乎所有重要的机器学习算法在自动文本分类领域都得到了广泛应用,如:最小二乘回归模型、k近邻、决策树、朴素贝叶斯、神经网络和支持向量机等,基于机器学习的文本分类技术已经成为文本分类的主流技术。然而,因特网中分布传播的海量电子化文本所显现出的种类多样、分布不均匀、关系复杂、更新频繁及标注困难等新的特征,给近年来面向互联网海量信息处理需求的文本分类带来了巨大挑战,非线性、数据集分布不均、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题。1.2. 项目的目的和意义1.2.1. 项目的目的从理论研究的角度来看,我们希望在电子商务和电子政务的框架下,对个性化推荐系统中的一些理论研究有所突破:(1) 重点分析和研究通过Web日志体现的用户浏览网页的行为模式,挖掘隐藏在这些数据后的行为特征;(2) 分类和聚类是个性化推荐服务的基本技术,目前大多数推荐内容都是文本信息。本项目紧跟自动文本分类领域的最新发展,运用层次文本分类技术,研究大规模的因特网电子文本的推荐技术;(3) 本项目运用层次分类的思想来构建个性化推荐系统的用户兴趣和推荐内容。从应用的角度来看,希望基于上述的理论研究,构建分层的个性化推荐系统,该系统具有以下特点:(1) 能够较为客观反映用户浏览网页的行为模式,用分层的思想来刻画各种类别用户群的兴趣和爱好;(2) 能够提供基于层次化用户个人兴趣的、具有层次类别的内容的个性化推荐系统。1.2.2. 项目的意义我们的项目涉及数据库、数据挖掘、信息检索、机器学习、自然语言处理、计算语言学、机器学习等多个研究领域,具有很高的研究价值和极其广阔的应用前景。在2006年2月9日我国公布的国家中长期科学和技术发展规划纲要(20062020年)中,把智能感知技术作为规划中的前沿技术:“重点研究基于生物特征、以自然语言和动态图像的理解为基础的以人为中心的智能信息处理和控制技术,中文信息处理;研究生物特征识别、智能交通等相关领域的系统技术”。同时,我国20062020年国家信息化发展战略中也提出:未来15年内,中国将大力推进国家信息化建设,充分利用信息技术,提高经济增长的质量和效益。根据规划,中国将继续推行电子政务和电子商务,加快培育具有核心竞争能力的信息产业,同时加快培养信息化人才,提高国民的信息技术应用能力。所以,在这样的背景下,开展基于分层的个性化推荐系统具有一定的社会价值和经济价值。我们进行基于分层的个性化推荐系统的意义有:(1) 根据2006年7月19日中国互联网络信息中心CNNIC发布第十八次中国互联网络发展状况统计报告显示,截至2006年6月30日,我国上网用户总数为12,300万,国内网站和政府门户网站均有大幅增加。Web已成为人们获取信息的一个重要途径,由于Web信息的日益增长,人们不得不花费大量的时间去搜索、浏览自己需要的信息。信息检索技术满足了人们一定的需要,但由于其通用的性质,仍不能满足不同背景、不同目的和不同时期的查询请求。个性化推荐为不同用户提供不同的服务,以满足不同的需求。(2) 对于电子商务网站,可以充分提高站点的服务质量和访问效率,留住已有的客户,吸引更多的用户,提高用户的忠诚度和满意度,有针对性对不同类别的用户采取不同的产品销售策略和产品定位等。作用主要体现在三方面:将电子商务网站的浏览者转变为购买者;提高电子商务网站的交叉销售能力(cross - selling);提高客户对电子商务网站的忠诚度。(3) 对于电子政务网站,可以提高政务信息的服务质量和用户的访问效率,提高网上办事效率,提升政府的服务水平和形象,为广大市民、企事业用户提供便利措施。(4) 建立基于本项目理论基础的个性化推荐产品,以此为契机,可以大力推进我省、我市基于电子商务和电子政务平台的个性化信息服务软件产业的进步与发展。(5) 已有的研究表明一定时间段的Web访问用户蕴含了稳定的兴趣。并且,用户浏览网页的行为模式所隐藏的兴趣大多数不是单一的。我们运用层次分类的思想来反映用户的兴趣和爱好,这样更加符合客观世界中事物的联系、人们的思维习惯和分类学的科学原理。(6) 因特网中分布传播的海量电子化文本所显现出的种类多样、分布偏斜、关系复杂、类别之间的重叠和高维数据等特征,给近年来面向电子商务和电子政务的个性化推荐技术带来了巨大挑战。采用分而治之策略的层次分类器将是解决算法时间可扩展性的一种很好的途径;对于因特网上海量数据的类别信息的多样性和复杂性,相对于大多数基于类别独立假设的单层分类,使用层次分类模型应该可以更好地刻画类别之间的区别和联系,可以一定程度上解决类别之间的重叠问题。(7) 我们研究基于偏最小二乘理论的层次文本分类器模型,进一步拓展了偏最小二乘在文本分类上的应用。偏最小二乘已经成功应用在许多领域,如化学和生物信息等,在个性化推荐领域还需进一步的研究。但尚未出现偏最小二乘在个性化推荐上的理论研究,具有一定的理论和应用创新。1.3. 相关技术领域国内外发展现状、趋势推荐系统在1997年之前一直被称作协作式过滤(Collaborative Filtering简称CF)。CF的概念是由David Goldberg等人在1992年构造邮件系统Tapestry时第一次提出的。Tapestry因此也成为历史上第一个CF系统(基于CF的推荐系统)。当时提出CF是为了解决信息过载(Information Overload)的问题。具体情况是这样的:在当时由于电子邮件的泛滥使用,人们被淹没在各种各样的邮件之中,于是人们开始想办法解决这一问题。最初的方法是由邮件系统提供邮件分类列表,而用户仅仅选择自己感兴趣的邮件列表来过滤邮件。这一方法的主要缺点是一个用户的兴趣很少能整齐的映射到系统提供的邮件列表之中。一种改进方案是由用户指定一个过滤器,然后邮件系统根据每个用户指定的过滤器来搜索整个邮件列表,提供用户感兴趣的邮件。这一方法得到了很多邮件系统的支持。但是这些系统提供的过滤器都是基于内容的(Content-based),没有考虑人的因素,如用户不能指定“我的邻居David读过的并且认为比较好的邮件”这样的过滤器。于是David Goldberg等人定义了用于这种目的的过滤器。当用户指定了多个这样的过滤器时,整个过滤过程就相当于多个邻居相互协作为当前用户过滤信息,因而称之为协作式过滤。总的来说,CF的主要思想是:把“邻居”和当前用户兴趣相近的人)们都认为好的物品推荐给当前用户。推荐系统有很多应用领域。1997年以前,推荐系统主要用于信息过滤,如电子邮件的过滤、新闻组文章的过滤等,代表系统有TAPSTRY, Grouplens,PHOAKS, Fab, Referral Web, CiteSeer等。1997年以后,推荐系统被引入一个新的应用领域电子商务。在引入推荐系统以后,电子商务系统可以预测用户的喜好,仅仅把用户可能有兴趣的商品形成列表推荐给用户。由于这种列表往往很小,顾客可以很容易的找到自己感兴趣的商品,这样不仅极大的方便了顾客,而且潜在的增加了电子商务的交易量,为商家带来了可观的收益。因此,电子商务商家纷纷开始把推荐系统嵌入到他们的电子商务系统中,引发了推荐系统研究和应用的热潮。到目前为止,很多商业公司开展了推荐系统的研究,例如IBM Almaden Research Center, Compaq Research Center等;美国几乎所有知名的大学都有专门从事推荐系统的研究组,如UC Berkeley的Berkeley Workshop on Collaborative Filtering。到近几年来,个性化服务逐渐从学术研究走向了实际应用。很多公司纷纷推出个性化系统,提供个性化服务。很多网站,如Microsoft、AOL、Yahoo、CNN、IBM等,均推出了个性化功能;很多电子商务网站也注意到了个性化服务的巨大商机,如Amazon、Ebay、Best Buy都推出了个性化服务功能。世界上IL乎所有的大的电子商务商都为顾客提供个性化推荐服务,有的商家甚至同时提供几种推荐服务。例如Amazon书店,同时提供了Customer Who Bought Eyes ADelivers, Book Matcher, Customer Comments等个性化推荐服务。基于规则的系统如:IBM的WebSphere (/websphere),BroadVision(),ILOG()等,它们允许系统管理员根据用户的静态特征和动态属性来制定规则,一个规则本质上是一个If-Then语句,规则决定了在不同的情况下如何提供不同的服务。基于规则的系统其优点是简单、直接,缺点是规则质量很难保证,而且动态更新困难。此外,随着规则的数量增多,系统将变得越来越难以管理。基于内容过滤的系统如:Personal WebWatcher, Syskill & Webert,CiteSeer,WebMate,WebPersonalizer 等,它们根据资源与用户兴趣的相似性来过滤信息。基于内容过滤的系统其优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。 协同过滤的系统如:GroupLens,CoFE等,它们根据用户之间的相似性来过滤信息。基于协同过滤的系统优点是能为用户发现新的感兴趣的信息,缺点是存在两个很难解决的问题:一个是数据稀疏性,即系统使用初期,由于系统资源未获得足够多的评价信息,系统很难利用这些评价来发现相似的用户;另一个是可扩展性,即随着系统用户和资源数量的增长,系统性能会越来越低。还有一些个性化服务系统如WebSIFT,Dynamic Profiler等,同时采用了基于内容过滤和协同过滤两种技术。结合这两种过滤技术可以克服各自的一些缺点,为了克服协同过滤的数据稀疏性问题,可以利用用户浏览过的资源内容预期用户对其他资源的评价,这样可以增加资源评价的密度,利用这些评价再进行协同过滤,从而提高协同过滤的性能。除了可以应用于信息过滤领域和电子商务领域之外,推荐系统还可以应用到许多其他领城,如社会网(Social Network),大众传媒等。国内的个性化推荐技术的研究起步较晚,同国外个性化推荐系统,我国的从自动化策略、推荐的内容和用户兴趣的分析和收集都存在不小的差距,但是最近几年随着电子商务的快速发展,对其的研究和原型系统的设计较多。清华大学的冯翱等人提出了基于Agent的个性化信息过滤系统Open Bookmark;南京大学的潘金贵等人设计并实现了个性化信息搜集智能体DOLTRIAgent。一些著名的电子商务网站如当当网2006年10月推出的个性化商品推荐服务系统网购也2.0。门户网站新浪网推出了个性化的推荐系统。中国知网()提供的个性化信息服务系统(PIS),为用户提供了完全个性化的空间、体现个人的信息需求特征,同时提供用户兴趣分析、订阅推送等功能,建设一种主动式的个性化信息服务方式和网络化的互动学习方式。使信息服务更具有针对性,对不同的用户采用不同的服务策略并提供不同的服务内容。中国国家数字图书馆和超星数字图书馆推出了针对读者的个性化推荐系统。国内的电子政务网站的个性化推荐系统基本上还处于刚起步阶段。宁波市政府门户网站提供的个性化系统可根据用户的个人信息需求与行为习惯自行定制信息,从根本上提高互联网用户的网络信息使用效率和质量,充分体现了互联网作为超级媒体的互动性、个性化、整合性等诸多优势,为用户提供个性化的服务。个性化系统平台由两部份组成:其一,个性化定制系统;其二,个人行为推荐系统。个性化推荐系统的主要研究内容和研究方向主要包括如下几个方面:推荐技术研究:目前主要的推荐技术主要包括基于内容的过滤和协同过滤两种。由于基于内容的过滤自身的局限性,协同过滤推荐技术是当前研究的热门。推荐质量研究:在大型推荐系统中,用户评分数据极端稀疏。用户评分数据的极端稀疏性使得推荐系统无法产生有效的推荐,推荐系统的推荐质量难以保证。多种数据多种技术的集成:当前大部分的推荐系统都只利用了一部分可用信息来产生推荐。随着研究的深入,新型推荐系统应该利用尽可能多的信息,收集多种类型的数据,有效集成多种推荐技术,从而提供更加有效的推荐服务.1.4. 项目申请单位、主要合作单位及项目负责人的基本情况1.4.1. 项目申请单位基本情况江西集佳科技有限公司于2002年5月在江西南昌注册成立,注册资本为600万元。公司主营:软件新产品的研发与制造,智能楼宇与工业自动化产品的代理销售和工程设计与安装,中央空调产品(含蓄冷)的代理销售和工程设计与安装。公司是专业从事软件开发和系统集成的高科技企业,拥有较为强大的软件开发团队,具有丰富的企事单位业管理软件开发与项目实施经验。具有多年的系统集成经验,我们善于将硬件、网络、软件和应用产品集成为一个完整、连贯和有效的体系结构环境,从而帮助客户更好地实现业务流程和需求。在电子政务领域为客户提供具有高度安全性、实用性以及满足海量数据应用的电子政务信息平台;为企业客户提供ERP、CRM、网络办公自动化、企业电子商务门户建设等方面在内的多行业企业信息化解决方案。研发是公司的核心竞争力之一。为了进一步提高企业的核心竞争力,为社会承担更多的责任,我司始终把技术创新放在首位,在新产品研发的道路上,进行了不懈的探索和追求。公司有一支由总经理带队,各专业协作的科研队伍。几年来公司累计投入研发经费800多万元,从事高新技术产品的研发工作。经过多年的努力,已获得七项国家专利和一项软件著作权,并于2004年8月成功地研制出具有完全自主知识产权、国内首创的“组合式机电一体化蓄冷中央空调机组”产品。该项目产品具有卓越的移峰填谷、平衡电力负荷之功能,它通过开发低谷用电,可大大降低用户的空调运行费用和高效节能,是一项利国利民的好项目。还有两项专利已通过实质审查程序。该项目荣获科技部等四部委联合颁发的“国家重点新产品证书”,同时还获得科技部2005年度“科技型中小企业技术创新基金”立项和科技部2006年度“国家级火炬计划”立项。多个软件及其它产品,通过了江西省科技厅等组织的专家鉴定,荣获2004年度省科技厅和省经贸委颁发的“高新技术产品证书”、“江西省优秀重点新产品证书”、 “江西省优秀重点新产品一等奖”和南昌市人民政府颁发的“南昌市科学技术进步奖”等多个奖项。公司以为社会承担责任为己任,倡导“傻子”精神,坚持以人为本的经营思想,致力于高新技术的产业化。三年来,公司业绩连年攀升,在健康稳步发展的同时,培养了一大批优秀的经营管理者、科研骨干和市场开拓精英,并在依法经营的过程中,树立了良好的企业形象,取得了较好的社会效益和经济效益。1.4.2. 主要合作申请单位基本情况江西财经大学现代教育技术中心下设计算机网络管理部、计算机教学部、软件技术部、远程教育管理部等十个部室。现有教职工60余人,其中教授、副教授和高级工程师6人,讲师、工程师15人。中心主要工作是:开展数字化建设的网络基础服务研究,为数字化校园的建设提供技术支持与服务;负责江西财经大学信息系统的规划、设计、开发;负责学校校园网、校园卡系统的设计、建设,保障校园网的安全稳定运行;承担学校计算机网络教学和远程教育系统研究、设计与开发,并提供技术支持与服务。在科学研究和计算机应用软件开发工作中曾因项目建立以学分制为核心的新型教学管理机制的探索与实践,获国家优秀教学成果二等奖。拥有一支由计算机软件硕士十余人组成的专业软件研究开发团队。江西财经大学现代教育技术中心主要负责数字化校园建设的网络基础服务研究,江西财经大学信息系统的规划、设计、开发,提供技术服务支持;负责学校校园网、校园卡系统的建设。现代教育技术中心完成纵、横向科研项目12项,在研项目3项,其中省级以上9项。获得省部级科技进步三等奖以上3项。参编正式出版教材4部,发表教学和科研论文112篇,中心派出多人次参加国内相关内容的培训,派技术人员到校外进行合作研究。1.4.3. 项目主要负责人基本情况项目主要负责人王明文,男,汉族,1964年12月出生,教授、博士生导师,研究生学历,工学博士,江西省高校中青年学科带头人,现任江西师范大学计算机院院长,兼任江西集佳科技有限公司技术总监,主要研究领域有信息检索、程序理论与并行计算、数据挖掘、不确定性推理、管理信息系统和内容安全等。曾主持和参加多项省级、国家级课题和研究项目。承担省部级的各类科技计划项目有:序号科技计划名称项目名称起 止年 月本人在项目组中的名次完 成情 况1江西省教委科技课题学生课程学习及素质自适应测评系统2001.1-2001.12主持己完成2江西省自然科学基金并行(并发)算法程序形式化开发方法研究2001.1-2000.12主持完成(优)3国家自然科学基金实用的软件形式化方法及其开发工具的研究1998.1-2000.12第三结题4国家自然科学基金分划递推法应用于高可靠Java程序开发方法研究2001.1-2002.12第二结题5国家科技部社会公益研究项目鄱阳湖区洪涝灾害遥感动态监测系统 2002.62003.4与江西省气象科学研究所合作省气象局创新一等奖,国家气象局科技二等奖6国家自然科学基金部分计值理论和应用研究2001.1-2003.12与上海交通大学合作主持结题7教育部科技重点项目程序优化技术及其应用研究2003.1-2005.12主持结题8江西省自然科学基金并行(并发)程序优化理论研究2003.1-2005.12主持结题9教育厅科技课题参数化智能搜索引擎2001.12立项主持结题陆旭,男,汉族,1962年12月出生,研究生学历,博士研究生,高级工程师,江西财经大学现代教育技术中心主任。江西省计算机学会理事,江西省互联网协会理事,江西省高校电化教育学会理事。曾任江西财经大学电化教学部主任。现为江西财经大学信息管理学院管理科学与工程专业博士研究生,研究方向是信息安全与电子政务。主持并参与的工作是:开展数字化建设的网络基础服务研究,为数字化校园的建设提供技术支持与服务;负责江西财大开展数字化校园建设的网络基础服务研究,为数字化校园的建设提供技术支持与服务;负责江西财经大学信息系统的规划、设计、开发,对已经运行的系统提供技术服务支持;负责学校校园网、校园卡系统的建设,保证校园网的正常运行,为全校师生提供上网服务;承担学校计算机网络教学和远程教育系统研究、设计与开发;为制作课件的教师提供技术支持和服务;承担新校园建筑弱电工程规划与建设等。主持并完成了江西财经大学新学分制管理系统的开发、办公自动化系统的开发等。近年主持或参加的研究课题有:2001年江西省自然科学基金基于Mobile Agent的主动网络管理策略研究(0111022)、2001年江西教育厅科技项目成人高等教育学分制管理信息系统、2002年江西省教育厅教改项目现代教育技术应用模式及效益分析研究、2002年国家安全部重点项目因特网监控取证系统、2003年江西省教育厅教改项目财政学网络应用型教学教育软件设计和2006年江西省教育厅科技项目基于WEB的学分制综合管理信息系统等,曾荣获江西省科学技术进步三等奖。具体如下:序号科研课题承担任务1江西软件产品如何做大做强,江西省教育厅人文社科招标项目, 2000年主要成员12基于Mobile Agent的主动网络管理策略研究,江西省自然科学基金(0111022),2001主要成员43因特网监控取证系统,国家安全部重点项目,2002年主要成员34现代教育技术应用模式及效益分析研究,江西省教育厅教改项目,2002年主持5财政学网络应用型教学软件设计,江西省教育厅重点课题,2003年主持26成人高等教育管理信息系统,江西省高校教改省级课题重点项目,2003年主要成员27分布式社区联动消防应急系统,江西省教育厅科技项目,2004年主要成员18跨校选修管理模式的研究,江西省高校教改省级课题重点项目,2004年主要成员29高校教学多制式综合管理系统,江西省科技厅工业攻关计划项目,2005主要成员3102006-2010年上饶市电子政务建设规划,上饶市十一五和中长期发展规划项目,2005年。主要成员111教育资源综合管理与服务平台研究,江西省科技厅重点科技项目,2005年。主持212现代服务业科技发展专项规划战略研究报告,省科技厅软科学项目,2005年主要成员213基于WEB的学分制综合管理信息系统,江西省教育厅科技项目,2006年主持14基于多层安全代理的集成访问控制系统,南昌市科技计划项目,2006年9月立项。主要成员215基于角色访问控制的高校教学管理信息系统,江西省科技厅科技项目,2006年主要成员11.5. 有关本项目的现有工作基础和支撑条件项目、课题和工程情况序号项 目 名 称负责人年度项目来源或使用情况1文本自动分类中的维数约简方法研究王明文2007国家自然科学基金2实用的软件形式化方法及其开发工具的研究薛锦云1998国家自然科学基金3分划递推法应用于高可靠Java程序开发方法研究薛锦云2001国家自然科学基金4参数化智能搜索引擎王明文2001教育厅科技课题5江西软件产品如何做大做强勒中坚2001江西省教育厅人文社科招标项目6成人高等教育管理信息系统勒中坚2003江西省高校教改省级课题重点项目7高校教学多制式综合管理系统勒中坚2005江西省科技厅工业攻关计划项目82006-2010年上饶市电子政务建设规划勒中坚2005上饶市十一五和中长期发展规划项目9基于WEB的学分制综合管理信息系统陆旭2006江西省教育厅科技项目10基于角色访问控制的高校教学管理信息系统勒中坚2006江西省科技厅科技项目二、 项目实施方案2.1. 项目达到的目标及考核的主要技术、经济指标2.1.1. 主要技术指标1、 研究和设计一个基于层次分类思想的个性化推荐系统,能构建层次的用户兴趣模型和使用层次网页分类来进行个性化信息推荐。2、 整个采用struts显示/逻辑/数据处理分离的三层技术架构模型,应用Java语言,结合Jsp、servlet、Javabean、XML等技术来实现。3、 本系统的用户行为模式的分析机制是基于具有偏序关系的层次结构图来设计的,可以有效地刻画用户的类别属性。4、 本系统采用聚类和分类作为个性化推荐的基本技术,作为推荐引擎的核心技术。5、 个性化的推荐系统的推荐机制是以基于类别层次图的用户为中心,智能推送具有层次类别的资源,客观反映用户的兴趣偏好。6、 本系统实现了基于偏最小二乘统计分析理论的网页分类工具,该分类工作作为推荐引擎的重要组成部分。7、 本系统J2EE架构和Java语言实现,支持多种软硬件平台,具有跨平台无关性,具有良好的兼容性。2.1.2. 主要经济指标1、 开发基于分层的个性化推荐软件产品,该产品所具有的基于层次类别图的用户描述模型和基于层次分类理论的推荐引擎具有独创性,将会在国内的个性化服务产品中占有相当的市场份额。具备产业化的能力、拥有完全的自主知识产权,软件开发成本低。2、 该产品在电子商务、电子政务和其他需要个性化服务的系统(如数字化图书馆和办公自动化软件等)中具有广阔的市场需求基础,项目投产后实现年销售额500万元以上的销售规模,实现年利润总额为150万元以上。在此软件产品的基础上衍生出其他的个性化服务系统能使公司近三年总销售收益比率能力增强,保持净利润率收益水平平稳。2.2. 项目的主要研究(开发)内容2.2.1. 研究内容1、基于分层的用户行为分析与预测在Web使用挖掘日志预处理中,用户的会话识别是一个十分重要的工作。把用户分类为一些具有稳定兴趣的用户群,用户群的分类可以通过聚类或者用户的个人信息获取,这些用户群的类别信息采用层次表示。再结合用户群层次分类图,运用偏序关系原理,构建全部用户具有偏序结构的关键浏览路径层次图,从而达到调整用户层次类别图的目的。用户的行为与预测就依据调整的层次图进行。2、基于分层的偏最小二乘个性化内容推送偏最小二乘回归方法主要的研究焦点是多因变量对多自变量的回归建模,它与普通多元回归方法在思路上的主要区别是它在回归建模过程中采用了信息综合与筛选技术。它不再是直接考虑因变量集合与自变量集合的回归建模,而是在变量系统中提取若干对系统具有最佳解释能力的新综合变量(又称成分),然后对它们进行回归建模。我们将构建在分层的偏最小二乘基础上,以用户为中心,个性化的用户资源推送模块。3、采用struts显示/逻辑/数据处理分离的三层技术架构模型,应用Java语言,结合Jsp、servlet、Javabean、XML等技术构建整个个性化推荐系统。2.2.2. 系统设计流程思路是建立具有层次关系的用户类别和具有层次关系的站点页面,根据用户提供的个人信息和已有的访问历史记录,把用户归类到不同层次的用户群,推荐不同层次的相关页面,提供个性化的推荐服务。我们的系统分为离线和在线两部分:(1) 离线部分:这是本系统的核心部分,包括Web使用数据的预处理,Web页面的预处理,Web页面的表示,特征降维和层次文本分类器的学习等。在Web使用挖掘的预处理中,运用我们新提出的方法建立具有层次类别的用户群和提取用户关键层次路径以进行会话识别,分析用户的行为。(2) 在线部分:根据后台得到的用户兴趣描述和层次文本分类器学习的参数,由推荐引擎把已有的页面和新增的页面建立各用户的推荐集,该推荐集的内容具有层次结构。Web站点文件Web使用数据Web内容Web使用数据预处理会话文件用户兴趣描述Web网页预处理特 征降 维文本表示层次网页分类器学习离线部分用户新的站点页面用户行为预测推荐规则在线部分新的站点页面层次网页分类器推荐引擎.用户.2.2.3. Web使用挖掘用户行为的分析与预测主要使用Web使用挖掘的原理和技术来实现。Web使用挖掘是通过挖掘Web日志记录以发现用户访问Web页面的模式、挖掘有用模式和预测用户浏览行为的技术。它关注于用户和Web进行交互时的用户行为预测,而挖掘的对象正是这一交互过程中产生的数据,主要包括:Web服务器日志(包括服务器日志、客户日志和代理日志)、用户简介、注册信息、用户对话或交易信息、用户提问方式等。类似于数据挖掘过程,Web日志挖掘的一般过程分为以下三个阶段:(1) 数据的预处理:就是将来自于不同数据源的数据,如使用模式等信息重新组织成为模式发现所必需的数据结构。(2) 模式发现:对数据预处理所形成的文件,利用数据挖掘的一些有效算法(如关联规则、聚类、分类、序列模式等)来发现隐藏的模式和规则。(3) 模式分析:主要是对挖掘出来的模式、规则进行分析,找出用户感兴趣的模式,提供可视化的结果输出。Web使用挖掘主要处理从Web日志文件抽取出知识。当用户存取Web服务时,这些日志文件时用户访问Web服务时产生的。Web日志的格式一般有通用日志格式(Common Log Format)、扩展日志格式(Extended Log Format)。典型的服务器日志包括以下信息:IP地址、请求时间、方法(如Post或Get)、被请求文件的URL、Http版本、返回码、传输字节数(传输文档的大小)、引用页的URL(指向请求页面的URL)和代理。图 Web使用挖掘的预处理详细过程上图是Web使用挖掘的预处理详细过程。在Web使用挖掘中,数据预处理的目标是将包含在多种数据源中的信息转化为适合数据挖掘和模式发现所必需的数据抽象概念,然后在事务数据库上实施挖掘算法,以期最终获得有价值的规律。预处理包括使用数据、内容和结构信息的预处理。预处理过程的结果是用户会话文件,它包含了访问Web站点的用户、请求的页面及顺序、每一页阅读的时间等。对日志进行预处理的结果直接影响到挖掘算法产生的规则和模式。可以说预处理过程是Web日志挖掘质量保证的关键。一般来说,数据预处理包括数据清理(Data Cleaning)、用户识别(user identification)、会话识别(Session Identification)和路径补充四个基本的步骤,重点和难点是用户识别和会话识别。 数据抽象W3C Web Characterization Activity(WCA)定义了一些数据抽象:用户(user):通过浏览器访问网页的个体;用户可以在不同的地方通过不同的机器使用不同的代理访问网站。页面浏览(page view):用户点击鼠标浏览网页所得到的结果;这个结果可以由多个文件构成;一次页面浏览代表一次用户行为。点击流(click-stream):用户访问的一组连续的页面浏览的序列。用户会话(user session):某个用户阶段性的页面浏览所产生的页面序列或点击流。其特点是可以跨越多个服务器。服务器会话(server session):某个用户在一个服务器上阶段性的页面浏览所构成的点击流。片断(episode):用户会话或服务器会话中一段点击流。 数据源分析Web使用挖掘使用的数据主要来自Web服务器(Web Server)、代理服务器(Proxy Server)和Web客户端(Web Client)。各种不同的数据不仅来源和类型不同,其使用方式也不相同。从不同数据源采集的使用数据将代表Web流量中不同部分的导航模式,从单用户/单网站浏览行为到多用户/多网站的存取模式。服务器日志文件描述了多用户/单站点的浏览行为,客户日志文件通常给出了单用户/多站点的用户浏览行为,代理服务器日志文件跟踪多用户/多站点的使用行为。服务器端日志主要的问题是用户会话的识别,例如,如何对所有用户的页面请求(或者点击流)进行分组,以便能清楚地识别各个用户在Web站点上的浏览路径。这一问题的处理十分困难,它取决于日志文件中的可用信息的类型。最常用的方法是使用cookie去追踪用户页面请求序列。如果cookie不可用,可以使用启发式搜索的方法去识别用户会话。HTTP是一种无状态连接,因而追踪单个用户并不容易。由于涉及到用户的隐私问题,使用Cookie需要客户的配合。在服务器端,不能追踪浏览器上back按钮的使用,所以,即使使用cookie,识别准确的浏览路径仍然是不可能的。除Web日志外,使用TCP/IP的包侦探器(Package Sniffer)也可以在服务器端跟踪用户行为。这种方法具有一些优势:收集的数据是实时的;来自不同Web服务的信息容易被合并为一个日志;一些特定的行为(如stop按钮的使用)可以跟踪。但是包侦探器的使用增加了网络的流量,在一些安全性高的商务事务中不能存取加密的数据包。由于Web环境中存在多级别的缓存(如用户本地缓存和代理服务器缓存)和防火墙,用户浏览缓存的页面不在服务器端日志上记录,防火墙使得不同的用户请求在Web服务器的日志中记录的都是防火墙的IP地址,所以日志中的网站使用数据并不完全可靠(未采集到所有访问页面、采集时间不够准确、浏览用户的确定不够准确)。跟踪Web使用最佳方法可能是直接访问不同服务应用层。因为涉及服务器应用的版权等一系列问题,这种方法也并不可行。因此,使用服务器端记录的数据进行Web挖掘使用模式挖掘是不完全可靠的。代理服务器是通过提供缓存功能来加快用户Web访问的速度。在一些情况下,代理服务器端的浏览数据收集十分类似于服务器端的收集。客户端的数据收集比服务器端的数据收集更具有优越性,它是建立在用户行为源上的,可准确地捕获用户的行为,能准确地确定浏览用户。客户端的数据收集需要用到远程代理(如JavaScript或Java applets)、P lug-In、网页跟踪帧或者需要修改已有浏览器(如Mosaic、IE、Netscape)的源程序代码来增强浏览器软件的数据收集能力。这些技术可以避免用户会话识别的问题和由缓存导致的一些问题(如Back按钮的使用),同时也能提供用户的实际行为的详细信息。但是,这些方法严重依赖用户的合作和涉及到隐私法律的问题。 数据清理数据清理的工作主要是去除那些对于挖掘无用的Web日志信息,与Web挖掘有关的数据只有用户IP地址、用户ID、请求访问的URL页面和访问时间,其它属性可以去除。例如:将日志中文件后缀名为gif, jpeg, jpg, swf, css等的记录删除,后缀名为CGI的脚本文件也应被删除。此外,Robot和Spider的访问日志也应该删除。因为服务器通常对一切HTTP请求都事无巨细地记录,所以识别无关页面请求的工作相当繁重,简单的处理方法往往不能满足要求。目前可行的解决方法是利用站点结构和内容数据进行清理。 会话识别和会话重构主要包括两方面的工作:从日志文件中识别不同的用户会话和在已识别的会话里重新构建用户的浏览路径。在这一阶段的复杂度变化非常大,它完全取决于Web日志中可用信息的质量和数量。在处理过程中遇到的大多数问题是因为代理服务器和浏览器产生的,典型的问题有:l 单IP地址/多服务器会话:Internet服务提供商(ISPs)为用户提供了许多用于上网的代理服务器。因此,在同一时间段内可能有许多不同用户通过同一代理服务器存取同一网站。l 多IP 地址/单服务器会话:一些ISP或者隐私工具会为来自单独用户的每次请求随机分配多个IP地址中的某一个,在这种情况下,一次单独的服务器会话可能会有多个IP地址。l 多IP地址/单用户:一个用户从不同机器访问Web会在不同会话中使用不同地址,这就使得追踪同一用户的重复访问变得很困难。l 多服务器会话/单用户:某用户在同一机器上打开多个浏览器窗口,同时访问Web站点的不同部分,或打开不同的浏览器进行访问,将产生单个用户的多个服务器会话。l 单客户端/多用户:当在同一机器上存在多个单独的使用(会话应用)时,就像公共访问机,这样使人产生有多个用户在上网的错觉。上述问题可以通过使用Cookie,重写URL部分解决,或者要求用户登录Web站点。因为需要用户的合作,所以在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025山东牟平新城发展有限公司招聘5人笔试历年难易错考点试卷带答案解析试卷3套
- 2025年及未来5年中国高折射玻璃微珠市场供需现状及投资战略研究报告
- 2025四川九洲投资控股集团有限公司软件与数据智能军团招聘机械结构工程师测试笔试历年备考题库附带答案详解试卷3套
- 2025中国宝武全球校招“国宝生”开启笔试历年难易错考点试卷带答案解析试卷3套
- 2025下半年安徽交控集团石化公司所属企业招聘4人笔试历年常考点试题专练附带答案详解试卷3套
- 福建公务员考试乡县卷试题及答案
- 都江堰市公务员考试试题及答案
- 2025年及未来5年市场数据中国液压泵站行业发展概况及行业投资潜力预测报告
- 大同市公务员考试复审试题及答案
- 赤壁公务员考试试题及答案
- 骨科康复护理概述及康复功能评定
- 6年级书法考试题及答案
- 不确定条件下跨区域应急物资调度优化研究
- 太阳能光伏效率研究-洞察阐释
- (高清版)DB12∕T 1444-2025 博物馆消防安全管理导则
- 建筑工程重大隐患排查整治方案
- 腰椎骨折疑难病例讨论
- 2025年广东省中考数学试卷真题(含答案详解)
- 医疗反歧视培训
- 乡风文明建设课件
- 校园禁烟制度管理制度
评论
0/150
提交评论