在线答疑系统论文_第1页
在线答疑系统论文_第2页
在线答疑系统论文_第3页
在线答疑系统论文_第4页
在线答疑系统论文_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘 要 随着互联网迅速发展,教育逐步走上了网络化时代,远程教育就是随着网络技术的发展而产生的一种新型教育形式。远程教育打破了传统教学模式在时空上的限制,即在不受时间和空间等条件的约束下,学生根据自己的业务水平和时间,自主的安排学习计划和学习进度,而这一点是传统教育无法做到的。在线答疑系统作为远程教学系统不可缺少的一个子系统,它的发展和完善还有待于多种技术的成熟和综合应用。 本文在对国内外同类答疑系统的研究现状分析的基础上,结合分词技术、全文检索技术等理论,提出构建烟大在线答疑系统。系统允许用户采用自然语言进行提问,对输入的自然语言问句进行分词处理和语义分析,将分词结果与答案源文件映射的索引文件进行全文搜索匹配,并将匹配后的答案集返回给用户。本文除研究分词技术及全文检索技术在该在线答疑系统中如何应用外,还给出了在线答疑系统的总体设计模型以及系统的功能模块设计模型,为系统的详细设计提供参考。系统采用目前比较流行的JSP技术(Java服务器网页技术)开发,并综合应用了Java技术、XLM技术、SQL Server 2000数据库技术等,实现了与、或和模糊查询等功能,同时拥有较高的数据查询速度,较好地实现了该答疑系统的设计与研发。本论文研究工作的开展,主要是为了解决现实问题,满足当前应用需求,同时积累系统开发研制的经验。论文的最后,指出了系统目前存在的不足,有待在今后工作中进一步完善,同时系统应该在用户使用方面添加一些更加人性化的功能,系统界面美观程度上也需要进一步提高。关键词:在线答疑;搜索引擎;全文索引AbstractWith the rapid development of the Internet, education gradually embarked on a networked age, as is the distance education network technology arising from the development of a new form of education. Distance education to break the traditional mode of teaching at the time and space constraints. That is, not in time and space and other conditions, Students according to their level of business and the timing of the arrangements for self-study program and the progress of the study, this is a traditional education can not be done. Online answering system as a distance learning system which is an indispensable sub-system, its yet to be improve and the development of a variety of matures technologies and integrated application. In order to make up for the lack of the traditional way of counseling in the distance education for Yantai University, the writer brought at home an abroad in the answering similar system based on the analysis of the status quo, combining the technical sub word, full text search technology theory, put forward to build Yantai University online answering system. System allows users to natural language questions; the import of natural language questions for word processing and semantic analysis, the term will answer with the results of the source file for mapping the full text of the document index search match, and will answer after the math set to return users. In this paper, in addition to study the technical term and full text search technology in the online answering on the use of the system, but also gives the online answering system design model as well as the system module design model for the detailed design of the system to provide a reference. The system use the popular JSP technology development and application the Java technology, XML technology ,SQL Server 2000 database technology, and realized the vague or inquiries and other functions at the same time have a higher rate of data query, the better to achieve the online answering system research and development. In this paper, the research carried out mainly in order to solve practical problems, to meet the current needs of the application, the system developed at the same time the accumulation of experience. The final paper, pointing out that the current system inadequate to be in the future improve the work, at the same time , users in the system should use to add some more humane function ,the system interface is also looking at the extent of the need to further improve .Key Words ; Online answering; Search engine; The full text of the index 绪论 在远程教育平台中建立在线答疑系统 远程教育(或远距离教育)是英文Distance Education的中译名。Distance Education这一概念于世纪年代在国际教育界开始流行,在年代初引入我国。从本质上来说远程教育是指教与学在时空分离的状态下所实施的教学,它的发展可以使学生不必再受传统教育模式的限制,即在不受时间和空间等条件的约束下,学生根据自己的业务水平和时间,自主的安排学习计划和学习进度,而这一点是传统教育无法做到的。 随着internet在我国广泛应用,远程教育越来越受到人们的重视。各种基于Web的远程教学系统的开发、传送和教学考核系统的问世,都使远程交互成为可能,答疑系统是实现这种交互方式的手段之一。提高教学质量除了通过课程内容的学习,也可以通过答疑系统来帮助学生巩固所学习的知识。因此,结合远程教学的特点,开发一种适应于远程教学的在线答疑系统,以很好地起到辅助教学的作用,提高教师资源及答案资源的利用率。 国内外答疑系统研究现状 国内研究情况 目前,国内的答疑系统大致可以分为以下几类12: ()采用传统的Internet工具,如Email,BBS,Chat,FAQ等。这种方式虽然实现简单,但无法适应网络答疑中大规模、动态性、实时性的特点。 ()基于关键词的答疑方式,即采用关键词或者关键词的逻辑组合作为提问方式。这种方式虽然可以在一定程度上解决网络答疑中大规模、动态性、实时性的需求问题,但由于汉语词汇本身在含义上存在不一致性,使这种单纯依靠字符串机械匹配的检索方式必然导致结果集合的错误放大或缩小。此外,这种方式要求用户具备一定的问题背景知识、关键词抽取能力,以及逻辑组合能力,因而限制了用户的使用。 ()基于自然语言理解的答疑系统。它允许用户采用自然语言进行提问,系统对输入的自然语言问句进行语法和语义分析,根据分析结果在问题库中进行匹配,并将匹配后的答案集返回给用户。该方式不仅提供了较好的人机接口,而且提高了答疑结果的准确性,是网络答疑的发展方向。如上海交通大学的AnswerWeb、江苏理工大学的远程辅导答疑系统、国防科技大学开发的自动问题回答子系统、清华大学教育软件研究中心开发的基于Web的远程答疑系统等均属于这一类答疑系统。 目前,国内一些基于自然语言理解的答疑系统己经取得了较好的应用,大大提高了系统答疑的能力,为远程教育的顺利开展提供了有力保障。但是,我们也看到这些答疑系统还存在诸多不足,具体体现在以下几个方面: ()系统交互性差 除自动答疑系统外,对于大多数系统,学生的提问一般得不到及时回答,有一个很长的滞后期,严重影响了学生的学习进度和使用系统进行自主学习的积极性。即使有自动答疑系统,提供给学生的结果也是盲目的无序的一大堆,同样需要学生自己去筛选,无法满足学习的需要,体现不到远程教育的优点。 ()答疑方式单一 现有答疑系统答疑方式比较单一,一般都只有一两种答疑方式,不能很好的体现远程教育的优越性。随着网络快速发展,信息的表达方式和传递方式是多种多样的,系统应该寻求答疑途径多样化,如搜索引擎、ChatRoom,Email,WWW服务、FTP服务等等。系统要么只有同步方式,如ChatRoom,要么就只有异步方式,如电子公告板,没有很好的将两种方式有效地结合起来。同步方式具有响应速度快的优点,而异步方式具有问题描述解答系统详细的优点。 ()表现手段不够丰富 目前的答疑系统一般都只限于文本方式,与远程课件相比,多媒体效果特性几乎不具备,当然这和系统本身的特点有关,但是随着研究的深入,答疑系统具有声音、影像、动画等多媒体特性也将是一种趋势。 ()系统智能性不够 目前的自动答疑系统一般都是采取通过关键词或关键词的逻辑组合进行查询的方式,智能性不高。一方面,学生要具备一定的抽词能力和逻辑组合能力,对部分学生的使用造成一定的困难;另一方面,由于系统缺乏评价学生提问的真正意图的必备信息,系统就无法优化或再加工系统的问题答案库资源,造成查询结果太多而且无序,无法适应应用的需要。国外研究情况 国外教育网站中答疑的实现主要通过各种网络人机交互的手段和技术来实现。国外答疑系统在智能化方面作的非常出色,如Ask JeevesTM公司的Ask Jeeves for Kids答疑系统3、Zhiping Zheng博士组织开发的支持多种语言的Answer Bus答疑系统4,MIT人工智能实验室Boris Katz博士组织开发的START系统5等。 国外答疑系统与国内的答疑系统相比具有如下特点6: ()系统的独立性。国外出色的智能答疑系统全部都是独立运行的系统,它们不属于任何教学或学习平台。这类系统所扮演的角色更像一个专业领域资源的提供者,提问者借助系统寻求答案可能是为了解决他们在相应学科中的问题,也可能仅仅是为了满足他们的好奇心,或者是为了寻找作业或任务中需要的资源。 ()系统的功能。相比国内答疑系统的丰富功能而言,国外答疑系统的功能更加简洁。虽然主要的功能与国内类似,但是所有的功能都是围绕答疑功能而设计,功能设计重点突出、设计精良。 ()系统的智能性。国外答疑系统的智能性主要体现在人机理解的自然语言接口和相应的问题查询和反馈上,但是国外系统在基于自然语言的提问方面作的比国内更加准确和人性化。如带有问题确认的功能,主要原因是国外在问题处理部件上增加了问题类型判断,以及增加了答案处理和解释部件,因此不但保证了系统对问题的更准确的理解,也使呈现的答案简明扼要。 ()系统的相关资源库。国外答疑系统的资源库的突出特点是拥有丰富、高质量的内容,比如Ask Jeeves for Kids系统的所有答案是来自数以万计通过查询和研究确定的和问题有关的其他网站链接,主要的来源是(Yahooligans, Educationg World和Federal Education Resources)这三个网站。这些网站资源是人为建设的,而并不是软件搜索得到的,因此,每一个答案链接都与问题相关。国外系统的答案资源库不只包括知识库还包括信息库。这样答案中呈现的信息可能是对问题的解答,也包括能够解答相关问题的网上资源的信息。与系统的独立性相关的是,和国内针对学科和课本的内容体系相比,国外系统答案资源库的内容采用了内容更加丰富和广泛的主题式或专业领域式内容组织体系。 ()相关技术。国外智能答疑系统主要采用英语语系,目前基于英语的自然语言处理技术、文本检索和数据挖掘技术都已经得到了长期的发展,并取得了优秀的成果。很多研究机构正在并己经构建了许多问题模型和相应的解答模型。这些技术的发展是国外智能答疑系统的高准确率的保证。烟台大学远程教学答疑子系统现状 在整个电大远程教育教学过程中,除了课堂教学之外,学生的自主学习占了相当大的比例,要完成自主学习的功能就必须有相应的支撑系统来完善远程教学的各个环节,增强学生自主学习的效果。这些系统包括:课件制作工具、师生交流系统、智能答疑系统、网上作业系统、网上自测系统、网上考试系统、教学点播系统等子系统。由于地理位置的分离,当学生遇到疑难问题时,需要网络教学系统给予及时答疑和帮助,消除学生学习的障碍,在线答疑就成了网络教学系统的重要组成部分之一,同时也是实现学生自主学习的一个重要途径。就烟大现有的远程教学答疑系统大致情况如下: 没有专门的在线答疑系统 师生之间的信息交流仅仅局限于现有的网络通信联络方式,如:电子邮件,留言板等,这类系统交互周期长,交互性差,学生的提问得不到及时回答,严重影响学生使用和学习的积极性、主动性,即使提问,也不一定能得到回复。具有初步答疑功能的答疑系统 现有答疑系统支持Web BBS讨论,即在教师的主持下进行实时聊天讨论,参与人同时登录系统才能进行答疑,需要教师定时登录系统或提前预约,交互性问题得不到合理解决,学生使用率同样较低。具备了自动答疑功能的答疑系统 个别单位的系统作了功能升级,升级后的答疑系统利用中文信息处理技术和Web数据挖掘技术进行类似搜索引擎的操作,在已有问题答案库中搜索与关键词匹配的问题及答案。学生提问时输入关键词进行查询,但是这样搜索的结果往往是一大堆,没有一个合理的排序,同样需要学生到一大堆查询结果中人工查找,具有一定的盲目性。没有做到以提问得答案的智能性,或通过提问方式减少无关问题出现在查询结果中。 另外,现有答疑系统缺少对学生疑问特征的分析,不能主动为学生推送其存在疑问或感兴趣的知识,也没有充分利用概念之间的语义关系来引导学生进一步的提问,智能化程度十分有限。系统的设计目标及研究的意义 在远程教学中,答疑是远程教学的一个重要的组成部分,直接影响着远程教学的质量,所以在远程教育平台中建立一个良好的答疑系统是必要的。该答疑系统的研究主要致力于改革现有的答疑模式,充分利用远程教育网资源,设计开发一个基于自然语言理解能力的在线答疑系统,该系统支持自然语言提问,对学生输入的自然语言问句进行分词处理、语义分析,并将分词结果与答案源文件映射的索引文件进行全文搜索匹配,给出匹配后的问题答案集,并按相关度的高低进行排序,返回给学生用户。另外,在这些学生提问的问题中,也反应出了学生对学习内容的掌握情况,系统还能根据学生提问问题的特征主动的为其推送知识,并对学生提问的问题进行分析、统计,为教师的教学工作提供参考。 本论文的研究意义主要体现在以下几个方面: ()答疑是学生进行系统学习的有益补充,同时也是学生巩固知识的重要途径,无论学习的形式如何变化,答疑对于学习活动来说是必要的且不可或缺的,在网络环境下,及时、有效地获得问题的解答是学生远程学习的基本需求。 ()答疑系统采用了友好的自然语言接口,学生可以采用自然语言句子问问题,而不需具备一定的关键词抽取能力和逻辑组合能力。 ()系统可以根据学生提问问题的特征主动为学生推送相关知识,使其能更好的掌握学习内容;同时,通过协作推送技术,把其他具有相同特征的学生所提问的问题和浏览的信息推荐给他,方便其了解其他学生的提问内容、关注焦点,以此来开阔视野、拓宽知识面,促进学生进行深入系统的学习。 ()通过对学生提问问题的记录分析,可以统计、分析学生普遍存在问题的薄弱环节,为教师进一步改进教学方法提供参考,成为辅助教学的有效工具。 在线答疑系统兼顾了及时性和并发性,解决了教师和答案资源的浪费,提高了学习效率和教学质量,同时该系统也是一个人工智能、信息检索和自然语言处理等技术的综合体,具有一定的研究空间。关键技术 自然语言处理技术 本系统属于基于自然语言理解的答疑系统,涉及到的自然语言处理技术有分词技术和检索技术(即问题匹配技术这个部分也太简洁了吧?充实一下 )。 分词技术 分词是自然语言理解的基础,分词的好坏直接影响自然语言理解的准确性。与英文相比,由于中文句子是连续的字符串,而且有很多的习惯用语,缺少一定的语法规则,所以中文分词存在一定的难度。我国在对自然语言处理技术方面的研究已有几十年的时间,虽然已经取得了很多研究成果,但是分词问题仍未彻底解决,这也是制约答疑系统发展的瓶颈。现有的分词方法大致可以分为三大类:基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法7。 ()基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 这种切分方法,需要最少的语言资源(仅需一个词表,不需要任何词法、句法、语义知识),程序实现简单,开发周期短,是一个简单实用的方法。 ()基于理解的分词方法 这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果,也称人工智能法。人工智能是对信息进行智能化处理的一种模式,主要有两种处理方式:基于心理学的符号处理方法。模拟人脑的功能,像专家系统,即希望模拟人脑的功能,构造推理网络,经过符号转换,从而可以进行解释性处理。基于生理学的模拟方法。神经网络旨在模拟人脑的神经系统机构的运作机制来实现一定的功能。 以上两种思路也是近年来人工智能领域研究的热点问题,应用到分词方法上,产生了专家系统分词法和神经网络分词法8。 专家系统具有显式的知识表达形式,知识容易维护,能对推理行为进行解释,可利用深层知识来切分歧义字段;缺点是不能从经验中学习,当知识库庞大时难以维护及在进行多歧义字段切分时耗时较长。 神经网络具有联想、容错、记忆、自适应、自学习和处理复杂多模式等优点。不足的是网络连接模型表达复杂、训练过程较长、不能对自身的推理方法进行解释,对未在训练样本中出现过的新的词汇不能给予正确切分。 ()基于统计的分词方法 从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。基于统计的分词方法所应用的主要统计量或统计模型有:互现信息、元文法模型、神经网络模型、隐模型和最大熵模型等。这些统计模型主要是利用词与词的联合概率作为分词的信息。 基于统计的分词方法的优点是:不受待处理文本的领域限制;不需要一个机器可读词典。缺点是:需要大量的训练文本,用以建立模型的参数;该方法的计算量非常大;分词精度与训练文本的选择有关。 目前,比较常用和实用的分词算法主要有最大匹配法(Maximum Matching Method, MM)、逆向最大匹配法(Reverse Direction Maximum Matching Method,RMM)、二次扫描法、联想回溯法、基于词频统计的分词法,以及基于知识的专家系统方法、神经网络方法9等。每种分词算法都有自己的特点,适合于不同的领域。在现有的比较成熟的分词系统中,往往都是各种分词算法的综合使用。 随着分词技术的发展,目前也出现一些比较成熟的中文分词系统,具代表性的有清华大学SEG和SEGTAG分词系统、复旦分词系统、哈工大统计分词系统、杭州大学改进的分词系统、北大计算语言所分词系统(分词和词类标注相结合)等7。除此之外,还有中国科学院计算技术研究所的ICTCLAS、海量智能分词、CSW中文智能分词等。这些系统在分词的准确率、未登录词识别、歧义切分、分词速度等方面都己比较优秀,己达到了一定的实用要求。同时,很多分词系统都提供有共享版或研究版,并提供有相应的函数接口,这将有利于分词技术的研究与应用。 , 在该答疑系统中,系统需要根据学生的问题特点,在问题答案库中寻找适合的问题及答案反馈给学生。那么,学生的提问到底都有哪些特点呢? ()问题都是比较短小,往往就是一句话。 学生在提问时,所提的问题一般都是比较短小的,而不是长篇大论,不具有段落篇章结构,绝大多数就是一句话。比如说,学生往往会问: “某个概念是如何的? “原理又是怎样的?” “组成结构又如何?” “功能是什么? “作用是什么?” “概念之间的关系是什么? “结果是什么?” “产生的过程怎样?”等。 这些问题一般一句话即可描述清楚,不需要过多的修饰、补充、说明等,不会有所谓的上下文关系存在。 ()问题是基于课程的信息。 由于在线答疑系统是基于课程学习的,学生登录远程教学系统后,首先要进行选择要学习的课程,比如,学生要学习数据通信技术,那么他就首先要选择数据通信技术这门课程,然后才能进行相关的学习,学生的提问也是仅仅针对该门课程,所以问题答案库中的每个问题答案项都是建立在某门课程基础之上的,即问题答案库应包含课程信息。 ()题具有专业性。 每门课程都具有很强的专业性质,所以学生在提问时,绝大多数的问题都包含有专业词汇。比如,在数据通信技术课程中,学生可能会问: “什么是调制与解调? “描述调制解调器的构成。 “何谓层次路由算法? “基本扰乱器的原理是什么。 “常用的数据压缩编码有哪些? “奇偶监督码是如何生成的? “请描述一下卷积码的编码原理。 “永久虚电路和虚电路有何不同。 “X.25协议定义了什么?等。 上面这些问题中就包含有专业词汇:调制、解调、调制解调器、层次路由算法、基本扰乱器、数据压缩、编码、奇偶监督码、卷积码、虚电路、永久虚电路、X.25协议等等。 ()问题中可能存在英文缩写或缩略语 由于问题都具有专业性,问题中存在专业词汇,这些专业词汇不仅仅是汉字的组合,可能存在英文缩写或者缩略语。词语的概念也不只限于汉字的组合,其中也可能是英文缩写或英文缩写和汉字的组合。 比如,在数据通信技术中,我们可以找出这样的专业词汇:TCP/IP、TCP/IP协议,LAN、WAN、Lempel-Ziv编码、QAM、NRZ、ASC II码、EBCDIC码、SYN、FDDI、ATM、ISDN、B-ISDN、MODEM、RS-232、X.25等等。 ()问题中可能出现机构名称及其英文缩写 由于每个专业都有他们各自的组织、研究、应用机构,形成了一个比较大的系统,它们在专业内经常被提起或引用,在学生的提问中可能包含这些机构的名称或者这些名称的缩略语.比如在数据通信技术中经常会出现ANSI(美国国家标准协会)、ISO(国际标准化组织)、CCITT(国际电报电话咨询委员会)、IEEE(电器与电子工程师协会)、EAI(电子工业协会)、IEC(国际电子技术委员会)、NIST(国际标准和技术协会)等等。 ()问题中包含表明问题性质的词、短语或语法结构 从上面的例子我们可以看出,问题中包含有问题性质的词语或短语,这些词语在问题中起到了很强的信息传递作用,在提问者和回答者之间起到了很好的沟通。提问到底要解决一个什么样的问题,问题的目的是什么,即提问问题是属于哪一类性质的。 比如,问题中经常会出现以下这些句子结构:什么是、说明的(基本)构成、说明的(基本)功能、举出的例子、举例说明、说出、有那些特点、区分、是多少、写出、求、为多少、画出、的区别是什么、为什么、多大、有什么好处、有多少、是否、说明的作用、说明的方法、说明的特点、解释、简述的意义、简述的含义、试求等等。 这些词语或语法结构代表了提问者所提问题的性质,要求回答者做什么。同一个问题使用不同的词语或语法组合可能有不同的表述,我们可以通过同义词或词语分类的方式解决,这个问题实质是一个初步的语义分析过程,在第下一节中将详细描述,并设计算法提取这些表达形式作为问题相似度计算的一个依据,使问题相似度计算更加科学化。 通过这一节对在线答疑系统中学生提问问题的特点进行分析,我们选择一种较为合适的分词方法作为该在线答疑系统的分词方法。 由于问题短小,不存在段落及篇章结构就没有上下文关系,所以基于统计的分词方法在本系统中无实际意义,对分词效果不会有任何提高,首先予以排除。另外由于基于理解的分词系统不是一种成熟的分词方法而且分词过程复杂,时效低下不能满足系统的速度需要,所以也被排除在外。系统只能采用基于字符串匹配的分词算法,基于字符串匹配的算法中又有多种方法,到底采用那种呢? 由于专业词汇在问题中起着相当重要的作用,它和表明问题性质的非专业词一起基本上构成了学生要问的知识点,所以在分词过程中专业词和表明问题性质的非专业词切分要非常准确的。相对而言,其他非专业词切分准确率可以降低,它只要求学生提问问题切分后的词尽可能与问题库中问题切分后的词匹配即可。从上面对问题特点的分析中,我们可以看到问题中可能包含英文或英文缩略语,如果是专业词,我们把它当作专业词加入专业词词典,如果是非专业词,我们把它当作一般词语或分隔标志处理。另外问题中可能存在机构名称及其缩略语,但是数量不是很多,而且对问题的回答不会起到实质性的作用,我们把它做一般性处理即可,要求并不是很高。 通过上面的分析,为满足算法在时间效率上尽可能高,同时对专业词和对表明问题性质的非专业词切分准确性高的要求,我们的在线答疑系统中采用一种改进的字符串匹配分词算法:首先根据专业词汇表抽取问题中包含的专业词语;然后对剩余的子串进行全切分找出所有可能的切分方式;最后识别最大交集型歧义字段和最大包孕型歧义字段,对最大交集型歧义字段和最大包孕型歧义字段进行歧义处理。全文检索技术前面写的是“检索技术”,这里怎么成了全文检索技术?二者什么关系?上面部分介绍比较详细,第2部分介绍的简单了点。只对概念进行的介绍,没有提到在你的系统中是否体现了这样技术,为什么用或不用,把概念介绍的同时,加上这种技术与目前你的系统的关系。老师在答疑过程中用可能会用到全文检索功能,可以指导学生如何在哪里找到更全面的解答 全文检索技术概述 全文检索是指计算机索引程序通过扫描文章中的每一个字或者词,对每一个字或者词建立一个索引,指明该字(词)在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。全文索引的思想类似于通过字典中的检索字表查字的过程。我们通常是在字典的开始部分为字典设置目录,通过拼音或者偏旁部首的方法,为字典中的每一个字建立目录,称之为目录索引。在目录里指明每个汉字在字典中所处的位置(页码),然后我们可以通过这个页码快速定位到该字实际所在的页10。 全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索是指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点。全文检索系统是按照全文索引理论建立起来的用于提供全文检索服务的软件系统。功能上,全文检索系统具有建立索引、处理查询返回结果集、增加索引、优化索引结构等功能,外围则由各种不同应用功能组成。结构上,全文检索系统具有索引引擎、查询引擎、文本分析引擎、对外接口(用户接口、面向WWW的开发接口、二次应用开发接口等)等等,加上各种外围应用系统等共同构成了全文检索系统。下图是全文检索系统的结构图。全文检索系统中的关键部分是全文检索引擎,各种应用程序都要建立在这个引擎之上。一个全文检索应用的优异程度,取决于全文检索引擎,因此提升全文检索引擎的效率即是提升全文检索应用的根本。另一个方面,一个优异的全文检索引擎,在做到效率优化的同时,还需要具有开放的体系结构,以方便程序员对整个系统进行优化改造,或者是扩展系统功能。比如在当今多语言处理的环境下,有时需要给全文检索系统添加处理某种语言或者文本格式的功能,比如在英文系统中添加中文处理功能,在纯文本系统中添加XLM或者HTML格式的文本处理功能,系统的开放性和扩充性就显得十分的重要。系统技术路线在这里加上对整个系统的总的技术路线的一个概述,下面再分别介绍 JSP技术 JSP(Java Server Pages)是由Sun Microsystems公司倡导、许多公司参与一起建立的一种动态网页技术标准。JSP技术是用Java语言作为脚本语言的,JSP网页为整个服务器端的Java类库提供了一个接口来服务于http的应用程序11。 所有程序都在服务器端执行,网络上传送给客户端的仅是程序运行的结果,对客户浏览器的要求低,可以实现无Plugin,无ActiveX,无Java Applet,甚至无Frame。 JSP的优点: ()对于用户界面的更新,其实就是由Web Server进行的,更新速度很快。 ()所有的应用都是基于服务器的,所以对于客户端不需要做任何更新,就可以保持最新版本。 ()客户端的接口较简单,对于各种应用易于部署、维护和修改。 ()平台无关性,使用JSP可以将业务逻辑和网页界面设计分开。JSP使用可重用的跨平台的JeanBern或EJB组件。具有Java技术的所有优点,包括健壮的存储管理和安全性。 ()JSP程序的运行有两个阶段:编译阶段和运行阶段。所有JSP文件在被访问前需要由JSP引擎自动将其编译成class文件,JSP引擎自动判断当前JSP文件与己编译的对应的class文件的版本是否一致,如果不一致则JSP引擎自动对当前JSP文件进行编译。由于需要进行编译,JSP文件在第一次访问时速度相对较低,JSP引擎将最近访问的class文件存放在内存缓冲池中,当该class文件被再度访问时从缓冲池中直接调用以提高性能这后面增加这种技术应用在你的设计中的原因或者优势 。面向对象的网络编程语言JAVA技术 Java技术具有强大的网络功能和全新的理念。作为一种跨平台的程序设计语言,Java具备简化的优点,并提供面向对象而又不依赖于机器的开放结构,具有卓越的可移植性、安全性特点,同时具有灵敏的响应和交互能力。按照Sun的定义,Java技术主要包括个平台:从小型设备的J2ME、适用于个人计算机以及工作组服务器的J2SE、到支持企业级应用的J2EE,Java的三种平台目前应用非常广泛。由于Java最初设计出发点就是面向网络,所以它能够完全满足网络应用对便捷性、模块化和安全性的要求。Java技术可以轻松地连接现有的计算机系统、降低计算成本和加快软件开发。同时,Java还使用户能够通过Internet安全地连接客户、供应商和合作伙伴,这些优势使得越来越多的用户倾向于部署基于Java的应用。Java语言作为门越来越受到用户青睐的语言,其简的单,面向对象的,分布式的,解释性的,强壮的,安全的,体系结构中立的,可移植的,高性能的,多线程饿,动态的特点和优势使其所发挥的效能是有目共睹的。系统所采用的JDK(Java开发工具集)为j2sdk1.5。所采用的JSP服务器为Tomcat6.0。扩展性标记语言XLM技术 XLM是Extensible Markup Language(可扩展的标记语言)的缩写,是W3C组织于年月发布的标准。W3C组织制定XLM标准的初衷是,定义一种互联网上交换数据的标准。W3C采取了简化SGML的策略,在SGML基础上,去掉语法定义部分,适当简化DTD部分,并增加了部分互联网的特殊成分。XLM可以让网页设计人员自行定义TAG的延伸格式,可以用在自由性的数据库或是各种文件格式上,用来接收与应用各种网页的需求。因此,XLM也是一种置标语言,基本上是SGML的一个子集。因为XLM也有DTD,所以XLM也可以作为派生其它置标语言的元语言。 XLM和HTML的关系1213: ()XLM并不是标记语言。它只是用来创造标记语言(比如HTML)的元语言。XLM和HTML是不一样的,它的用处途比HTML广泛得多。 ()XLM并不是HTML的替代产品。XLM不是HTML的升级,它只是HTML的补充,为HTML扩展更多功能。我们仍将在较长的一段时间里继续使用HTML。(但值得注意的是HTML的升级版本XHTML的确正在向适应XLM靠拢。) ()不能用XLM来直接写网页。即便是包含了XLM数据,依然要转换成HTML格式才能在浏览器上显示。 XLM的先进特性14: ()XLM继承了SGML的许多特性,首先是可扩展性。XLM允许使用者创建和使用他们自己的标记而不是HTML的有限词汇表。这一点至关重要,企业可以用XLM为电子商务和供应链集成等应用定义自己的标记语言,甚至特定行业一起来定义该领域的特殊标记语言,作为该领域信息共享与数据交换的基础。 ()灵活性。HTML很难进一步发展,就是因为它是格式、超文本和图形用户界面语义的混合,要同时发展这些混合在一起的功能是很困难的。而XLM提供了一种结构化的数据表示方式,使得用户界面分离于结构化数据。所以,Web用户所追求的许多先进功能在XLM环境下更容易实现。 ()自描述性。XLM文档通常包含一个文档类型声明,因而XLM文档是自描述的,不仅人能读懂XLM文档,计算机也能处理。XLM表示数据的方式真正做到了独立于应用系统,并且数据能够重用。XLM文档被看作是文档的数据库化和数据的文档化。 ()简明性。它只有SGML约的复杂性,但却具有SGML功能的约。XLM比完整的SGML简单得多,易学、易用并且易实现。另外,XLM也吸收了人们多年来在Web上使用HTML的经验。XLM支持世界上几乎所有的主要语言,并且不同语言的文本可以在同一文档中混合使用,应用XLM的软件能处理这些语言的任何组合。所有这一切将使XLM成为数据表示的一个开放标准,这种数据表示独立于机器平台、供应商以及编程语言。它将为网络计算注入新的活力,并为信息技术带来新的机遇。目前,许多大公司和开发人员己经开始使用XLM,包括B2B在内的许多优秀应用己经证实了XLM将会改变今后创建应用程序的方式。 SQL数据库技术 SQL是英文Structured Query Language的缩写,意思为结构化查询语言。SQL语言的主要功能就是同各种数据库建立联系,进行沟通。按照ANSI(美国国家标准协会)的规定,SQL被作为关系型数据库管理系统的标准语言。SQL语句可以用来执行各种各样的操作,例如更新数据库中的数据,从数据库中提取数据等。目前,绝大多数流行的关系型数据库管理系统,如Oracle,Sybase,Microsoft SQLServer,Access等都采用了SQL语言标准。虽然很多数据库都对SQL语句进行了再开发和扩展,但是包括Select,Insert,Update,Delete,Create,以及Drop在内的标准的SQL命令仍然可以被用来完成几乎所有的数据库操作。本系统所采用的数据库系统为SQL Server 2000,相比于其它大型数据库(Oracle DB2)来说它只是一个中型的数据库。为什么在系统中没有使用更大的、性能更好的数据库呢?考虑到该答疑系统并不是将问题答案放在数据库中存储,并查询。系统中所使用数据库的作用仅仅是作为一个答案的中间过渡,真正答案已经建成索引文件,并不在数据库中存放。当学生查询索引文件找不到相关答案,或者答案不满意时,这时候学生要将问题向真正的老师呈现,此时要将学生的问题暂时保存在数据库中。当老师查询到学生有向他提出的问题时,教师将真正的答案上传,此时上传的答案也要暂时保存在该数据库中。教师向数据库上传答案以后要将数据库中新上传的答案读出并保存为xml文件的格式,并为保存答案的xml文件建立索引,同时将该数据库暂存的答案内容清空。另外数据库中还要保存教师、系统管理员、学生的注册信息以区别登录者的不同身份。系统中的数据库因为使用的频率并不是太频繁,每次所处理的数据量也不是特别大。所以使用SQLServer2000完全能够实时响应,并能完成答疑要求。证实了XML将会改变今后创建应用程序的方式。 系统设计 全文索引技术答疑系统采用全文索引技术的优势 远程教育网站不仅仅是一门课程的教学,它可能要涵盖几百门课程的学习内容,每门课程又包含数以万计的答疑问题及问题的答案,此时数据库就会变的非常庞大。同时远程教育网站可能会有大量的学生同时登录并要求答疑,过度的并发操作去查询如此庞大的数据库,必然会导致服务器端的过量负荷,使查询速度大打折扣。特别是关键词匹配,如果采用的是全文匹配时,数据库会将查询关键词与数据库记录中所有的字段进行逐个匹配,此时的查询速度几乎就不能忍受,以至系统的运行负荷超载。 为了提高查询速度,有些答疑系统采用了为问题及问题答案创建关键词索引的办法。从问题和问题答案中筛选出最能代表该问题特征的一组关键词,并将关键词作为该答案记录的一个索引字段。当进行关键词的匹配搜索时,只是将关键词与该记录的索引字段里所存储的内容进行匹配,将匹配成功的记录中真正的答案字段输出。此种方法无疑加快了数据查询的速度,但提取的问题及答案关键词并不能完全代表答案字段里的内容,可能会发生学生想要搜索的关键词并没有存储在答案记录中的关键词索引字段里,却存储在真正的答案字段里。这样有该问题的答案却没有被检索出来,导致检索的问题的查全率受到限制。同时答案关键词的提取及关键词索引字段的建立也会浪费大量的人力和时间,在系统构建的起始阶段需要耗费大量的工作量。 通过以上分析,利用全文索引技术的优良性能和丝毫不亚于数据库的全面功能,我们完全可以采用全文索引技术创建我们的在线答疑系统,即对问题答案进行合理的组织,为其建立全文索引,并依据索引文件提供的多种查询方式,高效灵活的完成与用户的实时响应,有效的解决了以上问题。 答疑系统采用全文索引技术的优势: ()检索速度快 因为全文索引查询数据是通过事先系统离动创建好的索引文俘进行查询,遥过索引文件找到源数据。其设计的初衷就是解决查询速度的问题,其最突出的优点就是检索速度能大幅度提高。虽然初始化阶段,即为原数据建立索引文件的阶段,因为要对原数据进行分词且建立位置和频率等索引文件,可能要花费一点时间,经测试在当前主流机上兆的HTML文件为其建立索引文件的时间是分钟左右。但一旦索引文件建立完毕进行关键词的搜索时查询速度就会大幅度的提离,经过实验亿汉字平均检索速度秒,而利用数据库查询同等量的数据大约需要秒左右。 ()答案可扩展性好 基于数据库技术的答疑系统的数据更新较为麻烦,数据库中的一条记录一般是若干个字段构成。如:问题号,问题关键词,问题名称,问题答案等等,这就要求我们在更新添加记录时要将问题先分成对应的字段,然后再将问题按字段写入相应的记录中去。这个过程必然会浪费系统管理人员大量的时间和精力。 基于全文索弓技术豹答疑系统,是针对全文进行分词且建立索引,根本就不需要对原数据做任何处理。系统根据原数据文件结构自动读取并分词建立索引文件,一旦完成索引文件建立就可以搜索任俺位置的源数据。其记录的更新只需要给出文件名参数,运行程序即可,因此具备良好的可扩展性。 ()答案结构性好 传统的答疑系统因受到数据库技术的限制,对于答案之间的内在联结关系支持不是很好。全文索引答疑系统采用的原数据不是数据库中的记录,而是XLM文件,其作为可扩展的元标记语言本身就具有良好的结构,可以非常方便的在答案之间设置超级链接。如在给出问题答案的同时提供相应的链接(或是相关答案,或者是针对该答案的练习网页),使答案的结构更加良好。 ()开放性好,跨平台性好 基于全文索引技术的答疑系统对于答案源文件的索弓文件的建立以及关键谲的分词处理采用的是Java技术,并利用JSP技术将其集成于网络上。因Java语言所编写软件的跨平台性,使系统可以在任何一台安装了Java虚拟机的机器上工作。 ()功能可扩展性好 系统的核心采用了Java技术建立索引,以增加服务器的响应速度,但在其它功能上仍可采用其它计算机技术以增加答疑系统的功能,如:动态服务器网页技术,数据瘴技术,脚本语言,多媒体技术等等。系统总体结构及功能模块设计 系统的体系结构如图所示,共七个部分:注册、登录验证模块;答疑模块;信息推送模块;教学指导模块;学生模块;教师模块;管理员模块。 ()注册、登录验证模块 用户使用该答疑系统,要先进行注册,选择身份,再填写用户的基本信息:真实姓名、性别、出生年月日、身份证号码、教育程度、Email地址等。 ()答疑模块 成为系统的用户以后,用户就可以使用答疑系统了。本答疑系统支持自然语言的提问,系统先对用户输入的自然语言语句先进行分词处理、语义分析,然后与索引库中的索引文件进行全文匹配检索,找出匹配的问题(答案),并按相关度的高低进行排序。这里匹配的问题(答案)是指相关度大于一定阀值的问题(答案),阀值的大小可以根据经验和使用的情况进行设置、调整。当用户输入的问题没有匹配的答案时,系统将记录下该问题,存入待答问题数据库

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论