(计算机应用技术专业论文)基于网络的智能答疑系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)基于网络的智能答疑系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)基于网络的智能答疑系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)基于网络的智能答疑系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)基于网络的智能答疑系统的设计与实现.pdf_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 远程教学中智能答疑综合运用了自然语言处理、信息检索等技术,能够对 以自然语言描述的问题,自动给予问题答案,在远程教学中起着非常重要的作用。 本文围绕智能答疑系统一些关键技术进行了研究分析。主要内容有: 1 中文分词技术。结合多种技术优势,采用了当前较为流行的双向最大匹 配算法对自然问题语句进行切分处理;歧义字段的处理选用了统计方法 取频率较大的作为分词结果;对于未登录词,系统自动添加到未登录问 题表留给教师解答。 2 答案库的快速定位技术。根据教学答疑系统的内容结构相对较为固定的 特性,提出了一种基于三层索引的知识库结构,对问题的答案进行快速 定位,提高了系统的查询效率。 3 系统的安全性。对各种加密算法和访问控制方法进行了研究分析。结合 系统的情况选用了s h a 5 1 2 算法对用户的密码实行了加密,并根据用户的 角色分配不同的访问权限,保障了系统的安全性。 4 根据上述技术研究,设计和实现了答疑系统,提出了以在线实时答疑和 智能答疑两种机制相互协作来构建一个高效且相对智能、安全的答疑系 统模型,并以n e t 技术实现了该答疑系统。 5 对系统的实时性和准确性进行了测试,答案匹配准确率达9 3 5 ,查询的 平均时间为1 6 0 m s ,测试结果表明系统具有实时性和较好高的准确性。 关键词:远程教育智能答疑中文分词基于角色的权限分配s h a - 5 1 2 a b s t r a ( 玎 a b s t r a c t i n t e l l i g e n tq u e s t i o na n s w e r i n gi si n t e g r a t e da p p l i c a t i o no fn a t u r a ll a n g u a g e p r o c e s s i n g , a r t i f i c i a li n t e l l i g e n c ea n di n f o r m a t i o nr e t r i e v a l i ta u t o m a t i e a u yg i v e s i m m e d i a t er e s p o n s et oaq u e s t i o nd e s c r i b e db yn a t u r a ll a n g u a g e ,a n di so fg r e a t s i g n i f i c a n c ei nt h ed i s t a n c ee d u c a t i o n t h i sp a p e rf o c u s e s s o m ek e r n e lt e e l m i q u e s o ni n t e l l i g e n tq u e s t i o na n s w e r i n gs y s t e m t h em a i na s p e c t sa l ea sf o l l o w s : 1 c h i n e s es e g m e n t a t i o nt e e l m i q u e c o m b i n i n gav a r i e t yo ft e c h n o l o g i c a l a d v a n t a g e s ,t h eb i d i r e c t i o n a lm a x i m u mm a t c h i n gm e t h o di sa d o p t e df o r t h e p r o b l e mo fn a t l l r a l s e n t e n c es e g m e n t a t i o n ;s t a t i s t i c a lm e t h o d sf o rt h e d i f f i c u l t yo fa m b i g u i t y , a n dt a k i n gg r e a t e rf r e q u e n c y 髂t h er e s u l t ;t h e u n k n o w l li sa d d e dt ot h eu n r e g i s t e r e dt a b l e , a n ds o l v e db yt e a c h e r sl a t e r 2 r a p i dl o c a t i o nt e c h n i q u eo fa n s w e rl i b r a r y a c c o r d i n gt ot h ef i x c ds t r u c t u r e c h a r a c t e r i s t i c so ft e a c h i n gc o n t e n t s ,at h r e e - t i e ri n d e xs t r u c t u r eo ft h e k n o w l e d g el i b r a r yi sp r e s e n t e dbr a p i d l yl o c a t ea n s w e ra n dt oi m p r o v et h e e f f i c i e n c yo f t h es y s t e m 3 s y s t e m i cs e c u r i t y t h ed i f f e r e n tk i n d so fe n c r y p ta n d a c c e s sc o n t r o l t e e l m i q u e sa r ea n a l y z e d t h es i t a 一5 1 2e n e r y p t i o na l g o r i t h ma n d t h e r o l ej a s c da c c e s sc o n t r o li su s e dt oi n s u r et h es e c u r i t yo f t h es y s t e m 4 t h es y s t e mi sd e s i g n e da n di m p l e m e n t e ds u c c e s s f u l l ya c c o r d i n gt ot h e t h e o r ym e n t i o n e da b o v e a ne f f e c t i v e , i n t e l l i g e n ta n d s a f em o d e li s c o n s t r u c t e db ym u t u a lc o o p e r a t i o nt e c h n i q u e si n c l u d i n gt h eo n - l i n er e a l - t i m e a s p e c t sa n di n t e l l i g e n ta s p e c t s a tl a s t , t h es y s t e mi sp r o g r a m m e d i nv i r t u eo f m i c r o s o f t sd o t n e tt e c h n o l o g y 5 s y s t e ma c c u r a c ya n dt h er e a l - t i m eo ft h es y s t e ml u et e s t e d t h ea c c u r a t e m a t c h i n gr a t eo f a n s w e ri s9 3 5 a n da v e r a g en e e d e dt i m eo f q u e r y i sa b o u t 1 6 0 m s t h er e s u l t ss h o wt h a tt h es y s t e mi sr e a l t i m ea n dm o l oa c c u r a t e a b s t r a c t k e y w o r d s :d i s t a n te d u c a t i o n , i n t e l l i g e n tq u e s t i o n sa n s w e r i n g , c h i n e s ew o r d s e g m e n t a t i o n , r o l e - b a s e da t c c e s sc o n t r o l ,s h a - 5 1 2 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:墨煎拯指导教师 神年口月江日 西北大学学位论文独创性声踞 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位论文作者签名:手l | l j 焉 锎年月 2e t 第1 章绪论 1 1 引言 第1 章绪论 随着互联网的蓬勃发展。远程教育逐渐成为计算机网络应用的热点之一。它 使教育资源实现了跨越时间和空间的传递,学生不仅可以从教师那里得到知识, 还能从网络上获取广泛而丰富的教学知识和内容。因此,世界许多国家都已将远 程教育作为进一步普及教育、提高国民素质的新途径 1 1 。 在整个远程教学过程中,除了网络课堂教学之外,学生的自主学习时间占了 相当大的一部分。然而,由于受到地理位置和时间的约束,在自主学习阶段,学 生遇到疑难问题无法与教师进行实时交互。智能答疑的出现正好解决了这个问 题,它通过将学生常见的问题和老师的解答有机地组织起来存放至相应的答题库 中,利用自然语言处理技术对学生的疑问进行语义分析后自动地找出与问题相匹 配的答案,解决了学生的疑惑。因此智能答疑在远程教学中起着非常大的作用, 它能够加强师生交流、帮助学生找到疑难问题的答案,提高了学生的学习效率, 同时也可以避免教师对同一问题做出反复的解答,有利于教学质量的提高。 1 2 研究现状 1 9 9 3 年,世界上最早的答疑系统s t a r t 2 1 ( s y n t a c t i c a n a l y s i s u s i n g r e v e r s i b l e t r a n s f o r m a t i o n ) f 口 世,它是m i t 人工智能实验室i n f o l a bg r o u p 的b o r i sk a t z 及其 同事合作开发的一个基于w e b 的答疑系统。s t a r t 是一个基于知识库的问答式 搜索引擎,系统包含两个知识库( s t a r tk b 和i n t e m e tp u b l i cl i b r a r y ) 以及一个 搜索引擎。如果通过这两个知识库就能回答用户的问题,那么系统立刻给出准确 的答案;否则,首先解析用户输入,得到其中的关键词,然后利用这些关键词, 通过系统自身的搜索引擎进行检索,最后将得到所有相关文本,以链接的形式提 交给用户,供用户点击并在打开的网页中自行寻找答案。 a n s w e r b u s l 3 是另外一个著名的答疑系统,它是基于搜索引擎的答疑系统, 选择g o o g l e ,y a h o o ,y a h o o n e w s ,a l t a v i s t a 和w i s e n u t 作为搜索引擎,支持英 第1 章绪论 语,德语,法语,西班牙语,意大利语和葡萄牙语自然语言查询。用户提交查询 语句,a n s w e r b u s 根据提问选择适合的一个或多个授索引擎,查询w e b 站点, 提取w e b 页面中的句子返回给用户。 国外的智能答疑系统1 4 0 “r _ 7 】都是独立运行的系统,它不包含于任何的教育 或者教学平台。这类系统在问题处理部件都增加了问题判断类型,以及增加了答 案处理和解释部件,保证了系统对问题的更准确理解和呈现答案的简明扼要。相 对于国内现存的智能答疑系统,国外系统在基于自然语言的提问方面做的比国内 更加准确和人性化。 国内的智能答疑系统主要是通过人工答疑( b b s 、在线答疑和电子邮件等) 和基于数据库的自动答疑两种方式来实现。真正具有智能性的网上答疑系统还比 较少,如校际通网络教学平台、新叶网络教学平台、佛氏i c l a s st u t o r 数超异步 教学辅导系纠8 9 1 0 ,1 1 1 等。 基于数据库的自动答疑系统最具代表性的是上海交通大学远程教育中心设 计开发的a n s w e rw e b 1 2 1 ,在用户成功的登录到系统中后,选择了要查看的课程 后,可以看到有关课程以章节形式呈现的己经登录的问题和答案。用户将自己要 询阅问题中的关键词输入查询框,系统则在数据库中查找。如果找到了答案就将 找到的答案呈现给用户,否则将问题存储在数据库中留给专家解答。这样,用户 下一次进入系统后就可以利用“查看答案”的选项来查看答案。 而人民大学的网上人大d 1 则采用“值机答疑”,即通过聊天室由教师指定时 间进行在线答疑。根据学生的要求,定期安排教师在聊天室与学生进行现场答疑, 解决学生提出的问题。 国内的网络智能答疑系统研究起步较晚,使得无论在答案的准确性还是实时 性上来说都比较差。相对于国外现存的智能答疑系统,国内的系统在基于自然语 言的提问方面,其准确性和人性化方面还有一定差距。总的来说,现有的远程教 育平台中智能答疑系统的不足表现在以下几个方面【1 4 1 : 1 ) 系统的答疑手段过于单一。上述的各种答疑系统,或者使用搜索匹配的 方式来解答疑问,或者使用实时在线讨论的方式,没能将二者结合起来 使用。 2 ) 分词速度慢。每次要对问题进行大量的匹配计算:对专业问题,不能够 2 第1 章绪论 很有效地分词。 3 ) 自我调节差。由于问题的相关度计算函数的确定,用于解答的问题顺序 不能够根据用户的判断而做出更合理地调整。然而一般在学生的提问过 程中,学生对问题的浏览就是一个对问题相关度进行人工排序过程,这 是一个很重要信息,得不到利用。 4 ) 答疑系统所给出的答案不够精确。 现有答疑系统的这些不足,极大地限制了远程教育系统的作用。没有一个优 秀的答疑系统,这样的远程教育系统无疑是不完整的。基于这一现状,作者提出 了一种基于分词技术和答案检索技术的网络智能答疑系统,从而很好地解决了答 疑的实时性和准确性,使得答疑系统更趋于人性化。 1 3 主要研究内容 本课题主要的研究问题是智能答疑系统相关的理论技术以及系统的具体设 计与实现。主要研究工作如下: 1 ) 论述了智能答疑系统在远程教育中的重要作用,对比了国内外比较有代 表性的智能答疑系统,并对现存答疑系统的研究现状及存在的问题进行 了分析。 2 ) 介绍了智能答疑系统涉及的相关理论技术,并分析了常见的方法。根据 系统的实际情况对分词算法和答案库检索技术进行适当改进,给出了满 足于本系统的解决方案。 3 ) 建立了有利于提高智能答疑系统查询速度的知识结构库。 4 ) 根据智能答疑系统系统安全的需要,对用户的密码进行加密处理,同时 为不同的用户根据角色分配了不同的访问权限。 5 ) 设计了基于网络的答疑系统的总体方案,并结合n e t 技术编程实现了智 能答疑系统的主要功能模块。 1 4 研究意义 功能完善的基于网络的智能答疑系统相对于传统的教师面对面答疑有很大 第1 章绪论 的优势,主要体现在: 1 ) 有利于提高教学质量。学生可以突破时间和空间的限制,通过网络答疑 系统,结合自己的实际情况最快地获取与问题有关的信息,从而加深对 相关知识的理解和把握,提高学习效率;教师通过获取在学生中普遍存 在的问题并及时反映到教学活动中,帮助大部分学生理解并掌握这些问 题涉及的知识,提高教学质量。网络远程教育教师也可以根据学生的反 馈信息完善网络课程,提高网络教育质量。 2 ) 有利于帮助学生快速准确地找到需要的答案,减轻的教师工作量。很多 有代表性的问题,涉及课程的重点和难点,往往会不止一个学生提出来, 教师只需要详尽地回答一次并加入到问题解答库中,即可同时解决很多 学生的疑惑。 3 ) 有利于提高学生学习的积极性。学生在学习过程中遇到疑惑时,可以很 快速地进行答案搜索,提高了学生学习的积极性。 1 5 论文结构 本论文共有七章,各章的主要内容如下: 第一章绪论,论述了答疑系统在远程教育中的重要作用,对比了国内外有 代表性的几个答疑系统,分析了现存答疑系统所存在的问题,给出了本文的研究 意义,最后简要介绍了论文结构安排。 第二章系统的相关理论与技术,简要介绍了智能答疑系统涉及到的相关技 术:中文分词技术、答案库的检索技术、w w w 技术及系统平台的开发工具 一n e t 技术。 第三章答疑系统的设计方案,指出了开发智能答疑系统的可行性,确立了 系统的设计目标,对系统进行了总体设计,包括:系统的运行模式、模块划分和 系统工作流程三个方面;最后,设计了系统的数据库。 第四章智能答疑系统中关键技术的解决方案,详细介绍了系统设计过程中 选用的方法,包括:分词技术,答案库检索技术,知识库的建立,系统的安全问 题及b b s 在线答疑模块简单介绍。 4 第1 章绪论 第五章智能答疑系统的实现,建立了系统开发的环境,根据系统的设计完 成基于n e t 的智能答疑系统的重要功能模块的代码实现。 第六章系统的性能测试,对系统的准确率和时间效率两个方面进行了测试, 给出了测试结果。 第七章总结与展望,最后对全文的研究工作进行总结与展望,指明作者下 一步在理论和开发方面需要进一步努力的方向。 5 第2 章系统的相关理论与技术 第2 章系统的相关理论与技术 2 1 中文分词技术 在书面汉语中,字与字、词与词之间是连写的,词在句中没有显式的标出。 因此,理解汉语的首要任务就是把连续的汉字串分割成词的序列。 2 1 1 中文分词技术的原理 计算机内部存储的中文信息汉字,如中文书面语一样,也是连续书写 的,词与词之间没有任何区分标志,为了能够在词这一层面上进行自然语言处理, 就必须把汉字串序列按词切分开,使一个没有间隔标志的汉字串转化为词串序 列,这就是分词旧。自动分词技术是针对现代汉语字序列文本,按照一定的规范 自动分解为词序列的中文处理技术,如图2 1 所示。 画冒两 分词 图2 1 自动分词 在汉语中,可选择的基本元素可以是字也可以是词,从而形成了基于字表的 索引库和基于词表的索引库蚓。字表法是课程中的相关字的位置信息记录在知识 库中;而词表法则是以词为单位将其位置信息记录在知识库中。由于词表法的知 识库相对字表库较小,检索速度快,检索的精度比较高,适合用于特定领域中内 容相对固定的知识搜索。 词是最小的、能独立活动的、有意义的语言成分【切。分词是中文信息处理从 字符处理水平向语义处理水平发展的关键,是中文智能计算机术的基础。目前, 中文分词技术的发展还较为落后,成为了中文信息自动化处理技术发展的瓶颈。 6 第2 章系统的相关理论与技术 2 1 2 中文分词技术的应用 中文分词技术主要应用于以下几个方面【1 8 1 : 1 ) 汉语语言理解:理解是以词而不是以字为基础的。现代汉字处理技术已 达到实用化,但采用的方法基本是英语语言理解方法。因此必须下功夫 探索适合汉语特点的语言理解技术。自动分词是首先要解决的一个问题。 2 ) 机器翻译:基于理解的翻译是机器翻译的发展方向。自动分词技术的研 究是其至关重要的研究部分。 3 1 语言文字自动处理:词频统计、词结构分析、编制词索引、句型识别、 统计和分析等问题都与分词有关。 人工智能和知识工程:汉语自动分词是一个与汉语语言理解具有等难度 的问题,它涉及了知识表示、知识获取、启发式推理、常识性推理等一 系列基本推理问题。 5 1 计算机系统的汉语人机接口:诸如系统软件、统计处理系统、数据库系 统、人工智能系统等,种种系统的使用目前尚停留在“格式化命令”阶 段,也就是说人们只有熟悉了一个系统的形式命令后,才能使用该系统。 一个良好的汉语人机接口是建立在汉语理解技术之上的,从而也与自动 分词密切相关。 2 1 3 中文分词技术的现状 中文分词虽然己经有很多年的研究历史,但是迄今为止国内仍没有一个公 开的、受到广泛认可的、可操作的分词规范,也不存在一个通用的大规模评测语 料【1 9 1 。这使得众多研究者的研究结果之间缺乏真正的可比性,从而制约了中文分 词技术的提高,成为中文信息处理研究发展的一大难题。 目前,a c e ( 国际计算语言学协会) 的s 1 g h a n 分会己经在这方面进行了初 步尝试,并于2 0 0 3 年组织了国际第一次汉语分词评测,吸引了国内外l o 多家研 究单位参加,受到了中文分词研究者的广泛注意。另外,值得一提的是,中科院 计算所的i c t c l a s 分词系统可供公开测试和开放源码下载使用,目前已经引起 7 第2 章系统的相关理论与技术 了较大反响,在分词工具的应用方面做出了重要的探索 2 0 1 2 1 4 常见的中文分词方法 1 ) 机械分词方法 这种方法又叫做字符串匹配的分词方法【2 1 1 ,它是按照一定的策略将待分析 的汉字串与一个。充分大的”机器词典中的词条进行匹配,若在词典中找到某个 字符串,则匹配成功( 识别出一个词) 。常用的几种机械分词方法如下( 捌: ( 1 ) 正向最大匹配法( 由左到右的方向) ; ( 2 ) 逆向最大匹配法( 由右到左的方向) ; ( 3 ) 最少切分法( 使每一句中切出的词数最小) 。 还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最 大匹配方法结合起来构成双向匹配法。 统计结果表明【2 3 1 ,单纯使用正向最大匹配的错误率为1 1 6 9 ,单纯使用逆向 最大匹配的错误率为1 2 4 5 。但这种精度还远远不能满足实际的需要。因此实际 使用的分词系统仅仅是把机械分词作为一种初分手段,还需借助各种其它的语言 信息来进一步提高切分的准确率。 常见的改进方法有两种:种方法是改进扫描方式咖,称为特征扫描或标志 切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作 为断点,可将原字符串分为较小的串再来进行机械分词,从而减少匹配的错误率。 另种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供 帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高 切分的准确率。 2 ) 统计分词方法 随着中文电子文本的增多,越来越多的学者认识到,海量的电子文本应成为 自动分词的重要资源,利用机器学习手段从生语料库中直接获取分词所需的某些 适用知识则应成为自动分词的重要补充手段,因此就产生了基于统计语言模型的 分词算法,又称为无词典分词法或统计取词方法1 。 该算法的思想是2 6 】:词是稳定的字的组合,因此,在上下文中,相邻的字同 8 第2 章系统的相关理论与技术 时出现的次数越多,就越有可能构成一个词。因此字与字相邻出现的频率或概率 能够较好的反映成词的可信度。可以对语料中相邻出现的各个字的组合的频度进 行统计,计算它们的统计信息并作为分词的依据。共现信息体现了汉字之间结合 关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一 个词。 基于统计的分词方法优点在于,能够有效地自动排除歧义,识别新词、怪词, 解决了基于字典的分词方法的弊病。但这种方法也有一定的局限性,会经常抽出 一些出现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我 的”、“许多的”等。 3 ) 人工智能分词方法 专家系统和神经网络是当前人工智能研究的两个热点,将两者应用到中文 自动分词中来提高分词的智能性,是近年来研究的一个热点。 专家系统阳1 分词方法从模拟人脑功能出发,构造推理网络,将分词过程看作 是知识推理过程。该方法将自动分词过程看作是知识推理过程,力求从结构与功 能上分离分词过程和实现分词所依赖的汉语语法知识、句法知识以及部分语义知 识,需要考虑知识表示、知识库的逻辑结构与知识库的维护。其知识库按常识性 知识与启发性知识分别进行组织。对于常识性分词知识采用“语义网络”表示, 对于启发性分词知识采用“产生式规则”表示。该算法具有显式知识表达形式, 知识容易维护,能对推理行为进行解释,切分精度据称可达语法级:其缺点是不 能从经验中学习,当知识库庞大时难以维护,进行多歧义字段切分时耗时较长, 同时对于外界的信息变化反应缓慢。 神经网络分词算法腔胡是一种以模拟人脑运行、分布处理和建立数值计算模 型工作的、以非线性并行处理为主流的非逻辑的信息处理方式。算法的分词过程 是一个生成分词动态网的过程,该过程是分步进行的:首先以确定的待处理语句 的汉字串为基础。来确定网络处理单元;然后,根据链接权重表激活输入输出 单元之间的链接,该过程可以采用某种激活方式,取一个汉字作为关键字,确定 其链接表,不断匹配。该方法最大特点是知识获取快,并行、分布性和连接性的 网络结构为人工神经网络的知识获取提供了良好的环境,并通过样本学习和训练 来自我更新。但是目前的基于神经网络的分词算法存在着网络模型表达复杂,学 9 第2 章系统的相关理论与技术 习算法收敛速度较慢,训练时间长的弊端。 到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词 系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。 2 1 5 中文分词技术的重点和难点 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢? 事实远非如 此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词 过程中,有两大难题一直没有完全突破嘲。 1 ) 歧义字段的处理 歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:美好的, 因为“美好”和“好的”都是词,那么这个短语就可以分成“美好的”和“美好 的”。这种称为交叉歧义【3 0 1 。像这种交叉歧义十分常见,如“化妆和服装”可以 分成“化妆和服装”或者。化妆和服装”。由于没有人的知识去理解,计算 机很难知道到底哪个方案正确。 汉语自动分词问题中歧义字段切分是影响自动分词系统切分精度的重要因 素,它是中文处理技术中的一个最困难也是核心的问题。自动分词的困难不在于 基于词库的字符串匹配算法,而在于匹配过程中词与词之间大量歧义的消解。目 前使用的解决歧义的策略主要有1 3 1 1 :基于规则,即利用语法语义知识进行歧义 切分;基于统计,即利用基于统计的分词方法自动排歧的特点,采用词频、 g a r k o v 模型等语料库统计知识进行歧义切分;基于规则与基于统计相结合。 本系统通过统计的方法进行歧义字段的处理,根据分割的词串出现的频率,选择 频率较大的作为分割结果。 2 ) 未登录词的处理 未登录词问题源于分词中词典的大小,词典中容量有限,则必定存在词典中 没有出现的词,称为未登录词1 3 2 】。目前,解决未登录问题的主要办法使建立临时 表,将不能识别的词作为新词存入临时表中。本系统是面向教学的,所涉及的词 主要是面向一定的课程,因此,出现未登录词的可能性比较小;但是,对于遗漏 的知识点,本论文通过建立未登录问题表,将没有找到答案的问题进行登记,等 第2 章系统的相关理论与技术 待教师解答,并对答案库以及词表进行补充。 虽然可以在机械匹配的基础上通过规则的方法来求解上述两个问题,但规 则方法很难穷尽真实文本的各种现象。目前比较主流的方法是通过对真实文本的 概率统计来求解切分歧义和未登录词问题 3 3 1 。国外学者【卅早在6 0 年代就开始研 究英语文本的自动词类标注问题,提出了一些消除兼类词歧义的方法,建立了一 些自动词性标注系统。如:1 9 7 1 年,美国布朗大学的略林( g r e e n e ) 和鲁宾( r o b i n ) 建立了t a g g i t 系统;1 9 8 3 年,里奇( gl e e c h ) 和加塞德限g a r s i d e ) 等人建立了 c l a w s 系统; 1 9 8 8 年,德洛斯( s j d e r o s e ) 对c l a w s 系统作了一些改进,利 用线性规划的方法来降低系统的复杂性,提出了v o l s u n g a 算法。国内3 5 挪3 _ 7 l 比较著名的一些院校和科研机构如北航、北师大、清华大学,北京大学、北工大、 哈工大、东北大学、中科院计算所等多家单位都进行了中文分词的研究,并将n 元语言模型、隐马尔可夫模型以及多种统计量等引入到中文分词,促进了中文分 词结果准确率的提高。 另外,分词准确性也是十分重要,但如果分词速度太慢,即使准确性再高, 对于答疑系统来说也是不可用的,因为如果分词耗用的时间过长,会严重影响学 生自主学习的积极性。因此对于搜索引擎来说,分词的准确性和速度,二者都需 要达到很高的要求。 2 2 答案的快速定位技术 为了提高智能答疑系统的效率,使用户能及时地得到计算机的回答,就必须 解决问题答案的快速匹配问题。也就是说,当用户提出一个问题后,系统怎样在 答案库中快速地找到所需的答案。如果采用顺序存储方式,对答案库中所有记录 进行顺序匹配,显然是不合理的,而且随着答案库中数据量的增加,查找性能就 会下降。因此,需要考虑合适的答案数据结构。 下面介绍解决智能答疑系统快速定位问题的两种可行的方案p ”。 2 2 1 基于关键词的全文搜索方法 全文搜索技术是一项被广泛采用的搜索技术嗍。包括两方面的核心技术:一 第2 章系统的相关理论与技术 是如何建立和维护全文索引库;另一个是提供快速有效的全文检索机制。 全文搜索技术最重要的一点就是将原始文档中所有基本元素的位置信息记 录在索引库中。在汉语中,可选择的基本元素可以是字,也可以是词。从而形成 了基于字表的索引库和基于词表的索引库。基于词表法的索引库比较小,检索速 度快,检索的精度比较高。而且适合用于特定领域中内容相对固定的文档的全文 搜索。对于智能答疑系统来说,其答疑内容基本上是针对某个学科或者特定领域 的,因此我们采取词表法来组织全文索引。 利用全文搜索技术,我们建立了一个基于关键词语的索弓l ,见图2 2 。 图2 2 基于关键词的索引 主索引是各个专业词语,每个索引项记录该专业词语在各个答案中心句中的 分布情况。查询时先根据用户问题中的各个关键字分别查找索引表并获得一个答 案集合,然后对这些查找到的答案集合取交集作为最后的结果。 按照关键词语建立索引,数据库中备有的问题( 简称后备问题) 不需要分类。 这样可以避免复杂的分类算法设计。如果只是问题与答案的精确匹配,这个方案 很合适。但是如果考虑模糊匹配,算法就要做相应修改。一般情况下,用户使用 的词语很可能与后备问题中使用的词语不一样,可能用同义词也可能用相关词。 2 2 2 基于章节目录的索引方法 面向远程教育的答疑系统,作为教学内容,每个学科的知识点相对固定,其 知识点间的相互关系也比较固定。例如,在数据结构中“数组”不会和“二 叉树”放在一章;“树”一定和。二叉树”在一章中,这些都是固定的。抓住这 个特点,利用固有的知识体系结构建立索引结构,如图2 3 所示。 第2 章系统的相关理论与技术 图2 3 答粟索引 在本系统的设计过程中,暂时只考虑计算机学科中的几门课程。因此,索引 结构根据教材只需分为课程、章、节三层目录。 把后备问题答案按照章节顺序存好,建立起课程、章、节的三级索引,查找 时先确定科课程再顺序确定章、节,逐渐缩小包围圈。最后在最小的包围圈里顺 匹配直到取得最接近的答案。 又因为,每个专业词语都只会在某些章节出现,而与某个专业词语相关的问 题也很大程度上只同这个词语出现的章节内容有关。从这个假设出发,系统对用 户问题进行分词处理后,可以根据问题中出现的专业词语所属的章节来判断问题 答案可能所属的章节。如果问题中出现了多个专业词语,就可以取这些专业词语 出现章节的交集作为候选答案的查找范围。要实现这一点,只要在每个专业词语 的属性中增加一项“所属章节”。 基于关键词的全文搜索技术的优点是不需要对问题进行分类,答案的添加比 较容易,适合于问题与答案的精确匹配。但基于章节目录的简单索引方案查全率 更高,适合于问题与答案的模糊匹配,而且一旦将问题定位到章,就可以对其进 行语义分析和理解,得到正确的答案。如果需要添加答案,只要使用和查找答案 时一样的算法就可以实现机器确定新答案应该归属的章而不需要人工参与。因 此,根据系统的需要,本文选用了基于章节目录地方法实现答案检索技术。 第2 章系统的相关理论与技术 2 3 访问控制技术 越权访问是安全访问控制的另一个很重要的方面,是指系统的合法用户进入 没有被授权的功能模块中,这也是系统管理员很关心的问题,因为如果没有有效 的措施来防范越权访问,那么所谓的权限管理就没有什么价值了。 2 3 1 常见的访问控制技术 目前访问控制技术主要有自主访问控制( d a c ) 、强制访问控$ f f m a c ) 和基于 角色( r b a c ) 的访问控制三种方式【4 1 1 。 1 ) 自主访问控$ ! ( d i s c r e t i o n a r ya c c e s sc o n t r o d :是经过身份确认的主体可以 自主地将其拥有的访问权限授予其他主体。用户数据访问方式较为灵活; 但是,由于用户可以任意传递权限,授予的访问权限难以控制。 2 ) 强制访问控制( m a n d a t o r ya c c e s sc o n t r 0 1 ) :是一种不允许主体干涉的访闯 控制类型,由系统管理员分配给主体一个固定的属性。m a c 访问控制模 型的优点是管理集中,安全性较高;缺点是访问控制太严格,管理不便。 3 ) 基于角色的访问控制( r o l e - b a s e da c c e s sc o n t r 0 1 ) t 4 2 j :实现了用户( u s e r ) 与 访问权限( p e r m i s s i o n ) 的逻辑分离,构造了角色( r o l e ) 之间的层次关系。 它的基本特征是:系统定义各种角色,每种角色可以完成一定的职能,不 同的用户根据其职能和责任被赋予不同的角色,一旦某个用户成为某角 色的成员,则此用户可以完成该角色的职能。 2 3 2 基于角色访问控制模型 基于角色的权限分配方案控制模型如下图2 4 所示m 】: 图2 4i l b a c 访问控制模型 1 4 第2 章系统的相关理论与技术 用户集u : “1 ,甜2 ,。, 1 4 。 ,“;为第f ( 1 f 以,一为系统中用户的个数) 个用户。 其中,鸭( s n i ) ,s j 是用户拥有的数字证书的序列号,通过s n i 可以唯一地确定拥 有该数字证书地用户。 标准角色集s r : 鹎,s r 2 s ) ,s 毛( 1 f m ,m 为系统中标准角色的个数) 为 第i 个标准角色集。其中s i ( n a m e , p e e ) , n a m e i 为标准角色的名称,p e r i 为标准角 色拥有的权限集合,在这里,p e r ;p 权限集p : p 1 ,p 2 p i ,忍为第f ( 1 i ,为系统中权限的个数) 个权限。 其中p i ( o b j e c t i ,o p s i ) ,o b j e c t i 是对权限p i 的操作对象的描述,呼碜表示只在操 作对象蛳;上具有某种操作的权限。若o b j e c t i新用户注册,印墨为添加新用 户。 会话集s : 岛,s 2 s , ,会话是用户登录时系统为用户建立的,它完成将用户 拥有的相关角色激活。 l h u x 艘:用户和标准角色的分配关系,是多对一的关系。 p a g p s r :权限和标准角色的分配关系,是多对多的关系。 r b a c 模型是一种比较先进的安全管理控制方式,在管理大型网络应用安全 上所表现出的灵活性和经济性迅速成为最具影响的高级访问控制模型。因此,本 系统也采用了基于角色的权限分配的访问控制方式。管理员根据需要将用户定义 了标准角色集,该集合中的元素为使用不同功能对应的标准角色,系统为这些角 色分配了其相应使用范围内的所有权限。 2 4w w w 技术 2 4 1w w w w w w 是信息广播的工具,其信息资源可以是文字、图像、声音等多媒体信 息,他们分别按不同的类型、形式独立存放于世界各地不同的服务器上;w w w 用户可以选择和控制所接收的信息。w w w 服务可以是电子邮件、文件传输、网 络新闻等。w w w 将各种信息和服务完美地链接起来,提供生动的、一致性的图 形用户界面。 第2 章系统的相关理论与技术 2 4 2b s 模式 b s 模式即浏览器服务器模式,应用程序主要在服务器运行。客户机通过 浏览器发送请求,等待客户机浏览器通信请求的应用程序叫服务器。客户机每次 动作都要向服务器发送请求并等待响应。服务器响应到达后,客户机浏览器显示 执行结果。 采用浏览器服务器系统的基本思想是 4 4 1 :在一个统一的地方( 服务器) 集中存 放信息资源和应用程序,信息资源一般保存在某个数据库( 数据库服务器) 中,根 据客户机浏览器的请求,w e b 服务器从数据库服务器中搜索信息并作出相应处 理,最后将运行结果传递给客户机浏览器。由于数据各应用程序均集中存放在服 务器端,所以相应的w e b 应用程序容易开发,也可以很方便地对系统进行维护 和数据修改。 2 4 3w w w 浏览器 w w w 浏览器的发展使得某个信息可以在任何类型的计算机上显示出来,客 户可以通过浏览器查询服务器上的信息。比较常用的浏览器主要是:m i c r o s o f ti e 和n e t s c a p e 两大浏览器。 客户机利用 r r t p 协议或f 1 p 协议从服务器取取得数据的步骤分为 4 4 1 : 1 ) 客户机与服务器建立连接; 2 ) 客户机向服务器发出一个对指定文档的请求; 3 ) 服务器在发送对象以及与对象相关的信息的同时,通过一个状态码响应 对方。状态码通常用来指示请求是否被接受。另外还有一些代码用来显 示传输中的各种错误。 2 4 4w e b 应用开发 w e b 应用开发过程要求支持实时的信息发布、动态的用户交互以及后台系 统灵活的安全的连接。如何构造功能更加强大、应用更为灵活、开发更为简单的 w e b 应用程序成为当前i n t e m e t 技术发展的热点之一。目前,面向w e b 应用程 1 6 第2 章系统的相关理论与技术 序开发的技术发展迅速,新技术不断出现。应用较为广泛的服务器端技术有c g i 、 i s a p i 、j s p 、a s p 、p h p 等;客户端技术有j a v a s c r i p t 、v b s c r i p t 、j a v a a p p l e t 等。这些技术在开发效率、运行速度、分布式事务处理以及自扩展能力等方面, 各具优势但又各有不足,开发人员在实际的开发过程中需要根据具体情况选用不 同的技术。 2 5 n e t 技术 v i s u a ls t u d i o n e t 是微软为推动互联网技术的进一步发展而推出的集成化 第三代互联网开发平台。程序员可以使用一种或多种n e t 编程语言来编写他们 的代码,例如v i s u a lc h n e t , v i s u a lc # n e t 和a s p n e t 等。相对于以往的 w i n d o w s 平台技术,n e t 平台主要有以下几个方面新特性 4 5 1 :面向对象的编程、 语言的无关性、对动态w e b 页面的支持、代码共享和增强的安全性。 2 5 1 n e tf r a m e w o r k n e tf r a m e w o r k 是用于n e t 平台的编程模型,提供了托管执行环境、简 化的开发和部署、以及各种语言之间的集成。它支持多种编程语言,并在一个应 用程序中可以使用不同的语言。n e t f r a m e w o r k 的层次结构如图2 5 【4 5 1 所示。 叵亟匦司巨变圈 图2 5 n e t 体系结构 1 7 第2 章系统的相关理论与技术 2 5 2c 撑语言 c 拌是一种简单、先进、面向对象和类型安全的编程语言,它是由c 和c 什 派生而来,目标是将v i s u a lb a s i c 的高效率和c + + 的强大功能相结合,使得程 序员能够快速开发种类丰富的应用程序。 2 5 3a s p n e t a s p n e t 是用来开发驻留在微软的s 上并使用诸如h t t p 和s o a p 等 i n t o m o t 协议的w e b 应用程序。a s p :n e t 采用编译型的程序语言,如v b n e t 、 c # 等,执行速度加快了好多:a s p :n e t 把网页内容和程序代码分开,使得页面 的编码看起来井井有条并可重复使用;另外,a s p n e t 还拥有许多优点,如更 强大的错误处理和调试特性、更好的安全管理机制等。 2 5 4a d o n e t 技术 a d o n e t 技术是在n e tf r a m e w o r k 中访问数据存储器的。它是专为n e t 平台上的数据库存取操作而重新建立的,是离线的数据集操作,因而可以减少与 服务器往返沟通的次数,降低网络流量。另外,a d o n e t 采用x m l 来交换、 更新数据,实现各种程序和数据源之间的无缝结合,并进行大规模的分布式处理。 这种方式的执行效率会比在传统的a d o 上使用c o m 技术来包

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论