基于数据特征的OPAC 简单检索及检索建议[J].doc_第1页
基于数据特征的OPAC 简单检索及检索建议[J].doc_第2页
基于数据特征的OPAC 简单检索及检索建议[J].doc_第3页
基于数据特征的OPAC 简单检索及检索建议[J].doc_第4页
基于数据特征的OPAC 简单检索及检索建议[J].doc_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于数据特征的OPAC简单检索及检索建议黎邦群(惠州学院图书馆,广东 惠州,516007)摘要 为了完善与丰富OPAC的检索功能,充分揭示用户对馆藏资源的利用和需求,提升用户的检索体验,需要对用户输入的检索词及馆藏书目数据库字段的数据特征进行收集、利用、挖掘和整理,对数据中隐含的关联规则进行知识分析。在对这些数据特征进行分析的基础上弱化检索规则,只提供一个简单的输入框,输入检索词回车即可实现检索,并在检索过程中根据数据特征进行判断和处理,在检索失败或检索结果不完美时给出相关搜索、在结果中找、中文分词等检索提示与建议,并浅述了其实现原理与方法。关键词 OPAC; 数据特征; 简单检索; 检索建议分类号 G250.7OPAC simple search and search suggestions based on the data featuresLI Bangqun( Huizhou University, Huizhou 516007,China)Abstract In order to improve and enrich OPAC search functions, the full-disclosure users on the collections in the use of resources and demand, improve the user experience, need to retrieve user input search words and collection bibliography database columns of data collection, use, characteristics of data mining and finishing, implied in intellectual analysis of association rules. In these data features on the basis of the analysis of weakening search rules, provide only a simple box, input search words can be realized search, And judgment and handling according to Data features in search process, give the relevant search, find the results, chinese word segmentation, for search prompt and Suggestions when in search failure or search results not perfect, and shallow Assyria principle and method of its realization.Keywords OPAC; data features; simple search; search suggestions1 引言联机公共检索目录(Online PublicAccess Catalogue, OPAC)是图书馆用户查询与浏览馆藏资源最重要的平台与窗口。OPAC系统是图书馆提供各种资源和服务的最主要的渠道, OPAC 所提供的服务与功能已经成为全面衡量一个图书馆服务水平的重要指标。1 它的设计直接影响到图书馆的服务质量与资源绩效。然而,OPAC的使用现状却不尽如人意。在Google、Yahoo、baidu 等网络搜索引擎的影响下,90%以上的大学生首选搜索引擎查询网络资源。2这不能不日益引起图书馆界的重视与研究,其中不乏将OPAC与搜索引擎进行比较、探讨OPAC革新的文献。用户越来越感到OPAC不好使用,OPAC革新势在必行。用户对图书馆OPAC 的期待已不仅仅是检索馆藏书目记录,他们希望OPAC 能发挥如搜索引擎那样方便快捷的检索功能。3用户需求决定了OPAC必须借鉴搜索引擎的优点。搜索引擎的优点首先体现在其易用性,用户不需要专门的培训与学习即可使用。本文试图从分析数据特征入手,设计无须复杂策略的OPAC简单检索,以求抛砖引玉,供各同业指正。2 数据特征分析2.1 用户输入的检索词数据特征分析据统计,用户进行检索时使用的检索点主要集中在题名(86.21 %) 、作者( 60.92 %) 、关键词( 54.02 %) 和出版社( 18.39 %)。4除了以上检索项,一般的OPAC系统还设置了针对诸如ISBN、登录号、排架号等字段的检索项。从实际使用情况来看,用户很少使用题名、作者、关键词、出版社之外的其他检索项。这告诉我们,OPAC的设计应尽量考虑重点检索以上字段。其次,用户输入的检索词往往比较简短。“最小努力法则”支配着检索用户的选择行为, 即用户通常都选择最省力的方式和行为实现其检索目标。如检索时多采用简短的检索词, 不采用复杂的句法手段和检索策略。5用户的检索行为与习惯在搜索引擎化,这将直接导致其需求也在搜索引擎化的过程之中。另外,用户输入的检索词数据之间,存在在隐藏的知识关联。如用户在进行二次检索时使用的检索词与前一次检索输入的检索词之间,就可能存在着某种知识关联。对读者行为数据的收集、利用和挖掘, 对数据中隐含的关联规则的知识分析,非常有助于OPAC简单检索的设计。2.2 馆藏书目数据库字段数据特征分析实现OPAC简单检索,必须仔细分析书目数据库的数据特征。只有分析书目数据库的数据结构,找出其特征,才能实现简单检索。各个不同的图书馆,其集成管理系统不同,所使用的底层数据库也存在着差异。尽管其表字段名称、数据类型可能不同,但其数据结构特征则大同小异。下面以SULCMIS的Sybase数据库相关书目表为例说明。经分析得知,其可作为检索项的字段的数据结构与特征分析见表1。表1 馆藏书目数据库字段数据特征字段名所属表数据类型含义特征分析CtrlNoB_BriefB_CallNoint图书Id索引外键F01xB_Briefchar(20)ISBN字符数为“13”或“17”以“978-7-”或“7-”打头F200B_Briefvarchar(255)题名和责任者含题名、责任者2个检索项F210cB_Briefvarchar(80)出版社以“出版社”3个字符结尾CallNoB_CallNovarchar(255)索书号索引以英文字符打头,数字结尾且中间含字符“/“通过对比用户输入的检索词与馆藏书目数据库字段数据特征,我们可以轻松准确地判断用户的检索意图,实现OPAC简单检索,提高检索效率。例如,用户明明输入了17位的以“978-7-”打头的,包含了4个“-”的字符,那就让OPAC仅精确匹配检索ISBN字段即可,根本不需要设计下拉菜单供用户选择检索项。3 OPAC简单检索3.1 设计简单的检索入口现存的OPAC一般都提供了多项专业的检索点,其中僵硬、复杂、术语化的检索入口,是导致OPAC使用频率低的重要原因。要吸引用户,OPAC的检索入口需要简单化、人性化。人性化检索最基本的实践就是检索界面的简单化。6简单的检索入口,是OPAC借鉴搜索引擎的开始。OPAC简单检索的检索框见图1。 图1 OPAC检索入口馆藏书目 检索 正如搜索引擎的检索界面那样,只提供一个简单的输入框,通过数据特征分析,即可完成对书目库表全字段的高效检索。通过简化检索界面,设计出友好、简单明了、易用易学的检索界面,让用户检索起来更轻松,能激发读者的检索兴趣。3.2 弱化检索规则从用户更倾向于利用搜索引擎检索信息的事实来看,图书馆必须借鉴搜索引擎的优点,创建一个属于图书馆自己的学术搜索引擎,弱化OPAC系统的检索规则。7数据特征分析结果表明,我们无须给用户制定复杂的检索规则,迫使用户学习难记的检索语法。一个有趣的事实是,用户其实是非常容易满足的,他们通常更满足于搜索引擎的简单搜索规则。而不是关注于检索结果是否精确。8据此,我们应该弱化OPAC的专业性,让其检索规则更具通用性。用户在搜索引擎与OPAC之间进行转换检索不再具有障碍。从用户“最小努力法则”的检索行为来看,这样的OPAC无疑对其有着不小的诱惑。3.3 找到最佳的匹配结果读者通过OPAC进行馆藏资源查询时,检索效果却常常不尽人意,不是检索出大量无关结果,让人难以选择;就是返还结果为零,让人十分沮丧和失望。9通过分析用户输入的检索词数据特征,我们可以准确判断用户的检索意图,针对性地查询相关字段,避免出现驴唇不对马嘴的检索结果,从而找到最佳的匹配结果。假如用户输入的检索词为“q”,其OPAC的SQL“逻辑与”(以搜索引擎中通用的空格来分割检索词)查询语句如下:For n=0 to Int(Ubound(Split(q, ) w=Trim(Replace(Split(q, )(n), ,) If w0 And w64 And Asc(w)123 And (Len(w)0 Or Isnumeric(Mid(w,2,1) Or Isnumeric(Mid(w,3,1) Or Isnumeric(Right(w,1) Then Sql=Sql & And CallNo Like & w &% Else Sql=Sql & And F200 Like %& w &% End IfNext以上SQL语句,是建立在对用户输入检索词的数据特征分析基础上的,检索结果自然能相应地体现用户的检索意图。假如还是出现检索偏差,OPAC会给出丰富的检索提示与建议,以便用户在对检索结果不满意时选择使用,不断修正检索结果,最终获得满意结果。4 检索建议4.1检索失败即检索结果为“0”,没有找到任何结果。这种情况下,OPAC应首先分析用户输入的检索词的数据特征,判断用户的检索意图,从而自动进行二次检索,给出高度相似的检索结果。检索失败原因分析及处理策略如表2。表2 检索失败原因及处理策略检索词的特征检索失败原因处理策略带有特殊符号如“_”与书目数据存在符号差异过滤特殊符号没有空格或空格不当用户分词不当进行中文分词拼写错误用户键盘输入错误拼写检查提示非单词的英文字符检索词为汉语拼音进行拼音搜索完全正常,无特征确实没有匹配结果进行相关搜索用户输入检索词出错是导致检索失败的一个重要原因。通过分析其特征,进行相应的处理策略,可以在很大程度上避免检索失败。其处理策略中,“过滤特殊符号”最简单,使用替换函数将检索词中的“!#$%&()*+,.-_/:;?|”等特殊字符替换成空字符即可达到将其过滤的目的。基于词典的“中文分词”技术,是将检索词进行分词后再进行匹配查询,其实现原理则要复杂得多。通过前面的检索词数据特征分析,我们得知用户输入的检索词往往比较简短。在验证检索词长度的前提下,我们可以使用一种较为简单高效的分词方法来替换基于词典的中文分词技术。其原理是将检索词的每个中文字符均看成是一个被截分的词。其分词的SQL语句如下:For i=1 to Len(q) Sql=Sql & F200 Like %& Mid(q,i,1) &%Next可以根据书目数据的特征及用户的检索习惯,自行设定被截分的词的长度。通过这种方法来增强模糊搜索功能可以增加书目的检全率。“拼写检查”功能需要首先建立一个拼写检查库, 其中包含了各种词语的常见错误拼写形式,经过查询该库,若匹配到拼写错误的词语,OPAC就从拼写检查库中读取正确的词语提示给读者。“拼写检查”功能已在百度等搜索引擎中广泛应用,并取得良好的效果。“拼音搜索”功能的实现原理与“拼写检查”功能类似,如判断检索词可能为汉语拼音,即通过检索拼音数据库查询出对应的中文字符。如检索词为“hongloumeng”,即自动查询“红楼梦”相关书目,并给出其“拼音搜索”的提示。“相关搜索”的原理为通过分析用户每一次和前一次输入关键词的检索行为,来判断二者的内在联系是否为相关关键词,假如用户第1次检索没找到满意结果,再进行第2次、第3次第n次检索,那么每第n-1次的检索词,都可以看成是其后面的每第n次的相关词。再加上其他用户的检索行为,就会有一个相关关键词量的累积结果。这样通过不断地搜集、整理和挖掘用户的检索词,即可构建相关关键词数据库,即可在此基础上通过一定的算法对比检索词,呈现给用户最热门的相关词,从而实现“相关搜索”功能,对用户的检索行为给出相关的检索词建议,供用户选择。除了以上处理策略,OPAC一般还应该设置“高级检索”建议,“检索帮助”提示等辅助提示。限于篇幅,不再详述。这些检索提示与建议在检索失败时,不致使用户手足无措,无疑提升了用户体验。4.2 检索结果不完美即有检索结果,但是结果太多或太少,用户对结果不满意。在实际检索当中, 用户只要检索结果不满意, 就需要调整检索策略, 以扩大检索结果或缩小检索结果。10其中扩大检索结果可以由相关搜索及中文分词等功能来实现;而缩小检索结果则可以使用“在结果中找”功能进行纠正。在检索结果页面提供一个“在结果中找”的链接,用户通过此链接,在搜索框里填写新的词语,就可以在这些结果内进行搜索。在一般的OPAC检索结果页面上,还应该增加“排序提示”、“作者提示”、“分类号提示”等信息。例如提供按出版时间、浏览次数、流通频率等依据进行相关性排序。如果检索词为责任者名称,则应给出作者生平简介信息及其所著图书的结果页面链接。例如检索词为“贾平凹”时,应给出如下信息:贾平凹(1952),陕西丹凤人,西安市文联专职作家。从事文学编辑兼写作。著有商州初录、废都、高老庄等。该功能的实现,有赖于作者生平信息库的构建。构建该库有个简便的方法,通过收集本馆书目详表中的304字段值即责任者说明即可,这样构建的作者生平信息库,十分适合本馆OPAC使用。如果检索词具有分类号或索书号特征,还应通过检索分类法表,给出对应的分类提示与对应的结果页面链接等信息。如检索词为“i267”时提示:“i267”相关分类:文学 - 中国文学 - 散文 - 当代作品(1949年)这样即可实现“分类号提示”功能。检索结果不完美,从本质上来说,仍然属于检索失败的范畴,应该给予足够的重视,设计出相应的策略,并在实践中不断修正完善。5 结语 OPAC作为图书馆最重要的资源门户,功能却残缺不全。挽留图书馆网站用户,从革新OPAC开始。“以用户为中心”的服务宗旨要求我们,不能强迫用户适应OPAC的检索规则,而应该主动去迎合用户的检索需求与使用习惯。OPAC作为图书馆和读者交流的窗口和提供服务的平台,其封闭性已经落后于技术的发展和读者的需求,改进势在必行。11无论是OPAC简单检索的设计,还是其检索建议功能的设置,均以分析用户输入的检索词和馆藏书目数据库字段的数据特征为基础。而用户输入的检索词及馆藏书目数据库字段的特征数据充分揭示读者对馆藏资源的利用和需求,蕴藏了丰富而有用的知识,隐含了一定的关联规则。通过对它们进行知识分析,进行数据的收集、利用、挖掘和整理工作,对改进OPAC具有积极的意义。参考文献1 乔欢,刘漫, 陈

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论