已阅读5页,还剩1页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1 基于分面主题图探索式搜索研究基于分面主题图探索式搜索研究 赵金海 (聊城大学图书馆 山东聊城,252059) 摘要:摘要:采用比 TMDM 更丰富的语义发现技术和现有研究方法,从信息查询动机、分面选择、原型 结构、主题图探索等角度,对基于分面主题图探索式搜索分析。评价自动选择分面导航指标,论证如 何整合基于分面主题图探索式搜索功能,探讨用户如何在缺乏专业知识领域采用探索式搜索实现查 询信息的目的。 关关键词键词: :主题图;知识管理;知识导航;探索式搜索 RESEARCH ON THE FACET-BASED EXPLORATORY SEARCH IN TOPIC MAPS ZhaoJinHai (Library of Liaocheng University, ,Liaocheng in China, 252059) Abstract: Adopting the found technology and the existing research method richer than TMDM semantic, it explores and analysis the facet-based exploratory search in topic maps from the angle of the information query motivation, the facet selection, the prototype structure, exploratory search in topic maps et al. It evaluates the automatic selection facet navigation points, and proves how to integrate the function of the facet-based exploratory search in topic maps. This paper discusses how the user exploratory search in the lack of professional knowledge field to achieve the purpose of the queried information. Keywords: Topic Maps; Knowledge Management; Knowledge Navigation; Exploratory Search 面对复杂的信息检索系统,用户有时还会遇到不熟悉的专业领域,尤其在不了解数据结构,或 查询的数据集较大时,用户常常会感到不知所措,或放弃查询需求。如何解决这一问题呢?本文向 用户推荐一种可在不熟悉专业知识领域探索、索取信息的基于分面主题图探索式搜索(Facet-based Exploratory Search in Topic Maps)方法,并对此进行分析研究,旨在抛砖引玉。 1 1 使用动机(使用动机(MotivationMotivation) 通常情况下,用户向搜索引擎提交新查询的步骤:探索检索信息,筛选查询结果,被动获取下 一步查询线索1。当用户发现某一专业领域,却缺乏该专业知识,还必须查询信息应时,这里推 荐采用探索式搜索。这种探索式搜索具有允许用户在没有前期信息空间知识经验的背景下发现新信 息的界面和功能。尤其在用户不了解数据结构或查询数据集较大时,可采用分面导航可视探索技术 搜索信息。该技术的查询表达式不仅可从用户精选/导航中提炼,而且还可通过限制值反复限定信 息空间视图,直到检索结果达到满意为止(参见图 1) 。 图图 1 1:限制树生成式分面导航:利用反复选择分面和限制值的方法生成信息空间:限制树生成式分面导航:利用反复选择分面和限制值的方法生成信息空间 2 在分面导航系统中,可为一个主题分配多个分类分面,采用多种方法排序。一个分面代表该类 主题唯一的重要特征或元数据属性。不论时间(诞生日期) 、空间(地点) 、人物(作者) ,材料 (主题) ,还是活力(活动)等属性都采用直观分面描述。因它们基本采用手工本体构建,所以只 用在固定数据结构2。在不同文献结构上下文中,尤其动态改变数据集时,为快速适应变化就需 要一种识别分面的即信息空间主体间关系的自动化技术向用户提供最新上下文分类法。 2.2. 分面选择(分面选择(FacetFacet SelectionSelection) 一般来讲,可把代表信息空间的主题图看作一个视图、上层主题、多元关系和形成边缘的事件。 设图G =(V,E,lV,lE) ,设V为上层,E E 为边缘,lV,和lE分别表示上层和边缘功能。据 TMDM 来看, 所有边缘无方向,所以不指派资源(source)和目标(target)的上层3;然而,为了使下面的 定义更简单,强调所含导航方向分面,G不会失去一般定向视图,每个不定向边缘将被一对指向相 反的定向边缘所取代。特定边缘绘出source:EV和target: EV分别反馈到资源的上层 (即代表当前观点主题的主题)和目标的上层(即查询关系,表达主题参照的另一主题) 。 与 RDF 比,这里主要介绍信息空间实体的三项内容(subject(主语),predicate(谓语),object(宾 语)的特殊定义,TMDM 提供更丰富的语义,通过识别符、范围等五项内容描述多种结构4,5,即利 用事件取代描述 job 和 website 的方法,当然也可用关联方法。这种把事件作为探索界面(二进制) 关联的方法可有效避免用户过多接触详细细节。 2.12.1 实体、价值和分面(实体、价值和分面(Entities,Entities, ValuesValues andand FacetsFacets) 定定义义 1. 实实体(体(entity) )是信息空间子图 G,采用一个特定的最上层 v 所有相邻的顶层抽取文摘, 即 G= (v, V, E,LV, LE) 这里 v V, V V, E E 和 e E E: 资源(e) =v 目标(e) V。 定定义义 2. 一个视图视图 是信息空间 的一个实体集。 Delbru 等人使用术语 partition 替代 view6。也许是错误导向,因为不同视图不一定就必须 脱离开来(解体) 。但上述视图概念与论述视图的定义必须一致7。 定定义义 3. 在视图中,一个标签代表一个或几个边缘的关联。一个分面表达一系列标签的边缘,即 = e lE (e) = l。F 表示一个信息空间分面集。投射分面:F 返还与一个视图关联分面,即 分面() = F e e , l : lE(e) = l 。即使合并无方向关联,也可以把标签分类看作 为反映各种观点的语义在上述例子的论述范围,参见图 2。 图图 2 2:一个观点由:一个观点由 companycompany、personperson 和关联分面组成,用括号内特定主题和关联分面组成,用括号内特定主题 idid 描述未命名主题描述未命名主题 定定义义 4. 投射 Rv : F V 返还一个分面的限制限制值值集,就是 Rv() = v V|Ee , 目标(e) = v。 与一个分面的限制值集一致,视图 就可以从信息空间中抽取文摘。视图含有一个新分面集 F = facet(),可能是空的。 2.22.2 导航标准(导航标准(MetricsMetrics forfor NavigationNavigation) 为了测量一个分面的导航质量,下面介绍 Delbru 等人的三个标准定义。 平衡(平衡(Balance):如图 1 所示,如果这个树状合乎情理,每个分支决定优化了决定的能力8; 因此,一个分面的平衡指明了它的导航效用性。针对每个对象值 Oi进行计算时,都把它作为主题 3 的数量的(非线性)正常变量计算,这里是矢量的意思,ns指主题的全部数量, 指分面的不同宾语值的数量: 基数(基数(CardinalityCardinality):):一个合适的分面含有一定数量的可选宾语值。针对来说,宾语基数 标准可作为不同宾语(限制值)计算,根据参数和,正常使用基于高斯密度函数: 频率(频率(FrequencyFrequency): :合适的分面频繁地出现在收藏数据:覆盖上层/不同的概念(靠主题,有 可能被具体化的描述)越多,区分信息空间时有用的分面就越多。把频率作为已定义分面数据集主 题的数量来计算,:,正常作为全部主题数 量的分数计算: 可以把这些指标通过乘法(也许是加权)合并到最后的分数。正如7中所述,它们是唯一有 用的迹象,因为它们根据其导航值而不是根据其描述值排列分面。 例如,表 1 所示图 2 的两个实体的结果值。显然,为了覆盖整个信息空间,仍要显示排列较低 的分面。然而,在面对具有数量较大的分面的数据集时,为了给用户指引方向,就推荐隐藏/分组 这些数据集(见下表) 。 表 1:观看图 2 两个实体 Company 和 Person 构成指标的实例。最后得出的 分数是三个指标的积。 (如考虑六个顶层附加实体,该值也会发生变化。 ) 2.32.3 附加分面等级(附加分面等级(AdditionalAdditional FacetFacet ClassesClasses) 正如本节开始所述,在组成颗粒时主题图关联与 RDF 的性质有所不同,即表达方式涉及到具有 角色扮演作用的角色类型概念。因为一个分面浏览器需要能够提交索取所有类型的实体(即主题类 型、关联(角色)类型,以及事件类型) ,用户需要澄清的和选择类型之间的关系,以及还有必须 考虑的附加分面等级9。 尽管,TMDM 也可以定义范围概念,但它缺乏正式语义描述,象如此复杂的问题放到 3.1 子部中 介绍。在介绍雇佣实例的过程中仅论证如何使用这一概念介绍了专指语境的标签,它的应用(即多 语言、出处、意见、时间、观众、过滤)澄清了现有范围一个领域主题集的组成提出的另 一个重要分面等级。前面介绍的指标都可以应用于附加分面等级。唯一的副作用就是表 1 中但它 们整个数量增加时,每个相关分面的导航值就会整体减少(参见角色类型雇主和雇员) 。 3 3 原型结构(原型结构(ArchitectureArchitecture ofof thethe PrototypePrototype) 目前,可以查询后端执行情况(面向 TM4J 引擎的 tologx 模式,参见 ) 。但针对 SPARQL 查询语言,最初使用的处理器 browseRDF 的原型已被基于 TM 的设备所取代。为支持现存的 和未来版的界面,访问计算机操作符时可采用一种更独立的解决方案代替已封装的 TMAPI。由于所 有活动可转化成选择树,所以即使必要也不应耗费大量的时间去研究替代上述查询后端。 4 主要原型构成元素包括基于文本的用户界面、导航控制器(提供构建分面导航界面功能) 、分 面逻辑式(保持目前探索最新状态) 、分面模式(代表分面理论概念)和检索兼容主题图引擎的 TMAPI1 或 TMAPI2 的文摘层。为排除不必考虑的主题图主题,可把分面分成两个小组,或分别考虑 描述微小概念的主题图主题,后者可与整合过滤和聚集算法挂钩。 为了获取新视图或用 union 和 intersect 运算符组合现存视图,在每一次的反复操作中用户也 许选择一个具有或没有限制值的(主题)分面。在现有视图间的切换中,也可在任何时间对导航确 定的分层描述进行修订。如没有(唯一)视图修订,也能追踪或返回到开始的地方。虽然,客观上 提交唯一导航界面能防止用户免受细节干扰,但还有必要再提供所需信息。如前面所述不同分面分 类能潜在地展现不同“导航值”性质,尤其在不同上下文中重复使用某一基本主题时。为便于组合 不同探索导航路径结果,就要考虑引进 union 和 intersect 运算符,一旦用户选择关联分面,就要 把非正式领域语义放到最前面:遇到这种情况,可同时从多角度观察新组合视图,好像只能从某种 程度上反映不同领域或主题陈述的内容,对“and/or problem”等突出的案例进行说明。 4 4 主题图探索(主题图探索(TopicTopic MapsMaps ExporationExporation) 为了尽早发现导航对用户界面的支持,可以把标准的普通主题图用户界面当作仔细观察的 Ontopia Omnigator 和 Vizigator。然后,再论证基于封面的探索界面如何获得导航的支持。下面 讨论几种透视图。 4.14.1 OmnigatorOmnigator 与与 VizigatorVizigator 可把 Ontopia Omnigator 和 Vizigator 的组合界面看成典型的、综合性较强的,又能展示普通 主题图内容的应用程序代表( 。当 Omnigator 作 为一个普通目的的主题图浏览器时,只考虑用把它当作教学辅助工具,不向终端用户推荐。但 Vzigator 是专为图示浏览器和导航主题图设计的。 最初的 Omnigator 浏览器列出所有主题图类型。基于文本浏览器界面支持当前主题图所含主题 间导航,然后根据 TMDM 要求基于类型分组(参见图 3(a)关联和事件目录) ,也可展示想了解的 分类法信息,即现有父类型子类型之间的关系。也可以根据内外部事件涉及的姓名、内容/地 址进行全文搜索。图 2(b)展示 Vizigator 浏览器,可与图 2 所示款目图示相比接。然而,事件 不像二进制关联那样处理,而是象 Omnigator 那样展示上下文目录。当两界面都支持基本搜索时, 包括主题图主题之间的性质/关系这样更复杂的查询就要求增加使用 tolog 查询语言,因此,也要 求具有一定的 TM 描述知识。 图图 3.3. VizigatorVizigator 显示上层显示上层 GiacomoGiacomo PucciniPuccini 的描述(的描述(a a) ,OmnigatorOmnigator 显示关联和事件的描述显示关联和事件的描述 (b b) 4.24.2 分面导航(分面导航(FacetedFaceted NavigationNavigation) 使用 2.2 子部定义指标,有可能把关联和事件组成一个分面集。该图的可视化可限制在最能支 持下一步探索的主题上。用这种方法对用户在信息空间的方向定位有帮助,能避免搜索钻进死胡同。 5 如图 4 所示,一个单一针对作家 Giacomo Puccini 的最上层描述观察,只包含描述不同“性质”的 五个分面。针对每一个性质设置,可索取限量的主题,即有可能显示限定值。对于附加信息来说, 用户也可以根据精选的附加主题/学科展示或扩展当前的观察那样,靠重新提到 Omnigator/Vizigator 的方法,仔细观察每一个主题图主题。 多探索步骤或行为的组合,由基础选择限制值,现有选择(即必须存在的任意值)联盟和交叉 的运算符组成,也有可能产生的信息查询远比基于文本的搜索功能更强大。这样的查询也许包括主 题图主题结构性信息,与此同时,仍能避免用户使用查询语言和描述细节(即关联和事件用 tolog 进行不同处理) 。图 5 显示出如何提供一些限制/约束的方法确定某戏剧(Tosca)的剧名。 图图 4.4. 在上层不论关联或事件,对在上层不论关联或事件,对 GiacomoGiacomo PucciniPuccini 的描述都按类型展示高质量导航功能分面的描述都按类型展示高质量导航功能分面 4.34.3 观点讨论(观点讨论(DiscussionDiscussion ofof PerspectivesPerspectives) 对于大型信息空间,分面值数也许会激增。这种情况下就要利用减少观察不同关联分面初始数 方法改进导航程序。为附加用户导航也许使用两种研究方法或许组合使用: (1)分面分组也许要划分实体:要求有关探索领域中具有现存结构知识。 (2)聚合分面值:运行时进行聚合计算,并适应不同的数据类型10。 除针对任意主题图一般性研究外,应用程序构建了一个著名的原型,如 OperaMap 应用程序 ( 不同方式提交给用户的元数据或模板。为避免用户使用意想不到的、却又明显废除的自动选择分面, 这对于考虑含有各种预期导航/用户界面概念的数据集来说尤其重要。 为向用户提供一种受限的初始主题图主题作为导航起点,这种导航就建基于关注的主题目录之 上,并创建出一个最小的基于子图所示、含有先前考虑描述对象目录的一个(组)最小生成树 11。 使用现有原型就必须采取几种手工合并和过滤操作,获取专用于不能分享(已知的)属性初始对象 设置的可比性视图。但他们推荐的算法只能操作现存主题之间任意类型的关联时,这两种探索组合 界面就能使用户更快地隔离出个关注主题图的碎片。最后,如果分面导航界面支持象演示限制值设 置变量的定义和参照,就会产生更复杂的查询,如返还同一地点出生和去世的意大利戏剧主题图所 列的人物目录。 5 5 结语结语 综上所述,面对不熟悉专业知识领域的信息查询,基于封面的主题图探索式搜索是一种较好的 选择,这种搜索工具主要是向用户提供了一个可在不熟悉的专业知识领域去探索信息的机会,利用 它的搜索界面,大大地增加了现存导航的辅助功能,使结构查询仅依靠关注概念间的链接,而不用 查询语言(如 tolog 或 TMQL)和图列(如 TMDM)限定如何论述信息类型成为可能。该界面也可作 为用户单独查看概念和关系的方法基础。为向用户提供类似搜索界面的导航,还要存储生成的查询 和所选的导航路径。目前,国内对基于分面的主题图探索式搜索研究不多,在此学习、引进和研究, 旨在推进国内对主题图系列研究,应用于我国数字知识管理,服务于民众。不妥之处,望同行多加 6 指教和批评。 参考文献参考文献 1. White, R. W., Marchionini, G., Muresan, G. Evaluating Exploratory Search Systems. Information Processing & Management, 2008,Vol.44 Issue 2:p.43343. Ol.2011-04-02. / 10.1016/j.ipm.2007.09.011 2. Delbru, R. Manipulation and Exploration of Semantic Web Knowledge. Internship Report DERI and EPITA France, July 2006.ol.2011-03-26. http:/rdelbru.free.fr/doc/Report.pdf 3. Garshol, L. M.The Linear Topic Map Notation: Definition and introduction, version 1.3 (rev. 1.23, 2006/06/17).ol.2011-03-29. 4. Dichev, C., Dicheva, D., Ditcheva, B., Moran, M.Translation between RDF and Topic Maps: Divide and Translate. Proc. Balisage: The Markup Conference 2008. ol.2011-03-26. Proceedings/html/2008/Dichev01/Balisage2008-Dichev01.html 5. Oren, E., Delbru, R., Decker S.Extending Faceted Navigation for RDF data. Proc. 5th International Semantic Web Conference (ISWC). Springer Lecture Notes in Computer Science (LNCS) 4273 (2006) 559572. ol.2011-03-26./10.1007/11926078_40 6. Ueberall, M., Drobnik, O.On Topic Map Templates and Traceability. Proc. 2nd International Workshop on Topic Maps Research and Applications (TMRA). Springer Lecture Notes in Artificial Intelligence (LNAI) 4438 (2006) 819. ol.2011-03-26. /10.1007/ 978-3-540- 71945-8_2 7. Xu, R., Wunsch II, D.Survey of Clustering Algorithms. IEEE Transactions on Neural Networks, Vol. 16 No. 3 (2005) 645678 ol.2011-03-26. /10.1109/TNN.2005. 845141 8.W3C Working Grou
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025中国中信金融资产管理股份有限公司校园招聘考试常考点集锦与压轴题附带答案详解(3卷合一)
- 2025“才聚齐鲁成就未来”山东省机场管理集团威海国际机场有限公司社会招聘48人笔试历年常考点试题专练附带答案详解2套试卷
- 一般买卖合同
- 变流器设计面试题及答案
- 2025年智能包装试卷及答案英语
- 前程无忧测评题库及答案
- 2025年孝义初中模拟考试试题及答案
- 2025年特岗招聘考试试题及答案
- 比亚迪控股面试题及答案
- 2026年中国金刚石线切削液产业深度调研与发展趋势研究报告
- GB/T 6145-2010锰铜、康铜精密电阻合金线、片及带
- GB/T 3478.1-2008圆柱直齿渐开线花键(米制模数齿侧配合)第1部分:总论
- 服饰编码规则表参考范本
- 临床医学研究设计及统计学问题课件
- 《郑伯克段于鄢》PPT
- 江苏高校教师岗前培训-高等教育学
- InSAR干涉测量解析课件
- Q∕SY 05039-2018 海外钢质油气管道带压焊接技术规范
- 西北工业大学算法设计与分析试题2017A2
- 毕业论文论钢结构住宅施工
- 煤矿低压整定计算
评论
0/150
提交评论