



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
企业元数据和分类词表的常问问题上个月,道琼斯公司在京成功举办了企业元数据和分类词表培训课程。来自科研机构、图书馆、著名计算机生产厂商、燃气集团和新闻媒体机构总计13位学员参加了为期两天的培训,来自新加坡的道琼斯分类词表专家陈佩君女士为同学们提供了从理论到实践的全面指导。在培训结束之后,同学们对参加此次培训课程做了如下评价: “在单位里觉得分类词表是一个过时的东西,通过培训才发现分类词表的应用并不是仅仅局限于以往图书馆的文献管理,在企业及其他行业都有相当大的需求,应用前景相当宽广。”来自国内某大型图书馆的分类词表研究人员如是说。 “通过此次培训,让我对企业元数据和分类词表的整体理论有了深入理解,也了解了国内外企业的实际操作案例,得到了很多第三方知识管理软件和企业分类词表的信息源,对回到企业进一步开展工作有了清晰地认识。培训老师很专业,为学员提出的企业个性化问题提供了专门的辅导和解答,敬业负责。”来自某燃气集团的知识管理部主任如是评价。 下面将课程中大家讨论最激烈的一些话题总结出来和大家分享。 1企业内部的内容管理应该如何进行分类,各种方式之间如何权衡利弊?企业在内容管理的过程中应该对内容进行专业全面的分类,这是大家一致认可的。实际情况是有些知识管理/内容管理做得比较早、基础比较好的机构,如此次参加培训的新闻通讯社,内部已经建立了一套比较完整的分类词表,并要求内容上传者人工从词表中取词进行主题标引。这样做的好处是信息加工的精确度高,也利于将来的信息分类和精确检索,但弊端是员工的工作量有所增加,且需要有人工长期维护和更新分类词表,保证此表能够“与时俱进”;但大多数的企业过去没有这种基础,系统内的大多数文档是未经加工的非结构化信息,更希望通过系统自动对文档进行分类加工。这种方法当然是省事省力,但信息加工的质量无法完全保证。讨论的结果是企业可以根据自身的基础和条件结合两种方式,对于文章标题、作者、地区等系统容易识别的元数据要素采用系统自动填充完成,但对于文章的主题、应用的部门等元数据则最好由系统自动推荐一些标引词,人工参与检查和确认过程,这样既减少了员工的一部分工作量,也保证了将来信息分类和检索的效果,达到工作质量和效率之间的均衡。 2基于算法和基于规则的的自动分类软件各有哪些利弊?自动分类软件的使用效果最终会影响到信息分类和信息检索的精确度,也会直接影响用户的满意程度。基于算法的软件无需建设和更新规则,软件可以通过语料自动学习和提高分类的标准,使用比较简单;但弊端是用户无法影响软件的自动分类结果,明明发现某个分类是错误的,也无法直接更正系统,系统下次还是按照自己的认知来分类。我们通常称这种现象是“黑匣子”现象,即用户看不到黑匣子里面是如何工作的,也无法对其施加影响。基于规则的软件的情况是,由于分类规则的建立就是由用户的分类习惯提炼而成的,因此可以不断地进行调试和改善,使其越来越准确;弊端就是规则的最初建立需要一个较长的过程,且需要不断的对规则进行维护和更新。企业可以根据自身对于分类精确程度的要求来慎重选择软件的类型。 3如何评价自动标引软件的效果?这也是很多参加培训的同学很关心的问题。目前市面上有很多具有自动标引功能的软件,效果究竟如何评价呢?培训师给出大家两个评价标准:第一是标引的全面度;第二是标引的精准度。具体操作方式是:通过软件对一定数量的文章进行标引(如50篇),再请一组专家(如10人)对这些文献进行人工标引。然后设定“正确标引词”的标准,如10个专家中有6个人以上一致标引的词条为“正确标引词”。则全面度的计算方法是所有文章经过自动标引得到的标引词中,和正确标引词一致的词条数量占正确标引词总量的平均百分比;而精确度的计算方法是自动标引所得词条中,和正确标引词一致的词条数量占自动标引词条总数量的平均百分比。目前从国际上的基本经验来看,全面性能占到70-80%、精确度能达到50-60%的软件比较常见。 4本体能达到什么样的效果?企业内的知识管理如何向本体方向发展?培训师给了一个简单的例子来说明本体的效果,就是在本体的环境中,如果你在搜索框中输入“新加坡的国父”,它不再是按照关键字搜索的原则仅仅将包含“新加坡的国父”这个词组的结果返回,而是自动找到关于“李光耀”的结果返回给你。系统是如何做到这一点的呢?这是依靠人工在系统中记录了“新加坡国父”和“李光耀”两个词条之间的关系。目前我们在分类词表中只是记录词条之间的“上位词”、“下位词”、“同义词”、“相关词”等几种关系,比如在分类词表的环境下,一个医药企业会记录“阿司匹林”和“感冒”、“XXX制药厂”之间是“相关词”的关系;但是在本体的环境下,它就要将这种相关性明细化,如“阿司匹林”和“感冒”之间是“药品能缓解的病症”关系,和“XXX制药厂”是“能够生产该药品的厂商”关系等等。这样一来,用户如果查询“感冒了应该吃什么药?”系统就会通过查询背后的本体来返回“阿司匹林”,进一步还能返回哪些药厂生产该药等等。企业中的知识管理如果向本体方向发展,一个前提的条件就是要针对一个很专业、很规范的领域。举个极端的例子,“文学”是很难作本体的领域,某篇文章可能用了大量的篇幅在描写两棵树,但实际他所描写的是“爱情”,可见系统是很难将所有的文学词汇作本体的关系的;还有一点就是企业如果把分类词表先做好,在此基础上再向本体方向延伸发展是比较容易成功的。 5在什么样的条件下企业需要应用元数据和词表的管理软件?企业内用来分类内容的分类词表有时并不是唯一的。比如,如果希望用户能够按照部门、地区、语种、相关客户、行业和主题等元素进行分类和检索信息。那么,和“部门”相对应的“市场部”、“销售部”等部门名称就组成了一个“部门词表”,和“地区”相对应的“东北”、“华北”、“华中”、“华东”以及各地区包含的省、市、县等名称就组成了一个“地区词表”,其他元素也是如此。这些标准里面除了“主题”以外的词表,企业自己来建设都是比较容易的。通常这些词表的词条总量如果不超过500条的话,用Excel软件,或者一些内容管理系统的部分模块来管理都是可以做到的。但当总量超过这个数量,且词表需要经常维护和更新,或者需要和其他系统,如自动标引系统、自动分类系统、内容管理系统、搜索引擎系统等互换数据、整合使用的时候,最好能够使用独立的词表管理软件系统。 6如何向老板陈述和提出开展分类词表项目?分类词表为用户带来的好处自然不必赘述了,提供知识发现的机会、提高搜索的效率等等。但作为知识管理经理或项目经理如何说服老板、申请资源开展这一项目,是大家都很关心的话题。我们的建议是,首先,在陈述项目的时候,要使用和老板能产生共鸣的术语。知识发现、搜索的召回率和精确率等等这些是知识管理专业人员之间的术语,老扳未必感兴趣。想想老板脑子里面平时思考的是哪些概念?企业的知识管理战略?企业的竞争力?要把项推动的项目和这些企业层面的大的概念联系起来,才更容易获得老板的支持。其次,永远不要用类似“每天为每个搜索的员工节省10分钟”之类的方法说服老板,最好将分类词表项目能为企业带来的益处落实到具体问题上,比如说,通过应用分类词表,使得客户服务人员查找信息更加精确,从而缩短呼叫中心的反馈时间;有利于销售人员更好的发现和获取企业内部已有的知识,提高销售的生产力;便于客户通过网络自助服务查询问题的解决方法,从而减少客服支持电话的打入数量,等等。有了管理层的认可和支持,项目的成功率才能有所保证。 7道琼斯信息解决方案都能为企业提供哪些帮助?首先需要说明的是,这个问题并不是培训课程的议题,而是文章写到现在,想必有些读者头脑中有这样的疑问,所以不妨说两句。道琼斯在中国主要提供针对知识管理/信息管理过程中的“信息分类”领域提供以下几种服务:第一,培训。“信息分类”是关系整个知识管理项目最终效果的专业领域,对此我们推出培训课程,包括公开的培训课程和针对企业具体需求的企业内训课程两种,帮助用户理解该领域内的理论和实践知识;第二,分类词表授权。很多企业真正进入操作阶段会发现,建立一套专业、全面的分类词表绝非易事。其实国外已经有很多企业和机构经历过这种“痛苦”的过程了,在各个行业各个领域都已经建成了一些成熟的分类词表,道琼斯在Taxonomy Warehouse网站就收录了600多部分类词表,有些已经翻译成了中文,可以授权给中国的机构。第三,就是道琼斯旗下的Synaptica词表管理软件。这个软件功能比较强大,在过去的应用中最多管理了几百万的词条,对完成大型/多套此表的维护和更新很有帮助。同时也能够和市场上比较通用的知识管理门户、搜索引擎系统、自动标引系统等通过XML或API等方式相整合,使得知识管理平台上的信息搜索、知识呈现等功能更加完善。还有一点可以提一下,就是很多用户提到知识管理平台虽然花了不少钱建立起来了,但是仅靠内部信息积累,库里面的知识还是太少了。道琼斯旗下的Factiva数据库中包含2万多钟全球的期刊、报纸、行业专业信息等资源,数据库的内容是不断更新的,同时回溯资源也很全。企业可以订制一些相关领域的信息资源嵌入内部的知识库,作为一种外部信息资源的补充。这也是国外很多公司的常用做法,如“微软”、“英国电信”等都和道琼斯有这种合作模式。道琼斯有专门的技术团队根据企业的需求来完成信息的选择和传输过程。 此次培训实际上也是道琼斯全球范围的举办的首场培训课程。因为相信中国的知识管理界会不断的成熟和发展,也感受到知识分类成为从业人士不断关注和重视的领域,此次能够努力将公司有限的资源成功争取到中国让我们感到很欣慰。很希望能够通过这种方式,将道琼斯过去25年不断服务全球客户的信息管理经验和中国的同仁分享与交流。1.分类词表的新时期定位问题这个问题首先最值得图书馆员反思,因为现在绝大多数行业词表都是由图书情报机构主持或参与编制的,综合性词表更是如此。如果新时期图书馆词表研究人员自己都认为词表那一套是过时的,不重视起来,那词表的未来发展会让人非常悲观。数字化网络时代的词表发展定位,我个人认为词表具有两方面的作用:组织工具和术语资源。一方面分类词表蕴含的各种编制方法仍可以用作知识内容的组织工具,另一方面词表本身作为一种术语资源是可以被共享和重用的。造成国内许多词表现在被尘封、束之高阁的原因与图书馆的被动生存机制也有一定关系。就这一点而言,我不得不佩服道琼斯在词表方面的主动意识。他们意识到企业知识管理领域需要分类组织技能和相应的技术手段来辅助进行企业内容的管理和优化搜索效率,提高可寻性(Finadability),同时他们也重视词表的资源价值,对词表资源进行广泛收罗,通过各种授权机制来发挥词表作为术语资源的应用价值。以上两点体现在道琼斯今天的两大利器:Synaptica和TaxonomyWarehouse。道琼斯在词表上的挖掘和具体实践经验,对图书馆员来说是一种震撼,其实图书馆墙外还有更广阔的施展空间。2. 自动与人工的问题技术主导的时代,人们寄希望于机器可以为我们做越来越多的事情。自动分类、信息抽取、自动分词、智能代理等技术在一定程度上解决了许多应用问题。现在有很大一部分人觉得买一套最先进的搜索软件包,把内容丢进去,一切搞定!这种方式是否解决了最实际或者根本的问题,很多时候的回答是否定的。因为这是技术驾驭了人的一种状况。不管引进多强大的技术系统,首先问问自己有没有能够根据自身需求对购进的搜索系统进行配置和优化的人,如果一切都交由软件商包办全自动化的,是省心了,但是否物有所值呢?就像张先生在上面提到的,技术辅助、人工主导结合的方式是比较理想,可能机器为我们作了很多事情,但关键的决策点还是由人来做。3.搜索效果的评价桎梏 信息检索研究领域有两个典型评价指标,查全率和查准率,注意到这两个指标是反变关系,而且评价效果是相对的。一味追求数字指标是没有实际意义的,如果是TREC会议上给出一个实验集,大家来设计搜索算法来比赛,看谁的这两个指标高谁就胜出,那是另外一说了。在企业知识管理实践中,对于找寻性的需求是以用户查找的实际情况决定的。所以把关注重点放在我们的用户上,能帮用户找到他需要的东西,我就给打100分,找不到就0分,管你是不是号称最优秀的搜索系统。具体关注用户的行动策略可以是多种的,我不在这里展开谈。当然我不是说不重视这些数字,如果遇到对数字敏感的数字派BOSS,尽情摆出这些数字来试图说服他吧。4. 知识组织系统观在我的周围,一谈到信息组织和所谓的知识组织研究,本体ontology是少不了被提及的,这是一个让人听得耳朵都要起茧子的名词。本体是未来语义网的一个核心,其清晰化规范化的概念描述与语义关系定义是实现语义推理、机器可读可理解并智能化采取行动的基础。以上是科学研究和实验项目中所热衷追捧的本体内涵。对于企业知识管理实践来说,本体究竟能够解决什么实际问题,上了本体就能多好地优化知识管理系统呢?这要视企业具体需求和知识管理发展阶段而定,不能盲目为赶时髦而轻易“染指”本体。因为构建本体是非常耗时耗力的一项系统工程。企业分类架构师(Taxonomist,专门与分类词表打交道的人员)的工具箱里有一套知识组织结构零件,其中包含了
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 脑梗塞遗症的护理查房
- 远程培训A3作业
- 《西游记》讲课课件
- 《表达要得体》课件
- 新人入职汇报
- 急性左心衰病人护理查房
- 消毒和隔离技术规范解读
- 放疗病人教学护理查房
- 2025年招标采购从业人员专业技术能力考试(招标采购项目管理中级)冲刺试题及答案(山东菏泽)
- 腰椎骨折手术病人的护理
- 4.1夯实法治基础教学设计 2025-2026学年度九年级上册 道德与法治 统编版
- 连铸工岗位操作规程考核试卷及答案
- 2025兵团普通职工考试试题及答案
- 《中国老年危重患者营养支持治疗指南(2023)》解读 4
- 2025年广东国家公务员申论考试真题及答案-地市级
- 绿色矿山培训课件
- 国有企业十五五人力资源规划框架
- 无人机实操训练课件
- 十二大报告解读
- 格拉斯哥(GCS)昏迷评估量表(详xi操作)
- 肝硬化患者健康宣教知识
评论
0/150
提交评论