




已阅读5页,还剩49页未读, 继续免费阅读
(产业经济学专业论文)基于规则库的信用证辅助审证系统的研究与开发.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 信用证是目前国际贸易中使用最为广泛的支付方式之一,它通过银行信用的 方式对国际贸易中的支付风险进行化解,为促进国际贸易的有序开展和快速发展 起到了积极的作用。但是同时,由于其自身所具有的与贸易合同的独立性、单据 交易等特点,信用证在实际运行过程中也暴露出一系列的问题,如利用信用证进 行欺诈等。这些问题更加凸显了审证这一环节在信用证交易过程中所具有的重要 地位。然而传统的以人工为主的审证方式具有效率低,对业务人员的实务经验依 赖度高等问题。因此,如何使得审证这一关键环节更加智能化、自动化成为了一 个问题。 本文从实务中所遇到的难题出发,在参考文本挖掘、文本自动处理等技术的 基础之上,提出了基于规则库的信用证辅助审证方法:对信用证的文本结构及其 与基础合同的映射关系进行了分析,将相关文献中总结的常见审证风险点抽象成 为具有特定表达方式的规则,其中最为关键的是利用文本挖掘的方法对“软条款” 一类特殊的问题条款,具有隐蔽性强,容易对出口商的合法权益造成损害等 特点,进行了分词以及基于词频的特征词提取,从而得出了这类条款所具有的特 点。通过分析和挖掘形成了审证规则库。在此基础上,本文针对常见的不同类型 的审证风险点设计了切实可行的审证算法,最终对辅助审证系统的关键模块进行 了功能需求分析及原型设计,检验了规则库及有关算法的适用性和有效性。 受限文本,如科技文献,商业文件等的自动处理是文本处理和自然语言处理 领域研究的方向,本文是将文本处理的相关技术引入商业领域的有益尝试,对于 实现信用证交易全过程中单证审核、单单审核的自动化处理提供了有益的参考。 关键词:信用证审证规则库文本挖掘 a b s t r a c t l e t t e ro fc r e d i t ( l c ) i sa m o n gt h em o s tp o p u l a rp a y m e n tm e t h o d si ni n t e r n a t i o n a l t r a d e i tl o w e r sd o w nt h ep a y m e n tr i s kb ym a k i n gu s eo ft h eb a n kc r e d i ta n dt h u s m a k e st r e m e n d o u sc o n t r i b u t i o nt ot h eo r d e r l yo p e r a t i o na n dr a p i dd e v e l o p m e n to f i n t e r n a t i o n a lt r a d e h o w e v e r ,b e c a u s eo fi t si n d e p e n d e n c ew i t ht h ec o n t r a c ta n di t s c h a r a c t e ri n “d o c u m e n t a r yt r a d e ”,l cc o n f r o n t sw i t hv a r i o u sp r o b l e m si ni t s a p p l i c a t i o n ,s u c ha st h el cf r a u d a l lt h e s ep r o b l e m sh i g h l i g h tt h es i g n i f i c a n c eo f l c c h e c k i n gi nt h et r a n s a c t i o np r o c e s s e s t h et r a d i t i o n a lm a n u a lw a yh a st h e s h o r t c o m i n g si nl o we f f i c i e n c y , h i g hd e p e n d e n c eo nt h ee x p e r i e n c e o fb u s i n e s s p r o f e s s i o n a l sa n ds oo n h o wt oa u t o m a t ea n di n t e l l i g e n tt h el cc h e c k i n gp r o c e s s r e m a i n so p e nt ot h er e s e a r c h t h i sp a p e rg e t si t st o p i cf r o mp r a c t i c a lp r o b l e m sa n dp u tf o r w a r d st h e r u l e b a s e b a s e dl cc h e c k i n gm e t h o do nt h eb i a s e so ft e x t m i n i n g ,t e x ta u t o p r o c e s s i n ga n do t h e rt e c h n o l o g i e s i ta n a l y z e st h es t r u c t u r eo fl ca n di t sm a p p i n g r e l a t i o n s h i pt ot h er e l e v a n tc o n t r a c t ,c o n v e r t st h ec o m m o nr i s k si nt h er e f e r e n c e si n t o f o r m a t t e dr u l e si nt h er u l eb a s e ,a m o n gw h i c ht h em o s ti m p o r t a n tr e s e a r c hi sr e v e a l i n g t h ec h a r a c t e r i s t i c so f s o f t c l a u s e s b ya d o p t i n g t h ew o r ds e g m e n t a t i o na n d t e r m f r e q u e n c y ( t f ) 一b a s e dc h a r a c t e rt e r m se x t r a c t i o n a l lr u l e sa r es t o r e di nt h er u l e b a s ea tl a s t m o r e o v e r , t h i sp a p e rr a i s e ss o m ef e a s i b l ec h e c k i n ga l g o r i t h m sf o r d i f f e r e n tr i s kp o i n t s ,a n a l y z e st h ef u n c t i o n a lr e q u i r e m e n t so fk e yc o m p o n e n t so fl c c h e c k i n ga s s i s t a n ts y s t e ma n df i n a l l ye x a m st h ea p p l i c a b i l i t ya n de f f i c i e n c yo ft h e a l g o r i t h m sw i t hap r o t o t y p em o d u l e s t h ea u t o m a t e dp r o c e s s i n go fc o n s t r a i n e dt e x t s ,l i k es c i e n t i f i cp a p e r sa n d b u s i n e s sd o c u m e n t s ,i so n eo ft h er e s e a r c hd i r e c t i o n so ft e x tp r o c e s s i n ga n dn a t u r a l l a n g u a g ep r o c e s s i n g t h i sp a p e ri s av a l u a b l ee x p e r i m e n ti n m e r g i n g r e l a t e d t e c h n o l o g i e si n t os p e c i f i cb u s i n e s sd o m a i n ,a n dc o u l dm a k er e f e r e n c et ot h ea t o m i z e d d o c u m e n tc h e c k i n gi nt h el ct r a n s a c t i o np r o c e s s e s k e yw o r d s :l e t t e ro fc r e d i t ( l c ) ,l cc h e c k i n g ,r u l eb a s e ,t e x tm i n i n g 学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下, 独立进行研究工作所取得的成果。除文中已经注明引用的内容 外,本论文不含任何其他个人或集体已经发表或撰写过的作品成 果。对本文所涉及的研究工作做出重要贡献的个人和集体,均已 在文中以明确方式标明。本人完全意识到本声明的法律责任由本 人承担。 特此声明 学位论文作者签名: 一:卅 矽7 年谚月堙侣 学位论文版权使用授权书 本人完全了解对外经济贸易大学关于收集、保存、使用学位 论文的规定,同意如下各项内容:按照学校要求提交学位论文的 印刷本和电子版本;学校有权保存学位论文的印刷本和电子版, 并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有 权提供目录检索以及提供本学位论文全文或部分的阅览服务;学 校有权按照有关规定向国家有关部门或者机构送交论文;在以不 以赢利为目的的前提下,学校可以适当复制论文的部分或全部内 容用于学术活动。保密的学位论文在解密后遵守此规定。 学位论文作者签名:例 导师签名:砖,i _ l 对,- “ 7 年彤月彬日 7 年够月y 归 1 1 研究背景与意义 第一章绪论弟一早珀下匕 “信用证( l e t t e ro fc r e d i t ,l c ) ,是指开证银行应申请人的要求并按其 指示向第三方开立的载有一定金额的,在一定的期限内凭符合规定的单据付款的 书面保证文件”。信用证以银行信用为保证,有效地解决了国际贸易中买卖双方 因地域等因素引起的信息不对称等问题而造成的支付信用风险,所以成为目前国 际贸易中使用最为广泛的支付方式,被称为国际贸易的“血液”,为促进国际贸 易的健康运行和发展做出了重大的贡献。但是,由于信用证所具有的“与合同独 立的法律地位”以及“单证交易”的特点,在实际运行中也出现了一系列的问题, 如信用证欺诈等。其中进口商通过在信用证条款中设置陷阱,对出口商进行欺诈 或对出口商利益造成潜在风险的行为即是这些问题中的突出一类。尤其当进口商 在贸易中占据主导地位或出口企业急于达成贸易时,这类问题显得尤为突出。我 国沿海地区出口企业众多,使用信用证频繁,权益受到侵害可能性较大。 正是由于这些问题的存在,审证成为了信用证交易过程中必不可少的环节。 所谓审证,是指信用证的受益人( 一般为国际贸易中的出口商) 在收到通知行通 知的国外开来信用证时,根据合同条款、跟单信用证统一惯例及自身的业务 规则对信用证的条款内容进行审查的过程。受益人根据审证的结果决策是否要求 修改信用证。信用证一经受益人确认无异议,便成为与合同独立的对于信用证参 与各方的法律约束。信用证中载明的条款将作为出口商备货、发货、制作单据并 交单索汇的指引,对于受益人能否顺利地实现收汇具有决定性的作用,因此审证 的过程要求严格而细致,能够对具有潜在威胁的条款进行识别。 目前在实务中,信用证审证的过程主要依靠业务人员手工完成。这对于贸易 的开展造成了一定的影响:一方面信用证的内容较多,条款内容复杂;尤其是对 于单据条款以及特别条款两栏,审证较为耗时,对交易造成了一定的时间浪费, 可能会延误交易的最佳时机;另一方面,审证牵涉的业务知识多而繁杂,审证结 果对业务人员的经验和判断能力依赖度较高,制约了审证快速、高效的开展,同 时也不利于审证流程的标准化以及审证经验方法的推广。 对此,本文提出了构建审证规则库,建立审证辅助审证系统的解决方法。将 国际惯例、审证人员的业务经验乃至受益人有关信用证交易的具体规章制度转化 为审证规则库中的规则条目,并利用自动化的分析处理方法对信用证进行预处 p l ,宋毅英,u c p 6 0 0 信川汪、单据审核指南,中国金融出版社,2 0 0 8 年1 月第1 版 1 理,找出潜在的风险点,对于出口商而言具有十分重要的意义:审证人员在自动 处理结果的基础上对潜在风险点进行进一步的深入审核,可缩小审证的关注范 围,降低人工的工作量,提高审证效率,有利于缩短贸易开展的时延;可提高审 证工作的规范化,在一定程度上预防因业务人员的疏忽或错误造成的问题,并有 利于审证经验的总结和推广。与此同时,审证作为信用证交易中的重要环节,其 对应规则库的构建方法以及自动化处理的方法和技术可为其他相关环节,如信用 证与单据以及单据之间审核等的规则建立以及自动化处理的实现提供有益的参 考。 1 2 国内外研究现状 信用证审证的过程即是对信用证条款及其相关合l 司等文本文件进行分析、核 对处理的过程,是一项对专业领域知识要求较高的工作。因此,审证过程的自动 化就是要模拟审证人员的思考判断过程,对文本进行处理,其中涉及到多个领域 的知识和技术:审证业务知识、文本自动化处理以及规则库等。 本文所研究的业务对象为信用证审证,此处包括信用证自身条款内容合理性 的检查及信用证与基础贸易合同之间一致性的检查两个方面。 在业务研究对象方面,信用证是国际贸易的主要支付方式,同时也是银行国 际结算业务的重要组成内容,对于审证进行研究的主体主要包括国际商会、银行、 外贸行业的有关业务人员等。其中国际商会为推动跟单信用证的应用,制订了跟 单信用证统一惯例,目前其最新版本为2 0 0 7 年修订版,国际商会第6 0 0 号出版 物( 简称u c p 6 0 0 ) 。u c p 6 0 0 对跟单信用证的相关概念、信用证交易各方的权责、 单据审核标准等进行了解释和说明。u c p 6 0 0 是国际银行界、律师界和学术界自 觉遵守的“法律”,更是审证业务所遵循的重要参考标准。在实务方面,对审证 的研究主要集中在审证过程中常见不合理条款识别方法的总结以及防范技巧的 归纳,信用证所牵涉的法律问题与审证的重要性等。前者主要是相关业务人员对 实际操作过程中的重点风险关注点以及相关的不合理条款审查方法的总结,如宋 毅英的( ( u c p 6 0 0 信用证、单据审核指南,刘桂华的信用证“软条款 及其防 范等。所谓的“不合理条款”存在多种形式,但归结起来可理解为违背跟单 信用证统一惯例或有悖于信用证交易原则的条款,其中的“软条款”因其隐蔽 性强,对受益人权益影响较大等原因成为不合理条款中研究最多的内容。对于所 谓的“软条款,国际商会等国际组织并未给出明确的定义,各国的理解也存在 不一致,但总结起来,“软条款”指的就是致使信用证置于开证申请人的控制之 下,受益人的合法权益得不到应有保障的条款,后文会提供更加详细的解释和实 例。在法律方面的研究主要针对信用证参与各方的法律权利和义务进行阐述,并 2 提出如何规范信用证交易的法律监管和裁决。 在技术方面,本文综合运用了文本挖掘、文本自动处理、规则库、数据库设 计以及系统开发等技术,其中规则库是贯穿本文的核心。 规则库是指存放规则集合的库,规则是对专家经验和专门领域理论进行总结 和抽象的推理知识。规则库是专家系统、决策支持系统等智能系统的重要组成部 分。对于规则及规则库的研究主要集中在规则的提取与表示、规则的精化、规则 库与推理机之间的关系等方面,本文重点关注的是规则的提取方法。目前规则的 提取方法主要有:基于粗糙集的方法、基于云运算的方法、基于数据挖掘的方法 以及基于神经网络的方法等。其中基于粗糙集的方法使用最为广泛,在该方法下, 规则可被表示为一个四元组:s = = d a t e o f s h i p m e n t + p re s e n t a t i o n p e r i o ( = d a t e o f s h i p m e n t + 2 1 )( 规则4 ) 3 2 2 “软条款”审查规则 3 2 2 1 基于文本挖掘的规则提取 本文采用文献检索的方法,从国内外的文献、案例分析中获取了大量“软条 款”实例 ,并按照2 3 1 中的分类方法将这些实例分为限制信用证生效: a v a il a b ilit y ,制造交单障碍:d o c u m e n t s ,限制货物装运:s h i p m e n t ,限制信 用证付款:p a y i n g ,要求信用证单据直接寄交申请人:d i r e c t b i l l r e l e a s e 和其 他:o t h e r s 等6 个类别,形成了用于挖掘的“软条款”文本样本集,分类的结 果以及部分文本数据如下所示: 表3 2 信用证“软条款”分类及举例 来源:本文整理 i dc a t e g o r ys a m p l e 1 a v a i l a b i l i t y t h i s c r e d i tw i l l b eo p e r a t i v eo n l ya f t e r r e c e i p t o ff u r t h e ri n s t r u c t i o n b e c o m ea n “软条款”样本数据集由整理参考义献【i 】- 【l o 得到 1 3 o p e r a t i v ei n s t r u m e n tw i t hc o n f i r m a t i o nf r o m a p p li c a n t 2 d o c u m e n t sd o c u m e n t s p r e s e n t e db yb e n e f i c i a r y m u s t i n c l u d ea ni n s p e c t i o nc e r t i f i c a t es i g n e db y a p p li c a n to ri t sa g e n t c o m m e r c i a li n v o i c e i n3c o p i e sc o u n t e r s i g n e db ya b ci n t e r n a t l 0 n a l ( h k ) l t d 3 s h i p m e n t v e s s e l s n a m e ,d a t e o f s h i p m e n t a n d d e s t i n a t i o np o r ts h a l lb ei n f o r m e db yt h e i s s u i n gb a n ki nt h ef o r mo fl ca m e n d m e n tu p o n r e c e i p t o ft h en o t i f i c a t i o nf r o mt h e a p p li c a n t 4 p a y i n g p a y m e n tf o rd r a f t sd r a w nh e r eu n d e rw il lb e m a d eo n l ya f t e rt h er e a l i z a ti o no ft h e r e - e x p o r tp r o c e e d sp r o g r a m u s d 木木木t ob ep a i d a f t e re g y p t i a na u t h o r i t ya p p r o v a l 5d i r e c t b i1i r e l e a s e b e n e f i c i a r y sc e r t i f i c a t es t a t e dt h a t1 3o f c l e a no nb o a r do c e a no r i g i n a lb lh a sb e e n a i r m a il e dd i r e c t l yt oa p p li c a n tw i t h4 8h o u r s a f t e rs h i p m e n t 6o t h e r s t h ee x p i r yd a t em u s tb eo n3 r dn o v ,2 0 0 0a n d t h ep l a c es h o u l db ea to u rs i d e 在建立了文档集之后,下一步需要对条款文本进行分词处理。本文中所研究 的信用证条款及合同文本均为英文。相比中文的分词而言,英文由于有天然的分 隔符( 空白或标点符号等) ,故分词方法要简单一些。但是联系到本文的业务实 际,条款文本的分词面临如下两方面的困难: ( 1 ) 国内对于分词方法的研究集中在中文分词,对于英文分词算法的研究 较少,可借鉴的方法不多,如邹智敏等人提出的一种对英文字符串进行分词的算 法,在字典匹配算法的基础上进行改进,使用a h o - c o r a s i c k 算法解决了英文字 符串中相互交叠的词语的切分 。但本文的条款文本具有分隔符,无法适用该算 法。 ( 2 ) 信用证条款是一种特殊用途的商业文本,其中包含大量的专业术语, 利用普通英语分词词典可能会切分出许多无实际意义的单个单词。同时,一般分 词算法中的“停用词”概念在本文中并不适用,因为信用证条款含有较多的介词、 邹智敏、郭衍清、高英一种对英文字符串进行分词的方法计算机应用研究,2 0 0 7 年7 月,5 2 5 4 页 1 4 连词等,忽略这些词语可能会对条款的含义造成损害。 因此,本文设计了一个用于信用证英文条款文本分词的自定义词典,用于存 储条款中常见的术语,自定义词典的结构和范例如下所示: 表3 - 3 信用证分词词典词条示例 来源:本文整理 w o r d e nw o r d c nw o r d p r o l e t t e r o fc r e d i t 信用证 n c l e a no nb o a r do c e a n 清洁海运提单 n i n s u r a n c ep o l i c y 保险单据 n n e g o t i a t e议付 v 其中各个字段的含义分别为:w o r d e n 表示专业术语的英文,w o r d c n 是对 应的中文名称,w o r d p r o 表示术语的词性。 进行条款文本的分词时,一方面要利用空格、标点等分隔符实现词与词之间 的切分,另一方面也要利用该词典对具有特殊含义的术语实现识别,减少在计算 规则匹配度时因为大量单词的处理而造成的效率问题。 对条款文本完成分词之后,需要对内容的文本特征进行选取,亦即对文本的 特征词进行提取。将本文收集到的“软条款文本按照类别组织成为6 个文本文 件,分别命名为s o f l c l a u s e l 6 ,并对各个文件进行如下的两种处理: ( 1 ) 利用词频计算的方法计算各个文本文件中各个单词或词语出现的频率 ( t f ) 。 词频的一般计算公式为: f , 一 刀f 巩一瓦i 厶一k 譬l 其中n 是该词在文件d j 中出现的次数,而分母则是在文件d ,中所有字词出 现次数的总和。对由限制信用证有效性的“软条款 组成的s o f t c l a u s e l t x t 文件进行词频计算,得到的部分结果如下所示 : 表示结果经由b 鲢巳;丛凶 s 堑盥:q 塑z 坦l ! z 塑q 围q 女d ! :卫b q 对限制信用证备效性“软条款”文本处理得到 1 5 上述结果对文本文件中出现频率较高的词语序列、每个独立的词汇出现的次 数以及各个词汇出现在句子中不同位置的次数进行了统计。从中不难发现,在由 6 句话组成的文本中,出现频数超过3 次的单词包括了o f ( 8 次) 、o p e r a t i v e ( 6 次) 、c r e d i t ( 5 次) 、t h i s ( 5 次) 、w i l l ( 4 次) 。可见,从词频的角度而言, 限制信用证有效性条款组成的文本所具有的特征词为“t h i so f c r e d i tw i l l o p e r a t i v e 。 对于其他文本的词频分析方法同上,在此不予赘述。 下面提供了一个用于计算文本中词语出现频率的计算方法: s t e p l :调用分词程序对文本t e x t 进行分词,结果存放在数组w o r d s a r r a y 中; 1 6 s t e p 2 :从w o r d s h r r a y 中的取出第一个元素w o r d s h r r a y o ,设置l 临时变量 n - o :s t e p 3 :从第二个元素开始对w o r d s a r r a y 进行遍历,判断是否存在与 w o r d s a r r a y 0 相叫的元素,每找到个相吲的元素将1 1 加1 ,然后将对应数 组元素删除,避免对相同的词语进行重复遍历; s t e p 4 :对w o r d s a r r a y o 完成一次遍历后,将该元素及其出现次数存放在 一个二维数组中 w o r d ,c o u n t : s t e p 5 :重复上述的操作,直到数组的最后一个元素。 需要说明的是该算法仅能用于单个词语的频次计算,不能用于计算词组的 频次。 通过词频的方式提取特征词方法简便,但是经实验表明利用该方法下获取 的特征词进行文本分类精度仅为7 3 “,还需进一步提高。 ( 2 ) 利用神经| 叫络计算文本当中各个概念之间以及词语与整体文本之柚的 语义相关度 如上所述利用词频作为特征词提取的指标存在精度不高,无法体现出词语 与词语之m 以及词语与整体本文在语义上的相关性等问题,凼此采用神经州络方 法对其进行改进。 神经网络的方法将文本税作一系列由符号序列组成的词或句子共同构成。符 号序列通过一个变长的窗口,每次移动一个符号。窗口可见文本片断的快照被记 录在动态添加的神经元当中。如图31 所示: j j 一7 赢 1, 1 r1 ”, k 、j 图3 1 动态增长的神经网络记录新的文本片断 f i g u 陀3 1 :d y n a m i c a l l y g r o w i n gn e u 怕l n e t w o r kr e c o r d sn d w t e x t f r a g m e n b 1 1p 2 2 2 中立文本镕息”m 原与用,苗夺漾、卫华鳊g 清华大学0 版礼2 0 0 7 午9 门第一版 1 7 建立的神经嘲络包含若十个层次:在文本中出现次数超过一次的文本片断存 放在属于较高层次的神经元中( 如图3 中的t h l s 、e r e d l t 以及o p e r a t i v e ) 。这 样的神经网络实现了基于频次的文本元素多层词典,在词频的基础上增加了各个 神经元之日j 的关系。 j 1 f、 。 , t h i sc r e d i tw i l l o p e r a t i v e 图3 2 层次结构的神经网络记录词语的频数殛相互问关系 f i g u r e32h i e r a r c h i c a l n e u r a ln e t w o r k n n c e s f r e q u e n d e sa n d m b d o f t e r m s 在最终得到的神经网络当中,各个神经元存放了所有重要的词语文本中的 词语组台及其共现的频率。从结果中可以得到各个神经元当中词语的统计权重, 以及这些词语之问共现的统计权重,从而明确与文本相关性晟大的词语或词组。 下面利用 e x t a n a l y s t 软件对s o f t c l a u s e lt x t 进行处理,得到的结果如图 33 所示: d 瞎铲口1 - 刚屯嗣) t - e n h 【 j 舟锄l s o c l ct i f 】“ 啪l * 匠e 卫跚 l 1 t h i s 止t r e ro fc r e d i t i sn o t0 p e p l a t i v eu n tj l w ea d v i s ep r i c e n a m eo f v e s s e l s t i ni o na n d | l n d o c u m jn i m i y r r 0 i r ef nb y w a yo f a m e n d m e n t 互壹l 笪j 盟一 一 t h l _ l c i u l c d l l _ sh u t r d i l u l l mc _ u v l e d cur # c i, t h i sc m d i t w i l lb ea p o a l i v eo a l ye h e r t o t f u m h c n s l r u c t l o n : t h i scr c d i t w i l l b e o p r a t l v e s i cn l w i l hc o n l ir m ar i o n t p p l l c n l u c w l b co p cr m i v co n l yr e c e i p to f i h 6 u i h 州z c dc c n i ( i c a l e l s s u e db y i m p o n l n gc o u n 叶ors h t c f or c i g n e x c h a n q em a n a g m c l b u f c a u 。 t h i sc f c d i t w i ib e c o m eo p c a t i wp l o “d c l l i h i h 一u i h o r j z a i i d nh cq b l o i n e d f r a m h a n q e a u l h a “s l l a l l i n i 口r l ny a u o b t h ea u l h d tz 日l l b l a i n c d t h i sl e _ r r e ro fc r e d i t i s n o to p e r a t i v eu n t i l w ea d v i s ep r i c e m f v e s s e l ,d f s t i n a 3 i o n a n o f t n a d 0 j m l h b 姐0 u l l l h 虹sb y w a y o f m 型n 眦h i t h bl a fcr e d i t i sn o to p o t u n t i lca d v is op r i c e e “m i 吐n 血l ba n dn i l 牲 :叫1 kb y w a yo l ! i d 盟n t t h i sl j c w i l lo n l vb ea v a i l a b l e 栅rr e c e i p t f r o mo urp7 i n c l p a l “i n s t r g d l o n 0 0 n n “_ 3 0 n 1o rs i 一1 - k 。hf d l 州d 日1 图3 3 利用t e x t a n a l 粥t 软件对限制信用证有效性的“软条款”进行分析的结果 f 1 9 u m3 3r e s u i t o f t h ea r i a 舾i s o ns o f t c h u s e s w i t h t e x t a n a l y s t 其中左上角中的数据表示各个主题以及相互间关系,词语前方的数字一个表 示与上层语义问的相关性,后一个表示与整个文本的相关性。从图中不难看出, 利用t e x t a n a ly s t 中内含的神经网络的方法,得到s o f t c l a us c lt x t 的根主题词 是“a m e n d m e n t ”,展开的树形结构中可以看到与a m e n d m e n t 最为相关的下级概 念为f i u a ld o c u m e n t a r yr e q u i r e m e n t 。亦即通常情况下在s o f t c l a u s e l t x t 中若存在a m e n d m e n t 等字样,则一般是对f i n a ld o c u m e n t a r yr e q u i r e l a e n t 进行 最终说明。 需要说明的是,基于神经网络的特征词提取方法与基于词频方法的特征词提 驭方法并小矛盾,而是互为补充的:后者是从词频这个独立于语义的统计量的角 度进行的分析,前者是在后者的基础上对样本文本的更加深入的理解。因此,通 过两个部分的内容,可对前期的基于词频分析得到的特扯词进行完善即可在已 有特征词的基础之r 增加 这样的 词列其i 司组成新的特征词。 将基 文本挖掘的“软条款”审查规则提取的过程表示为如图3 4 所示的流 程图: 图3 4 基于文本挖掘的“软条款”审核规则提取流程 f i g u r e3 4t h er u l ee x t r a c t i o np r o c e s sb a s e do nt e x tm i n i n g 3 2 2 2 基于试算检验的规则提取 相对于基于文本挖掘的“软条款”审核规则提取方法,基于试算检验的提取 方法首先强调的是专家经验而非文本挖掘技术,即先由业务领域的专家对文档集 中条款文本的关键词句进行归纳。所谓的“关键词句”即是可能导致相应文本成 为“软条款”的核心词句,这是由人工从语言内容的角度发现规律,从而指导“软 条款”的识别及防范。该方法下规则提取的过程如图3 5 所示: 图3 5 基于试算检验的规则提取过程 f i g u r e3 5t h er u l ee x t r a c t i o np r o c e s sb a s e do nr e f i n e m e n te x a m i n a t i o n 2 0 从信用证条款文本表面对上述提及的6 类“软条款”进行核心词句抽取可以 发现: ( 1 ) 在限制信用证生效的条款中一般含有“b e b e c o m e o p e r a t i v e a v a il a b l ea f t e r u p o n + 从句”或者“n o to p e r a t i v e a v a il a b l e u n t i l + 从句”的形式,其核心关键词为o p e r a t i v e 或其同义词; ( 2 ) 在单据障碍条款中一般含有“单据+ i s s u e d c o u n t e r s i g n e d s i g n e d b ya p p li c a n t t h i r dp a r t y ”: ( 3 ) 在限制货物装运的条款中一般含有“v e s s e l d a t eo fs h i p m e n t p o r t d e s t i n a t i o nb ei n f o r m e d a d v i s e d :g o o d sb es h i p p e du p o n ”等字样; ( 4 ) 在限制信用证付款的条款中般含有“p a y m e n te f f e c t e du p o n p a y o n l ya f t e r n o tp a yu n t i l r e i m b u r s eu p o nr e c e i p t t ob ep a i da f t e r p a y m e n tb em a d eo n l ya f t e r h o n o r e do np r e s e n t a ti o ni f ”等字样; ( 5 ) 在要求直接将代表货权的单据交给申请人的条款中可含有“d o c u m e n t s f r e et or e l e a s e b ls e n tt oa p p li c a n t ”等字样。 ( 6 ) 其他如对到期地点、议付行等进行限制的条款可能含有“e x p i r yp l a c e a to u rs i d e ”等。 从直观的角度提取出各类“软条款”的核心词句之后,必须通过反复的测试 对其进行检验,即将得到的核心词句通过审证算法用于测试样本的检验,并将每 一次测试结果的正确率存入数据库中,直到达到满意的正确率为止。其中测试结 果的正确率可通过下面的公式进行计算: = 等 其中表示对于第i 类“软条款”进行试算所得到正确率,t 矿表示试算中第 i 类“软条款”测试样本中被发现的数量,z 表示第i 类“软条款 测试样本的 文本总数量。 若测试结果的正确率较低,则可能是由于关键词句提取不当或原始的文本样 本覆盖度不够等原因引起的。对于前者应更换关键词句,对于后者则应该进一步 收集样本数据,以提高其覆盖率。 利用经验总结得出的核心词句进行审证时,还需要考虑到同义词、相关词语 的语序等问题。 2 1 3 2 2 3 规则提取方法对比 下表对上述两种规则提取方法在操作难易程度、理论可信度以及对后续算法 设计的影响从几个方面进行了对比: 表3 4 “软条款”文本特征词提取方法对比 来源:本文整理 一 基于文本挖掘的方法基于试算检验的方法 对比方面 实现前提具有一定量的可用于挖掘的除一定量的用于试算检验的 已分类的样本数据样本之外,还需要具有一定 的业务知识,以便根据试算 结果及时调整核心词句 操作难易程度较难,尤其是后续文本特征的容易,直接从文本的表面内 提取时容出发,继而深入到语义层 面 理论可信度高,目前对于信息抽取、特征低,依靠经验从字面的内容 提取等已经有较为成熟的理及结构上进行总结,缺乏理 论和方法。规则的提取过程受论依据,且结果受主观因素 人为因素的影响较小,可保证影响较大。虽有试算检验对 结果的客观性其可信度进行检验,但较为 耗时 对后续算法设计利用特征词的方式表达规则,可得到较为直观的规则表达 的影响为审证算法的设计提供了便形式,但是存在着较多潜在 利,只需要判断待审文本中是的问题:如规则表达式的准 否包含相应的特征词即可。也确形式、“一义多形”,无法 存在一定的问题,如同义词十将所有的条款内容都实现列 扰等举等 综合考虑本文的实际情况,不采用对业务领域知识有较高要求的基于试算检 验的规则提取方法,而直接采用基于文本挖掘的方法提取特征词。 3 3 信用证一合同一致性审查规则设计 参考信用证自身简单条款审查规则的形式,将联合审查规则的形式设计成如 下的形式: c o n t r a c tr e l a t e d r u l e s = ( l c t e r m ,c o n t r a c t t e r m ,r u l e t e x t ) ) 其中l c t e r m 】和c o n t r a c t t e r m 】分别表示信用证条款和合同条款组成的 数组,表明信用证一合同一致性审查规则可同时支持多个条款的审查。 合同列明买卖双方地址与信用证表面申请人和受益人地址一致性审核转化 为两个文本对应条款项目是否相等的判断,规则如下所示: c o n t r a c tr el a t e d r u l e s s e l l e r ,b u y e r l = ( c ( b e n e f i c i a r y ,a p p l i c a n t ) , c o n t r a c t ( s e l l e r ,b u y e r ) , l c ( b e n e f i c i a r y ,a p p l i c a n t ) = c o n t r a c t ( s e l l e r ,b u y e r ) ) 规则( 5 ) 其中的l c ( b e n e f i c i a r y ,a p p l i c a n t ) = c o n t r a c t ( s e l l e r ,b u y e r ) 表示信 用证的开证人和受益人与合同的买卖方对应相同。 对开证时间是否满足合同要求的审查可通过与到期日和交单期限的合理审 核一致的方法进行。规则如下所示: c r o s s r u l e 【r e f e r e n c e d a t e ,l s s u i n g d a t e 】= ( c o n t r a c t ,l c ,【r e f e r e n c e d a t e , i s s u i n g d a t e ,i s s u i n g d a t e = r e f e r e n c e d a t e + l e a d t i m e )规则( 6 ) 对于信用证金额与合同总金额之间关系合理性的审查较为复杂,因为合同中 规定付款方式的不同而使得信用证的金额受到影响,规则如下所示: c r o s s r u l e 【c o n t r a c t a m
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 离婚协议模板:涉及宗教信仰与子女教育方式的协议书
- 离婚协议执行过程中财产保全及债务处理方案
- 班组青工安全教育培训课件
- 班组长安全培训讲话课件
- 2025年全国轻工行业职业技能竞赛试题
- 幼儿绘画飞机课件
- 美丽拼音教学课件
- 员工感恩培训
- 技术部考试试题及答案
- 交通银行2025宿州市半结构化面试15问及话术
- 自动喷灌设计说明及安装大样
- 杭州市“教坛新秀”理论考试简答题汇总
- 酿酒系统安全培训课件
- 2018年全国成人高考专升本政治试题答案
- 人教版(2019)必修三 Unit 3 Diverse Cultures Listening and Talking课件
- 医养结合机构服务质量评价标准(二级医养结合机构)
- 三年级上册数学课件-4.2 两、三位数除以一位数的笔算丨苏教版 (共34张PPT)
- 卡西欧PRO-TREK-PRW-6000使用手册-基础操作
- 建筑结构试验知识点总结
- 2022年公路工程竣交工验收办法实施细则范文
- 日本川崎市武藏小杉格林木(GrandTree)创新型购物中心调研分析报告课件
评论
0/150
提交评论