(管理科学与工程专业论文)应用于电子商务的信息获取技术.pdf_第1页
(管理科学与工程专业论文)应用于电子商务的信息获取技术.pdf_第2页
(管理科学与工程专业论文)应用于电子商务的信息获取技术.pdf_第3页
(管理科学与工程专业论文)应用于电子商务的信息获取技术.pdf_第4页
(管理科学与工程专业论文)应用于电子商务的信息获取技术.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(管理科学与工程专业论文)应用于电子商务的信息获取技术.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用于电子商务的信息获取技术摘要 摘要 随着信息技术的发展,电子商务( e c o m m e r c e ) 逐渐成为主要的商务模式, 而电子商务的主要类型之一一b 2 c 电子商务( b u s i n e s s t oc u s t o m e r e c o m m e r c e ) 在走出了网络经济的低谷之后,即将进入一个快速发展的时朗。存 影响b 2 c 电子商务发展的各种技术中,信息获取技术( 包括商品信息抽取与用 户兴趣获取) 不仅是b 2 c 电子商务获得发展的必备条件,而且是吸引消费者参 与b 2 c 电子商务的主要因素之一,而目前存在的信息获取技术均难以同时满足 b 2 c 电子商务应用的特殊需求。因此,本文提出了一种基于路径学习的信息抽取 技术,该技术将网页结构分析与归纳学习相结合,通过学习待抽取信息在网页标 记树中的公共路径实现信息抽取。实验表明这种技术具有用户负担较轻( 只需用 户提供2 4 个学习实例) 、查全率( 9 7 0 4 - 1 0 0 ) 与查准率( 9 9 一t 0 0 ) 高、可 实现大样本量信息抽取和时间资源耗费少( 抽取时间小于1 秒) 等特点,能基本 满足b 2 c 电子商务中商品信息抽取的需求,现已成功应用于我们研制的智能比 较购物代理系统中。此外,本文还提出了一种基于关键词提取的用户兴趣获取技 术,该技术对用户浏览的网页内容进行分析,并提取出这些网页的类关键词作为 用户兴趣标志。这种技术具有实现简单、获取的用户兴趣模型准确性高的优点, l 现已成功地应用于中国科技大学国祯信息科技有限公司开发的互联网中文信息 智能采掘工具中,该工具通过安徽省科委的产品鉴定,在技术上达到国际先进水 、 平,并且具有较高的市场应用价值。卢 , 关键词:电子商务,信息获取,i n t e m e t 中国科学技术大学硕士毕业论文 应用于电子商务的信息获取技术 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fi n f o r m a t i o nt e c h n o l o g y , e c o m m e r c ei sg o i n gt ob et h e m o s t w i d e l yu s e d b u s i n e s sm o d e l a f t e rs t e p p i n go u tt h ev a l l e yo fn e tc o m m e r c e ,b 2 c e - c o m m e r c e ,a ni m p o r t a n tt y p eo fe c o m m e r c e ,i sa b o u tt oc o m ei n t oac l i m a xo f d e v e l o p m e n t a m o n gt h et e c h n i q u e sa f f e c t i n g t h e p r o g r e s s o fb 2 ce c o m m e r c e i n f o r m a t i o nr e t r i e v a lt e c h n i q u e ( i n c l u d i n gi n f o r m a t i o ne x t r a c t i o no fc o m m o d i t i e sa n d u s e rm o d e l i n g ) i sn o to n l yn e c e s s a r yb u ta l s ot h em o s ti m p o r t a n tf a c t o rt h a ta t t r a c t s c u s t o m e r st op a r t i c i p a t ei nb 2 ce - c o m m e r c e w h i l ee x i s t i n gi n f o r m a t i o nr e t r i e v a l m e t h o d sa r en o ts u i t a b l ef o rt h e s p e c i a l n e e do fb 2 ce - c o m m e r c ei n f o r m a t i o n r e t r i e v a l t h i sp a p e rb r i n g sf o r w a r da ni n f o r m a t i o ne x t r a c t i o nm e t h o db a s e do n p a t h l e a r n i n gf i r s t t h i st e c h n i q u ei n t e g r a t e sw e bp a g ea n a l y z i n ga n di n d u c t i v el e a r n i n g a n de x t r a c t si n f o r m a t i o nb yc o m m o np a t ho ft a gt r e e r e l a t e de x p e r i m e n t sh a v e p r o v e dt h a tt h i sm e t h o ds h o w sm a n y v i r t u e ss u c ha sl i g h tu s e rb u r d e n ( 2 - 4e x a m p l e s u s e d o n l y ) 、h i g hr e c a l l ( 9 7 0 4 - 10 0 ) a n dh i g hp r e c i s i o n ( 9 9 - 10 0 ) 、l a r g e i n f o r m a t i o na m o u n ta n dl o wt i m ec o n s u m p t i o n ( e x t r a c t i n gt i m e 应用于电子商务的信息获取技术 第一章绪论 企业应该有一种系统化的方法来不断处理消费者的反馈和了解他们的满意程度 6 1 。因此,具有快速、准确的信息获取能力是企业从事b 2 c 电子商务的必备条 件。 在e m a r k e t e r 于2 0 0 1 年统计的消费者不参与网络购物的原因( 图卜6 ) ” 中,难以获取商品信息位居第五,成为除了服务、隐私、价格和安全之外阻碍 消费者参与b 2 c 电子商务的主要因素之一。而e m a r k e t e r 于2 0 0 0 年统计的美国 在线消费者对b 2 c 电子商务企业服务的要求( 图1 7 ) “也表明能够获取准确 翔实的信息是参与b 2 c 电子商务的消费者的迫切需求。 此外,b 2 c 电子商务网站的增多导致用户需要在多个网站之间进行比较以 获取最满意商品的信息,而人工进行这些工作费时费力。因此,一种采用信息 获取技术开发的购物代理软件( s h o p b o t ) 应运而生。这种软件通过收集众多的 在线销售商的信息,对各种商品的价格、性能、配送方式、服务以及保险等进 行比较,可以向用户提供一个省时省力又省钱的购物途径,因此得到了大多数 b 2 c 电子商务用户的好评。随着b 2 c 电子商务的迅速发展和互联网技术的成熟, 具有购物代理功能的电子商务网站逐渐成为电子商务市场增长最快的网站之一 j 9 1 。 由此可见,随着b 2 c 电子商务的迅速发展,及时的获取用户兴趣和从浩如 烟海的电子商务网站中快速、准确地获取有用的商品信息不但是b 2 c 电子商务 企业获得发展的必要条件,还将成为吸引消费者参与电子商务的一个重要因素。 而帮助用户和企业实现信息获取的信息获取技术也逐渐成为影响b 2 c 电子商务 发展的主要技术之一。 1 3 2 信息获取技术的研究现状 b 2 c 电子商务中的商品信息获取起初由传统的信息搜索( i n f o r m a t i o n 中国科学技术大学硕士毕业论文 ) 应用于电子商务的信息获取技术第一章绪论 s e a r c h ) 技术实现,但是这类技术只能获取网站商品的简单信息,信息查全率 低,并且需要专人维护数据库,难以扩充。随着b 2 c 电子商务网站不断增加和 消费者对信息获取的要求不断提高,这类技术很难适应消费者对b 2 c 电子商务 中信息获取的需求。而2 0 世纪9 0 年代出现了一种信息抽取( i n f o r m a t i o n e x t r a c t i o n ) 技术,这种技术可以迅速地从i n t e m e t 中抽取出包含特定内容或具 有特定结构的信息,信息查全率高,并且容易扩充。因此,随着信息服务在b 2 c 电子商务中的地位不断提高和信息抽取技术的成熟,方便、高效的信息抽取技 术正逐渐代替传统的信息搜索技术,成为促进b 2 c 电子商务快速发展的主要力 量之一。 人们于2 0 世纪8 0 年代起开始对信息抽取技术进行研究。在目前存在的信 息抽取技术中,利用网站查询表格的信息抽取技术【2 2 1 的信息查全率低:基于归 纳学习的信息抽取技术和基于自定义查询语言的信息抽取技术 3 1 】的信息查 全率与查准率较高,但是用户负担重;基于网页结构分析的信息抽取技术2 8 1 不 需要用户参与,但是难以扩充;基于模式匹配的信息抽取技术【3 3 】和基于隐式马 尔科夫模型的信息抽取技术则增加了用户负担。因此,现有的信息抽取技术 均难以同时满足b 2 c 电子商务的特殊需求。 b 2 c 电子商务中的用户兴趣信息获取通常由对用户提供的反馈信息进行人 工分析及处理来实现。但是随着参与b 2 c 电子商务的消费者数量的增多,这种 方法已经不能满足企业对用户信息需求快速性与准确性,因此需要采用一些自 动获取用户兴趣信息的方法来代替传统的人工分析方法。 从上个世纪8 0 年代末期开始,用户兴趣信息获取成为人工智能领域的一个 研究热点,出现了各种各样的用户兴趣获取技术。在这些用户兴趣信息获取技 术中,基于贝叶斯网络的用户兴趣获取技术1 4 1 1 和基于d s t 的用户兴趣获取技术 4 5 】的时间复杂度高,并且结果难以表示;基于合作过滤的用户兴趣获取技术 4 2 1 则需要大量的用户信息作为基础;基于模糊逻辑的用户兴趣获取技术【4 6 1 对用户 依赖性高,用户负担较重;而基于机器学习的用户兴趣获取技术【4 7 1 需要长时间 的积累才可以正确获取用户兴趣。由此可见,目前存在的用户兴趣获取技术也 难以同时满足b 2 c 电子商务中对用户兴趣信息获取的要求。 中国科学技术大学硕士毕业论文 应用于电子商务的信息获取技术 第一章绪论 1 4 本文工作内容 综上所述,随着信息技术的发展,b 2 c 电子商务在走出了网络经济的低谷 之后,即将进入一个快速发展的时期。信息获取技术( 包括商品信息的抽取与 用户兴趣获取) 不仅是b 2 c 电子商务获得发展的必备条件,而且是吸引消费者 参与b 2 c 电子商务的主要因素之一。由于b 2 c 电子商务中的信息获取要求速 度快,准确性高,并且实现方便,因此应用于b 2 c 电子商务的信息获取技术应 具有下列特点:( 1 ) 信息查全率与查准率高:( 2 ) 用户负担轻:( 3 ) 信息抽取 速度快;( 4 ) 容易扩充。而目前存在的信息抽取技术及用户兴趣获取技术均难 以同时满足b 2 c 电子商务的特殊需求。因此,本文对可以应用于电子商务中的 信息获取技术进行了深入的研究。 在目前存在的信息抽取技术中,基于归纳学习的信息抽取技术和基于网页 结构分析的信息抽取技术的信息查全率与查准率较高,可以满足b 2 c 电子商务 应用中对信息抽取查全率与查准率的需求,但是基于归纳学习的信息抽取技术 需要用户提供大量学习实例,用户负担重,而基于网页结构分析的信息抽取技 术则难以扩充。因此,本文提出了一种基于路径学习的信息抽取技术,这种技 术将网页结构分析与归纳学习相结合,通过学习待抽取信息在网页分析树中的 公共路径实现信息自动抽取。实验表明该技术具有用户负担较轻( 只需用户提 供2 4 个学习实例) 、查全率( 9 7 0 4 一1 0 0 ) 与查准率( 9 9 一1 0 0 ) 高、可实 现大样本量信息抽取和时间资源耗费少( 抽取时间小于1 秒) 等特点,能基本 满足b 2 c 电子商务中信息抽取的需求。 此外,本文采用基于路径学习的信息抽取技术开发了一个智能比较购物代 理系统,该系统可以自动从国内l o 家主要电子商务网站中抽取商品价格等信 息,并对抽取出的信息进行比较处理,成为用户进行在线购物的得力助手。 最后,本文还提出了一种基于关键词提取的用户兴趣获取技术,该技术利 用用户在一段时期内的兴趣通常保持不变的事实,通过观察用户平常浏览的网 页,自动提取出可代表这些网页内容的类关键词,并将这些类关键词作为用户 在这段时期内的兴趣标志。这种技术不需要用户的主动参与就可以实现用户兴 趣信息的获取,并且采用该技术获取的用户兴趣准确性高,可以很好的满足b 2 c 电子商务中对用户兴趣信息获取的要求。这种技术已经成功应用于中国科技大 中国科学技术大学硕士毕业论支 9 应用于电子商务的信息获取技术 第一章绪论 学国祯信息科技有限公司研制的互联网中文信息智能采掘工具中,该工具通过 安徽省科委的产品鉴定,在技术上达到了国际先进水平,并且具有较高的市场 应用价值。 本文的主要创新之处在于: ( 1 ) 提出了一种基于路径学习的信息抽取技术,该技术结合了归纳学习、网 页结构分析等多种技术的优点,可以基本满足b 2 c 电子商务中信息抽取 的要求。 ( 2 ) 设计并实现了一个智能比较购物代理系统,该系统能够有效的实现商品 信息的抽取与处理,方便用户进行在线购物。 ( 3 ) 提出了一种基于关键词提取的用户兴趣获取技术,该技术实现简便,采 用该技术建立的用户兴趣模型准确性高,能够帮助b 2 c 电子商务企业快 速、准确的获取用户兴趣信息。 1 5 本文组织结构 本文共分六章。 第一章:简述电子商务的概念及分类、b 2 c 电子商务的发展现状和信息获 取技术在b 2 c 电子商务发展中的重要作用; 第二章:概述信息获取技术的研究状况; 第三章:详细介绍基于路径学习的信息抽取技术及其性能测试; 第四章:介绍采用基于路径学习的信息抽取技术编制的智能比较购物代理 系统及系统性能测试; 第五章:详细介绍基于关键词提取的用户兴趣获取技术及其性能测试; 第六章:总结。 中国科学技术大学硕士毕业论文 1 0 应用于电子商务的信息获取技术第二章信息获取技术概述 第二章信息获取技术概述 b 2 c 电子商务中的信息获取可以分为两类:从用户的角度来说,他们需要 获得电子商务网站的商品信息以便于购买商品( 信息抽取) ;从电子商务企业的 角度来说,他们需要获得消费者的兴趣爱好信息,以便于吸引消费者参与网上 购物行为( 用户兴趣获取) 。本章详细介绍了信息抽取技术和用尸兴趣获取技术 的研究现状,并对每种技术的优缺点进行了讨论。 2 1 信息抽取技术 信息抽取指直接从报纸或网页的自然语言文本中抽取出指定信息以帮助人 们在某些领域对事态的发展动向做出判断并制定相应策略20 1 。信息抽取技术与 信息搜索技术的区别在于:信息抽取系统类似于个加工器,对信息搜索系统 收集的原材料进行加工、提炼:而信息搜索系统类似一个收集器,收集大量有 用的原材料。信息抽取技术的目的在于从文本中抽取一些特定类型的信息;而 信息搜索技术的目的在于查找与查询条件相关的文本【2 “。 人们于2 0 世纪8 0 年代起开始对信息抽取技术进行研究。目前存在的信息 抽取技术按其工作原理可以分为以下几类:( 1 ) 利用网站查询表格的信息抽取 技术;( 2 ) 基于归纳学习的信息抽取技术;( 3 ) 基于网页结构分析的信息抽取 技术:( 4 ) 基于自定义查询语言的信息抽取技术:( 5 ) 基于模式匹配的信息抽 取技术;( 6 ) 基于隐式马尔科夫模型( h i d d e nm a r k o vm o d e l ) 的信息抽取技术。 2 1 1利用网站查询表格的信息抽取技术 利用网站查询表格的信息抽取技术是最早应用于电子商务网站商品信息获 取中的信息抽取技术。该技术首先对待抽取商品在指定网站中的描述进行离线 学习,再利用归纳学习出的商品描述在网站中寻找合适的查询表格,最后利用 网站原有的查询机制完成信息抽取【2 2 1 。这种技术避免了复杂的自然语言理解, 只需要用户提供少量的原始信息,用户负担较轻。 美国华盛顿大学于1 9 9 7 年研制的s h o p b o t 是这种技术的典型代表( 图2 一l , 图2 2 ) 瞳劫,由于其优越的性能,该技术已经被著名网站e x c i t e c o m 收购。然 中国科学技术大学硕士毕业论文 应用于电子商务的信息获取技术 第二章信息获取技术概述 而,这种技术只能实现对具有查询表格的网站的信息抽取,信息查全率较低。 图2 - 1s h o p b o t 的学习阶段图2 - 2 s h o p b o t 的比较购物阶段 2 1 2 基于归纳学习的信息抽取技术 该技术对若干个待抽取网页实例进行学习,自动分析出待抽取信息在网页 中的结构特征并实现信息抽取【2 3 1 。这种技术的信息查全率与查准率高,并且容 易扩充,是信息抽取中常用的一种方法。 基于归纳学习的信息抽取技术由美国华盛顿大学的n k u s h m e r i c k 提出( 图 2 - 3 ) ,实验证明对于7 0 的网站,当用户提供2 4 4 个学习实例时该技术可在 1 0 秒内实现信息抽取,并且信息抽取查准率可达1 0 0 2 3 1 。 想却委豆 恩摹一墨翌卜懋 图2 3 基于归纳学习的信息抽取模型 然而,这种技术需要用户提供大量实例,用户负担过重,并且当待抽取网 页书写不规范或者待抽取信息的结构不唯一时难以抽取出正确的信息。因此, c h g u 等人在归纳学习过程中增加了上下文规则 2 4 1 , 而d f r e i t a g 通过给学习 实例反复赋予不同权值来提高对不规则信息的信息抽取查准率25 1 。为了减轻用 户负担,im u s l e a 等人在归纳学习过程中加入启发式规则,实验表明当用户提 供1 0 个训练实例时信息抽取查准率为8 5 1 0 0 2 6 】。而n k u s h m e r i c k 在归纳 学习过程中增加了对用户实例的上下文分析,可在仅需用户提供2 3 个实例的 情况下对7 0 的网站实现1 0 0 的信息查全率与查准率 2 7 1 。 但是,由于归纳学习方法的特殊要求,基于归纳学习的信息抽取技术仍然 需要用户提供学习实例,给用户增加了负担,并且对用户实例的学习也影响了 信息抽取速度。 2 1 3 基于网页结构分析的信息抽取技术 该技术利用电子商务网站商品信息结构类似和h t m l 语言半结构化的特点, 中国科学技术大学硕士毕业论文 应用于电子商务的信息获取技术 第二章信息获取技术概述 对待抽取网页进行结构分析,并使用启发式规则找出可以有效划分信息边界的 分割标记,再根据分割标记抽取出在网页中重复出现的信息【2 8 】。这种技术具有 抽取速度快、查全率与查准率高的优点,也是信息抽取中常用的一种方法。 基于网页结构分析的信息抽取技术由d we m b l e y 等人于1 9 9 9 年提出,采 用了领域描述等5 条启发式规则进行标记分割,实验表明其标记分割算法的正 确率可达1 0 0 ,并且标记分割时间与网页规模呈线性关系1 2 ”。然而,这种技 术需要用户提供待抽取信息所属领域的描述,并且用户描述的f 确性对信息抽 取质量影响很大。为了解决这个问题,台湾的ch c h a n g 等人用p a t 树代替 普通树结构存储网页标记信息以提高信息抽取质量,从而获得接近9 0 的信息 查全率 2 9 o 而d b u t t l e r 等人利用相同类型信息通常具有相同标志结构的特征 替换了领域描述规则,实验表明替换后的信息查全率为9 3 9 8 ,而标记分割 算法的正确率同样可达1 0 0 3 0 j 。但是,基于网页结构分析的信息抽取技术采 用的启发式规则仅适用于结构规范的网站,因此难以扩充。 2 1 4 基于自定义查询语言的信息抽取技术 该技术同样利用电子商务网站商品信息结构类似和h t m l 语言半结构化的特 点对网页结构进行分析,并将用户提供的自定义查询语言作为信息抽取时的启 发式规则进行信息抽取1 3 1 1 。这种技术将自定义查询语言作为启发式规则实现信 息抽取,与单纯分析网页结构的技术相比,具有容易扩充的优点。 由as a g u h u e t 等人研制的信息抽取器制造工具w 4 f 是基于自定义查询语 言的信息抽取技术的代表之一( 图2 - 4 ) ,它可以迅速生成针对不同内容、不同 结构信息的信息抽取器,可扩充性强 3 1 1 。为了减轻用户分析网页的困难,m b a u e r 等人在系统中加入了动态提示信息,并使用用户示范( p r o g r a m m i n gb y d e m o n s t r a t i o n ) 方法来弥补系统对网页结构分析的不足1 3 2 1 。然而,这种技术需 要用户书写查询语言,对用户的个人能力要求较高,也增加了用户负担。 图2 - 4w 4 f 的信息抽取过程 中国科学技术大学硕士毕业论文 应用于电子商务的信息获取技术 第二章信息获取技术概述 2 1 5 基于模式匹配的信息抽取技术 该技术根据大量学习实例,归纳学习出待抽取信息的语法结构模式,并根 据这些模式从待抽取网页中抽取出相匹配的信息 3 3 】,尤其适用于复杂结构信息 的抽取。 m c a l i f f 等人于1 9 9 7 年开发了一个信息抽取系统r a p i e r ,将基于模式匹配 的信息抽取技术应用于半结构化的网页信息抽取,实验表明该系统可以在对9 0 个实例进行学习的前提下实现8 6 的信息查准率与6 0 的信息查全率【3 。然而 这种技术的查准率较低,此外学习过程中的语法分析也降低了系统的工作效率。 为了提高信息抽取的查准率,s s o d e r l a n d 等人在归纳学习中加入了对领域规则 的学习【3 4 j ,而南京大学的黄豫清等人提出由用户指定抽取信息结构的方法1 3 5 。 随后s s o d e r l a n d 又通过确定语段分割符来避免学习过程中的语法语义分析1 3 。 但是,基于模式匹配的信息抽取技术只能实现单一领域的信息抽取,信息查全 率低,并且需要用户提供大量学习实例,用户负担较重。 2 1 6 基于隐式马尔科夫模型( h i d d e nm a r k o vm o d e l ) 的信息抽取技术 该技术将待抽取信息的每一个属性作为马尔科夫模型中的一个状态,利用 隐式马尔科夫模型( h i d d e nm a r k o vm o d e l ) 进行信息抽取吲。这种技术适用于 结构化信息的抽取并且信息查准率较高。 基于隐式马尔科夫模型的信息抽取技术由a m c c a l l u m 等人于1 9 9 9 年提 出,实验证明该技术的信息抽取查准率9 1 1 3 7 】,但是状态模型结构对信息抽 取查准率有很大影响。为了减轻这一影响,d f r e i t a g 等人引入了随机优化学 习方法来确定合适的状态模型结构【3 8 i 。然而,这种技术需要人工监测训练实例 以建立模型,难以满足b 2 c 电子商务中用户负担轻的要求。 2 2 用户兴趣获取技术 用户兴趣获取中的关键问题是不确定性问题。起初人们使用缺省推理等传 统手段处理用户兴趣获取中的不确定性问题,但效果并不理想。从上个世纪8 0 年代末期开始,用户兴趣信息获取成为人工智能领域的一个研究热点,出现了 各种各样的用户兴趣获取技术。按照处理不确定性问题的方法可以将这些技术 分为以下几类阻4 0 】:( 1 ) 基于贝叶斯网络的用户兴趣获取技术:( 2 ) 基于合作 中圉科学技术大学硕士毕业论文 4 、 应用于电子商务的信息获取技术 第二章信息获取技术概述 过滤( c o l l a b o r a t i v ef i l t e r i n g ) 的用户兴趣获取技术:( 3 ) 基于d s t ( d e m p s t e r - s h a f e rt h e o r yo f e v i d e n c e ) 的用户兴趣获取技术;( 4 ) 基于模糊逻辑 的用户兴趣获取技术;( 5 ) 基于机器学习的用户兴趣获取技术。 2 2 1 基于贝叶斯网络的用户兴趣获取技术 基于贝叶斯网络的用户兴趣获取技术采用贝叶斯网络表示影响用户兴趣的 各因素之间的关系,通过数值计算与对因素之间关系的分析来获取用户兴趣, 并通过经验事实的不断积累完善整个系统 4 ”。这种技术是目前用户兴趣获取中 最常用的方法之一。 1 9 9 2 年a j a m e s o n 开发的i p s o m e t e r 系统首次采用了贝叶斯网络的诊断 推理功能对用户兴趣进行推断( 图2 5 ) 4 1 1 。然而,由于该技术以大量经验数 据作为运算基础,因此经验数据的不确定性常常影响了推断出的用户兴趣的准 确性。此外该技术难以将运算得出的数值信息解释给用户,运算量大、时间复 杂度高。 2 2 2 基于合作过滤( c o l l a b o r a t i v ef i l t e r i n g ) 的用户兴趣获取技术 基于合作过滤的用户兴趣获取技术采用随机方式从i n t e r n e t 上获取大量用户 信息并分析它们之间的关系,从而获取用户兴趣信息【4 2 1 。这种技术在平均情况 下获取的用户兴趣准确性较高,现己应用于网上书店亚马逊的顾客兴趣预测中。 应用于电子商务的信息获取技术 第二章信息获取技术概述 该技术由pr e s n i c k 等人于1 9 9 4 年首次提出( 图2 - 6 ) 4 2 1 ,随后n g o d d 等 人在信息过滤问题中使用该方法获取用户兴趣信息t 4 3 1 ,w i b a ,m g e r v a s i o 也 对该方法在紧急响应中的应用作了研究州1 。但是该技术以大量用户信息为基础, 工作量较大,并且局限于可获得大量用户信息的应用领域中。 2 2 3 基于d s t ( d e m p s t e r - s h a f e rt h e o r yo fe v i d e n c e ) 的用户兴趣获取技术 在观察用户行为时,常常会遇到观察得到的事实不能准确的反映某些知识 或事实之间相互矛盾的情况,而采用d s t 技术开发的用户兴趣获取技术则可以 很好的解决这个问题。该技术事先确定一组优先权规则,利用这组规则与观察 到的事实计算用户兴趣范围内的每个方向的d s 值,并以此确定用户兴趣 ”1 。 s c a r b e r r y 于1 9 9 0 年首次提出使用d s t 技术获取用户兴趣信息,并开发了 一个辅助计划系统【4 “。由于该技术同样着重于数值计算,因此具有难以将运算 结果解释给用户和时间复杂度高的缺点。 2 2 4 基于模糊逻辑的用户兴趣获取技术 在获取用户兴趣的过程中,人们常常无法用准确的数据来衡量用户信息, 需要根据模糊的事实进行推理,基于模糊逻辑的用户兴趣获取技术则可以成功 的解决这一问题。这种技术不需要用准确的数字表示信息,很容易根据经验建 立用户模型,并且获取的用户兴趣准确性较高【4 “。 1 9 8 9 年由k n c h i n 开发的k n o m e 系统 46 】首次使用模糊逻辑实现用户 兴趣获取。但是该技术需要用户提供大量的事实,因此用户的负担较重。 2 2 5 基于机器学习的用户兴趣获取技术 由于用户兴趣获取系统在初始运行时常常无法获得大量的用户信息,因此人 6 应用于电子商务的信息获取技术 第二章信息获取技术概述 们提出了通过机器学习逐渐获取用户兴趣信息的思想( 图2 7 ) 1 4 7 1o 采用这种 技术开发的用户兴趣获取系统可以实现动态获取用户兴趣信息,并且随着学习 时间的增加,获取的用户兴趣的准确性由较大的提高。 a k o b s a 等人于1 9 9 4 年开发的k n a h s 系统首次使用了机器学习技术获取 用户兴趣【4 8 】。然而,采用该技术建立的用户兴趣获取系统需要较长时间的学习 积累过程才能比较准确地获得用户兴趣,实时性不好。 2 3 小结 针对电子商务领域的特殊要求,b 2 c 电子商务中的信息获取技术应具有准 确性高、实时性强、用户负担轻和容易扩充等特点。在目前存在的信息抽取技 术中,利用网站查询表格的信息抽取技术的信息查全率低;基于归纳学习的信 息抽取技术和基于自定义查询语言的信息抽取技术的信息查全率与查准率较 高,但是用户负担重:基于网页结构分析的信息抽取技术不需要用户参与,但 是难以扩充;基于模式匹配的信息抽取技术和基于隐式马尔科夫模型的信息抽 取技术则增加了用户负担。而在目前存在的用户兴趣信息获取技术中,基于贝 叶斯网络的用户兴趣获取技术和基于d s t 的用户兴趣获取技术的时间复杂度 高,并且结果难以表示:基于合作过滤的用户兴趣获取技术则需要大量的用户 信息作为基础;基于模糊逻辑的用户兴趣获取技术对用户依赖性高,用户负担 较重;而基于机器学习的用户兴趣获取技术需要长时间的积累才可以正确获取 用户兴趣。由此可见,现有的信息获取技术均难以同时满足b 2 c 电子商务的特 殊需求。此外,我国居民普遍不熟悉计算机及网络操作的现状对应用于我国b 2 c 电子商务中的信息获取技术又提出了更高的要求。因此,研制一种对个人能力 要求低、用户负担轻、准确率高、实时性好且容易扩充的信息获取技术不仅可 以吸引更多的消费者参与b 2 c 电子商务,还可以帮助b 2 c 电子商务企业在网 络经济市场中取得竞争优势,从而促进b 2 c 电子商务的发展。 中国科学技术大学硕士毕业论文 应用于电子商务的信息获取技术 第三章基于路径学习的信息抽取技术 第三章基于路径学习的信息抽取技术 b 2 c 电子商务中的信息抽取技术应具有查全率与查准率高、抽取速度快、 用户负担轻和容易扩充等特点,而前面介绍的几类信息抽取技术虽然各有优 点,但都不能同时满足b 2 c 电子商务对信息抽取的需求。因此,在综合了以上 几种信息抽取技术的优点,并考虑到网页描述语言半结构化的特点后,我们提 出了一种基于路径学习的信息抽取技术【4 。本章详细介绍了基于路径学习的信 息抽取技术的原理及实现算法,并对这种技术的优缺点进行分析。 3 1 基本原理与结构 在目前存在的信息抽取技术中,基于归纳学习的信息抽取技术和基于网页 结构分析的信息抽取技术的信息查全率与查准率较高,可以满足b 2 c 电子商务 应用中对信息抽取查全率与查准率的需求,但是基于归纳学习的信息抽取技术 需要用户提供大量学习实例,用户负担重,而基于网页结构分析的信息抽取技 术则难以扩充。因此,我们提出了一种基于路径学习的信息抽取技术( 图3 1 ) , 这种技术将网页结构分析与归纳学习相结合,首先通过网页分析过程建立待抽 取网站的网页标记树,再通过路径学习过程对用户提供的2 - 4 个待抽取信息的 学习实例的搜索确定实例路径,并利用实例路径归纳学习出用户需求信息的公 共路径,最后在信息抽取过程中根据公共路径实现信息自动抽取。若用户对抽 取出的信息结果满意,则将抽取结果提交给用户,否则由用户提供再学习实例 通过再学习过程进行公共路径的完善,再利用完善后的公共路径进行第二次信 息抽取。 图3 - 1 基于路径学习的信息抽取技术 3 3 节的性能测试表明基于路径学习的信息抽取技术具有用户负担较轻( 只 需用户提供2 - 4 个学习实例) 、查全( 9 7 0 4 - 1 0 0 ) 与查准率( 9 9 一1 0 0 ) 高、 可实现大样本量信息抽取和时间资源耗费少( 抽取时间小于1 秒) 等特点,能 中国科学技术大学顽士毕业论文 应用于电子商务的信息获取技术 第三章基于路径学习的信息抽取技术 基本满足b 2 c 电子商务中信息抽取的需求。 3 2 实现过程 3 2 1 网页分析过程 基于路径学习的信息抽取技术首先通过网页分析过程实现对目标网页的结 构分析以及目标网页标记树的建立。 3 2 1 1 基本原理 表3 - 1h t m l 基本标记及其使_ l l j 说明 标记 使用方法 说明 强制使用 每个h t m l 文档都以 开始,以 结束, 这样浏览器就可以知道从什么地方开始和结束读取 正常使用 h t m l 文档包含个头部和一个正文,头部通常标识 w w w 站点并定义页面设置 正常使用 w w w 内容的主要部分放在这两个标记之间,正文部分 通常包含着访问站点的用户要查找的信息 选择使用 书籍和其他文本形式,通常把它们所包含的信息,用标 题分成章节,本标记允许对w w w 站点添加标题 h t m l 总是假定:你键入的所有文本,不论它们是否在 选择使用 行,都是同一段的一部分。使用通过增加一个回车符 和两个换行符来标识段落的结束 选择使用 常常想要在不增加新行的情况下回到页的左端,本标记 可以完成这一工作,它添加一个回车符和一个换行符 选择使用 水平标尺标记允许一行可以跨页并在段落j o q 增2 9 h 空白 选择使用 强调标记。不同的浏览器对其反应不同,大多采用斜体 显示文本 , 选择使用 如果不想让浏览器对文本重新格式化,预格式化标记指 示浏览器保持文本格式不变 刮u 选择使用 下划线标记 选择使用 注释标记 选择使用 无序列表( u n o r d e r e dl i s t ) 标记 选择使用 有序列表标记 选择使用 列表项标记 选择使用表格标记,定义表格的头和尾 选择使用 表格行标记 选择使用 表格列标记 选择使用 标题标记,定义行或列的标题 目前i n t e m e t 中的网页多使用h t m l 语言书写,而从h t m l 语言基本标记的 中国科学技术大学硕士毕业论文 9 i 应用于电子商务的信息获取技术 第三章基于路径学习的信息抽取技术 使用说明( 表3 1 ) 中可以看出,7 7 的h t r n l 标记都成对出现。这一标志配对 特征使得网页的h t m l 源文件可以通过树型结构来表示。 a s a g u h u e t 等人在信息抽取器制造工具w 4 f 中首次提出了标记树( t a g t r e e ) 的概念,这棵标记树为普通的树型结构( 图3 2 ) ,由树根、内节点与叶节 点组成,每一个节点对应h t m l 文件中的一个标记【3 l 】。d we m b l e y 等人于1 9 9 9 年提出的基于网页结构分析的信息抽取技术中也使用了标记树( 图3 3 ) 辅助网 页结构分析【5 。 图3 - 2w 4 f 中标记树的节点属性 图3 - 3d we m b l e y 提出的标记树节点结构 由于标记树表示直观,并且容易建立,因此本文提出的基于路径学习的信 息抽取技术也通过建立标记树来进行网页结构分析,网页分析过程如图3 - 4 所 不: 阡剐习 图3 - 4 网页分析过程 为了满足路径学习过程的特殊需求,本文对标记树的结构进行了扩充,其 节点结构如表3 2 所示: 表3 - 2 标记树节点结构 属性搜索 名称 标记双亲左孩子右兄弟内容 高度 得分孩子位置 标志 i 属性 i 标志 k e yp a r e n t l c h i l dr b r o t h e rc o n t e n t h e i g h t s c o r ec h i l d n u m p a s s 此处对每一个节点增加了5 个附加域:即内容域( 存放成对标记间的内容 或单独标记中的附加信息) 、高度域( 存储该节点的高度) 、得分域( 存储该节 点在启发式搜索中的得分) 、位置域( 存储该节点是其父亲的第几个孩子) 和搜 中国科学技术大学硕士毕业论文 应用于电子商务的信息获取技术 第三章基于路径学习的信息抽取技术 索标志域( 表示该节点是否在启发式搜索过程中已被搜索过) 。为了便于查找, 该标记树采用左孩子右兄弟加双亲指针的方式存储。 图3 5 表示一个由h t m l 语言书写的网页,而图3 - 6 则表示通过网页结构分 析后建立的该网页的标记树,其中各节点仅标出了标记域。 3 2 1 2 实现算法 图3 - 5 某网页的h t m l 源文件 hela令d b o d y 。;3 e i ,。i 1厂te x t l t i沁t a 、d 佃“。i r “ 9 f 中国科学技术大学硕士毕业论文 应用于电子商务的信息获取技术 第三章基于路径学习的信息抽取技术 网页分析通过4 个主要过程实现: ( 1 ) 网页标准化( h t m l s t a n d a r i z e 过程) h t m l 语言的半结构化特征使得许多网页的h t m l 源文件书写并不规范( 如 缺少结束标识等) ,因此本过程使用w 3 c 提供的一个网页标准化程序t i d y 5 1 将h t m l 源文件中不规范的书写规范化。图3 7 即为对图3 5 所示的h t m l 源文 件进行标准化后的结果。 厂一一面而f 一一1 图3 - 7 经过t i d y 标准化后的h t m l 源文件 ( 2 ) 网页信息读入( h t m l t o s t r i n g 过程) 该过程将h t m l 源文件读入一个字符数组中以方便建立标记树,并且将源文 件中书写不统一的地方进行统一处理( 如将所有的中文括号都改为英文括号) 。 ( 3 ) 去除无用节点( r e m o v e n o d e 过程) 该过程将注释标记 等对网页分析过程无用的标记及其内容从源文件 字符数组中去除,从而减少网页结构分析的时间消耗。 中周科学技术大学硕士毕业论文 应用于电子商务的信息获取技术 第三章基于路径学习的信息抽取技术 ( 4 ) 建立标记树( t r e e c r e a t e 过程) pr o c e d u r etr e e c r e a t e ( s t n n gt e x t ) 小e x l 为源文件字符数组 b e g i n s t r l n d e x = o ;字符位置指针赋为0 h e i g h t = 0 ;树高度初始为0 w h i l ef s t r l n d e x t e x t 的长度a n dt e x t 中含有” ”) c = t e x t 中位于s t r l n d e x 的字符 i f ( c 为标| 己) i f ( c 中含有内容) n a m e = 当前对象标记 w o r d s = 当前对象内容 当前对象入栈, e i s e n a m e = 与前刘象标记, w o r d s = :当前对象内容赋为卒 当前对象入栈: e n d i f 计( j j :i 记树t r e e 为空) r o o t = i n d e x ;i 当前对象为树根 i f ( 1 e m p s l a c k 非空a n d 当前对象为结束标记) 当前对象出栈: h e i g h t :i i 树高度减1 e l s e 当前对象入栈: 向树t r e e 中添加节点: i f ( 该节点有父亲) 计( 父亲尚无孩子) 修改父亲的左孩子信息 e l s e 修改父亲的孩子的右兄弟信息, e n d i f h e i g h t + + ; i f ( 当前对象为无结束标志的标记) 当前对象退栈: h e i g h t 一: b r e a k ; e n d i f e n d i f e l s eh c 为文本 n a m e = ”t e x t ”:文本的标记赋为“t e x t ” w o r d s = 当前对象内容: 向树t r e e 中添加节点: i f ( 该节点有父亲) 汀( 父亲尚无孩子) 修改父亲的左孩子信息: e l s e 修改父亲的孩予的右兄弟信息, e n d i f e n d i f s t r l n d e x + + ; e n d w h i l e r e t u r nt r e e ; e n d 图3 8t r e e c r e a t e 过程 中国科学技术大学硕士毕业论文 2 3 、 应用于电子商务的信息获取技术 第三章基于路径学习的信息抽取技术 该过程是网页结构分析过程中的主要部分,通过顺序读取源文件字符数组 中的内容并进行结构分析来建立标记树。算法详细描述如图3 - 8 所示。该算法 的输入为源文件字符串t e x t ,输出为该源文件的标记树t r e e 。 由于该过程中的主循环( w h i l e 循环) 共循环1 1 ( n 为源文件中节点的个数) 次,而每一个循环中仅涉及栈操作和普通的复制操作,因此该过程的时间复杂 度为o ( ) 。 3 2 2 路径学习过程 完成目标网页的结构分析后,基于路径学习的信息抽取技术通过路径学习 过程首先确定用户实例节点在标记树中的路径,再通过对实例路径的归纳学习 得到待抽取信息的公共路径。 3 2 2 1 基本原理 b 2 c 电子商务网站的网页信息常常具有相似的表示格式,如图3 - 9 所示的 新浪商城手机信息网页中,每一条信息都是由商品图片、商品名称、原价、现 价和销售商组成,并且组织格式相同。这一特点使得这类网页的标记树中具有 若干个结构相似而且仅有部分节点内容不同的子树循环带,并且同一网站中的 不同网页的标记树结构通常相同,因此可以通过对一个网页结构的分析来抽取 同一网站中的同类商品信电 本技术根据用户提供的若干个商品信息实例,学习出包含这些信息的节点 在标记树中的路径,再根据若干条同类信息的路径归纳学习出该类信息在这个 网站中的公共路径,最后根据公共路径抽取出该网站中的所需商品信息。其中 中国科学技术大学硕士毕业论文 2 4 窒星王皇王塑堑塑堕垦茎坚垫查蔓

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论