(计算机科学与技术专业论文)网络化制造资源智能获取技术研究.pdf_第1页
(计算机科学与技术专业论文)网络化制造资源智能获取技术研究.pdf_第2页
(计算机科学与技术专业论文)网络化制造资源智能获取技术研究.pdf_第3页
(计算机科学与技术专业论文)网络化制造资源智能获取技术研究.pdf_第4页
(计算机科学与技术专业论文)网络化制造资源智能获取技术研究.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机科学与技术专业论文)网络化制造资源智能获取技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文摘要 摘要 网络化制造使企业能够充分利用制造资源,企业间的资源能够得到共享,企 业间的优势得到互补,从而提高了企业的生产效率、减少了生产的成本,对于提 高整个产业链和制造群体的竞争力具有重大的意义。然而,由于网络化制造资源 信息的表现形式复杂、逐步深化、缺乏语义信息,使得计算机理解变得困难,很 难获取。因而如何从互联网中有效的获取网络化制造资源是网络化制造技术发展 的关键。 本文针对如何从互联网中有效获取各类制造资源进行了研究,并提出了网络 化制造资源获取系统。 首先,本文对国内外网络化制造资源获取技术以及d e e pw 曲原型系统进行 了研究,提出了网络化制造资源获取系统的总体框架和层次结构。 然后,本文针对网络化制造资源文本信息的获取提出了解决方案。利用网络 爬虫、机器学习、建模等技术解决了从互联网中获取制造资源相关的网页数据。 最后,本文针对网络化制造资源标注提出了解决方案。利用本体技术对网络 化制造资源进行了本体以及相关知识的建模,形成了一个描述网络化制造资源的 全局模式。通过分析网页信息、归类网络化制造资源表现形式冲突类型,设计了 半自动化的语义标注工具。 关键词:网络化制造、本体、网络爬虫、机器学习、语义标注 a b s t r a c t n e t w o r k e dm a n u f a c t u r i n gt oe n a b l ee n t e r p r i s e st om a k ef u l lu s eo fm a n u f a c t u r i n g r e s o u r c e s ,s h a r er e s o u r c e s ,c o m p l e m e n ta d v a n t a g e se a c ho t h e r ,t h e r e b ye n h a n c i n gt h e e n t e r p r i s e sp r o d u c t i o ne f f i c i e n c y ,r e d u c ep r o d u c t i o nc o s t s ,f o ri m p r o v i n gt h ew h o l e i n d u s t r yc h a i na n dm a n u f a c t u r i n gg r o u p si nt h ec o m p e t i t i o na r eo fg r e a ts i g n i f i c a n c e h o w e v e r ,d u et on e t w o r k e dm a n u f a c t u r i n gr e s o u r c ei n f o r m a t i o ni si nv a r i o u sf o r m s , g r a d u a l l yd e e p e n i n g ,l a c k i n go fs e m a n t i ci n f o r m a t i o n ,m a k i n g i td i f f i c u l tt ou n d e r s t a n d a n do b t a i nb yt h ec o m p u t e r t h e r e f o r eh o wt o a c c e s sn e t w o r k e dm a n u f a c t u r i n g r e s o u r c e se f f e c t i v e l yi st h ek e yo fn e t w o r k e dm a n u f a c t u r i n gt e c h n o l o g yd e v e l o p m e n t i n t h i sp a p e r , w em a k eas t u d yo nh o wt o f e t c hm a n u f a c t u r i n gr e s o u r c e s e f f e c t i v e l yf r o mt h ei n t e m e t ,d e s i g na n di m p l e m e n tan e t w o r k e dm a n u f a c t u r i n g r e s o u r c ea c q u i s i t i o ns y s t e m f i r s t l y ,t h i st h e s i s s t u d i e st h es t a t u sq u ob o t ha th o m ea n da b o a r da b o u tt h e f e t c h i n gn e t w o r km a n u f a c t u r i n gr e l a t e dt e c h n o l o g i e s t h e nw ep r o p o s ean e t w o r k e d m a n u f a c t u r i n gr e s o u r c ea c q u i s i t i o ns y s t e mo v e r a l ls t r u c t u r ea n da h i e r a r c h i c a ls y s t e m m o d e l s e c o n d l y ,w ep r o p o s es o l u t i o nf o rf e t c h i n gn e t w o r k e dm a n u f a c t u r i n gr e s o u r c e s f r o mt h ei n t e m e t w ef e t c h i n gt h en e t w o r k e dm a n u f a c t u r i n gr e s o u r c e sb yu s i n gs p i d e r , m a c h i n el e a r n i n g ,m o d e l i n gt e c h n i q u e s f i n a l l y ,w ep r o p o s eas o l u t i o n f o rs e m a n t i ca n n o t a t i o no ft h en e t w o r k e d m a n u f a c t u r i n g r e s o u r c e s w ee s t a b l i s ho n t o l o g ys t r u c t u r ef o r t h en e t w o r k e d m a n u f a c t u r i n gr e s o u r c e su s i n go n t o l o g yt e c h n o l o g y , f o r m i n gag l o b a l s c h e m af o r d e s c r i p t i o n o fn e t w o r k e dm a n u f a c t u r i n gr e s o u r c e s w ed e s i g ns e m i - a u t o m a t i c s e m a n t i ca n n o t a t i o nt o o l sb ya n a l y z i n ga n dc l a s s i f yw e bp a g e so fi n f o r m a t i o n k e y w o r d s : n e t w o r k e dm a n u f a c t u r i n gr e s o u r c e s ,o n t o l o g y ,s p i d e r ,m a c h i n el e a n i n g , s e m a n t i ca n n o t a t i o n 浙江大学硕士学位论文图目录 图目录 图1 1 网络化制造资源层次图3 图2 1 网络化制造资源获取系统功能模型。1 0 图2 2 系统层次模型1 2 图3 1 制造资源主题网站分类器构造流程1 5 图3 2d e e pw e b 的交互过程19 图3 3 网络化制造资源内容抽取2 0 图3 4h e r i t r i x 架构图2l 图3 5 单窗口接口2 5 图3 6 多窗口接口2 5 图3 7a v g 的例图2 7 图3 8 特征值数量和准确率的关系图2 8 图4 1 “制造资源”概念实体层次结构示意图( 部分) 3 2 图4 2 制造资源本体与相关知识一体化建模框架3 4 图4 3 制造资源信息抽取及语义标注示意图3 9 i i i 浙江大学硕士学位论文表f 1 录 表目录 表3 1 “制造商网”的查询接口形式化表示2 5 表3 2 “制造资源共享网”的查询接口形式化表示2 6 表4 1 “机床”概念的o w l 定义3 2 表4 2 “车床”概念属性“型号”建模3 3 表4 3 概念间关系建模实例3 4 表4 4 企业概念的o w l 标注4 0 表4 5 企业的属性“联系人”的o w l 标注4 0 表4 6 企业和机床之间的关系的o w l 标注4 0 i v 浙江大学硕士学化论文第1 章绪论 第1 章绪论 1 1 引言 随着互联网技术的飞速发展,世界经济正经历着一场深刻的革命,塑造着一 种新的经济模式,即“网络经济。面对网络技术对于制造业的影响不断地扩大, 一种全新的制造模式由此而生,即网络化制造模式,它代表了制造业未来的发展 方向【1 1 。网络化制造模式利用了计算机仿真、计算机网络、集成制造、虚拟制造、 协同设计、工作流、计算机辅助设计、现代管理等方面的最新技术成果,并将其 综合应用于基于互联网的产品开发与检测、设计、制造、管理及售后服务,最终 在网络上实现优质、低耗、高效、清洁、敏捷的制造。与传统方式相比,网络化 制造克服了企业间的空间差距,实现企业间的信息集成、业务过程集成、资源共 享,实现产品设计、制造的协同,缩短产品研制周期,减少研制费用,提升了整 个制造群体和产业链的竞争力【2 】。 互联网的迅速发展推动着制造资源的信息化发展。互联网为企业提供了资源 互相共享、互相交互的一个平台,使企业的合作更加方便。随着互联网的普及, 越来越多的企业通过制造企业站点和行业门户的方式在互联网上发布、获取企业 信息、产品信息、市场信息等,互联网已经成为了网络化制造资源的重要载体。 因此,网络化制造资源的获取成为了企业有效获取制造资源的关键。 由于网络化制造资源的复杂性,目前在获取方面还存在如下的局限性: 1 缺少对网络化制造资源信息的一致性、规范的描述。互联网信息的高度 自治性,导致了网络化制造资源信息表现形式多样性。 2 缺少对网络化制造资源信息的知识支持。制造资源蕴含知识,搜索引擎 无法理解其中的语义信息。 3 搜索范围有限。随着互联网的发展,信息正在逐渐“深化”,对于这部分 网络化制造资源目前搜索引擎还不能有效的获取。 由于现有的网络化制造资源信息的表达和获取技术的局限性,而同时面对的 浙江大学硕士学化论文第l 章绪论 又是非常复杂的、网络化制造资源获取所特有的诸多问题,已经成为了制造资源 获取和共享的瓶颈,需要采用新的思路和技术手段来解决这些问题。本文针对上 述问题,运用语义网( s e m a n t i cw e b ) 、网络爬虫、机器学习等技术对网络化制造 资源建模、发现、获取等内容进行研究。 1 2 网络化制造资源概述 1 2 1 网络化制造资源内容 制造资源是指在产品整个生命周期所有与生产活动联系的相关元素的总称, 是企业的设备、材料、人员与产品生命周期所涉及的硬件和软件的总和,它贯穿 了产品生产全过程,且其组织、管理、配置和调度以及自身的约束等都影响着生 产规划、产品设计、过程设计和制造控制等环节【1 】o 制造资源具有分布性、异构 性、共享性、动态性、多样性、抽象性、相似性、自治性、管理多重性等特点【3 】3 。 网络化制造资源是一种w e b 主题资源,通过互联网发布,覆盖了整个互联网,具 有异构分布、动态、开放、广泛的特点。与传统的制造资源相比,网络化制造资 源是存在于互联网中的一种虚拟化形态的制造资源,其主要存在形式包括网页、 技术文档以及w e b 服务,具体内容主要有制造资源的w e b 信息、w e b 服务、w e b 数据库等,文本形式是网络化制造资源的主要表达形式。网络化制造分布的网络 有因特网( i n t e m e t ) 、企业内联网( i n t r a n e t ) 、企业外联网( e x t r a n e t ) 。本文的网 络化制造资源主要指互联网中的制造资源,主要指互联网中以各种传输协议为基 础,以文本形式存在的制造资源和制造服务信息【4 】。 随着互联网技术的迅速发展,制造企业的网站正在不断的增加这样的网站拥 有大量的有价值的制造资源。中国互联网信息中心在最近一次互联网发展状况统 计显示【5 】,我国总共有网站约3 2 3 万个,其中企业网站占据了较大的比例。企业 网站所提供的主要信息服务包括【6 】:企业介绍、产品服务介绍、企业动态新闻、 售后服务技术支持、行业新闻、招聘信息、友情链接、行业解决方案、行业报告、 电子期刊等,企业网站提供的主要服务包括:产品查询、民意调查在线征集、在 2 浙江大学硕士学位论文第1 章绪论 线咨询投诉、会员服务、网上采购、针对最终用户的网上销售、针对代理商、经 销商的网上销售、虚拟社区b b s 论坛等。由此可见,企业网站是网络化制造资源 的主要载体。通过对目前主要的制造资源站的统计分析,按照制造资源的功能对 网络化制造资源信息进行了分类,图1 1 显示了网络化制造资源分类的层次图。 图1 1 网络化制造资源层次图 1 2 2 网络化制造资源分布 根据信息所蕴涵的“深度”,可以将互联网中的各类资源库划分为s u r f a c ew e b 和d e e pw 曲两大类别。其中,s u r f a c ew 曲类信息是指常规的、具有显式超链接 的静态页面,可以被传统搜索引擎索抓取和索引,而d e e pw e b 类信息则存储在 w e b 数据库中,需通过访问接口动态产生查询结果,因而,无法被常规的获取方 式得到。 在s u r f a c ew e b 中,面向各类制造领域特色的大型行业门户网站已近千个( 如 中华机械网、中华机床网、中华泵阀网、全球五金网、中国数控机床网、中国电 机网、中国纺机网、模具制造网、轴承网、中国包装机械网) ,同时,相当一部 分制造企业也已拥有了自己的主页和相关信息发布。然而,这些形形色色、表现 形式多样的海量制造资源信息散布在互联网中的各个角落,难以被全面的开发与 利用。 在d e e pw e b 中,同样分布着大量的网络化制造资源信息( 如制造商网、制 造资源共享网) 。相比s u r f a c ew e b 中网络化制造资源的信息,d e e pw 曲中的网 3 浙江大学硕士学位论文第1 章绪论 络化制造资源的信息质量更高、更有价值。然而对于众多这样的网络化制造资源 的获取,采用常规的网络爬虫技术将遗漏这些高质量制造资源中的绝大部分信 息,使得有价值的制造资源信息无法被有效获取。 1 2 3 网络化制造资源面临的问题 制造资源信息复杂多样,导致信息整合与利用困难 与购物、交友、旅游、找工作等互联网应用系统中的信息表现形式相比,制 造资源信息显然要复杂得多,从4 个指标对互联网中发布的制造资源信息特点进 行分析同,包括:信息描述一致性、描述复杂程度、信息表现多样性,以及结构 化程度,如下表1 1 所示。 表1 1 制造资源信息特点分析 制造资源描述的复描述的一信息多样信息结构 信息类型杂程度致性状况性状况化程度 产品类型高一般同低 企业基本状况一般低高较高 服务状况一般较高 高高 响应时间低高低商 质量状况高较高局呙 产品成本一般 音 一般两 间 制造能力高 低向低 由上表可知,制造资源信息具有:表现形式具有多样性、描述一致性低、复 杂程度高、结构化程度普遍较低等显著特点。仅以加工制造术语为例,存在着大 量的同义异形、同形异义等复杂情况【8 】如表】2 所示。这些是制造资源互操作 性差的直接体现,严重制约了搜索引擎从互联网中获取各类制造资源、准确定位 制造资源,以及深度加工利用制造资源的能力。 4 浙江大学硕士学位论文第1 章绪论 表1 2 加工制造术语表达形式多样化实例 举例 原因分析 类别标准术语地方术语 加工方法 铸造 翻砂 地域差异造成 单位1 0pm 丝( 南方) 、道( 北 同义异形 方) 零件垫片瓦丝( 杭州) 加工用语夹住轧牢( 杭州) 新、老标准更替 常用术语表面粗糙度表面光洁度 造成术语混用热处理氧化处理 发黑、发蓝 工艺习惯不同造成 加工设备 车床机床 工艺装备刀具刃具 同形异义 工艺装备夹具 模具 网络化制造资源蕴含知识,导致信息获取的困难 网络化制造资源信息的描述蕴含了大量的加工制造知识。如表1 3 所示。 表1 3 制造资源信息的知识描述 制造资属性属性值 知识解释 源 车床圆度极高 = 0 0 0 3 5 m m 较高 0 0 0 3 5 m m & & 0 0 0 4 m m & & 0 0 0 5 m m 铣床最大攻丝直径 m 1 6 1 6 毫米 普通车加工精度执行g b 7 9 2 6 2 0 0 5 圆度( m m ) - 0 0 1 床标准 圆柱度( m m ) - 0 0 1 10 0 平面度( m m ) - 0 0 1 2 0 0 上表简要列举了车床、铣床的知识描述,可见网络化制造资源信息的描述蕴 含了大量的知识,使得搜索引擎无法理解,增加了网络化制造资源信息获取的复 杂性。 网络化制造资源表现冲突 由于网络化制造资源信息分布广泛、内容丰富、信息源独立、且缺乏统一的 5 浙江大学硕士学化论文第1 章绪论 制造资源表达规范,使得网络化制造资源的表现形式互相冲突。如表1 4 所示。 表1 4 网络化制造资源信息的表现形式冲突 冲突内容表现形式1 表现形式2 企业描述公司名称、注册资金、成公司名称、地址、地区、 立时间、注册地点、地址、联系人 联系人 联系电话 8 60 7 5 52 7 5 3 8 6 0 60 7 5 5 2 7 5 3 8 6 0 6 车床重量单位t ( 吨) 埏( 千克) 加工精度精密 圆度( m m ) :0 0 1 圆柱度 ( m m ) :0 0 1 10 0 平面度 ( m m ) :0 0 1 中2 0 0 粗糙度 ( g m ) - 1 6 机床外形尺寸 一2 2 0 0 1 0 0 0 宰1 1 7 0 m m 2 2 0 0 ( m m ) 10 0 0 ( m m ) 1 1 7 0 ( m m ) 上表列举了部分网络化制造资源表达形式的冲突,它是在网络化制造资源集 成过程中急需解决的问题。 信息资源正加速“深化”,使得众多的高质量资源无法获取 统计表明,随着互联网应用的深入,信息资源正在加速“深化”。而且,这 部分的信息量更大、信息更新快、主题更专一、信息质量更高、结构化更好【9 1 。 在制造领域的行业、企业门户网站中,d e e pw 曲数量众多,而采用常规的网络爬 虫技术将遗漏这些高质量制造资源中的绝大部分信息,使得有价值的信息无法被 有效获取。 1 3 相关技术研究现状 c o m p a s s 10 】是由德国马普计算机科学研究所系统研制的基于概念、具有上 下文联想功能的搜索引擎。它把互联网中的各种格式的资源转换成x m l 格式集 中管理,通过把d e e p w e b 中的查询接口转换成w s d l 接1 2 1 为用户提供搜索d e e p w e b 资源的功能,同时为了统一查询它还内置了基于x m l 的查询语言。 s n p m i n e r l l l 】是由俄亥俄州立大学和肯特州立大学共同研制的专门从d e e p w 曲中搜索、查找单核苷酸多态性数据的系统。它通过收集并集成d e e pw 曲中 6 浙江大学硕士学位论文第l 章绪论 具有单核苷酸多态性数据的站点,为用户提供了一个统一查询接口。 贵卅i 大学的谢庆生等进行了网络制造资源多层次智能检索模型的研究,建立 了制造资源智能化检索系统知识库,综合机器学习、w e b 网页识别、信息过滤、 数据挖掘、人机交互等技术,对网络制造资源搜索关键技术展开了研究,实现了 面向网络化制造资源的垂直搜索引擎:同时通过发现关联规则、路径分析、数据 分类、聚类分析、序列模式等w e b 日志的挖掘技术,挖掘用户的个性化需求,实 现了个性化的推送【1 2 】【1 3 】。 兰州理工大学的蒋红进行了基于语义网的网络化制造知识集成技术的研究, 通过p r o t 6 9 6 建模工具,o w ld l 语言对制造企业进行本体建模,构建并实现了 基于语义w e b 的时间、活动、状态三种制造核心本体和基于s w r l 的核心本体 公理集。在此基础上运用基于语义的制造资源检索,并实现了概念检索、实例检 索和关系检索三种检索算法;并且提出了基于语义w e b 技术的网络化制造知识集 成平台p i n m b s ,实现了企业资源在语义和知识层上的集成【1 4 1 。 上海交通大学的张博锋提出了一种基于构件技术的软件开发方法来实现制 造资源搜索引擎fm a n u f a c t u r i n gr e s o u r c es e a r c he n g i n e ,简称m r s e ) 。根据构重 用原则、闭包原则、单人组件原则、消息传送等构件的划分原则对m r s e 进行了 构件的划分,划分的构件包括:数据操纵构件、业务流程分析构件、用户输入 信息获取构件、界面显示构件,并通过u m l 建模语言对构件进行了组装。实验 证明了使用基于构件技术的软件开发方法来实现m r s e ,有助于增强系统的可重 构能力和扩展性以及开发效率的提高【1 5 1 。 华中科技大学的祁型虹等对制造网格环境下制造资源的建模与形式化描述 进行了研究。通过分析制造资源的特点,提出了包含有构造层、制造网格核心中 间件层、用户中间件层和应用层四个大的层次的制造网格环境下制造资源管理的 体系结构,同时利用面向对象思想和统一建模语言u m l 建立了制造网格环境下 的制造资源模型,并探索了基于s t e p x m l w s d l 的制造资源描述的新方法【1 6 1 。 机械与能源工程院校的董宝力对w e b 制造资源的语义发现关键技术进行了 全面的研究。提出了w e b 制造资源语义发现的系统结构、并给出了j 2 e e 的实现。 7 浙江大学硕士学位论文 第1 章绪论 针对制造资源这一主题特征提出了一种混合向量空间模型( h v s m ) 的节点特征 建模理论,并且针对h s v m 的模型特点出了一种节点识别的c e n t r o i d s v m 分类 算法。此外,针对本体工程的复杂性和规范化要求,提出了一种基于语义层次建 模机* i j ( r s h m ) 的制造资源领域本体构建方式。r s h m 模型分为三层:刻面层、 概念层和元数据层【4 】。 虽然目前关于对网络化制造资源获取技术进行了研究,也取得了很好的成 果,但是在网络化制造资源的表现形式冲突并未进行深入的研究,同时针对d e e p w 曲中的网络化制造资源的获取也缺乏相关的研究,因此本文进行了相关的研究。 1 4 论文研究背景和论文结构 制造业作为浙江工业的主体,也是推动全省国民经济增长的主要动力之一。 我省目前大型制造企业有1 0 0 多家,中小型制造企业1 0 0 0 0 多家。中小企业的规 模小,科技含量不高,在劳动力成本提高、国际市场变化、美元汇率大幅下降的 背景下,我省制造业面临着很大的挑战【4 3 1 。运用现代信息技术改造与提升传统制 造业,促进整个制造业高效持续和谐发展的一项重要的举措。网络化制造作为企 业提高自主创新能力、市场竞争力的必要手段的同时,也是制造业信息化的重要 内容。然而网络化制造资源信息数量巨大、种类丰富、易变性强、表现形式多样、 结构化程度低、缺少语义信息,导致计算机自动获取困难;同时,随着互联网信 息的不断“深化”,隐含其中的更多优质制造资源更是难以被有效获取。如何从 互联网这一海量数据库中有效的、准确的获取制造资源信息,已成为实施网络化 制造的关键。 本文针对如何从互联网中有效获取各类制造资源进行了研究,主要内容包 括: 网络化制造资源获取形式多样化冲突解决 网络化制造资源本体建模 网络化制造资源站点发现 网络化制造资源站点内容抽取 8 浙江大学硕士学化论文第1 章绪论 半自动化的语义标注技术 本文共分5 章,结构安排如下: 第一章“绪论 ,对网络化制造资源获取相关技术的研究现状迸行分析,介 绍了本文的研究背景、研究意义和内容组织结构。 第二章“网络化制造资源获取系统的体系结构 ,提出网络化制造资源获取 系统的功能模型和层次结构。 第三章“网络化制造资源原始数据获取,首先,提出了选择合种子资源方 案并设计制造资源主题网站分类器进行发现互联网中制造资源主题的站点,然 后,通过分析网络化制造资源站点,提出网络化制造资源内容获取框架。 第四章“网络化制造资源标注 ,利用o w l 本体描述语言、p r o t 6 9 6 本体建 模工具,对制造资源进行本体以及相关知识进行建模,通过分析网页信息分布的 特点,完成半自动化标注工作,同时提出网络化制造资源表现形式冲突的解决方 案。 第五章“总结与展望”,对全文所进行的主要工作和研究成果进行总结,并 对还需要进一步研究的工作进行了展望。 9 * * z * 2 章目镕n “女矩m 统的# i 镕构 第2 章网络化制造资源获取系统的体系结构 2 1 系统功能模型 本系统共包括了3 个功能模块和3 个资源库,如图2 l 所示。其中,3 个模 块包括率体与知识库建模、网络化制造资源原始数据获取和网络化制造资源标 注,3 个资源库分布为:制造资源本体库、领域知识与常识库和个体库。 4 目“m 女自t e目# * w t * * # - k mo n m+ n # * m # m 镕j 二二i # 自r t , t * # * c 一- - l l 一 w “w = 圈2i 同路化制造资源获取系绩功能模型 m 本体与知识库建模模块 本模块主要功能是对制造资源奉体以及相关知识进行建模,由本体建模工具 和知识编辑器构成。本体建模工具负责对$ i 造资源本体进行建模,构建描述网络 他制造资源的全局模式,而知识编辑器负责对制造资源领域相关的知识进行编 辑。 ( 2 1 网络化制造资源原始数据获取 本模块主要功能是从互联网中获取制造资源相关的原始数据由站点发现和 资源获取2 个子模块构成。站点发现子模块负责从互联网中发现制造资源相关的 站点,例如:企业门户网站、制造行业门户网站等,站点类型支持s u r f a c ew e b 以及d e e pw e b 两太粪。资源获取于模块主要负责从制造资源站点中抓取制造资 源文本信息。 f 3 、网络化制造资源标注模块 浙江大学硕士学位论文第2 章网络化制造资源获取系统的体系结构 本模块主要功能是对已经获取的网络化制造资源的原始数据在制造资源本 体的基础上进行标注,由数据抽取和数据标注2 个子模块构成。数据抽取负责过 滤原始数据中无用的数据,保留制造资源信息数据,而数据标注利用抽取的制造 资源信息,对制造资源本体通过添加本体实例的方式来扩展本体。 “) 制造资源本体库 制造资源本体库将制造资源本体抽象成概念实体、概念属性和概念间的关系 三类对象进行表达。它是描述制造资源的全局模式,也是制造资源语义标注的基 础。 ( 5 ) 领域知识与常识库 领域知识与常识库包含了对制造资源相关知识的描述,例如,时间、空间相 关知识、设备加工精度知识等。 ( 6 ) 个体库 个体库包含了本体实例,是获取网络化制造资源,并完成语义化标注的结果。 本系统的流程如下:首先,通过本体建模工具和知识编辑器,对制造资源本 体以及相关知识进行建模,形成制造资源本体库和制造资源领域相关知识和常识 库,然后,网络化制造资源获取模块通过站点发现模块从s u r f a c ew e b 和d e e pw e b 中寻找制造资源相关的站点,接着,通过分析这些站点中的制造资源信息的分布 特点利用资源获取模块对他们进行抓取,最后,网络化制造资源标注模块从抓取 的原始数据中抽取制造资源相关的信息并在制造资源本体和相关知识的基础上 对他们进行标注,形成个体库。 2 2 系统层次结构 借鉴层次结构模型优点,本系统采用层次结构模型对系统的功能模型进行描 述,该层次结构模型主要包括4 层:数据层、本体层、知识层、服务层,如图2 2 所示,该层次结构遵循由数据到语义,结合领域知识对数据进行标注的逻辑顺序, 各层的功能及作用阐述如下: 晰学碗# 位论i镕2 章目镕n “造资& 职e * 镕# i z 。一。一 站点发现数据抽取 、一j 数据标注 资源获取数据处理层 h t m k s j s x m k r d f $ o w l 等 1 j 数据层 ,1 t 、_ t 、 畦蛙 知识层 图2 2 系统层次模型 f n 数据层 该层以互联网为载体,包括网络上所有的以数字化形式存在的与网络化制造 资源相关的网络资源,这些罔络化资源主要面向用户,对计算机而言很难理解。 网络化制造资源存在形式主要有文本、视频、图片,本文主要针对文本形式进行 了研宄。而文本的主要表现是形式是网页。制造资源相关网页从内容上看包括为 制造对象、加工设备、$ 0 造任务、制造方法以及提供这些信息的企业:从网页类 型上看可分为静态页面( 如h t m l 页面) 和动态页面( 如j s p 、p h p 页面) ;从 是否具有语义上看可分为非语义化网页和语义标注网页( 如r d f s 、o w l ) :从 结构形式上看可分为非结构化数据、半结构化数据和结构化数据。 r 2 1 本体层 该层是系统具有自0 造语义信息的基础,是系统的关键。制造领域中的概念实 体、概念属性、概念间关系、约束,以及公理定义等,组织形成具有网状拓扑结 构并可共享的制造资源本体。在此基础上对非语义化的网页数据进行语义标洼, 实现制造资源信息的结构、内容和表现形式之间的分离,提取计算机可理解的语 浙江大学硕士学位论文第2 章网络化制造资源获取系统的体系结构 义信息。 ( 3 ) 知识层 该层提供制造领域相关的经验与知识,对制造资源本体层中概念及其关联进 行扩展,提供与制造资源相关的部分常识性知识( 如空间、时间知识) ,是语义 标注的基础。 ( 4 ) 数据处理层 该层提供面向网络化制造资源发现的相关功能,包括:站点发现、站点分析、 资源获取、数据抽取、数据标注等,该层从数据层中获得相关的原始制造资源数 据,利用本体层和知识层的信息对原始制造资源数据进行标注,同时补充本体层 的信息,是网络化制造资源发现的关键。 2 3 本章小结 本章提出了网络化制造资源智能发现的功能模型,具体由3 个功能模块和3 个资源库组成。其中3 个模块是:本体与知识库建模、网络化制造资源原始数据 获取和网络化制造资源标注,3 个资源库是:制造资源本体库、领域知识与常识 库和个体库。同时,还提出了描述系统功能模型的层次模型,使得系统的层次更 加分明、逻辑更加清晰。 1 3 浙江大学硕士学位论文第3 章网络化制造资源原始数据获取 第3 章网络化制造资源原始数据获取 网络化制造资源原始数据获取是一个从互联网中寻找制造资源相关文本数 据的过程。它主要由2 个子模块组成:站点发现模块和网络化制造资源抓取模块。 3 1 站点发现 站点发现是从互联网中寻找制造资源相关网站的过程。这个过程有两个重要 的工作:选择种子资源和识别制造资源主题网站。一个好的种子资源可以链接较 多的制造资源主题相关的网站,从而能够减少寻找的时间,同时,准确的识别制 造资源主题网站是站点发现的关键。 3 1 1 种子资源的选择 互联网中网页的数量巨大、互相独立、分布广泛,数据不断的变化,即使同 一个站的数据也在不停的更新,如何从w e b 中快速、全面、准确找到制造资源相 关的站点是一件比较复杂而耗时的事情。目前有三种解决方式【1 7 1 : 从c o m p l e t e p l a n e t t o m 和i n v i s i b l e 2 w e b n e t 这样的网站中获取,虽然不能 一 找到所有的w e b 数据库,对于小规模的集成仍然是一个有效的方案。 遍历w e b 中所有i p ,这种方案在理论上可以把所有的w e b 数据库完整 地找出来,但目前大约有2 2 亿3 千万个有效的巾,逐个遍历显然代价过高, 因此只能作为一种研究统计手段,比如估计整个w e b 上w e b 数据库的规模、 w e b 数据库在各个领域上比例分布等等。 利用搜索引擎进行搜索。 由于制造资源在互联网中分布广泛,无目的性的选择种子资源显然会非常耗 时,为使系统发现更多的制造资源站点同时具有可接受的性能,本文借助可索引 的公共网站( p u b l i c l yi n d e x a b l ew e b ,简称p i w ) 1 1 8 】以及一些可以抓取的搜索引擎, 利用他们的搜索结果当做爬虫的种子资源,例如: h t t p :d i r e c t o r y g o o g l e c o r n t o p w o r l c l c h i n e s e s i m p l i f i e d 0 ,u u 一0 ,。,0 n ,。u 0 ,。- t 0 ,o u 。0 9 1 4 斯女学日学恤女镕3 $ 日镕* 谢目# 女r a 批e 5 8 8 b 6 e 9 8 0 a o e 4 b 8 9 、 h :w 、】v w b a i d uc o m s ? i e = g b 2 3 1 2 & b s = d 6 c 6 d 4 e c s f 础c 卜3 & f = - g & w d - - 0 o d 6 c 6 d d e c d 7 c a d 4 b 4 & c t = 0 。 3 1 2 制造资源主题同站分类嚣 从互联网中发现制造资源相关的站点是获取网络化制造资源信息的基础,而 准确识别制造资源相关的站点是关键,对此本文设计了制造资源主题网站分类 器,具体流程如图3 1 所示。 # $ 目 一 # 练 z $ 预n 4 一廿目一构迎目轧 旦页表示+ t m i “ 一 图3i 制造资源主题同站分类器构造流 芏 3 1 2 1 文本预处理 f 1 1 网页文本提取 网页文本提取指把h t m l 格式的网页中h t m l 标签剔除,保留纯文本的过 程。主流的方法主要有:( 1 ) j a v a 类库i a v a xs w i n gt e x t ,通过添加相关的回调函 数( c a l l b a c k ) 完成任务,使用相对比较麻烦,效率也有问题:( 2 ) 自己添加j :e 则 表达式,过滤内容为h t m l 标签的文本,由于网页内容表现丰富,正则表述式不 易描述,会丢失信息;( 3 ) 使用开源类库h a n l p a r s e r ,使用比较方便但是对于 不规范的h t m l 文件处理效果不好,会遗留大量的h t m l 标签。本文使用 h t m l p a r s e r 作为网页文本提取的工具。 f 2 ) 分词 分词是文本预处理的一个关键步骤,分词质量直接影响到分类器的分类效 群 浙江大学硕士学位论文第3 章网络化制造资源原始数据获取 果。由于中、英表达方式不同,英文表达中的每个单词用空格分开,所以针对英 文的文本通过空格就能分出英文单词,但是中文表达中单词之间没有分割符,所 以中文分词较英文分词难。目前中文词的方法主要有3 种:( 1 ) 基于字符串匹配 的分词,又称为机械分词算法,利用一个预先定义的词典作为分词的基准,如果 几个连续的字出现在字典中就认为他们组成一个词,否则不是,目前主流的基于 字符串匹配的分词算法主要有正向最大匹配、逆向最大匹配、最少切分以及他们 之间的互相组合;( 2 ) 基于理解的分词,指计算机通过模拟人对句子的理解,达 到分词的效果,通过句法、语法分析,利用句法信息和语义信息来处理歧义现象, 由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取 的形式,该技术还不是成熟;( 3 ) 基于统计的分词,该方法基于这样一个观察, 在上下文中,相邻的字同时出现的次数越多,就越可能构成一个词,因此字与字 相邻共现的频率或概率能够较好的反映成词的可信度。通过对语料中相邻共现的 各个字的组合的频度进行统计,计算它们的互现信息。互现信息代表了了各个汉 字之间组成一个词的可能性。当可能性高于某一个阈值时,便可认为此字组可能 构成了一个词,由于这种方法不需要词典的支持,只需对语料中的字组频度进行 统计,因而又叫做无词典分词法或统计取词方法。 目前,比较成熟的开源分词工具有p a o d i n g 1 9 1 、i m d i c t 2 0 1 、m m s e 9 4 j t 2 1 1 。相比 其他两个分词工具p a o d i n g 具有开发者活跃程度高、用户自定义词汇扩展性强、 效率高、算法和代码复杂度低的优点,本文使用它作为分词的工具。 ( 3 ) 构建词典 经过分词的处理之后每个网页对应着一个词条的集合,构建词典就是把网页 的词条的集合求并的过程。由于网页的文本中存在很多对网页的分类无效的词, 例如“我们 、“的”、“地”、“事情”、“里面”等等,因此这里还要进行“去停用词” 的操作。 3 1 2 2 网页表示 网页表示是指把网页用机器可以理解的形式表示,这个机器可以理解的形式 1 6 浙江大学硕士学位论文第3 章网络化制造资源原始数据获取 又叫做特征文本。目前主要表示方法有v s m ( v e c t o rs p a c em o d e l ) ,又叫向量空 间模型、l s i ( l a t e n ts e m a n t i ci n d e x i n g ) ,又叫隐形语义检索算法。虽然l s l 能有 挖掘潜在的语义,但是其效率非常低下,本文采用了v s m 来表示网页。每个网 页p 对应一个向量唰,其形式化描述如下: v ( p ) = ( ( 甜i ,w 1 ) ,( t d 2 ,) ,( t d 3 , 鸭) ( t a 。,w o ) ) 其中,磁表示特征词汇,w ,表示这个词条的权重。词条的权重计算方法目前 有t f i d f 、词频方法、文档频次方法等十几种方法。本文使用了t f i d f 的方法, 同时为了方便处理我们对权重进行了归一化处理: w f2 巧i - i d j i 其中,斫表示词条在网页中出现的频率,i a f , 表示逆文本频率指数,被定义为 l o g ( d d j ,d 表示所有网页数,d f 表示包含有词条斫的网页数。 同时,由于词典包含的词汇较多,如果把词典中的词汇当做网页的特征文本, 向量喇的维度会非常巨大,训练的效果非常低下,因为需要进行特征选择操作, 又叫降维处理。本文采用了互信息( m u t u a li n f o r m a t i o n ) 作为特征选择方法。互 信息衡量某个词和某个类别之间的统计独立关系,当某个词条的出现依赖某个类 的时候互信息的值比较大,反之较小。某个词条t 和某个类别c 的互信息定义如 下: m i ( i , c ) = 1 0 9 而p ( tc 、c ) 其中,p on c ) 表示词条f 和类别c 共同出现的概率,p ( f ) 表示在所有网页中 词条t 出现的概率,p ( c j 表示分类c 出现的概率。计算词典中的每个词条的互信 息值,然后进行升序的排序,最后取前k 个词条作为特征文本。 3 1 2 3 样本训练 浙江大学硕士学位论文第3 章网络化制造资源原始数掘获取 样本训练是指利用分类算法对已经用v s m 表示的网页进行训练,得到一个 特征模型用于分类目标网页。文本分类算法主要有:决策树、k n n 法( k - n e a r e s t n e i g h b o r ) 、s v m ( 支持向量机) 、朴素贝叶斯( n a i v eb a y e s ) 、v s m ( 向量空间距离测 度分类算法) 、神经网络。结合各个算法的优缺点以及目前工具的特点,本文采用 了s v m 的算法,并利用开源的工具l i b s v m l 2 2 j 作为训练的工具。 l i b s v m 主要包含了两个个模块s v m - t r a i n 、s v m p r e d i c a t e 。 s v m - t r a i n 是训练样本的工具。使用格式为s v m t r a i n o p t

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论