(计算机软件与理论专业论文)邮件分类的智能agent系统的研究.pdf_第1页
(计算机软件与理论专业论文)邮件分类的智能agent系统的研究.pdf_第2页
(计算机软件与理论专业论文)邮件分类的智能agent系统的研究.pdf_第3页
(计算机软件与理论专业论文)邮件分类的智能agent系统的研究.pdf_第4页
(计算机软件与理论专业论文)邮件分类的智能agent系统的研究.pdf_第5页
已阅读5页,还剩52页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 智能主体( a g e n t ) 是分布式人工智能领域中的一个重要应用,其 主要目的是减轻人们的负担,以增强软件的友好性,最大限度地提高 工作效率。智能主体是指能在某一环境中运行,并能响应环境的变化, 灵活、自主采取行动以满足其设计目标的计算实体。 随着信息社会的高度发展,电子邮件正逐步代替传统的邮递方式, 成为人们快速通信的一种方法,给人们带来了很多方便,但也为商业 机构提供了无限商机。他们随时可以将广告邮件发送到用户的邮箱, 不仅占据邮箱空间,而且也给用户带来麻烦。同时,随着邮件数量增 多,分类、整理邮件将不可避免。邮件分类的智能a g e n t 系统正是为将 用户从这些苦恼中解脱出来而设计的。 目前,国外有一些成形的智能处理邮件的软件( 如l y d i ae m a i l a g e n t 等) ,但它们和本文提出的邮件分类原则并不相同。国内也有许 多邮件服务代理,对邮件有过滤功能,但只是根据邮件的地址进行简 单处理,并不是真正的智能性。 本文的邮件分类的智能a g e n t 系统旨在邮件分类与整理。首先对目 前国内外的邮件系统的功能进行了比较,剖析了已有邮件代理过滤、 分类的方法,得出目前绝大多数邮件系统不具备真正的智能性的结论。 基于此,本文提出了一种新的邮件分类算法,该算法根据邮件的属性 将其分为重要邮件、次要邮件、陌生邮件及删除邮件并通过对已接收 邮件的地址、主题、正文以及用户的操作习惯等的学习,实现邮件归 类。 本文算法主要采用启发式深度优先搜索策略,对邮件进行处理, 一旦获得终态( 重要邮件、次要邮件、删除邮件、陌生邮件) ,则算法 结束。根据邮件的主题及正文分类时需要对文本进行分词。本文所采 用的分词方法是最大匹配法与减字法相结合的机械匹配法。介于目前 没有成熟的语料库,加之邮件本身的特点,作者自行研制了语料库及 测试邮件。同时,本文设计了一个智能分类邮件测试系统以验证文中 提到的算法,经测试邮件分类的正确率达8 0 。因此本文的智能分类 邮件算法是可行的并且具有重要的应用价值。 关键词:a g e n t 智能邮件分类机器学习分词 a b s t m c t a b s t r a c t t h e i n t e l l i g e n ta g e n t i sa n i m p o r t a n ta p p l i c a t i o n o fd i s t r i b u t i v e a r t i f i c i a l i n t e l l i g e n c e ( a i ) i ta i m sa tl e s s e n i n gt h eb u r d e no fo p e r a t i n g c o m p l e xs o f t w a r eo rf u s s yj o bf o rp e o p l ei no r d e rt oe n h a n c et h ea m i t yo f s o f t w a r ea n di m p r o v et h ee f f i c i e n c ya sf a ra sp o s s i b l e g e n e r a ls p e a k i n g , a g e n t i sac o m p u t i n ge n t i t yt h a tc a nr u ni nac e r t a i ne n v i r o n m e n ta n d r e s p o n s e st oi t sc h a n g e ss ot h a ti t c a l lt a k ea c t i o na c t i v e l ya n df l e x i b l yt o s a t i s f yt h ep u r p o s e o f d e s i g n w i t ht h eh i 曲d e v e l o p m e n to fi n f o r m a t i o ns o c i e t y , e m a i lh a sr e p l a c e d t h et r a d i t i o n a lp o s ta n db e c o m eo n eo f r a p i dc o m m u n i c a t i o n sa m o n g p e o p l e e m a i lb r i n gm o r ec o n v e n i e n c et op e o p l e ,i th a sa l s om a d em o r ec h a n c ef o r t h o s ec o m m e r c i a l o r g a n i z a t i o n s t h o s ec o m p a n i e s c a ns e n ds o m e a d v e r t i s e m e n te m a i lt oa n ya d d r e s sa ta n yt i m e t h e s ed u s te m a i l st a k eu p t h em e m o r yo f m a i l b o xa n dc a nh i n d e rp e o p l e sl i f e a tt h es a m et i m e ,i ti s d i 街c u l tt o c l a s s i f y a n ds e t t l em o r ea n dm o r ee m a i l s t h ee m a i l c l a s s i f i c a t i o nb a s e d a g e n ts y s t e m i s j u s td e s i g n e d t o c l a s s i f y e m a i l s i n t e l l i g e n t l y s oa st ol i b e r a t eu s e r sf r o mt h e s et r o u b l e s t h o u g h t h e r ei sc o m p l e t e ds o f t w a r ef o re m a i li n t e l l i g e n tp r o c e s s i n go n a b r o a d ( e g l y d i ae m a i la g e n t ) ,t h e r e i sn os i m i l a rs o f t w a r ei nc h i n a t h e r ea r em a n ye m a i ls e r v i c ea g e n t s ,w h i c hc a r lf i l t e re m a i l s b u tt h e yo n l y c a np r o c e s se m a i lb yi t sa d d r e s s t h e r e f o r e ,t h e s ee m a i ls y s t e m ss a y n o t h i n g o f r e a li n t e l l i g e n c e t h ee m a i lc l a s s i f i c a t i o na g e n ts y s t e md i s c u s s e di nt h i sp a p e ra i m sa t c l a s s i f y i n gm a ds e t t l i n ge m a i l s t h ef i r s tj o b o ft h i sp a p e ri st oc o m p a r et h e f u n c t i o n so fc u r r e n te m a i ls y s t e m s a n dt h e nt h ef i l t e ra n dc l a s s i f i c a t i o n f u n c t i o ni n p r e s e n t e m a i l s y s t e m s h a sb e e n a n a l y z e d f i n a l l y , t h e c o n c l u s i o n ,w h i c hm o s te m a i ls y s t e m sa r en o tr e a l l yi n t e l l i g e n t , c a nb e a c h i e v e d an e wa l g o r i t h mo ne m a i lc l a s s i f i c a t i o ni sg i v e ni n t h i s p a p e r b a s e do na b o v ea n a l y s i s t h a ti st od i v i d ee m a i l si n t of o u rd i f f e r e n td e g r e e s a b s t r a c t a c c o r d i n g t ot h ei d e ao fd i f f e r e n tu s e r s t h ef o u rd e g r e e sa r e p r i m a r ye m a i l , s e c o n d a r ye m a i l ,s t r a n g ee m a i la n dd e l e t i n ge m a i l l e a r n i n gc a nd ot h e c l a s s i f i c a t i o no fe m a i l sf r o mt h e a d d r e s s ,t h es u b j e c t ,t h ec o n t e n to f r e c e i v e de m a i l sa n dt h eh a b i to fu s e r s o p e r a t i o n i na d d i t i o n ,a c o r r e s p o n d i n gs y s t e mh a sb e e nc o m p l e t e dt ov a l i d a t et h ef e a s i b i l i t yo ft h e a l g o r i t h md i s c u s s e di n t h ep a p e r t h en e wa l g o r i t h mi nt h e p a p e rc a n c l a s s i f ym o s te m a l l sc o r r e c t l ya n d i sf e a s i b l e t h em e t h o di s f a i r l yi m p o r t a n tw h e t h e rap r o b l e mc a nb es o l v e d s u c c e s s f u l l yo rn o t t h es e a r c hs t r a t e g yb a s e do nh e u r i s t i cd e p t hp r i o r i t yi s a d a p t e di n t h ep a p e r ,t h ep r o c e s so fe m a i tb ya l g o r i t h mi s c o m p l e t e d , a c c o r d i n gt op l a n n i n gf l o wc h a r t ,f r o mu pt o d o w nm a da l s of r o ml e f tt o r i g h t ,o n c et h et e r m i n a ls t a t ei sa c h i e v e d ( p r i m a r ye m a i l ,s e c o n d a r ye m a i l , d e l e t i n ge m a i la n ds t r a n g ee r n a i l ) ,a n dt h e nt h ea l g o r i t h me n d s t h e r ei s a k e yp h r a s ei n t h ea l g o r i t h mt h a ti sd i s c u s s e di n c h a p t e rf o u ri n d e t a i l s p l i t t i n gw o r d sn e e dt ob ed o n ed u r i n gc l a s s i f y i n ge m a i la c c o r d i n gt o i t s s u b j e c t a n d c o n t e n t s p l i t t i n g w o r d si sa k e y t os u c c e s so fe m a i l c l a s s i f i c a t i o n s i n c ee v e r ys e n t e n c ei sm a d eu po fv a r i o u sw o r d s ,i ti s n e c e s s a r yt ou n d e r s t a n d t h em e a n i n go f e v e r yw o r di nt h es e n t e n c ei no r d e r t oc a t c ho nt h em e a n i n go ft h es e n t e n c em o r ep e r f e c t l y t h e r ei ss e p a r a t o r a m o n gt h ew o r do f d o c u m e n ti ne n g l i s h ,b u tt h es i t u a t i o ni sc o m p l e t e l y d i f f e r e n ti nc h i n e s ed o c u m e n t s a l lk i n d so fw o r d sa r e c o n t i n u o u s l y c h i n e s es t r i n g t h e r ea r em a n yw a y so fs p l i t t i n gw o r d ,s u c ha sw a yo f m e c h a n i c a lm a t c h i n g ,w a yo fc h a r a c t e r i s t i cl i b r a r y ,w a yo f r e s t r i c tm a t r i x , w a yo fg r a m m a ra n a l y z i n g ,w a yo fu n d e r s t a n d i n gs y n c o p a t i o ne t c t h i s p a p e re x p l a i n e dt h ew a yo fs p l i t t i n gw o r d i nd e t a i li nc h a p t e rt h r e e t h e w a yo f m e c h a n i c a lm a t c h i n gi su s e di nt h ep a p e rf o rt h ec h a r a c t e r i s t i co f e m a i l t h es e a r c hw a yb a s e do ne n l i g h t e n i n ga n dd e p t hp r i o r i t yi sa d o p t e di n t h en e wa l g o r i t h m t h ea l g o r i t h mw i l le n da ss o o na st h eu l t i m a t es t a t e a p p e a r s ( i t r e f e r st op r i m a r ye m a i l ,s e c o n d a r ye m a l l ,d e l e t i n ge m a i la n d a b s t r a c t s t r a n g ee m a i l ) t h es t e p o fa n a l y z i n gw o r d si st h ek e yt oas u c c e s s f u l c l a s s i f i c a t i o no fe r n a i lo raf a i lc l a s s i f i c a t i o nb e c a u s ei ti s n e c e s s a r yt o c l a s s i f ye m a i l sw i t ht h es u b j e c to rc o n t e n to ft h e m t h ew a yo fa n a l y z i n g w o r d si nt h ep a p e ri st h em e t h o do fc o m b i n i n gm a x i m u mm a t c h i n gw i t h s u b t r a c t i n g w o r d s a st h e r ei sn o e x i s t i n gl a n g u a g em a t e r i a ll i b r a r y ( l m l ) a n dt h ec h a r a c t e r i s t i co f e m a i l ,t h el m l a n de m a i l o n l yc a n b ec r e a t e da n d d e s i g n e df o rt h es y s t e m an e wi n t e l l i g e n t e m a i lc l a s s i f i c a t i o nt e s t i n g s y s t e m h a sb e e n d e s i g n e d t ov a l i d a t et h ea b o v e a l g o r i t h mi nt h ep a p e r t h e r e s u l ti st h a tn e a r l ye i 曲t yp e r c e n to fe m a i l sc a r lb ec l a s s i f i e dc o r r e c t l y i t c a nb ec o n c l u d e dt h a tt h ea l g o r i t h mi nt h ep a p e ri sv i a b l ea n dw o r t h yo f i m p o r t a n ta p p l i c a t i o n k e yw o r d s :a g e n ti n t e l l i g e n c e e m a i lc l a s s i f i c a t i o nm a c h i n e s t u d ya n a l y z i n g w o r d 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作 及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方 外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为 获得东北师范大学或其他教育机构的学位或证书而使用过的材料。与 我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的 说明并表示谢意。 学位论文作者签名:21 ) :墼a 日 期: 学位论文版权使用授权书 本学位论文作者完全了解东北师范大学有关保留、使用学位论文 的规定,即:东北师范大学有权保留并向国家有关部门或机构送交学 位论文的复印件和磁盘,允许论文被查阅和借阅。本人授权东北师范 大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可 以采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名:! e 丝指导教师签名 日 期:锄华。! :型 日期 学位论文作 工作单位: 通讯地址: 2 趣q 生! : 电话:型竺型 邮编:庠鲤掣 蔓二里垒g 塑! 笪坌 第一章a g e n t 简介 现代社会计算机技术和通信技术结合特别是互联网的出现,在世 界范围内已经产生了革命性的影响,令世人关注。技术多样性、业务 综合性、行业的融合性、市场的竞争性、用户的选择性是信息社会的 显著特征。在未来社会中,不是我们有什么用户就用什么,而是用户 需要什么我们就能提供什么。智能主体( i n t e l l i g e n ta g e n t ) 正是为了更好 的方便用户,为用户提供帮助而产生的。【l 8 】 人工智能( a r t i f i c i a li n t e l l i g e n c e ) 是当今科学技术发展中的一门前 沿学科,同时也是一门新技术不断出现的新学科。它是在计算机科学、 控制论、信息论、神经心理学、哲学、语言学等多种学科研究的基础 上发展起来的,因此又可把它看作是一门综合性的边缘学科。 人工智能的本质是研究如何制造出人工的智能机器或智能系统, 来模拟人类的思维过程,以延伸人脑功能的科学。近年来,新的人工 智能定义认为:人工智能是计算机科学的一个分支,其目标是构造具 有一定智能行为的主体。主体的研究是智能的核心问题。因此,智能 主体技术事实上是分布式人工智能学科的个应用方向。1 2 0 l 1 1 主体理论 1 概念 一般认为,智能主体( 简称主体) 是指能在某一环境中运行,并 能响应环境的变化,灵活、自主采取行动以满足其设计目标的计算实 体。【2 1 a g e n t 具有如下主要属性: ( 1 ) 自治性:主体运行时不直接由人或者其它东西控制,它对自己 的行为和内部状态有一定的控制权。 ( 2 ) 反应能力:即对环境的感知和影响。它们可以感知它们所处的 环境,并通过行为改变环境。 f 3 ) 自发行为:传统的应用程序是被动地由用户来运行,而且机械 第一章a g e n t 简介 地完成用户的指令;而主体的行为应该是主动的,或者说自发的。主 体感知周围环境的变化,并做出基于目标的行为。 ( 4 ) 推理能力:主体可以根据其当前的知识和经验,以理性的、可 再生的方式推理或推测。 ( 5 ) 规划能力:根据目标、环境等的要求,主体应该至少对自己的 短期行为做出规划。 ( 6 ) 学习和适应能力:主体可根据过去的经验积累知识,并且修改 其行为以适应新的环境。 2 主体的分类方法 ( 1 ) 根据问题求解能力分类 反应主体:能响应环境的变化或来自其他主体的消息。 意图主体:能够针对意图和信念进行推理,建立行为计划, 并执行这些计划。这类主体也称为慎思主体。 社会主体:除具有意图主体的能力外,还具有关于其他主体 的明确模型。 ( 2 ) 根据作用、智能和移动性的三维空间分类 i b m 公司的g i i b e r t 等人曾于1 9 9 5 年根据作用、智能和移动性的 三维空间来描述智能主体,将主体分为三类: 特定功能的主体 专家系统 其他智能主体 ( 3 ) 根据特性和功能分类 合作主体。 界面主体。 移动主体。 信怠i n t e r n e t 主体。 灵巧主体。 混合主体。 第一章a g e n t 简介 1 2 主体结构 每个a g e n t 都具有其自身的目标和对象,都对应着系统中相应的实 体或软件,在自主活动中与其他a g e n t 通讯,解决通信过程的冲突,实 现任务目标。一般来说,主体通常由以下部分构成。 2 0 , 2 3 1 知识与推理机制 智能a g e n t 的知识处理主要由知识库和推理机组成。知识处理过程 是知识表示、知识获取以及知识利用的过程。推理模块完成针对不同 应用对象的知识匹配,使得智能a g e n t 结构可以完成设计任务的分解、 工作流过程管理、模型调用等。 2 数据通信 数据通信可以实现各分布结点之间的数据交换以及节点与智能 a g e n t 之间的数据交换,在多a g e n t 系统中还可以实现a g e n t 之间的数 据交换。【2 3 】 3 行为规划 根据用户请求或设计目标生成满足这些目标的行为规划,行为规 划模块进程将a g e n t 的任务结构和任务目标作为输入并基于工作流进 行规划,把一个设计任务分解为一些子任务,并通过a g e n t 规则知识 和k q m l ( k n o w l e d g eq u e r y a n d m a n i p u l a t i o nl a n g u a g e ) 描述子任务之 间的信息流关系。行为规划的动作是a g e n t 为实现其目标代码而执行的 程序代码,动作在执行时需要调用一些规则知识,而在执行过程中也 会产生一些输出信息,以便产生a g e n t 的下一个动作。 4 调度接口 黑板监控与调度是智能a g e n t 的控制部件,完成黑板监控、知识调 度、模型调度、解释等功能。黑板监控主要是监督黑板信息的变化, 激活与信息变化有关的知识源并将其置入调度队列:知识调度则是通 过优先级的高低来判断选用特定的知识源作为求解问题的知识;模型 调度是指不同运算过程中调用的模型索引链表。黑板监控与调度模块 需要结合知识处理过程实现其设计功能,调度进程将a g e n t 当前的行为 规划结果作为输入来决定下一个要执行的动作,并作为a g e n t 的意图直 第一章a g e n t 简介 到其完成。 5 数据接口 智能a g e n t 的数据接口主要是工作流与任务协同机制、通信与网络 环境接口以及各内部模块之间的数据通信接口等。智能a g e n t 动态工作 区是公共数据接口的信息交换场所,应用不同模型进行的子问题结果 以及来自其他节点的求解信息可以在这里进行统一处理与转化,使之 与后续模块的调用格式相兼容。 1 3 主体语言 1 主体通信语言 通信语言的设计一般与下述因素有关: ( 1 ) 形式 一种好的主体通信语言首先应当语法简洁、精确,易于生成语句 和进行分析理解。其次,语法应具有可扩展性,以便通信语言能够集 成到各类系统中。 2 4 1 ( 2 ) 通信内容 现有软件系统中的各类主体都使用不同的语言,运行于不同的开 发环境,要设计一种统一的通信语言是不现实的。目前多数系统采用 分层的形式,将通信行为与表示领域事实的通信内容相分离,通过语 言只表达通信行为,而将表示陈述内容部分留待更高层的相互作用框 架处理,这种分层的通信机制有助于为语言的理解提供概念框架,使 语言便于与应用集成。 ( 3 ) 语义 一种通信语言要被多种应用系统使用,就必须严格其语义,以使 应用设计者对语言、原语和协议有一致的理解。 ( 4 ) 实现 4 第一章a g e n t 简介 通信语言的设计应使现有软件技术易于实现,并能快速传输。同 时,主体通信语言还应适合于现代网络技术的发展,支持点到点、多 点传送和广播等多种通信方式,并支持同步和异步通信的实现。一方 面构造上层语言和相互作用协议丰富的原语集合,另一方面还应独立 于下层的传输机制。 ( 5 ) 环境 主体通信语言必须能够处理异构和动态问题,提供与不同语言和 协议的互操作,并能方便地附加到现有系统中。 2 2 , 2 5 目前比较通用的主体通信语言是k q m l 知识查询操纵语言。 2 主体设计语言 用于设计主体的语言有多种,如v b 、n a p h i 、j a v a 等。 1 2 1 j a v a 更 适用于面向a g e n t 的程序设计,具有优良特性,如; ( 1 ) 面向a g e n t j a v a 是面向a g e n t 的程序设计语言( a g e n t o r i e n t e dp r o g r a m m i n g l a n g u a g e ) ,便于描述和表达a g e n t 的多种拟人的智能特性。 1 4 0 6 1 ( 2 ) 平台独立 j a v a 是面向网络和分布式系统的语言,提供独立于平台的二迸制 代码,对于任何具有j a v a 解释程序的系统,j a v a 程序语言都是可移植 的。因而,便于支持在不同平台上异构的网络,各种分布式软、硬件 环境中驻留与活动的各种a g e n t ,特别是移动a g e n t 。 ( 3 ) 网络性能 j a v a 提供扩展类库、远程调用,便于处理t c p i p 等网络通信协议, 支持在异构、异地网络中的信息传递,可实现异步交互式通信。因而, 对多a g e n t 系统,移动a g e n t 的相互通信、协同解题、分工合作,提供 了有力支持。【2 6 翌二里垒! 坐堕坌 ( 4 ) 安全功能 j a v a 具有基于密钥技术的反病毒、反入侵的安全防护功能。这对 于各种基于移动a g e n t 的系统具有重要的意义。有助于提高移动a g e n t 系统的安全。 ( 5 ) 并发性能 j a v a 为“多线程”的并发快速处理提供有力的支持。因而,特别 适用于开发面向多任务、多用户的基于移动a g e n t 的软件系统,不仅有 助于提高程序运行的速度,而且便于实现软件的互操作性。【2 3 】 1 4 主体的应用领域 1 工业应用 ( 1 ) 过程控制:例如,电力运输管理、离子加速器控制、电力分配 和供应、核电站中的故障监测和诊断、航天器控制、气象控制等。 ( 2 ) 制造业:目前广泛应用于计算机集成制造系统、虚拟企业等。 ( 3 ) 交通控制:车辆跟踪、空中交通控制、交通调度等。 2 信息管理与商务应用 ( 1 ) 信息管理:包括信息筛选、信息搜集、信息处理等。 ( 2 ) 电子商务:电子商务主要用来完成商品的买卖,现在已有一些 商务活动可以在a g e n t 的帮助下完成,如股票和公债的买卖。 ( 3 ) 商业过程管理:用主体代表商业中的一个部门或特别的职责, j e n n i n g s 等人研制的项目a d e p t 已在b r i t i s i t t e l e c o m 商业过程中实验。 ( 4 ) 金融业务管理:1 9 9 6 年,s y c a r a 研制成功的w a r r e n 已成功 应用于金融业务管理。该系统由多个主体构成,这些主体协同地组织 在一起,监控并跟踪股市行情、金融消息、财经分析报告和公司营利 报告等。同时该主体里还根据资产分配和风险来分析用户决策的主体。 ( 5 ) 远程通信管理:在电信、网络控制、传送和转换、服务管理、 网络安全管理等方面应用广泛。 3 医学应用 第一章a g e n t 简介 ( 1 ) 患者监控:1 9 8 9 年h a y e s r o t h 等人研究的g u a r d i a n 主要用在 外科看护中心帮助管理患者治疗。 ( 2 ) 医疗保健:1 9 9 6 年h u a n g 等人研制了基于主体的分布医疗原型 系统。 4 娱乐应用 ( 1 ) 游戏:1 9 9 6 年w a v i s h 等人开发了广受欢迎的t e t r i c 游戏,系 统采用了称为r t a ( r e a lt i m ea b l e ) 反应主体模型来实现。 ( 2 1 交互戏院、电影 ( 3 ) 虚拟世界 1 5 问题的提出 9 0 年代,随着计算机网络、计算机通讯等技术的发展,对于主体 以及多主体系统的研究成为分布式人工智能研究的一个热点。当前“主 体”( a g e n t ) 一词广泛出现在流行的出版物中,如同出现在人工智能和 计算机科学一类的文献中一样。主体技术提供了一种新的计算机求解 问题的方法。h 州 主体技术快速发展的一个主要原因是i n t e r n e t 和万维网( w o r l d w i d ew e b ,简称w e b ) 的广泛普及。w e b 上信息资源的飞速增长使得 许多w e b 用户感到信息超量,使得人们希望智能主体技术能够减轻 w e b 用户的负担。因而,无论从事简单工作还是复杂工作,人们都看 到了主体技术执行多任务的潜力。智能主体将使用户最终从纷繁的信 息海洋中解放出来,在智能主体的帮助下,用户可以关注他( 她) 最 感兴趣的那些信息。 主体能够提供一种很好的问题求解风格的原因是由于基于主体的 系统具有许多优点。主体提供了一种远程智能程序设计的方法。多主 体系统放松了对集中式、规划、顺序控制的限制,提供了分散控制、 应急和并行处理。并且,多主体系统可以降低软件或硬件的费用,提 供更快速的问题求解。1 2 , 3 在人工智能研究中,主体概念的回归并不仅仅是因为人们认识到 翌二垩垒g 竺! 塑! ! 了应该把人工智能各个领域的研究成果集成为一个具有智能行为概 念的“人”,更重要的是人们认识到了人类智能的本质是一种社会性的 智能。人们在研究人类智能行为中发现:人类绝大部分的活动都涉及 多个社会团体,大型复杂问题的求解需要多个专业人员或组织协作完 成。人最重要的和最多的智能是在由多个个体构成的社会中进行各种 活动时体现出来的。【5 “协作”、“竞争”、“谈判”等等是人类智能行 为的主要表现形式。要对社会性的智能进行研究,构成社会的基本构 件“人”的对应物“主体”理所当然地成为人工智能研究的基本对象, 而社会的对应物“多主体系统”也成为人工智能研究的基本对象。 现在,主体不仅得到了人工智能研究人员的关注,也吸引了数据 通讯、人机界面设计、机器人、并行工程等各领域的研究人员的兴趣。 有人认为:“基于主体的计算( a g e n t b a s e dc o m p u t i n g ,简称a b c ) 将 成为软件开发的下一个重要的突破”。【6 ,” 电子邮件是目前应用最为广泛的一种计算机通信手段,它进一步 促进了人们之间的交流,其优点是电话、传真所无法比拟的。人们可 以通过电子邮件进行非实时的操作,无论天涯海角只要打开邮箱就可 以收到亲人、朋友的问候。如果将电子邮件应用于学习或工作,更是 益处无穷。但是邮件多了,整理工作需要经常进行。如果计算机能够 自动完成邮件的整理工作就会免除人们许多繁琐的工作。当前有些电 子邮件系统具有过滤功能,也只是根据已有垃圾邮件地址进行简单拦 截,并没有真正实现智能服务。 基于以上情况,本文提出了邮件分类智能a g e n t 的设计与实现。编 制一种智能分类邮件的算法,并将算法应用在邮件智能分类a g e n t 系统 中。 1 6 本文的主要工作 作者参与了国家自然基金项目( 6 9 9 7 3 0 1 2 ) 基于规划图算法的智 能用户接口的研究,对a g e n t 系统的工作原理、设计以及实现做了很 多基础性的研究。 第一章a g e n t 简介 本文的工作是围绕智能分类邮件展开的。首先介绍a g e n t 的相关信 息及邮件的工作原理。然后提出邮件分类的原则、算法。最后进行系 统测试,建立语料库、建立初始邮件集、根据算法用j a v a 语言设计一 个邮件收发代理机、测试系统等。 本文包括如下章节: 第二章:电子邮件分类方法 第三章:中文文本分词 第四章:电子邮件分类算法 第五章:系统实现与测试 第六章:结论 9 第二章如何对邮件进行分类 第二章电子邮件分类方法 2 1 电子邮件系统简介 与传统的邮政信件服务类似,电子邮件( e m a i l ) 用来在i n t e m e t 和 i n t r a n e t 网上进行信息传递和交流。电子邮件服务是i n t e m e t 网上最基本 的服务之一,用户可以通过电子邮件与远程联网用户进行经济、方便 和快捷的信息交流。与传统邮件相比,电子邮件还可以实现一件多发, 即同时发给多个收件人;除了发送简单的文本信息外,还可以咀附件 形式发送各种多媒体文件。与实时信息交流,如电话、传真相比,电 子邮件采用类似于传统邮件的“存储转发”机制,发送邮件时,并不 需要收件人处于在线状态,收件人可根据需要随时上网从邮件服务器 上收取邮件。 1 电子邮件地址 电子邮件地址又称电子信箱地址。以下用一个电子邮件地址来分 析其地址构成。例如:s s s s o h u c o r n c n 。在地址中 将地址分为两个 部分。符号 左边的8 s s 代表收件人的账号名( a c c o u n tn a m e ) 或信箱名。 符号 右边的部分为域名( d o m a i n n a m e ) 。 2 电子邮件系统组成 要理解电子邮件服务,关键是了解电子邮件是如何工作的。同其 他i n t e r n e t 服务一样,电子邮件服务也是基于客户服务器模式的。电子 邮件服务系统由以下几个部分组成: ( 1 ) 邮件用户代理 邮件用户代理,又称邮件客户机是一种用于发送和接收电子邮件 的客户端应用程序,即邮件客户软件,负责将邮件发往邮件服务器, 从邮件服务器上接收邮件。常用的软件有:o u t l o o ke x p r e s s 、n e t s c a p e m e s s a g e r 、f o x m a i l 等。 ( 2 ) 邮件传输代理 邮件传输代理,又称邮件服务器是一种用于存储和转发电子邮件 n 茎三兰塑堡翌墅壁鲨堑坌鲞 的服务器端应用程序,即邮件服务器。邮件服务器用来保存用户的邮 件,为用户提供登录来收发信件。一般邮件服务器为用户的信件保存 很长时间,所以运行邮件服务软件的计算机需要较大的硬盘空间,对 访问速度则要求不高。根据用途,还将邮件服务器分为发送邮件服务 器( s m t ps e r v e r ) 和接收邮件服务器( p o p 3s e r v e r 或i m a p 4 s e r v e r l 。 ( 3 ) 邮件网关 邮件网关( m a i lg a t e w a y ) 是一种用于邮件传输代理之间进行信息交 换的系统。邮件网关一般特指邮件协议网关,即负责在不同协议之间 传递和转发邮件的系统。 3 电子邮件传递机制 ( 1 ) 使用邮件客户软件,创建新邮件,根据需要输入收件人邮件地 址、主题、正文,添加附件,然后发送。 2 5 1 ( 2 ) 当电子邮件开始发送时,计算机会根据s m t p 协议的要求将 邮件打包并加注邮件头,然后提交给用户设置的发送邮件服务器( s m t p s e r v e r ) 上。 ( 3 ) 发送邮件服务器( s m t ps e r v e r ) 根据它的邮件中继( r e l a y s m t p s e r v e r ) 设置和收件人的邮件地址来寻找接收邮件服务器。有两种 处理方式:如果该邮件符合中继传递条件,就将邮件传递到下一个邮 件中继服务器,该服务器也是一个发送邮件服务器,它再以同样的方 法,将邮件继续往下传递,直到邮件不需要中继传递为止。如果该邮 件无需中继传递,发送邮件服务器根据d n s 服务设置,查找收件人邮 件地址中域名对应的m x ( 由g 件交换器) 记录,从中找出接收邮件服务器, 发送邮件服务器就将该邮件直接传送到接收邮件服务器。 ( 4 ) 电子邮件最终被送到收件人地址( 信箱) 所在的接收邮件服务 器( p o p 3 或i m a p 4 ) 上,保存在服务器的电子邮件信箱中。 ( 5 ) 收件人利用邮件客户端软件连接到接收邮件服务器上,从自己 的邮箱中接收已经送到的邮件。 电子邮件的整个传递过程遵守t c p i p 协议。电子邮件的邮递是非 实时的存储转发过程。并且电子邮件的整个邮递过程可以不使用中继 传递,由发送邮件服务器直接发送到接收邮件服务器。 第二章如何对邮件进行分类 4 ,邮件服务器类型 在i n t e r a c t 或i n t r a n e t 上构建电子邮件服务,一般需要建立两种服 务器,发送邮件服务器( 一般采用s t m p 协议,可称s m t p 服务器) 和接 收邮件服务器( 根据所用协议的不同,又可分为p o p 3 服务器和i m a p 4 服务器1 。 f 1 1s m t p 服务器 s m t p 是简单邮件传输协议( s i m p l e m a i lt r a n s f e rp r o t o c 0 1 ) 的缩写, 在两个邮件服务器之间建立直接连接以及从邮件客户端发送邮件时使 用。电子邮件就是通过s m t p 服务器发送出去的。s m t p 也是一个在服 务器之间传递邮件的协议,能将一个s m t p 服务器上的邮件转发到另 一个s m t p 服务器。s m t p 是一个“单向”的协议,即用户可以通过邮 件服务器进行自日件发送,但却不能使用这个协议从其他邮件服务器收 取邮件。s m t p 协议的标准t c p 端口为2 5 。 ( p o p 3 服务器 p o p 是邮局协议( p o s to f f i c ep r o t o c 0 1 ) 的缩写。可以通过具有p o p 服务功能的主机传送及接收电子邮件。该协议的缺陷是,当用户接收 电子邮件时,所有的信件都从服务器上清除,下载到用户的本地硬盘。 当然也可以利用一些客户软件,将电子邮件保留在服务器上。目前p o p 协议的版本为p o p 3 。p o p 3 协议的标准t c p 端口号为1 1 0 。 ( 3 ) i m a p 4 服务器 i m a p 是i n t e m e t 信息访i h 7 ( i n t e r a c tm e s s a g ea c c e s sp r o t o c 0 1 ) 的缩 写。i m a p 服务器提供了一个在远程服务器上管理邮件的手段,功能包 括:只下载邮件的标题、建立多个邮箱和在服务器上建立邮件的文件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论