




已阅读5页,还剩39页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着互连网的发展与普及,网络广告也随之兴起、发展并不断走向成熟。 网络广告是一种“有确定主办方的,付费或不付费的,通过中介渠道,在浏览 者和商家之间发生的一种互动方式,是对产品、服务和观念的一种展示和促销”。 目前的网络广告主要有基于搜索引擎的关键字广告、针对特定用户的广告、 内容无关的网页广告和基于网页内容的广告等四种形式。近年来,具有精准营 销概念的基于网页内容的网络广告以它独有的优势,在为企业带来品牌效益的 同时,更是为推行这种广告的公司带来了巨大的经济效益。以g o o s e 为例, g o o s e 的广告计划g o o s ea d s e i l s ef o rc o n t e i l t 就是一种基于网页内容的网络广 告。据统计,g o o s e 的广告网络销售收入大部分来自a d s 饥s e 的广告商,其在 2 0 0 5 第三季度的广告收入就达到6 7 5 亿美元。 本文从理论和实际出发论证了基于网页内容的广告推介的优越性,并提出 了一种基于语义的、以实现网页和广告精确匹配为目标的广告推介方法。实现 网页与广告关联是基于网页内容的网络广告的核心技术,首先对一个w e b 网页 进行主题信息提取,获得网页的主题词;然后再对这些主题词语作同义词扩展、 上位词扩展、下位词扩展和相关词扩展,最后从待匹配的广告中选择匹配度最 高的广告。 关键字:网页信息抽取;同义词词林;主题词;关联度 a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n ta n dt h ep o p u l a r i z a t i o no fi n t e r n e t ,o n l i n ea d v e r t i s e m e n tw a s b o m s t e a l t h i l y , d e v e l o p sr a p i d l y , a n db e c o m e sm a t u r eg r a d u a l l y o n l i n e a d v e r t i s e m e n ti sa d sp l a c e dw i t h i nw e b s i t ec o n t e n t t h e s ec a l lb eb a n n e r s ,f u l lp a g e a d v e r t i s i n g ( i n t e r s t i t i a l ) ,r i c hm e d i aa d s ,p o pu pa d s ,b u t t o n s ,a n i m a t e dc u r s o r se t c s p o n s o r e de l e m e n t sw i t h i nw e bs i t e s ,s u c ha sp a i dp r o d u c tp l a c e m e n t so rc o n t e n t d e s i g n e da r o u n das p o n s o r n r e ea r ef o u rs t y l e so fo n l i n ea d v e r t i s e m e n ta tp r e s e n t :k e y w o r d sa d v e r t i s e m e n t b a s e do ns e a r c he n g i n e ;a d v e r t i s e m e n tf o rs p e c i f i cn e tu s e r s ;a d v e r t i s e m e n ts h o w e d o nw e b p a g eb u th a s1 1 0c o r r e l a t i o nw i t ht h ec o n t e n to ft h ep a g e ;a n da d v e r t i s e m e n t b a s e do nt h ec o n t e n to ft h ew e b p a g e i nr e c e n ty e a r s ,w i t ht h ec o n c e p to fp r e c i s i o n m a r k e t i n g , a d v e r t i s e m e n tb a s e do nt h ec o n t e n to ft h ew e b p a g en o to n l yb r i n g s e n t e r p r i s e sl m g eb r a n dr e t u r n s , b u ta l s o b r i n g st h ea d v e r t i s e m e n tp r o m o t i o n c o m p a n i e se c o n o m i cb e n e f i t sd e p e n do ni t su n i q u ea d v a n t a g e s t a k eg o o g l ef o r e x a m p l e , i t sa d v e r t i s i n gp r o g r a mg o o g l ea d s e n s ef o rc o n t e n ti sj u s to n eo fs u c h o n l i n ea d v e r t i s e m e n t a c c o r d i n gt os t a t i s t i c s ,m o s to f g o o g l e sa d v e r t i s i n gr e v e n u ei s f r o ma d s e n s ea d v e r t i s e r s ,a n di t sa d v e r t i s i n gr e v e n u et h r o u g ht h i sp r o g r a mi nt h e t h i r dq u a r t e ro f 2 0 0 5r e a c h e d6 7 5m i l l i o nu s d o l l a r s t h i sp a p e rd e m o n s t r a t e st h ea d v a n t a g eo fa d v e r t i s e m e n tb a s e do nt h ec o n t e n to f t h ew e b p a g eb a s e do nt h e o r ya n dp r a c t i c e ,a n dp r e s e n t sas e m a n t i ca p p r o a c h ,w i t ha g o a lo fa c h i e v i n gw e b p a g e a d v e r t i s e m e n tm a t c h i n ga c c u r a t e l y w e b p a g e - a d v e r t i s e m e n tm a t c h i n gi st h ec o r et e c h n o l o g yo fo n l i n ea d v e r t i s e m e n t b a s e do nt h ec o n t e n t f i r s t l y ,t h e m a t i ci n f o r m a t i o nm u s t b ee x t r a c t e df r o ma w e b p a g e , a n dt h e nt h e m a t i cw o r d sa r ec a l c u l a t e d e x t e n dt h et h e m a t i cw o r d sb yl o o k i n gu p t h e i rs i m i l a rw o r d s ,u p p e r & l o w e rw o r d s ,r e l a t e dw o r d s ,a n d f i n a l l yc h o o s e a d v e r t i s e m e n t sw h i c hh a v eh i g h e s tm a t c h i n gr a t e k e yw o r d s :w e bd a t ae x t r a c t i o n ;t o n g y i c ic i l i n ;t h e m a t i cw o r d s ;m a t c h i n gr a t e 学位论文版权使用授权书 本人完全了解北京机械工业学院关于收集、保存、使用学位论文 的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和 电子版本;学校有权保存学位论文的印刷本和电子版,并采用影印、 缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以 及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向 国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目 的的前提下,学校可以适当复制论文的部分或全部内容用于学术活 动。 学位论文作者签名:彻香 山裾年一月砰e l ( 注:非保密论文无需签字) 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月日 硕士学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 签名:彻亳 伽孵年1 月w 日 第一章引言 1 1 研究背景及意义 1 1 1 研究背景 第一章引言 从1 9 9 4 年互联网开放商业应用以来,短短5 年的时间便使网络媒体正式跻 身大众媒体之林,而广播则是用了3 8 年,无线电视用了1 3 年,有线电视用了 l o 年。互联网的广泛应用使得各种信息在传播范围、传播速度、通信容量及信 息交互方法等方面都取得了前所未有的突破。电子商务的发展,对传统的广告 媒体产生了深远的影响。以i n t e r n e t 为传播媒介的网络广告( i n t e r n e t a d v e r t i s i n g ) 成为当今欧、美发达国家最热门的广告形式。自2 0 世纪9 0 年代 以来,已经成长为继传统四大媒体( 电视、广播、报纸、杂志) 之后第五大媒 体。 由于网络上的商业应用呈爆炸性的增长,网络广告( n e t w o r ka d v e r t i s i n g ) 凭借着网络规模的快速膨胀而迅速发展。最早的网络广告出现于1 9 9 4 年,美国 著名的w i r e d 杂志于1 9 9 4 年1 0 月1 4 日推出了网络版的h o t w i r e d ( 踟h o t w i r e d c o m ) ,其主页上开始有a t & t 等1 4 个客户的广告b a n n e r 。自此 之后,网络广告逐渐成为网络上的热点,网络媒体的经营者努力吸引更多的浏 览人群及广告客户2 1 。 我国i t 业界于9 7 - 9 8 年问意识到网络广告的发展前景,逐渐有网络广告出 现在我国的网站中。1 9 9 7 年3 月,c h i n a b y t e 网站上出现了第一条商业性网络 广告,它标志着中国网络广告的诞生,虽然这条广告的形式现在看来非常单调, 但对于我国互联网行业的发展却起到了至关重要的作用。 互联网交互性强、信息丰富、形式灵活、不受时间地点等自然条件约束的 特点也在我国网络媒体和企业的成长壮大中得以发扬。投身于互联网络的诸多 企业和资金,并不仅仅是为了信息资讯互联互通这样一个社会公益目标,更多 的是互联网淘会者在网络的各个角落以各种形式寻求自己的赢利模式,从而可 以触摸到巨大的互联网宝藏。 第一章引言 今天,网络广告在互联网上已经是随处可见,甚至相当多的网站把网络广 告服务当作了盈利的主要来源。虽然网络广告的收入现在还无法与其他媒体相 提并论,但y a h o o 收入的7 0 和s i n a 收入的6 0 都来自广告的事实说明,在互 联网站的赢利中它占据着不可替代的地位。 网络广告是由j o u r n a lo fi n t e r a c t i v ea d v e r t i s i n g 的编辑们定义的,即 “有确定主办方的,付费或不付费的,通过中介渠道,在浏览者和商家之间发 生的一种互动方式,是对产品、服务和观念的一种展示和促销( l e c k e n b yl i , 2 0 0 0 ) 。3 1 上述定义中包涵了网络广告的主要要素和特点,参照传统广告的定义,其 中包含的构成要素有: 1 、广告媒体为i n t e r n e t ,即结合i n t e r n e t 所提供的服务方式发布广告。 2 、广告信息指网络广告的具体内容,它可以直接通过文字表达,也可以通 过多媒体声像表达。 包涵的活动要素有: l 、广告主,即广告客户,指发布网络广告的企业、单位或个人。早在1 9 9 4 年w i r d e 杂志在其网络版( 嗍h o t w i r e d c o m ) 上首次发表网络广告的客户就有 a t & t 、p & g 、i b m 等大公司,目前位于财富5 0 0 强的大多数公司都开展网络广告 业务,作为传统广告的补充,国内的许多企业也不例外。 2 、广告费用,指上网发布广告所需的资金投入。由于i n t e r n e t 自身的特 点,使得广告效果的评估于其他媒体来说相对准确,这同时也意味着广告主的 广告预算会更谨慎。 3 、广告目的,是通过向网民传递信息说服或影响他们的行为,达到长期建 立网上品牌形象或短期激发潜在行为的目的。 4 、广告对象,指网络广告的受众即网络使用者。 5 、网络广告的沟通方式。它所采用的虽然也是非人员交流的方式,但网络 的特点决定了网络广告沟通模式大大不同于传统广告。 1 1 2 网络广告现状 自从1 9 9 7 年3 月,c h i n a b y t e 网站上出现了第一条商业性网络广告以来, 随着互联网的发展与普及,中国的网络广告业也随之兴起、发展并不断走向成 2 第一章引言 熟。 根据i r e s e a r c h 的调研数据显示,2 0 0 6 年中国网络营销市场规模为6 0 亿元, 比2 0 0 5 年的4 1 7 亿元增长了4 4 。i r e s e a r c h 的研究预测,2 0 0 7 年中国网络营 销市场规模将达到8 3 亿元,比2 0 0 6 年增长3 8 ;中国网络营销市场将继续保持 高速发展,到2 0 1 0 年时,中国网络营销市场规模有望达到2 3 0 亿。 根据i r e s e a r c h 的调研数据显示,2 0 0 6 年中国网络营销细分市场中,网络 广告占4 6 6 亿元,占整个网络营销市场的7 8 。图1 1 是2 0 0 1 年至2 0 0 6 年中 国网络广告的市场规模。5 1 图1 12 0 0 1 年来中国网络广告的市场规模 2 0 0 7 年8 月2 7 日,上海全球领先的互联网媒体及市场研究公司 n i e l s e n n e t r a t i n g s 对超过4 0 0 个网络媒体的监测统计,2 0 0 7 年1 - 6 月中国 网络广告市场的广告价值估算( a d v e r t i s i n gv a l u ee s t i m a t e ) 约3 9 8 2 亿元 人民币:其中第一季度约1 6 8 9 亿元人民币,第二季度约2 2 9 3 亿元人民币, 环比增长达3 5 7 6 。在此期间,共出现网络广告主2 1 4 1 个,推广项目1 2 0 3 1 个, 创意3 5 1 2 4 个,平均每个广告主的广告价值估算达到1 8 6 万元人民币。“ i r e s e a r c h 的调研数据还显示,2 0 0 6 年网络营销市场规模为6 0 亿元,占整 体广告市场的比重由2 0 0 1 年的0 6 迅速攀升至2 0 0 6 年的3 8 。图1 2 是2 0 0 1 年来中国网络广告占整个广告市场的比重。u 1 3 第一章引言 图1 - 22 0 0 1 年来中国网络广告的市场比重 目前,国内网络广告的主要发布途径有:7 1 1 、网站页面:网络广告可以发布在任何网站的页面上,包括门户网站页面, 论坛页面,聊天室页面,网络博客页面等等。 2 、电子邮件:将广告通过电子邮件的形式发送到特定用户的信箱中,收件 人通过查阅邮件来获得广告的信息。 3 、即时信息软件:通过m s n 、q q 、y a h o om a s s a g e r 、淘宝旺旺等即时信息 软件的客户端发布及更新广告。 4 、网络游戏:在网络游戏的客户端界面发布及更新广告,如浩方,联众等: 最新的游戏设计技术使得广告主也可以在游戏情节中放置广告,如足球游戏、 赛车游戏中放置真实的广告牌,角色扮演游戏中使用真实商品的道具或设置与 商品相关的任务。 5 、客户端软件:网络广告发布在诸如下载软件,翻译软件,杀毒软件,媒 体播放器等的软件界面上,并可以通过链接服务器进行更新下载。 国内网络广告的主要表现形式有: 1 、e - m a i l 广告:e - m a i l 是i n t e r n e t 的一项基本功能,能使用户比普通邮 件更为方便快捷地交流信息、联络感情。e - m a il 广告主要有两种方式:一是直接 发送e - m a i l ,二是使用电子邮件列表。广告主可以直接向某些网络用户发送电 子邮件,来宣传自己的产品或服务。对某些话题感兴趣的人可以加入电子邮件 列表,将自己要发布的信息用电子邮件发送过去,就会即时传达给列表上的每 一个地址,这是一种非常有针对性的传播方式。当产品或服务与某个话题之间 有明显的关联时,可以使用这种广告方式。 4 第一章引言 2 、w e b 广告:w e b 广告是网络广告的主要形式。对于广告主来讲,i n t e r n e t 具有巨大的利用价值,它具有强大的功能,如可以传送文字、声音、图像及视 频等多媒体信息、2 4 小时在线、可以使用交互方式交流等。目前w e b 广告大致 可分为8 种形式:横幅广告、按钮广告、弹出广告、全屏广告、浮动广告、攀 天柱广告、通栏式广告、插播式广告、富媒体广告。 3 、搜索引擎广告:搜索引擎广告主要指“搜索关键字广告 。企业通过竞 价购买与企业产品相关的“搜索关键字 ,当消费者通过搜索引擎查询相关信息 时,搜索引擎自动将企业网站的链接置前,吸引消费者通过点击浏览企业网站 获取相关产品信息。因此,从搜索引擎广告的实质来看,它既有广告的部分性 质,又区别于传统的广告形式,其广而告之和主动推荐企业与产品形象的特征 并不明显,表现上更接近一种由潜在客户主动推动的销售工具。 4 、网络广告联盟:网络广告联盟主要是通过联盟发起网站的技术支持在加 入联盟的中小网站相关页面和位置以特定格式发布网站联盟指定的网络广告, 通过监测广告发布页面的浏览量或点击率向联盟网站支付广告收入分成。作为 广告主和网站的中间人,网络广告联盟将分布在网络各个角落的中小网站集合 在一起,充分利用它们独有的客户群体,实现了从广告主、联盟到网站三方的 共赢,是对网络资源的最大利用:对中小网站在规模较小以及本身无力招揽广 告客户的情况下仍然可以通过专注于内容建设的情况下,获得与点击率相适应 的广告收入。 国内现有网络广告联盟主要有: 1 ( 1 ) g o o g l ea d s e n s e :g o o g l ea d s e n s e 是网络会员联盟的一种形式,如果 一个网站加入g o o g l ea d s e n s e ,即成为g o o g l e 的内容发布商,作为内容发布商, 可以在自己网站上显示g o o g l e 关键词广告,g o o g l e 根据会员网站上显示的广告 被点击的次数支付佣金,当某个月底佣金累计达到1 0 0 美元时即可向用户支付 广告佣金。 ( 2 ) 百度网站联盟:百度联盟主题推广业务可以分析网站页面的内容,并 将与主题最相关的百度竞价广告投放到网站相应的页面,为广告主和网站主带 来广告投放效益的最大化。网站用户通过点击该文字链即产生竞价收入,网站 主就可以从百度获得相应的佣金。 ( 3 ) 好耶广告联盟:成立于1 9 9 8 年1 0 月,是中国大陆最早的付费在线广告 网络之一。好耶作为中国最早的网络广告提供商,同时扮演者裁判员与运动员 5 第一章引言 的角色,一方面它通过出售自己的广告运营技术系统获利,拉集人脉,另外一 方面它自己也做客户,形成了双管齐下的局面,在技术上的、大客户服务上的 优势更为突出。 ( 4 ) 窄告网站联盟:窄告( n a r r o wa d ) 成立于2 0 0 4 年9 月,是中国首家提出 网络分众广告的在线广告平台。窄告作为中国最早提出网络分众广告的厂商, 在资源方面具备独到优势。一方面,它利用互联网技术,能够让广告与内容匹 配,另外一方面,它与新浪、搜狐、网易、新华网以及人民日报建立了合作伙 伴关系,这些官方的强势媒体成为它的巨大广告引擎。 ( 5 ) 弈天广告联盟:于2 0 0 4 年1 月正式开通,是具有领导地位的非官方网 站联盟,在a l e x a 世界排名长期保持在世界一百强左右,日均页面访问量达3 0 0 0 万,固定i p l 0 0 0 万,拥有会员上千家, 度不断增长。通过与淘宝网成功合作, 度的提高,让业界侧目。 并以每天1 0 0 名等待审核的网站会员速 使得淘宝网的知名度和世界排名都大幅 网络广告联盟实际上就是基于网页内容的广告推介联盟。近年来,基于网 页内容的网络广告以它独有的优势,在为企业带来品牌效益的同时,更是为推 行这种广告的公司带来了巨大的经济效益。 1 1 3网络广告的发展趋势精确营销 在信息时代的今天,人们在日常生活中被铺天盖地的广告包围,对于商家 而言,广而告之的传播方式更是令其苦不堪言。一方面,广告的特性决定了绝 大多数广告受众不会产生兴趣,大多数广告费用被浪费。另一方面,广告费用 越来越昂贵,广告被各个商家同质化地使用,广告的营销效果越来越差。因此, 在激烈的市场竞争中,商家练就“金睛火眼”精确地寻找到客户,并成功实现 销售就非常重要,精准营销概念也就应运而生了。耶1 作为一个集中关注成本与回报的营销模式,精准营销使广告从乱枪打鸟的 广而告之转变为一矢中的“窄而告之”。通常来说,精准营销最主要的是精 准的市场定位。我的产品是什么? 它的客户到底是哪些人? 如何能够精确地找 到目标客户? 这些都是精准的市场定位所必需思考的。 英国“科尼尔白兰地”曾进行过一项消费状况调查,结果发现1 0 的客户 消费了5 0 的产品,这部分客户是满意度高的忠诚客户;3 9 的客户消费了4 4 6 第一章引言 的产品;剩下5 1 的消费者只占了其中6 。因此,当企业准备将产品推向市场 时,必须先找到准确的市场定位,然后集中公司的优势资源,才有可能获得市 场战略和营销活动的成功。同时,著名的“长尾理论”也提出,只要存储和流 通的渠道足够大,那些之前被认为冷门或不易销售的产品共同占据的市场份额 就可以和那些数量不多的热卖品所占据的市场份额相匹敌甚至更大。尽管两个 理论存在着一些争论点,但它们表明,产品要得到用户的青睐,必须能够在恰 当的时间,提供恰当的产品,用恰当的方式,送达到恰当的顾客手中。而这“恰 当 到一定程度,即称之为“精准 。 在国内,传统广告媒体一直没有解决的难题就是无法精确界定出企业期望 的广告受众。这意味着企业有相当一部分的广告花销浪费在了对企业而言毫无 经济价值的受众身上。网络广告同样遇到了相同的情况,网页琳琅满目的广告 不仅不会充分挖掘出广告受众,而且还会严重影响网站的质量。互联网基于i p 地址的寻址方式,以及基于点击的页面浏览方式,决定了网络广告可以很容易 地实现精确营销。 通过读取网民电脑中的c o o k i e 文件,网络服务器可以获知每位网民的独特 嗜好,就可以在网民所浏览的网页上播放他感兴趣的产品和企业的广告,达到 对每个页面,每个网民的广告效果最优化。企业还可以对网络内容进行分类排 列,从而将网民根据兴趣、职业、地域等特征群体化,然后选择有相关性的企 业或产品广告有针对性地进行播放。如在讨论电影的b l o g 页面放置碟片广告; 在爱车一族的专业网站放置汽车产品类广告;在电脑发烧友的论坛放置数码产 品的广告。 互联网实现对受众精确界定的途径是多方面的,国内企业己经能够提供完 整的精确营销平台,窄告( n a r r o wa d ) 就是其中的领先者。“窄告 主推网络定 向广告,它能通过分析网页内容、辨别网民所在地,按广告主要求和设置,将 广告有针对地投放到三干多家网站目标客户面前。另外,搜索引擎企业由于在 搜索技术和信息资源方面长年积累的优势,也能够提供对受众进行精确定位的 技术,让企业能够在网络中找到自己中意的客户。g o o g l e 和百度均有完备的精 确营销解决方案,利用企业多年积累的网上资源数据库,帮助企业实现从“一 对一 到“一对一亿 营销目的。 在这些众多的途径中,通过分析网页内容,然后有针对性地投放广告无疑 是最成功的一种。以g o o g l e 为例,g o o g l e 的广告计划g o o g l ea d s e n s ef o r 7 第一章引言 c o n t e n t 就是一种基于网页内容的网络广告。据统计,g o o g l e 的广告网络销售 收入大部分来自a d s e n s e 的广告商,其在2 0 0 5 第三季度的广告收入就达到6 7 5 亿美元。9 1 这种基于网页内容的网络广告是近年来网络广告发展的新模式,这也 是本研究的焦点所在。 1 1 4 研究的目的和意义 网络使社会的面貌发生了巨大的变化,与网络广告有关的研究也不断深入, 新的理论和方法也不断出现,但关于网络广告的研究更多是集中在不同的网络 广告形式对用户行为的影响。本文将以基于网页内容的广告为研究对象,探索 这种新型广告模式的机制。 基于网页内容的广告推介是近年来网络广告的新模式,具有很好的发展前 景,是一个很具有应用价值的研究课题。同时,本课题的子课题网页信息提取 和中文文本主题词提取都是中文信息中文信息处理中的一个基础性的课题,具 有很强的理论价值。 1 2 基于内容的网络广告的优势 1 2 1 理论依据 网络广告的信息沟通包含三个信息沟通的主体广告主、广告受众与沟 通动作的介质网络;三种运动:广告主在网络上发布信息、广告受众在网 络上寻找信息、当受众有其他信息需求时,双方通过网络进行及时的互动沟通。 如图1 3 所示。 网络广告与传统广告的最大不同就在于网络营销广告是双向的信息沟通, 广告的目标接受者并不是被动的接受,广告主也不是强制地灌输,从某种意义 上讲,网络广告的接受者是出于自愿才阅读广告主发出的信息的,网络广告的 定向性更强,效果也更好。此外,由于网络营销广告的空间基本不受限制,而 上网进行查询的顾客基本是为了了解产品的详细信息,网络广告所发布的内容 更加详细和及时。 8 第一章引言 图1 3 网络广告的信息沟通机制 r j l a v i d g e 和ga s t e i n e r 在1 9 6 1 年提出了“效果阶梯”( h i e r a r c h yo f e f f e c t s ) ,即广告界认可的勒韦兹( r j l v a i d g e ) 和斯坦纳( ga s t e i n e r ) 模式,如图 1 4 所示。4 图1 4 勒韦兹( i 乙j l v a i d g e ) 和斯坦纳( g a s t e i n e r ) 模式 他们指出:下一步与上一步具有递进关系。更为重要的是,他们将浏览者 对广告的这一系列反应因素归为更广泛意义上的三类:认知、情感和意向。 认知包括知晓和了解,所谓知晓,是指浏览者发觉产品的存在,它发生于 浏览者与广告接触之际;了解是浏览者对产品性能、效用、品质等各方面特点 的认识。 情感反应包括喜欢和偏好,喜欢是浏览者对产品的良好态度;偏好是浏览 者对产品的良好态度扩大到其他方面。 意向是行为或行为意愿的一个通用术语,后来被“行为”一词所取代。 他们还指出:通常来讲,认知导致情感,情感又导致行为。这个过程是不可 避免的,即如果第一个反应发生了,其他的反应就会自然地跟进发生。 根据这个理论,浏览者是否对产品了解将在很大程度上决定广告的成败。 这就是说,最好的情况应该是:当浏览者看到的产品的广告,是浏览者十分了 解的。这样其他反应自然跟进发生的概率就会增加。 9 第一章引言 基于网页内容的网络广告就是基于这么一种思想:如果一个浏览者在浏览 一个网页,那么这个网页的内容很有可能是他所了解的或者迫切需要了解的。 在这种前提下,如果在这网页上投放与网页内容相关的产品的广告,那么,根 据勒韦兹( r j l v a i d g e ) 和斯坦纳( ga s t e i n e r ) 模式,浏览者的其他反应( 点 击广告或者购买产品) 自然跟进发生的概率就会增加。 1 2 2 现有成绩 窄告网站联盟、弈天广告联盟、好耶广告联盟等依靠基于网页的网络广告 在激烈的网络广告市场站稳了脚跟,这本身就说明了这种广告模式的优越性。 下面将以g o o g l e 为例,讲述g o o g l e 的广告商业模式,从中我们可以看到 基于网页内容的广告的优势。“1 我们知道,g o o g l e 的成立确实源于突破性的搜索技术。但是它并不是历史 上第一个搜索引擎,也不是发明搜索广告的公司,甚至还算不上专业技术上不 争的至尊美国市场调查公司v i v i d e n c e 的一份报告称,用g o o g l e 搜索,其 返回的结果并不比其它搜索引擎( 比如y a h o o ) 好多少。优秀的搜索技术让g o o g l e 在搜索市场崭露头角,而与众不同的商业模式才是真正让g o o g l e 飞速成长为现 在的互联网巨人的根本原因。 2 0 0 1 年6 月g o o g l e 发布了g o o g l ea d w o r d s 广告关键词服务,这一革命 性的服务彻底改变了g o o g l e 的商业模式,也改变了g o o g l e 的增长轨迹。 g o o g l ea d w o r d s 给g o o g l e 带来了质的飞跃,使得广告收入一举成为g o o g l e 的核心收入,而技术收入则退居次要位置。 a d w o r d s 允许广告客户在g o o g l e 上注册关键字,企业的相关广告将出现在 g o o g l e 搜索结果页面的右侧。对广告客户更有吸引力的是,g o o g l ea d w o r d s 收 费原则是按照点击次数付费。 2 0 0 4 年1 0 月,g o o g l e 推出了针对合作伙伴网站的“g o o g l ea d s e n s e ”, 这一业务可以让各种规模的网站发布商在他们的网站上发布与网站内容相关的 g o o g l e 广告并获取收入,实际上相当于一个广告联盟,这一计划也同样极大提 升了g o o g l e 的营收能力。 g o o g l e 发布的2 0 0 5 年第三季度财报显示,g o o g l e 第三季度营收为1 5 7 8 亿美元。其中广告收入为1 5 6 亿美元,技术收入仅为0 1 8 亿美元。g o o g l e l o 第一章引言 a d w o r d s 的收入为8 8 5 亿美元,g o o g l ea d s e n s e 服务则为g o o g l e 带来了6 7 5 亿美元的收入。 出售广告但是不出售搜索结果,这是g o o g l e 的一个重要原则,也是g o o g l e 和其他竞争对手的不同之处。其他的搜索引擎公司都把广告和搜索结果混合在 一起以获取收入,而g o o g l e 宣称从来不让广告影响搜索的结果。 g o o g l e 称,其广告并不过于张扬,对消费者更加实用。g o o g l e 的到来,让 许多电信运营商以及相应的软件公司紧张,因为这家傲慢的互联网公司正在让 它们赖以生存的服务和商品变成全免费的东西。但是,对于消费者来说g o o g l e 的这一模式具有相当强的吸引力。 同时感到满意的还有广告商。g o o g l e 对外透露,越来越多来自“财富5 0 0 强”的广告主成为它的客户。g o o g l e 的副总裁j o n a t h a nr o s e n b e r g 兴奋地说到: “我们现在看到的是一个广告业的突变,它正在引领我们的经济繁荣,线下的 广告正在转向线上。 t h i n k e q u i t y 的分析师j o h nt h i n k e r 说:“g o o g l e 推出了一种改变传统广 告模式的新产品,它甚至在改变着传统的商业模式。 在看到2 0 0 5 年第三季度财报之后,业界对g o o g l e 所奉行的广告业务模式 也赞叹不已。“这是一个让人印象深刻的季度。 美国技术研究( a m e r i c a n t e c h n o l o g yr e s e a r c h ) 的分析师d a v i de d w a r d s 说,“g o o g l e 的这一业务模式 几乎是完美的 。 1 3 本文的组织结构 本文共分六章。 第一章是引言部分。着重介绍了网络广告的相关概念以及国内网络广告的 发展情况。同时,这章还指出了今后网络广告发展的趋势精确营销,基于 网页内容的广告推介就是这种营销模式的具体表现。最后给出本文的组织结构。 第二章论述了基于网页内容的广告推介的运作原理,提出了该广告模型的 设计思路。最后还指出,这种广告模式的关键就是解决三个问题:网页主题信 息提取、中文文本主题词提取和广告的选择与发布。 第三章至第五章是本文的重点部分。第三章解决的是网页主题信息提取的 问题;第四章提出了中文文本主题词提取算法,这是一种基于同义词词林的方 第一章引言 法;第五章提出了基于网页内容的广告的选择与发布策略。 第六章是全文的总结部分,对本文的研究进行了总结,并对后续的研究做 了进一步的展望。 1 2 第二章基于网页内容的广告推介系统模型设计 第二章基于网页内容的广告推介系统模型设计 2 1基于网页内容的广告推介原理 2 1 1 通俗原理 下面是网络上比较流行的一段描述g o o g l ea d s e n s e 的原理的话,这是基于 网页内容广告推介的通俗原理。1 l 、在网页中加入一小段g o o g l e 提供的j a v a s c r i p t 脚本; 2 、用户浏览该网页; 3 、j a v a s c r i p t 脚本对g o o g l e 广告服务器说:”嘿,给我一些广告! ; 4 、g o o g l e 广告服务器回答说:不行,谁知道你页面里有什么东西啊? 5 、用户于是看到一个没有g o o g l e 广告或者带着g o o g l e 公益广告的页面; 6 、g o o g l e 广告服务器派出一个机器人浏览这个网页; 7 、服务器分析网页的内容,发现”比萨饼”这个词出现了2 0 次,”华盛顿” 出现了6 次; 8 、于是服务器认为这个网页在讨论”华盛顿的比萨饼”; 9 、又有用户浏览该网页; 1 0 、j a v a s c r i p t 脚本对g o o g l e 广告服务器说:”嘿,给我一些广告! ; l l 、g o o g l e 广告服务器回答说:”好,这是个关于华盛顿比萨饼的页面,给 你一些华盛顿比萨饼外卖广告吧! ; 1 2 、用户心想:”嗯,正打算叫比萨外卖呢! ,点击广告; 1 3 、这样你赚了一点点钱; 1 4 、从第9 条开始周而复始。 a d s e n s e 实际上相当于一个广告联盟。这是一个共享机制,即g o o g l e 和 a d s e n s e 广告发布者共同分享广告主付给的c p c ( 每次点击付费) 。一般情况下, 后者比g o o g l e 所分得的比例大些。通常,g o o g l e 将其通过a d s e n s e 网络广告销 售网络所得收入的7 8 5 给予a d s e n s e 广告发布者。g o o g l e 的a d s e n s e 系统已 经获得了一大批大型公司企业和大型网站的青睐,纷纷通过它束登广告。而目 第二章基丁网页内容的广告推介系统模型设计 前,仍有几百万个小型网站还没有加入a d s e n s e 这个网络广告销售网络,因此 a d s e n s e 发展潜力仍然非常巨大,成为g o o g l e 最具有前瞻性和发展前途的项目。 任何人都可以申请加入g o o g l ea d s e n s e 计划,并将g o o g l e 的广告加到自 己的网站或者b l o g 中,于是就成了一名a d s e n s e 广告发布者。 2 1 2 真正原理 从g o o g l ea d s e n s e 的通俗原理中我们可以整理出的g o o g l ea d s e n s e 广告 原理: 1 、a d s e n s e 广告发布者在g o o g l e 上注册并通过g o o g l e 的检测,也就是说 6 0 0 9 l e 发现a d s e n s e 广告发布者的网站或b l o g 符合g o o g l e 的要求。 2 、g o o g l e 发送一段g o o g l ea d s e n s e 的广告代码给a d s e n s e 广告发布者, a d s e n s e 广告发布者将代码置入希望展示g o o g l e 广告的网页上。 3 、g o o g l e 利用基于包括关键字分析、词语频率、字体大小和w e b 整体链 接结构等精深的算法,从而能理解该网页的上下文和内容。 4 、当有人浏览该网页时,g o o g l e 发送几条与该网页内容相关的广告并显示 在网页上。 5 、如果他点击了g o o g l e 的广告,a d s e n s e 广告发布者就可以从g o o g l e 那 里获得相应比例的c p c ( 每次点击付费) 。 重复第4 、5 步。 6 、当a d s e n s e 广告发布者的收益累计到一定程度时,g o o g l e 就会付给 a d s e n s e 广告发布者相应的报酬。 至此,我们抽象出基于网页内容广告推介的真正原理,这种广告模型的牵 涉到三个活动对象,浏览用户、加盟网站和广告联盟。用一句话讲,就是“加 盟网站”的服务器向“浏览用户 发送“广告联盟”提供的广告,其原理如图 2 1 所示。 在原理图中,“计算并选择广告”是本研究的核心所在。 1 4 第二章基于网页内容的广告推介系统模型设计 时 间 2 2 模型设计 图2 1基于网页内容的广告推介模型原理图 首先要理解网页的内容,网页的内容可以用网页主题词来表示。 这个部分的工作主要有两个,一是进行网页主题信息提取,二是主题词提 取。一般来说,我们可以把一个网页分为三个不同的区域:主题文本区,导航 区和噪音区。网页主题信息提取的任务是将导航区和噪音区的内容过滤,得到 主题文本区的内容。主题词提取的任务是获得能反映网页主题的词语,这些词 语应具有很强的归纳性。 然后将网页的主题词同广告的关键词进行比对,计算相关程度,最后在网 页上显示相关程度最高的t o p - n 条广告。 基于网页内容的广告推介的实现流程如图2 2 所示。 顺蠢嚣钒酬婶管溅酬为墨磊芦誉合 图2 2 基于网页内容的广告推介的实现流程图 在网页上显示 广告 至此,我们抽象出基于网页内容的广告的三个关键技术:网页主题信息提取、 文本主题词提取、广告的选择与发布。下面的章节将对这三个关键技术进行详 细的阐述。 第三章网页主题信息提取 第三章网页主题信息提取 3 1网页主题信息提取的研究现状 信息抽取最早开始于2 0 世纪6 0 年代中期美国纽约大学开展的l i n g u i s t i c s t r i n g 项目,一直延续到8 0 年代。该项目的主要研究内容是建立一个大规模的 英语计算语法,与之相关的应用是从医疗领域的x 光报告和医院出院记录中抽 取信息格式,这种信息格式实际上就是现在我们所说的模板( t e m p l a t e s ) 。n 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消 息理解系列会议( m u c ,m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 的召开。 目前,正在推动信息抽取研究进一步发展的动力主要来自美国国家标准技 术研究所( n i s t ) 组织的自动内容抽取( a c e ,a u t o m a t i cc o n t e n te x t r a c t i o n ) 评测会议。与m u c 相比,目前的a c e 评测不针对某个具体的领域或场景,采用 基于漏报( 标准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统 输出中有) 为基础的一套评价体系,还对系统跨文档处理( c r o s s d o c u m e n t p r o c e s s i n g ) 能力进行评测。这一新的评测会议将把信息抽取技术研究引向新 的高度。1 信息抽取系统设计主要有两大方法:一是知识工程方法( k n o w l e d g e e n g i n e e r i n ga p p r o a c h ) ,二是自动训练方法( a u t o m a t i ct r a i n i n ga p p r o a c h ) 。 知识工程方法主
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年乡村医生资格考试:农村妇幼保健知识综合测试与习题
- 2025年大学融合教育专业题库- 文化多样性教育与大学融合教育的融合理念探讨评议
- 2025年大学融合教育专业题库- 融合教育对大学生的职业发展
- 2025年大学社会体育指导与管理专业题库- 社会体育项目的社会效益评价
- 2025年注册会计师考试《会计》真模拟实战试题:会计信息系统与内部控制
- 2025年大学卫生教育专业题库- 心理健康教育对社会群体的积极影响
- 2023年度南京信息职业技术学院单招《职业适应性测试》通关考试题库附答案详解(黄金题型)
- 城市轨道交通乘务安全操作规范
- 2025年康复医学综合评估与制定治疗方案考试答案及解析
- 2025年河南推拿职业学院招聘博士研究生10人笔试高频难、易错点备考题库及答案详解一套
- 小学生科普课视错觉课件
- 电力安全微课堂
- 质量部长述职报告
- 无人机技术在农业领域的可行性分析报告
- 规模灵活资源广域接入的新型配电系统分层分群架构与规划技术研究
- 音乐心理学理论-洞察分析
- 法院报名登记表
- 上海市闵行区区管国企招聘笔试冲刺题2025
- 中外建筑史课件
- 2024年度商业保理合同:保理公司与出口商之间的商业保理协议3篇
- 应急管理部14号令《生产安全事故罚款处罚规定》 修改前后对照表及解读
评论
0/150
提交评论