(计算机科学与技术专业论文)比较购物网站中海量产品信息自动分目录功能的设计与实现.pdf_第1页
(计算机科学与技术专业论文)比较购物网站中海量产品信息自动分目录功能的设计与实现.pdf_第2页
(计算机科学与技术专业论文)比较购物网站中海量产品信息自动分目录功能的设计与实现.pdf_第3页
(计算机科学与技术专业论文)比较购物网站中海量产品信息自动分目录功能的设计与实现.pdf_第4页
(计算机科学与技术专业论文)比较购物网站中海量产品信息自动分目录功能的设计与实现.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(计算机科学与技术专业论文)比较购物网站中海量产品信息自动分目录功能的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 由于传统的购物网站已经不能满足用户的需求,比较购物模式因此应运而 生。消费者可以在比较购物的网站对上百个商家对某个商品在价格,运费,折 扣,三包等各项服务参数的筛选后,找到性价比最优惠的一个商家来购买自己 需要的这个商品。不过由于比较购物网站需要海量级的商品信息量来涵盖各行 各业的商品,但是有些商家提供的他们所要出售的商品信息数据文件不是很完 整,这就导致了海量的未能和我们数据库自有的商品信息匹配的商家商品数据 的产生,不能匹配就意味着无法将商家提供给我们的商品信息上线。然而,用 人工来对这些海量的未匹配商品进行逐个分类匹配来说将是一个巨大的工作 量。因此,开发出一套智能化的商品自动分目录系统在网站的规模日益壮大之 后是项迫在眉睫的工作。 本系统分为3 个大的模块,g e n e r a t ek n o w l e d g e1 ) i cd b 模块,g e n e r a t e k n o w l e d g ed n ad b 模块和c l a s s i f yd a t a 模块。第一个模块是将程序根据学习 机所牛成的,经过人工r e v i e w 的字典( 该字典记录在数据库) ,将对学习集及 新录入的数据进行n o r m a l i z e 。这个模块中牵涉到英文分词以及中文分词技术 的处理。在英文分词的处理上,我们采用了r e p l a c es o m es y m b o la n ds t o pw o r d , s p e l lc h e c k ,s t e m ,a 1 i a s 这几个步骤来达到最终的分词结果。性能和准确度 上均比较理想。中文分词的处理上我们借鉴并发展了了一些优秀的算法和数据 结构模型,由于用j a v a 语言来实现,目前在性能上还不是很理想。第二个模块 是负责生成一条条的d n a 权值数据记录,这些数据记录将对第三个模块的处理 产生直接的主导作用。第三个模块即是通过调用前2 个模块的接口来对未匹配 的商品进行自动分目录。 这个系统的成功上线解决了公司在处理海量未匹配商品信息数据由人工向 程序自动化处理转变的格局,极大的节省了公司的人力和物力,意义重大。在 不久的将来我们会进一步改进匹配的准确度和系统的性能。 关键词:比较购物,自动分目录,英文分词,中文分词 a b s t r a c t a b s t r a c t b e c a u s et r a d i t i o n a ls h o p p i n gs i t eh a sb e e nu n a b l et om e e tt h en e e d s o fu s e r s ,c o m p a r i s o ns h o p p i n gp a t t e r n sh a v ee m e r g e d c o n s u m e r sc a n c o m p a r eac e r t a i nc o m m o d i t y sp r i c e s , f r e i g h t ,d i s c o u n t s ,t h r e e g u a r a n t e e sa n do t h e rs e r v i c e so fh u n d r e d so fm e r c h a n t si na c o m p a r i s o n s h o p p i n gs i t e ,t o f i n dt h em o s tc o s t e f f e c t i v em e r c h a n tt o p u r c h a s et h e i rp r o d u c t s h o w e v e r ,c o m p a r i s o n s h o p p i n gs i t en e e d s m a s s i v ea m o u n t so fp r o d u c t si n f o r m a t i o nc o v e r i n ga lls e c t o r so fp r o d u c t s b u ts o m eo fm e r c h a n t sa r eu n a b l et op r o v i d ed a t af i l ew i t hc o m p l e t e p r o d u c ti n f o r m a t i o n ,w h i c hl e a d st oo n l i n ef a i l u r eo fm a s s i v ep r o d u c t s i n f o r m a t i o n ,a n di t so w l d a t a b a s eo fc o m m o d i t yi n f o r m a t i o n m a n u a l c l a s s i f i c a t i o no ft h e s eu n m a t c h e dp r o d u c t sw i l lb eah u g ew o r k l o a d t h e r e f o r e ,t h ed e v e l o p m e n to fas e to fi n t e l l i g e n ta u t o m a t i cp r o d u c t c a t a l o g u ef o rt h eg r o w i n gw e bs a t ei ss e r i o u s l ye x p e c t e d t h es y s t e mi sd i v i d e di n t ot h r e em a j o rm o d u l e s ,g e n e r a t ek n o w l e d g e d i cd b ,g e n e r a t ek n o w l e d g ed n ad ba n dc l a s s i f yd a t a t h ef i r s tm o d u l e i st h ep r o g r a mt on o r m a l i z et h ed a t ab yd i c t i o n a r yw h i c hi s m a n u a l l y r e v i e w e d ( t h ed i c t i o n a r yr e c o r d si nt h ed a t a b a s e ) u s i n gt h es t u d ym a c h i n e t h i sm o d u l ei n v o l v e di ne n g l i s ha n dc h i n e s ew o r ds e g m e n t a t i o na n d t e c h n o l o g y i nt h ee n g l i s hw o r ds e g m e n t a t i o np r o c e s s i n g ,w eu s et h e r e p l a c es o m es y m b o l ,s t o pw o r d ,s p e l lc h e c k ,s t e m ,a n da 1 i n s ,t h e s e s e v e r a ls t e p st oa c h i e v et h i su l t i m a t es e g m e n t a t i o nr e s u l t s i ti si d e a l o nt h ep e r f o r m a n c ea n da c c u r a c yn o w f o rc h i n e s ew o r d s e g m e n t a t i o n p r o c e s s i n g ,w e1 e a r nf r o ma n dd e v e l o ps o m ee x c e l l e n ta l g o r i t h m sa n dd a t a s t r u c t u r em o d e l s ,b u to na c c o u n to f u s i n gj a v al a n g u a g e ,c u r r e n t p e r f o r m a n c ei sn o tv e r ys a t i s f a c t o r y t h es e c o n dm o d u l ei sr e s p o n s i b l e f o rt h ed n ad a t aw e i g h t sr e c o r d s ,a n dt h e s ed a t ar e c o r d sp l a c eal e a d i n g r o l ef o rt h ep r o c e s s i n go ft h i r dm o d u l e t h et h i r dm o d u l ec a l l st h ef o r m e r a b s t r a c t t w om o d u l e s i n t e r f a c et oa u t o m a t i c a l l yc l a s s i f yt h eu n m a t c h e dp r o d u c t s t h es u c c e s sl a u n c ho ft h iss y s t e mc h a n g e dt h em a n u a lm a t c ho ft h e m a s s i v ep r o d u c ti n f o r m a t i o nt ob ea u t o m a t i c a l l yp r o c e s s i n g ,w h i c hi s t r e m e n d o u ss a v i n g si nh u m a na n dm a t e r i a lr e s o u r c e sf o rt h ec o m p a n y it i so fg r e a ts i g n i f i c a n c e i nt h en e a rf u t u r ew ew i i if u r t h e ri m p r o v et h e a c c u r a c yo ft h em a t c ha n dt h ep e r f o r m a n c eo ft h es y s t e m k e yw o r d s :c o m p a r es h o p p i n g ,a u t o c a t c g o f i z i n g ,e n g l i s hw o r d s p l i t t i n g , c h i n e s ew o r d s p l i t t i n g 1 1 i 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的e i jj 目i j 本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:召粼枸 郴年2 - 月z 垆日 经指导教师同意,本学位论文属于保密,在年解密后适用 本授权书。 指导教师签名:学位论文作者签名: 年月日年月 日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进 行研究工作所取得的成果。除文中已经注明引用的内容外,本学位 论文的研究成果不包含任何他人创作的、已公开发表或者没有公开 一 发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个 人和集体,均已在文中以明确方式标明。本学位论文原创性声明的 法律责任由本人承担。 签名:琶舟觞 3 g 年z ,月2 ,驴日 第1 章引言 1 1 比较购物的发展背景 第1 章引言 比较购物网站是一种对不同网店销售的相同或相近的商品进行价格,属性, 性能等比较的电子商务网站。对于网店商家来说,是网店商家为自己的商品定 价的好参谋。网店商家可以加入比较购物站点然后获得推广机会,销售商品后 比较购物网从中抽取一定比例的佣金,相当于一个以网店经营者为获利对象、 对网上买家完全免费、带有中介性质的网上超市。 回顾中国互联网的十年,中国电子商务走过了这样的历程:从最初的当当, 卓越等专业销售书籍和其它低价值商品的购物网站的出现,到以c 2 c 的拍卖为 主的易趣,淘宝网的发展,再到以销售更多类别和高价值商品的亦得,逐步被 网民所接受和喜爱。自从淘宝两年前开始对网上购物“铺天盖地”的宣传推广,广 大网民已经开始尝试网络购物,电子商务逐渐深入人心,进入高速发展期。同 时,大量b t o c 商家如潮水般涌出,无论是老牌劲旅d a n g d a n g j o y o ,还是众多新 秀商务网站,都开始八仙过海,各显神通了。但用户面对众多的电子商务网站, 到底到哪里去购买呢? 这简直就像刘姥姥逛大观园,眼花缭乱嘛! 这个时候, 为之相应的服务就诞生出来了,也就是我们今天的事业比较购物。传统的 购物网站已经不能满足用户的需求,比较购物模式因此应运而生基于这种概念 的比较购物能更好地为消费者服务并提供购买决策 1 2 比较购物的现状 真的需要这么多比较购物网站吗? 以目前广大网民对电子商务的接受程 度,怕是网上冲浪多年的老网民,也不知道比较购物网站有什么用。老百姓以 前去商场买东西,常看看这家,再看看那家,最后锁定价格便宜服务又好的商 家进行购买,但是在网上就犯晕了,简直是个超级“大”市场,要啥有啥,倒不知 道该如何挑选了。正是这种问题的出现,才使比较购物网站看到了巨大的商机。 巨大商机的出现,同时也会产生数量众多的竞争者,使根本就不大的市场( 零 售市场的万分之一) 竞争起来就更是雪上加霜。 第1 章引言 目前使用比较购物商品的用户不到网上购物用户的万分之一,知道比较购 物网站的人不到网上购物用户的千分之一,市场规模小得让人心寒。在这个时 候,比较购物网站应该做什么呢? 目前看来,我们必须积极宣传比较购物的“重 要思想”,让用户首先接受“网上买东西前也能先货比三家”的概念,让用户知道 “这样购物才不吃亏”。 目前,多数比较购物网站主要的都是价格比较。但是,比较购物不一定只 局限于价格比较,在商品评论和商品介绍的文章上也可以下些功夫,从其它方 面对用户购买商品进行指导。目前有些比较购物网站开始涉及购物返点,也尝 试进行社区化模式经营,这证明目前在国内,比较购物并不是一个固定的模式, 一定要根据国情做出自己的模式来。同时,广大比较购物网站也需要做出自己 的特色来,不能单纯的跟别人千篇一律。比较购物是一个多元化的环节,在电 子商务产业链中起到关键的导向作用。在实现购物导向功能的过程中,把细节 做到极致也是很重要的。 1 3 课题来源及研究意义 h t t p :i w w w s m a r t e r c o m 以及h t t p :w w w c i l 是我公司开发并运营 的两个比价购物网站。但是众所周知,比价s 购m a 物r t e 网r t 站o m 需要海量级的商品量来涵 盖各行各业的商家商品。然后等商家提供了他们的销售网站所出售的商品f j c d 文件给我们时,我们才可以将商家提供的商品与我们数据库中存在的商品最大 限度匹配上,然后在我们的网站上参与比价。然而要建立这个数千万甚至上亿 的海量商品库,并将各个商品与现存的商品目录结构对应是一个极大的工程。 用人工对商品进行分类将带来十分巨大的工作量。因此,开发出一套智能化的 自动分类系统,在网站的规模日益壮大之后是必须要做的一项工作。 本课题将把这套智能化的商品自动归类系统项目设计与实现出来,这将极 大的减轻商品工作人员的工作量,在本项目完成以后,他们只需要c h e c k 一下系 统自动归类的结果是否正确即可。不用再做那些繁琐累赘的将一个个商品进行 手工分类的工作了。所以其工程应用价值是显而易见的。 2 第1 章引言 1 4 论文结构 本文的内容共分为6 章: 第一章简要介绍了比较购物的发展背景、比较购物的现状以及课题来源及 研究意义。 第二章重点介绍了s m a r t e r 的数据处理平台,引出海量未匹配商品数据产 生的原因。 第三章介绍了海量未匹配商品自动分目录的总体算法设计,模块设计以及 各个模块的功能。 第四章丰要介绍了如何通过r e p l a c es o m es y m b o la n ds t o pw o r d ,s p e l l c h e c k ,s t e m ,a l i a s 处理流程的英文分词技术来解决g e n e r a t ek n o w l e d g ed i cd b 模块中的英文分词处理问题。 第五章主要介绍了怎样利用中文分词技术来解决g e n e r a t ek n o w l e d g ed i c d b 模块中的中文分词处理问题。 第六章对目前的研究工作进行了总结,并提出了未来可能的研究方向和关 键性问题。 第2 章比较购物网站的数据处理平台 第2 章比较购物网站的数据处理平台 2 1s m a r t e r 的数据处理平台概述 s m a r t e r 比较购物网站的数据处理过程,就是把s m a r t e r 的几千个商家提供 的庞大的商品信息数据与s m a r t e r 的标准化商品信息库进行匹配后,将商家的商 品在s m a r t e r 的网站上上线的一个过程。 2 1 ,1 名词解释 m f n a m e :m a n u f a c t u r en a m e 的缩写,代表商品的生产制造厂商。 s k u u p c :每个商品的生产制造厂商都会给他们生产的商品一个唯一识别序 列号,即s k u ( s t o c kk e e p i n gu n i t ) 号码或者u p c ( u n i v e r s a lp r o d u c t i o nc o d e ) 号码。因此一个商品的m f n a m e 和s k u 号组合是唯一的。 s a m : s m a r t e r a c c o u n t m a n a g e m e n ts y s t e m的简称。 ( h t t p s :s a m s m a r t e r c o m ) 这是s m a r t e r 提供给商家用户进行s m a r t e r 商家 注册,账户管理,以及修改b i d 值的一个平台。同时商家也可以直接在系统里上 传f e e d ,是f e e d 获取方式的一种。目前通过这个用户界面上传的f e e d 大小限 制在12 m 以内。 f e e d :商家注册后,会把需要出售的商品信息以某种数据格式的方式提供给 s m a r t e r ,从而让顾客在s m a r t e r 网站上通过点击这些信息来获取更多的商品出 售机会。这些商品信息包括商品名称,商品序列号,商品价格,商品在商家页面 的连接,图片连接,生产商,商品说明,以及商品的库存等等,我们统一命名为 f e e d 。其中对于s o f t g o o d s 的商品信息,必须包含商品名字,商品连接,商品图 片连接,商品价格和商品目录;对于c e 的商品信息,则必须包含商品名字,商 品序列号,商品连接,商品图片连接,商品价格和商品生产商这些信息。商家提 供的数据文件格式多种多样,常见的有c s v ,x m l ,t x t 等。 f t pa c c e s sl o g :s m a r t e r f t p 服务器上记录商家是否更新了f e e d 的数据表。 f e e dc o p y :s m a r t e r f t p 服务器上的数据表。当商家上传一个包含多个频道 的f e e d 文件且只在某个频道中更新时,便需要把f e e d 文件复制到其他频道中, d 第2 章比较购物网站的数据处理平台 或者是由第三方提供f e e d 的商家,f e e d 获取回来后统一存放在一个目录下,也 需要把f e e d 文件根据先前设置的规则,复制到其他商家的频道目录中。 s m a r t e r f t p :当商家在s a m 系统里注册后,系统将商家在s a m 系统的登入名 加上商家i d 作为f t p 的帐号,和随机产生的密码以邮件方式发给商家,从而商 家可以通过我们提供的f t p 帐号和密码,登入s m a r t e r f t p 服务器,上传f e e d 。 我们将这种由我们提供f t p 给商家的方式命名为s m a r t e r f t p 。 m e r f t p :和s m a r t e r f t p 不同,m e r f t p 是由商家提供给我们他们的f t p 服务 器的相关信息,我们直接通过f t p 登入到他们的服务器上获取f e e d 。 h t t p :s m a r t e r 的部分商家通过s a m 系统直接提交或者邮件方式把存放f e e d 的u r l 连接提供给我们从而方便我们去获取商家的f e e d 。 b g g :b m v 是b o o k ,m o v i e ,m u s i c 和v i d e o 的缩写形式,它是s m a r t e r 的3 个商品大类中的一个。它是书籍,电影,音乐,视频类的商品的总称。 c e :c e 是c o m p u t e r 和e l e c t r o n i c s 的缩写形式,它是s m a r t e r 的3 个商品 大类中的一个。它是电脑电子类的商品的总称。 s g :s g 是s o f t g o o d s 的缩写形式,它是s m a r t e r 的3 个商品大类中的一个。 顾名思义,它是指软的商品这个大类。比如:衣服饰品( c l o t h i n 酏a c c e s s o r i e s ) , 家具用品( h o m e & o a r d e n ) ,珠宝首饰( j e w e l r y w a t c h e s ) 等。 c h a n n e l :c h a n n e l 就是s m a r t e r 的频道的概念,s m a r t e r 把世界上所有的商 品分为3 个大类,b m v ,c e 和s g 。三个大类中的每个大类都可以分为几伽具体的 类,这些类在s m a r t e r 里叫做c h a n n e l ,因为在s m a r t e r 上购物的商品都是按 c h a n n e l 来划分的。比如b o o k s 是b m v 的一个c h a n n e l 。这个c h a n n e l 里面只卖 和书籍相关的商品。c o m p u t e r s 是c e 的一个c h a n n e l ,这个c h a n n e l 里面只卖和 电脑相关的商品以及附件。j e w e l r y w a t c h e s 是s g 的一个c h a n n e l ,这个c h a n n e l 里面只卖和珠宝首饰相关的商品。 c a t e g o r y :商品所属的目录。一个c h a n n e l 下面可以有很多个c a t e g o r y 来更 加详细的区分商品,每个c a t e g o r y 还可以有子c a t e g o r y 。最外面的称为叶子 c a t e g o r y 。每个商品必须且只能属于一个叶子c a t e g o r y 。 第2 章比较购物网站的数据处理平台 2 2s m a r t e r 商家的数据获取处理流程 对于s m a r t e r 现有商家的f e e d 可以是商家自己提供的,也有一部分是由第 三方负责提供。由商家直接点对点提供f e e d 的方式在我们日常工作中占了9 0 的比列,所以将重点介绍。 目前获取f e e d 的四种主要方式分为:s a m ,s m a r t e r f t p ,m e r f t p 和h t t p 。 介于以上四种不同的f e e ds o u r c e 和一些需要特殊处理的商家f e e d ,我们大致 分成三类并进行介绍说明: 1 s m a r t f t p :商家将f e e d 文件直接上传到s m a r t e r 的服务器。 2 h t t p & m e r f t p :s m a r t e r 从商家的h t t p 或f t p 服务器上取下f e e d 文件。 3 o t h e r s :日常获取f e e d 比较特殊,需要单独处理,比如a m a z o n 的f e e d 文件。 2 2 1s m a r t e rf t p 的处理流程 处理流程如下: 第一步:4 n f o r mo r p r o c e s s 在s m a r t e r f t p 服务器上的f t p a c c e s s l o g 数据表,记录商家在s m a r t e r 服务 器上更新f e e d 的信息。如果信息数据被更新,则说明商家有了新f e e d 的更新。 第二步:g e t 按照f t p a c c e s s l o g 表中s t a t u s = “i n f o r m ”和对f il e n a m e 的解析获取 f e e d 。g e t 结束后,如果商家直接存放在某个c h a n n e l 目录,则s t a t u s 项自动 转成”p r o c e s s ”。 第三步:c o n v e r t e r f e e d 获取下来后,要检查f e e d 的数据格式是否符合匹配要求。目前系统只 接受t x t ,c s v 这两种文本格式,所以对于以x m l ,g z ,z i p 上传的f e e d 需要转换 格式。 第四步:c o p y 6 第2 章比较购物网站的数据处理平台 目前s m a r t e r 的大部分商家提供的f e e d 不分频道,c e 、b m v 和s g 的内容 都存放在一份文件中,而且在每次的更新f e e d 时只会在其中一个c h a n n e l 或者 m i x 根目录下存放。所以在转换完格式后,需要把f e e d 文件c o p y 到其他的 c h a n n e l 文件夹中。 第五步:c h e c km e r f il e 在c o p y 完成后,系统采用程序去查找所有文件夹中最新的文件名。主要是 把x m l 格式的文件转成c s v 格式的文件存放在该目录下,并更新b l e r f i l e 表中信 息。 s m a r t e r f t p 获取f e e d 过程如下图所示: 苎! 垩堕竺塑望堕堂堕垫塑竺里笪 图2 1 获取商家数据流程图 8 第2 章比较购物网站的数据处理平台 2 2 2 h t t p 和商家f t p 的处理流程 处理流程如下: 第一步:g e tf e e d 通过商家提供的h t t p 或者直接到商家的f t p 服务器去取f e e d ,取之前根据 l a s t m o d t i m e ,f i l e t i m e ,f i l e n a m e ,f i l e s i z e 等字段来判断该f e e d 是否被商 家更新过。 第二步:c h e c k 确认新f e e d 后,系统开始检查f e e d 的数据格式是否符合匹配要求( t x t 和 c s v 格式) 。如果不符合,则调用系统的c o n v e r t e r 模块进行对数据文件格式的 转换。 第三步:c o p y 按照m e r f t p 服务器上的数据表中的源p a t h 的信息复制m i x e d 同名文件到目 的p a t h 信息的目录中。 2 3 商家f e e d 中的商品信息处理流程 商家f e e d 中的每条数据都代表一条商品信息。包括商品名称,商品价格, 商品s k u 号,商品的生产厂家( m f n a m e ) ,商品类别,商品的商家网站的链接 u r l ,商品的图片u r l ,商品的运费,商品的折手u 信息,商品的重量,长度,宽度, 高度,所属行业等等。 我们将用f e e d 中每个商品的生产厂商名字( m f n a m e ) 和商品的s k u 号来和 公司数据库中的国际化商品的m f n a m e 和s k u 号进行匹配,匹配上以后就可以将 商家提供的商品在我们的网站上线了。购买商品的用户就可以在我们的网站上看 到相关商家提供的该商品的相关信息了。 9 第3 章海量未匹配商品自动分目录的算法设计 第3 章海量未匹配商品自动分目录的算法设计 3 1 海量未匹配商品的产生 导致海量的未匹配商品产生的原因有以下几点: 1 商家的商品数据中未提供或者未完全提供m f n a m e 和s k u 的相关数据内 容 2 商家的商品数据中提供的m f n a m e 和s k u 不正确或者命名格式不规范或者 不是一个有效的国际化的m f n a m e 或s k u 由于以上两个原因,导致了商家提供的商品信息中有大量的商品未能准确的 和我们数据库中的商品信息有效的匹配上。这样我们就需要在商家提供的其它有 关商品的信息数据上找出一个有效的突破口,然后利用这个突破口来将这些未能 有效匹配的商品成功的被分配到我们的叶子c a t e g o r y 下面,这样就为我们的商 品处理专员节省了大量的为这些未匹配的商品分目录的时间,这样才能使我们的 可用数据量最大化,才能将公司和商家的利益最大化,从而实现双赢。 3 2 总体设计算法 名词解释: k n o w l e d g ed i cd b :由程序根据学习集所生成的,经过人工r e v i e w 的字典, 该字典记录在数据库,将对学习集及新录入的数据进行n o r m a l i z e 。 k n o w l e d g ed n ad b :程序所生成的d n ad b ,经过人工r e v i e w 后的一个结果, 结果记录在数据库中,将对新加入的数据进行c l a s s i f y 处理。 整个系统共分三个模块字典库生成( g e n e r a t ek n o w l e d g ed i ed b ) 、d n a 库生成( g e n e r a t ek n o w l e d g ed n ad b ) 和商品自动分目录( c l a s s i f yd a t a ) 。 g e n e r a t ek n o w l e d g ed i cd b 模块负责生成k n o w l e d g ed i cd b 。g e n e r a t e k n o w l e d g ed n ad b 模块负责生成k n o w l e d g ed n ad b 。c l a s s i f yd a t a 模块负责 对新加入的数据进行c l a s s i f y 处理。g e n e r a t ek n o w l e d g ed i cd b 模块生成的 k n o w l e d g ed i cd b 将提供g e n e r a t ek n o w e d g ed n ad b 模块作n o r m a l i z e 处理。 g e n e r a t ek n o w l e d g ed n ad b 模块生成的k n o w l e d g ed n ad b 将提供c l a s s i f yd a t a 1 0 第3 章海量朱匹配商品自动分目录的算法设计 模块作c l a s s i f y 处理。 3 2 1 字典库生成模块 g e n e r a t ek n o w l e d g ed i cd b 模块流程: 1 学习集r a wd a t a 进入后先替换一些特殊字符为空格。 2 然后对r a wd a t a 进行统计,自动生成一个字典。 3 字典经过人工r e v i e w ,进入k n o w l e d g ed i cd b ,并对下次生成字典进行 影响( 由人工r e i v e w 确认过的,下次不再牛成) 。 流程图如下 作为g “叽” k n o w i c d 铲 d n a d b 的输八 g e n e r a t ek n o w l e d g ed i cd b 3 2 2 d n a 库生成模块 图3 1 字典库生成模块流程图 g e n e r a t ek n o w l e d g ed n ad b 模块流程: 1 在g e n e r a t ek n o w l e d g ed i cd b 过程中经过r e p l a c es o m es y m b o l 处理 的字,由k n o w l e d g ed i cd b 与m a n u a ld i cd b 进行n o r m a l i z e 处理。 第3 章海量来匹配商品自动分目录的算法设计 2 通过t o k e n i z e r ,分词成d n ah a s h 。 3 再通过统计与乘以词组的权重,生成相应的d n ad b 。 4 经过人工r e v i e w 后,成为k n o w l e d g ed n ad b 。 流程图如下 g e n e r a t ek n o w l e d g ed n ad b 图3 2d n a 库生成模块流程图 3 2 3 商品自动分目录模块 c l a s s i f yd a t a 模块流程: 1 当一条新的商品数据进入时,先进行r e p l a c es o m es y m b o l 及n o r m a l i z e 处理。 第3 章海昔未匹配商品自动分目录的算法设计 2 t o k e n i z e r 成多个词组,通过对k n o w l e d g ed n ad b 的查询,计算出权值, 找出对应的c a t e g o r y 。 流程图如下: 图3 3 自动分目录模块流程图 1 3 第3 章海量未匹配商品自动分目录的算法设计 3 3 算法设计的接口 由于我们公司运营的比较购物网站有北美( h t t p :m s m a r t e r c o m ) 和中 国( h t t p :w w w s m a r t e r c o m c n ) 两个站点,而g e n e r a t ek n o w e d g ed n ad b 模块和c l a s s i f yd a t a 模块在这两个网站里的处理方式上相同。只有第一个模块 g e n e r a t ek n o w l e d g ed i cd b 模块的处理算法接口不一样,其主要的不同之处就 在于英文分词和中文分词的处理算法上的不同接下来的两章便是在此不同点上 分别对这2 种未匹配的海量商品数据自动分目录功能的相关详细算法设计的说 明。 1 4 第4 章英文商品自动分目录的实现 第4 章英文商品自动分目录的实现 4 1 英文分词简介 众所周知,英文是以词为单位的,词和词之间是靠空格隔开。由于英文在书写 上的特殊性,使得分词算法相对中文来说简单得多。一般来说,我们可以通过 单词与单词之间的空格,以及标点符号来完成这个分词过程。假设有如下英文 句子: ”h e l l ow o r l d ! h e l l oj 、v a ! ” 通过上面提及的方法,可以很简单的把这个句子分词为: 1 h e l l o 2 w o r l d 3 h e l l o 4 j a v a 4 2 字典库生成 这个模块是c l a s s i f y 的英文分词模块,在这个模块里主要有以下几个子模块: 1 特殊词替换( r e p l a c es o m es y m b o la n ds t o pw o r d ) 2 拼写检查( s p e l lc h e c k ) 3 单复数处理( s t e m ) 4 同义词处理( a 1l a s ) 接下来将详细说明各个模块的作用和设计思想。 4 2 1 特殊词替换 首先需要处理的第一个步骤就是将商品名称中的一些特殊字符和s t o pw o r d 过滤掉,因为这些词在对语义的理解上没有什么帮助,留下来反而会影响后面 模块的处理程序的性能。 第4 章英文商品自动分目录的实现 例如:商品名为h e r t r yj u s t i c ef o r dt h eg r e e ks t o i cp h i l o s o p h e ra t h e n o d o r u s ( d i e d7a d ) 中的( d i e d7a d ) 我们是要过滤掉得,商品名为b r m d e dw i r es l e e v i n g m o l e xe x t r a c t i o nt o o l s m a l lf o rc a b l em a n a g e m e n t 中的f o r 我们也是 要过滤掉的。 常见的特殊字符有以下一些:( ) 。? ! 】 ) 常见的s t o pw o r d 有:a ,a l s o ,a n ,a n d ,b e ,b o t h ,b y ,咖,f o r ,f r o m ,i n , i s 等等。 本模块的w e b 功能操作页面如下图所示,主要是用来设置s t o pw o r d 的内 容范围。 1 6 第4 章英文商品自动分目录的实现 4 2 2 拼写检查 图4 1 特殊词设置图 在进行完r e p l a c es o m es y m b o la n ds t o pw o r d 这个模块的处理后,将对剩 下的商品名称字符串进行按空格分词并对分词出来的结果进行统计。出现频率 较低的词我们会默认为它是一个拼写错误的单词,我们会按照顺序对它进行逐 第4 章英文商品自动分目录的实现 个字母的替换,知道找到有出现频率较高的词为止。我们会认为这个拼写错误 的词正确的拼写形式应该是这个出现频率较高的词的形式。但是在确认这个词 确实应该替换之前需要人工r e v i e w 来确保替换的正确性。比如a b o l o n e ,它就 是个错误的单词,正确的拼写形式应该为a b a l o n e 。 本模块的w e b 功能操作页面如下图所示: 4 2 3 单复数处理 图4 ,2 拼写检查设置图 由于英文中存在单复数的问题,因此在商品名称中也存在这样的问题。这样 就会不利于词频的统计以及后续的处理,所以我们要进行这个步骤的处理。就 第4 章英文商品自动分目录的实现 是将单词的单复数统一化,我们统一采用单数的形式来进行处理。比如:b a d i e s 我们会转换成b a b y 。c h i l d r e n 我们会转换成c h i l d 。 本模块的w e b 功能操作页面如下图所示: 4 2 4 同义词处理 图4 3 单复数设置图 在英文中有很多意思相近或者是变异的词体,他们表达的是同一个意思, 但是会在不同的商品名称中出现。对于这些词,我们也要进行统一的规范化处 理,这样才能是统计计算出来的结果更准确。比如:g e n t l e m a n 我们会替换成 m a n ,h p 我们会替换成h e w l e t t p a c k a r d 。 本模块的w e b 功能操作页面如下图所示: 1 9 第4 章英文商品自动分目录的实现 4 2 5 初始化处理 图4 4 同义词设置图 我们称以上的这个过程为一个n o r m a l i z e 的过程,即初始化。比如一个商 品名字为l i t t l et h i n g sm e a nal o tc o t t o nb a t i s t eb o n n e t 在处理后变为 l i t t l et h i n g sm e a nl o tc o t t o nb a t i s t eb o n n e t 。 4 3d n a 库生成 经过第一个过程g e n e r a t ek n o w l e d g ed i cd b 的处理之后,所有的我们的 d b 里已经按照m f n a m e + s k u 匹配方式正式匹配上的商品已经被分成一串空格相隔 的英文字符串了。本模块就是要按照空格将此字符串分隔开( 有分成1 个单词, 2 个单词串,3 个单词串3 种情况) ,并统计它们在各个c a t e g o r y 下的词频来 计算它们的权重值,当然,程序算出来的权重值要经过人工r e v i e w 以后才可以 使用,比如上个商品中的l i t t l e 这个词,它出现的次数多但是由于它代表的意 义不具有针对性,即使出现的次数很多,词频比较高,在人工r e v i e w 的时候也 会把它的权重设置的很小或者设置为0 ,因为几乎所有分类的商品名称中都有可 能出现1 i t t l e 这个词。另外一点就是3 个词的字串所占的权重肯定是要比1 个 单词的权重占的要大得多。比如有一个未匹配的商品名字中有c o t t o nb a t i s t e 2 0 第4 章英文商品自动分目录的实现 b o n n e t 字样,那么它被分在l i t t l et h i n g sm e a nl o

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论