(计算机应用技术专业论文)数据挖掘在电影票房中的研究与应用.pdf_第1页
(计算机应用技术专业论文)数据挖掘在电影票房中的研究与应用.pdf_第2页
(计算机应用技术专业论文)数据挖掘在电影票房中的研究与应用.pdf_第3页
(计算机应用技术专业论文)数据挖掘在电影票房中的研究与应用.pdf_第4页
(计算机应用技术专业论文)数据挖掘在电影票房中的研究与应用.pdf_第5页
已阅读5页,还剩70页未读 继续免费阅读

(计算机应用技术专业论文)数据挖掘在电影票房中的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、 ad i s s e r t a t i o ns u b m i t t e dt og u a n g d o n gu n i v e r s i t yo f t e c h n o l o g yf o rt h ed e g r e eo fm a s t e ro fe n g i n e e r i n gs c i e n c e r e s e a r c ha n da p p l i c a t i o no fd a t am i n i n gi n g o m m e r c i a l 卜i i m j 、 一 m a s t e rc a n d i d a t e :z h e n gg u i g a n g 一一一 s u p e r v i s o r :p r o f t e n gs h a o h u a m a y2 0 1 0 f a c u l t yo fc o m p u t e r g u a n g d o n gu n i v e r s i t yo ft e c h n o l o g y g u a n g z h o u ,g u a n g d o n g ,p r c h i n a ,5 10 0 0 6 摘要 摘要 随着电影行业信息化系统的不断完善,制片商和放映公司积累了大量商业电 影的观众和票房销售数据,这些海量数据使用传统的查询或分析工具往往不能识 别其中有价值的信息。如何更加有效地管理电影商业数据库中快速增长的海量数 据,将数据资源的利用提高到知识创新,可实用的高级阶段,己经成为电影公司 当前需要迫切解决的问题。而数据挖掘技术则能够解决上述问题,因此数据挖掘 技术在电影商业中如何有效的应用,提取出实用的信息已经成为电影公司关注的 话题。 商业电影运作特点决定了电影票房在其经营过程中的重要地位,而有效的观 众关系分析必须建立在强有力的数据分析基础上。电影票房、观众特征数据的海 量性,一方面为电影公司进行数据分析提供了基础:另一方面也使得数据分析的难 度相对以前大大增加。如何使海量电影商业数据真正转变成为电影公司商业决策 的知识财富,有效地支持制片商及放映商对电影市场以后的决策和实施,进而迎 合观众的兴趣,爱好,赢取市场及票房,是当前制片商和放映商最为迫切的课题。 本文主要采用决策树算法,对商业电影数据和观众特征数据进行分析和挖掘。 用线性回归算法与决策树算法做比较,突显决策树算法优势。同时,结合关联规则 作辅助分析,对决策树的规则提取提供辅助分析信息,使其提取的规则更为全面, 有效。在数据的预处理方面,采用聚类的k - 均值算法对缺省值进行处理,取得较 好效果。选择s a s 作为数据挖掘软件进行了数据分析和挖掘,建立观众特征分析 和商业电影市场特征分析模型。选取c 4 5 算法作为决策树技术算法依据,并对 c 4 5 算法做了一些改进。并将改进后的决策树c 4 5 算法较好的运用到s a s 中。 最后,对改进后的决策树和线性回归算法进行了比较,通过优劣的多方面比较, 发现决策树模型相对线性回归模型整体效果更好。 随着数据挖掘技术的不断发展,电影制片公司及电影放映公司必将逐渐注重 其在商业中的应用,通过有效的利用提取出的规则和知识,从而能更有效指导以 后的运营决策工作,最终赢取市场,获得理想的票房。 广东工业大学硕士学位论文 关键词:数据挖掘,商业电影,c 4 5 ,决策树,线性回归,关联规则,聚类 a b s t r a c t a b s t r a c t w i t hs y s t e mi m p r o v e m e n to ft h ef i l mi n d u s t r y , ag r e a td e a lo fs a l ed a t aa n d n u m b e ro fa u d i e n c e sh a db e e na c c u m u l a t e db yt h em a n u f a c t u r e r so ff i l ma n dt h e o p e r a t o r so f f i l m t h em a s s i v ed a t aa r eu s u a l l yu s e df o rt r a d i t i o ni n q u i r ya n da n a l y s i s t o o l ,w h i c hc a n n o tr e c o g n i z es o m eo fv a l u a b l ei n f o r m a t i o ni nf i l m t h ec u r r e n ti s s u e h a su r g e n t l yb e e ne x p l a i n e db yt h ef i l mc o m p a n i e sa b o u th o wt om a n a g ee f f e c t i v e l y t h ei n c r e a s i n gd a t a b a s eo ft h ec o m m e r c i a lf i l ma n di m p r o v et h e h i g h l e v e li n k n o w l e d g ei n n o v a t i o ni nt e r mo fu s i n gd a t a b a s er e s o u r c e s h o w e v e r , t h ei s s u ei s p r o b a b l ys o l v e db yd a t am i n i n gt h a tb e c o m e st h ec o n c e r n i n gt o p i ci nf i l mc o m p a n i e s , w h i c hi sa b o u th o wt h et e c h n o l o g yo fd a t am i n i n gh a sc o m p l e t e l yb e e na p p l i e df o rt h e c o m m e r c i a lf i l m t h eo p e r a t i o no fc o m m e r c i a lf i l md e c i d e st h eb o xo f f i c ea n dt h es i g n i f i c a n t m a n a g e m e n tp r o c e s s ,h o w e v e r , t h ee f f e c t i v er e l a t i o n s h i po fa u d i e n c ea n a l y s i sm u s t e s t a b l i s ho nt h eb a s i so fs t r o n gd a t aa n a l y s i s t h eh u g ed a t aa r ed o m i n a t e db yt h eb o x o f f i c ea n da u d i e n c ec h a r a c t e r o nt h eo n eh a n d ,t h et r e m e n d o u sd a t aa r eb a s e do na l l a n a l y s i so ft h ef i l mc o m p a n i e s ;o nt h eo t h e rh a n d ,t h em a s s i v ed a t aa l s oi n c r e a s em u c h d i f f i c u l t yf o rt h ep r o c e d u r eo fa n a l y s i sd a t a t h e r e f o r e ,t h ew a yt h a tt h eh u g ed a t ao f c o m m e r c i a lf i l ma c t u a l l yt r a n s f e ri n t ot h ei n f o r m a t i o nc o u l d b e p r o v i d e dw i t h c o m m e r c i a ld e c i s i o na n dk n o w l e d g ew e a l t hi nt h ef i l mc o m p a n i e s ,w h i c ha r eu s e f u lf o r s u p p o r t i n gf u r t h e rd e c i s i o na n di m p l e m e n t a t i o ni nf i r mm a r k e t i n g ,s ot h a tt h ef i l m c o m p a n i e sa r ec a t e r i n gt od e m a n dt h ea u d i e n c e si n t e r e s tb e t t e rt og a i nt h eh i g h e rb o x o f f i c e t h ep a p e ra i m st oa d o p tt h ed e c i s i o nt r e ea st h em a i na l g o r i t h m i no r d e rt o p r o m i n e n tt h ea d v a n t a g eo ft h ed e c i s i o nt r e e ,w eu s et h el i n e a rr e g r e s s i o na l g o r i t h m st o c o m p e t ew i t hd e c i s i o nt r e ea l g o r i t h m m e a n w h i l e ,i tc o m b i n e sw i t ht h ea s s o c i a t i o nr u l e a sa na i d e da n a l y s i st h a tp r o v i d e sam o r ec o m p r e h e n s i v ea n de f f e c t i v ei n f o r m a t i o nt o a b s t r a c tt h er u l eo fd e c i s i o nt r e e i nt h ea s p e c t so fd a t ap r e p r o c e s s o r , i tg e t sag r e a t e r i i i 广东工业大学硕士学位论文 a c h i e v e m e n tt h a tu s e st h ek - m e a n sa l g o r i t h mt od e a lw i t ht h ed e f a u l tv a l u e i ti s e s s e n t i a li s s u ef o rc h o o s i n gt h es a sa st h es o t t w a r eo fd a t am i n i n gt ob ea v a i l a b l ef o r t h ed a t ao fa n a l y s i sa n dm i n i n g i te s t a b l i s h e st h ea n a l y s i sm o d e lb o t ht h ea u d i e n c e s c h a r a c t e ra n dt h em a r k e t i n go fc o m m e r c i a lf i l m i ti so nt h eb a s i co fa d o p t i n gc 4 5 a l g o r i t h mt ot h ed e c i s i o nt r e e ;t h e r e f o r e ,i ts h o u l dh ec e r t a i n l yi m p r o v e di n t ot h eh i g h e r l e v e lo fc 4 5a l g o r i t h ma n dt h ei m p r o v e dd e c i s i o nt r e ei sc o m p l e t e l ya p p l i e df o rt h e s a s f i n a l l y , t h ef i n d i n gi st h a tt h em o d e lo fd e c i s i o nt r e ei sb e t t e rt h a nt h em o d e lo f l i n e a rr e g r e s s i o na f t e rm a k i n gac o m p a r i s o nw i t ht h e m w i t ht h ed e v e l o p i n gt e c h n o l o g yo fd a t am i n i n g ,t h em a n u f a c t u r e sa n do p e r a t o r so f f i l mc o m p a n i e sw i l lg r a d u a l l yf o c u so nt h et e c h n i c a la p p l i c a t i o ni nc o m m e r c eb r i n g i n g a b o u tt h eg r e a t e rr e s u l ti nt h eo p e r a t i o n a li n s t r u c t i o no fd e c i s i o n - m a k i n gi nt h ef u t u r e k e y w o r d s :d a t am i n i n g ;c o m m e r c i a lf i l m ;c 4 5 ;d e c i s i o nt r e e ;l i n e a r r e g r e s s i o na n a l y s i s ;a s s o c i a t i o nr u l e i v 目录 目录 摘要i a b s t r a c t i i i 第一章绪论l 1 1 本文研究背景及意义1 1 1 1 背景1 1 1 2 意义2 1 2 数据挖掘应用现状3 1 3 本文的工作和结构一4 第二章相关技术简介6 2 1 数据挖掘的概念6 2 1 1 数据挖掘定义6 2 1 2 数据挖掘过程6 2 2 3 本文用到的数据挖掘技术8 2 2s a s 模型简介1 l 2 - 3 本章小节1 l 第三章电影票房数据分析系统1 2 3 1 分析系统的体系结构1 2 3 2 各部分功能介绍1 3 3 2 1 数据预处理13 3 2 2 涉及算法及算法挖掘1 4 3 2 3 挖掘分析1 4 3 2 4 实验结果展示1 5 3 3 本章小节1 6 第四章电影数据的预处理1 7 4 1 数据挖掘中的预处理1 7 4 1 1 原始数据中的问题1 7 4 1 2 预处理的作用18 v 广东工业大学硕士学位论文 4 2 数据源描述18 4 3 数据仓库设计1 9 4 3 1 基本结构2 0 4 3 2 数据表之间的关系2 0 4 4 数据预处理2 l 4 4 1 属性选择2 l 4 4 2 数据聚集2 2 4 4 3 填充空缺值2 3 4 4 4 去除噪声数据2 5 4 5 本章小节2 6 第五章电影票房数据分析算法设计2 7 5 1 关联规则2 7 5 2 回归分析3 0 5 3 决策树3 1 5 3 1c 4 5 算法3 3 5 3 2c 4 5 算法的改进3 6 5 3 3 算法分析3 8 5 4 本章小节3 9 第六章实验及结果分析4 0 6 1 实验环境4 0 6 2 结果展示及分析一4 0 6 2 1 主要属性的特征分析4 0 6 2 2 观众对电影评级的特征分析4 3 6 2 3 观众的特征分析4 5 6 2 4 电影的特征分析4 7 6 3 评估对比5 0 6 4 本章小节5 3 总结5 4 参考文献5 6 攻读硕士学位期间发表的论文6 0 v i 目录 独创性声明6 至炙谢6 v n c o n t e n t s c h i n e s ea b s t r a c t i e n g l i s ha b s t r a c t i ii c h a p t e r1p r e f a c e 1 1 1b a c k g r o u n da n ds i g n i f i c a n c e 1 1 1 1b a c k g r o u n d 1 1 1 2s i g n i f i c a n c e 2 1 2s t aq u oo fd a t am i n i n g 3 1 3a r r a n g e m e n to ft h ep a p e r 4 c h a p t e r2i n t r o d u c t i o no fd a t am i n i n ga n ds a s 6 2 1c o n c e p ti o no fd a t am i n i n g 6 2 1 1d e f i n eo f d a t am i n i n g 6 2 i 2p r o c e s s i n go fd a t am i n i n g 6 2 1 3d a t am i n i n gt e c h n o l o g i e si np a p e r 8 2 5i n t r o d u c t i o nn l em o d e lo f s a s 1 1 2 6c o n c h 塔i o n 11 c h a p t e r3b o xo f f i c ea n a l y s i ss y s t e m 1 2 3 ii d e ao f a n a l y s i ss y s t e md e s i g n 1 2 3 2r e s u l ta n da s s e s s m e n to f e x p e r i m e n t 1 3 3 2 ip r e p r o c e s s i n go f d a t a 1 3 3 2 2r e f e ra l g o r i t h m sa n da l g o r i t h m si m p r o v e m n t 1 4 3 2 3a n a l y s i so f d a t am i n i n g 1 4 3 2 4e x h i b i t i o no f r e s u l t 。1 5 3 3c o n e l u s i o n 1 6 c h a p t e r4p r e p r o c e s s i o nt h ed a t ao ft h ef i l m 一1 7 4 1p r e p r o c e s s i o no f t h ed a t am i n i n g 1 8 4 1 1p r o b l e mo f t h eo r i g i n a ld a t a 1 7 4 1 2e f f e c to f p r e p r o c e s s i o n 1 8 v i l l c o n t e n t s 4 2d e s c r i p t i o no f o r i g i n a ld a t a 18 4 3d e s i g no f d a t a b a s e 2 1 4 3 1b a s i cc o n s t r u c t i o n 2 2 4 3 1r e l a t i o n s h i po f t a b l e s 2 2 4 4p r e p r o c e s s i n go f d a t 2 1 4 3 1c h o o s et h ea t t r i b u t e s 2 1 4 3 2d a t aa g g r e g a t i o n 2 2 4 3 3f i l l i n gt h em i s s i n gv a l u e s 2 3 4 3 4r e m o v en o i s ed a t a :! ! ; 4 5c o n c l n s i o n 2 6 c h a p t e r5d e s i g no fa l g o r i t h mi nc o m m e r c i a lf i l m 2 7 1 ;1a s s o c i a t i o na l g o r i t h m 2 7 5 2r e g r e s s i o na n a l y s i s 3 0 1 ;3d e c i s i o nt r e e 3 1 5 3 1c 4 5a l g o r i t h m 3 3 5 3 2i m p r o v e m e n to f c 4 5 3 5 5 3 2a l g o r i t h ma n a l y s i s 3 8 1 ;4c o n c l u s i o n 3 9 c h a p t e r6e x p e r i e m n ta n dr e s u l ta n a l y s i s 4 0 6 ie x p e r i m e n te n v i r o m e n t 4 0 6 2r e s u l te x h i b i t i o n 4 0 6 1 1c h a r a c t e ra n a y l s i so f m a j o ra t t r i b u t e s 4 0 6 1 2c h a r a c t e ra n a y l s i so f r a t i n g s 4 3 6 1 3c h a r a c t e ra n a y l s i so f u s e r s 4 5 6 1 4c h a r a c t e ra n a y l s i so f m o v i e s 4 7 6 3a s s e s s m e n to f c o m p a r i s o n 5 0 6 4c o n c l u s i o n 5 3 c o n c l u s i o n 5 4 r e f e r e n e e s 5 6 p u b l i c a t i o n sd u r i n gm a s t e r ss t u d i e s 6 0 i x 广东工业大学硕士学位论文 o r i g i n a lc r e a t i o nd e c l a r e 6 1 a c k n o w l e d g m e n t 6 2 x 第一章绪论 第一章绪论 1 1 本文研究背景及意义 1 1 1 背景 改革开放3 0 年以来,中国电影产业经历了翻天覆地的变革。从打破荧屏初 吻禁忌的庐山恋,到代表新时期电影创作的新篇章红高粱,似乎没有其 他艺术形式像电影这样,润物无声地推动着中华大地的思想解冻,见证了时代的 伟大变迁。从2 0 世纪9 0 年代中国电影的寂寥冷落至u 2 0 0 2 年中国大片英雄的横 空出世,中国电影在艰难跋涉中走向产业化。近年来,随着中国电影产业化进程 的不断加快,影院和电影公司建设持续健康发展。与不断完善的终端建设齐头并 进的是创作的繁荣发展。f 1 2 0 0 2 年来,英雄、十面埋伏、满城尽带黄 金甲、集结号、赤壁、梅兰芳等一大批“高投资、高风险、高回 报 的国产大片相继问世,并带动着中国电影的整体票房逐年递增。另外,一系 列电影产业化政策的出台,促使我国电影市场的同趋繁荣,初步显示了电影产业 的巨大潜力。 2 0 0 8 年中国电影票房( 不含农村市场) 达至f j 4 3 4 1 亿元,较2 0 0 7 年增长l o 1 4 亿 元,增幅达3 0 4 8 。特别是2 0 0 8 年1 2 月,全国票房超过5 亿元,被称为“井喷式” 的增长。加上国产电影的海外销售收入2 5 2 8 亿元和全国各电影频道播放电影的广 告收入1 5 6 4 亿元,全年电影综合效益达到8 4 3 3 亿元,比2 0 0 7 年增长1 7 0 7 亿元, 增幅达2 5 3 8 ,创下了辉煌的历史新高。n 2 0 0 8 年底,全国影院公司范围内新增 影院1 1 8 家,总数达到1 5 4 5 家,【= l 2 0 0 7 年增长8 2 7 ;新增银幕数5 7 0 块,平均每 天新诞生1 5 6 块银幕,全国银幕总数达至u 4 0 9 7 块,比2 0 0 7 年增长1 6 1 6 。 虽然2 0 0 8 年中国电影产业高速发展,但是4 3 亿元的票房相对1 3 亿人口,还是 微乎其微,这个数字可能不如一个市场上中等知名度品牌食品的一年销售额。2 0 0 9 年,从电影局的预期是希望能增) j n 6 0 0 块银幕( 大部分是数字银幕) 。这些数字是 振奋人心的,中国电影市场前景一片光明。预计在2 0 0 9 年,中国一级市场的票房 总和将在2 0 0 8 年的基础上增加1 0 亿元,达n 5 0 多亿元的可观数字。国内电影市场 广东工业大学硕士学位论文 规模相较成熟的好莱坞来说,差距仍十分巨大,这也意味着国内电影行业将保持 很长一段时间的增长,这是发展的大趋势。 即使在这样的市场里,我们相当大的市场已经被一部分美国片占领了。所以, 近来2 0 部美国片和近来1 0 部欧洲片,与其说对中国电影造成压力,倒不如说他们 自己之间相互挤压空间,更大的压力将会落在他们自己对市场的调整上。计划经 济年代按照行政区域设置的中国电影发行体制是电影市场发展的一大障碍。这些 发行公司今天已经是发行商了,但长期垄断经营造成弊端丛生,积习难改。加入 世贸组织将士的无数的发行企业根本没有时间做什么准备。据业内人士估计,在 竞争众能幸存下来的发行企业包括中影公司在内不会超过l o 家,他们要么是能掌 握发行渠道,要么是拥有院线。 相反的情况是,一个取名为罗艺的美国人在中国创办的艺码电影公司却获得 了惊人的市场效益。艺码电影公司与国内优秀青年创作者合作( 如张扬、施润玖) , 发掘中国电影市场欠缺的而电影观众喜爱的都市喜剧爱情电影类型,爱情麻辣 烫的出品使艺玛公司名声大躁。紧接着的美丽新世界以及洗澡都获得 了可观的票房价值。在国内电影生产一片萧条的氛围里,艺码电影公司的运作方 式已经成为中国电影市场上的”焦点现象”。 而国内,从1 9 9 6 年开始,电影改革进程的缓慢所带来的种种束缚、电视的巨 大冲击、娱乐消费市场的剧烈竞争、新的大众传播媒介的四面夹击,中国电影经 历了许多意料之中和意料之外的波折。 虽然有着如此大的市场空间,但目前中国的电影制片人及电影放映商,及网 络电影点播是非常混乱的。通常没有明确了解市场的需求,即使优秀的影片,没 有找到适合的观众来放映,票房也不会乐观。例如:一部优秀的,适合白领的电 影,却在周一到周五全天候放映,到周末也不加场,这样是不适合的。 1 1 2 意义 我们应当注意到,国内电影商业运作在调整发展的同时,隐含着巨大的经营 危机。商业电影的产出和质量,没有针对观众的需求,针对市场的客观规律作调 查和调整。在海外商业电影的大举进攻下,在国内其它媒体的包围下,如电视, 戏剧,音乐会等,国内的商业电影的发展“快速且低迷”。2 0 0 9 年的第一级电影 市场,有5 0 多亿的票房记录。但这和中国众多人口,市场巨大相驳。 2 第一章绪论 因此,为了更好解决国内商业电影发展的瓶颈问题,适应商业电影的发展趋 势,电影制片公司必须对电影观众的喜好,特征,年龄等进行分析,以支持电影 放映公司的风险防范,用电影品质以观众喜好来保持市场保有量的策略,从而实 施有效的观众关系分析,进一步激发市场需求。同时,考虑到商业电影业务的海 量数据,应用数据仓库和数据挖掘技术具有更大的适用性和紧迫性。所以,对于 数据挖掘技术在电影观众观众关系管理中的应用研究有重要的理论和实用价值。 1 2 数据挖掘应用现状 数据挖掘技术【m 】从一开始就是面向应用的。目前在很多领域,数据挖掘都是 一个很时髦的词,尤其是在如银行、电信、保险、交通、教育【3 4 1 、电力【5 1 零售( 如 超级市场) 等商业领域。 1 市场营销。由于管理信息系统和p o s 系统在商业尤其是零售业内的普遍使 用,特别是条形码技术的使用,从而可以收集到大量关于用户购买情况的数据, 并且数据量在不断激增。对市场营销来说,通过数据分析了解观众购物行为的一 些特征,对提高竞争力及促进销售是大有帮助的。利用数据挖掘技术通过对用户 数据的分析,可以得到关于顾客购买取向和兴趣的信息,用w e b h 志数据进行挖 捌6 1 这些信息,从而为商业决策提供了可靠的依据。数据挖掘在营销上的应用可 分为两类:数据库营销( d a t a b a s em a r k e r t i n g ) 和货篮分析( b a s k e ta n a l y s i s ) 。数据库营 销的任务是通过交互式查询、数据分割和模型预测等方法来选择潜在的顾客,以 便向它们推销产品。通过对已有的顾客数据的分析,可以将用户分为不同级别, 级别越高,其购买的可能性就越大。货篮分析是分析市场销售数据以识别顾客的 购买行为模式,例如:如果a 商品被选购,那么b 商品被购买的可能性为9 5 ,从 而帮助确定商店货架的布局排放以促销某些商品,并且对进货的选择和搭配上也 更有目的性。 这方面的系统有:o p p o r t u n i t ye x p l o r e r ,它可用于超市商品销售异常情况的 因果分析等,另# j , i b m 公司也开发了识别顾客购买行为模式的一些工具 ( i n t d l i g e n t m i n e r 和q u e s t 中的一部分) 。 2 金融投资。典型的金融分析领域有投资评估和股票交易市场预测,分析方 法一般采用模型预测法( 如神经网络或统计回归技术) 。由于会融投资的风险很大, 在进行投资决策时,更需要通过对各种投资方向的有关数据进行分析,以选择最 3 广东工业大学硕士学位论又 佳的投资方向。无论是投资评估还是股票市场预测,都是对事物发展的一种预测, 而且是建立在对数据的分析基础之上的。数据挖掘可以通过对已有数据的处理, 找到数据对象之间的关系,然后利用学习得到的模式进行合理的预测。 这方面的系统有f i d e l i t ys t o c ks e l e c t o r 和l b sc a p i t a lm a n a g e m e n t 。前者的任 务是使用神经网络模型选择投资,后者则使用了专家系统、神经网络和基因算法 技术来辅助管理多达6 亿美元的有价证券。 3 欺诈甄别。银行或商业上经常发生诈骗行为,如恶性透支等,这些给银行 和商业单位带来了巨大的损失。对这类诈骗行为进行预测可以减少损失。进行诈 骗甄别主要是通过总结j 下常行为和诈骗行为之间的关系,得到诈骗行为的一些特 性,这样当某项业务符合这些特征时,可以向决策人员提出警告。 这方面应用非常成功的系统有:f a l c o n 系统和f a i s 系统。f a l c o n 是h n c 公司开发的信用卡欺诈估测系统,它已被相当数量的零售银行用于探测可疑的信 用卡交易;f a j s 则是一个用于识别与洗钱有关的金融交易的系统,它使用的是一 般的政府数据表单。此外数据挖掘还可用于天文学上的遥远星体探测、基因工程 的研究、w e b 信息检索【7 】等。 虽然数据挖掘已经成为许多商业领域的一个热门,数据挖掘也已经成为许多 企业在国际市场上赢得竞争优势的重要的竞争工具之一。国内外早期的研究集中 在算法的研究上。其实很多时候技术不是主要的问题。如何实现从技术到商业的 应用才是困扰业界的主要难题。首先,执行技术( 算法思想) 的众多开发工具就 各有倚重,当前,没有一个开发工具是完全全面的。其次,在研究和商业应用中, 当前的应用取得比较好的效果,但也存在一些问题。 本文试图在应用方面有所贡献。试图分别从实践和理论两个角度来阐释数据 挖掘的现实的实用性和战略的重要性。本文致力于电影票房的数据挖掘的商务应 用;从技术和商业需求两个方面分别研究了数据挖掘商务应用的可行性,并指出 因竞争战略的细化导致了对数据挖掘的商业需求;最后选择适当的数据挖掘工具 ( s a s ) 实现了应用。 1 3 本文的工作和结构 当前,国内针对商业电影数据的研究非常少,通过寻找工具广域查找和专业 论文查找,未能找到将数据挖掘理论用于商业电影的论文和理论。而更进一步应 4 第一章绪论 用于电影行业实际工作中的更加有限,个人认为造成这种情况的主要原因是: 1 、各个电影公司的观众数据属于商业机密,非电影公司人员难以熟悉电影 业务、了解电影商业实际情况、接触到大量实际数据,所以非电影公司的相关研 究人员在对业务、数据的理解、分析上有比较大的困难: 2 、对于电影公司的工作人员,有实际的应用需求,但是由于工作的限制没有 时间、精力对电影商业数据进行深入研究。 3 、电影作为一个娱乐行业,绝大多数人们通常无法将注意力集中到该行业去 认真对待。从而忽略对电影行业展开各方面的研究及应用。 本文选取商业电影作研究背景,以观众对电影的评级为主体,进行分析,挖 掘。而观众特征分析,主要对观众的属性特征进行分析。电影特征分析,主要对 电影本身属性特征进行分析。通过已有的票房记录,观众对电影的评级记录,对 不同的电影片种,进行决策树和回归模型分析。通过关联规则,找到电影题裁之 间的关联规则,对决策树的规则提取提供辅助作用,使提取规则集时,提取的信 息更全面,有效。最终得到的规则和信息,结合电影本身的特征,对以后市场走 向做预期指导,达到预测票房的目的。 本文共分六章: 第一章主要阐述国内外电影商业市场业务的发展状况,对于电影市场的重要 性,行业现状,全文结构。 第二章概要介绍了数据挖掘的定义、过程、技术及s a s 挖掘工具简介。 第三章给出了电影票房数据分析系统的体系结构和各部分功能简介。 第四章描述了商业电影票房数据预处理。 第五章结合论文中的数据,对决策树,回归,关联规则算法进行设计。 第六章挖掘模型的实验及结论,对实验环境进行描述。给出结果并加以分析。 文章最后是总结。 广东工业大学硕士学位论文 第二章相关技术简介 2 1 数据挖掘的概念 2 1 1 数据挖掘定义 数据挖掘( d a t a mi n 啦) ,顾名思义就是从大量的数据中挖掘出有用的信息,即 从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中发现隐含的、 规律性的、人们事先未知的,但又是潜在有用的并且最终可理解的信息和知识的 过程。事先未知

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论