基于演员信息调查结果的数据挖掘_第1页
基于演员信息调查结果的数据挖掘_第2页
基于演员信息调查结果的数据挖掘_第3页
基于演员信息调查结果的数据挖掘_第4页
基于演员信息调查结果的数据挖掘_第5页
已阅读5页,还剩13页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、商务智能与数据挖掘数据挖掘技术在电影行业中的应用基于演员信息调查结果的研究目录1商业理解11.1研究背景与目的11.2研究对象11.3研究方法12 数据理解12.1数据的收集12.2.数据预处理23数据准备23.1数据输入23.2数据编码34.建立模型54.1决策树模型54.2关联规则模型94.3 BRP神经网络模型124.3.1 训练124.3.2 测试145. 总结151商业理解1.1研究背景与目的在当今的电影行业中,导演在选取演员时很多都是凭感觉和推荐,很好去挖掘演员信息来确定,在薪酬方面也不合理,有些导演为了提高电影票房,一味的去选取知名度较高的明星及所谓的大腕,付予高报酬,大大地增加

2、了其制作成本。本文通过对演员调查信息的分析,找出与收入有关的因素,并分析其规则。为导演在选取演员和决定所付薪水时提供依据,有效地减少制作成本。1.2研究对象本文主要以MovieSurvey中所调查的演员为研究对象来对演员的Income进行分析,找出其有关因素。1.3研究方法主要采用的是决策树技术、关联规则、神经网络3种数据挖掘方法,对大量的演员信息调查数据进行分析与挖掘,最后形成相关数据模型。2 数据理解2.1数据的收集本文主要是以MovieSurvey.mdb中所调查的演员为研究对象,由于所调查的演员数量较多有3500多条,并且某些演员信息不全,经筛选后这里只取了信息完整的,所在国家为Uni

3、ted States的Female演员,一共有310条记录。将前200条记录作为训练集,后面110条数据作为测试集。2.2.数据预处理由于准备用于挖掘的演员信息表中的属性个数较多,有22个。为了便于决策树模型的建立,选择其中与Income属性相关性较大的Age ,Education Level, MaritalStatus, Home Ownership, Num Children, Num Cars, Theater Freq 七个属性作为建立Income分类决策树模型的依据,生成新的演员信息基本数据表。3数据准备3.1数据输入(1)在数据窗口,选择菜单“文件新建数据窗口”,建立一个新的数据

4、文件。如图3-1。图3-1 进入数据窗口(2)在数据窗口,点击工具栏上的变量设置按钮,切换到变量窗口。并进行变量设置如下:图3-3 变量设置(3)数据录入3.2数据编码编码规则:1. 变量Age属性:2030用“1”表示,3040用“2”表示,4050用“3”表示,5060用“4”表示2. 变量Education level属性:masters degree 用“1”表示,Post-Doc用“2”表示,Bachelors degree用“3”表示,some college 用“4”表示,Doctorate 用“5”表示,Associates degree用“6”表示,Grade School

5、用“7”表示,high school 用“8”表示。3. 变量Home Ownership属性:Own用“1”表示,Rent 用“2”表示4. 变量Marital Status属性:Married用“1”表示,Never Ma用“2”表示,Separate用“3”表示,Other 用“4”表示5. 变量Num Children属性:用0、1、2、3表示实际个数6. 变量Num Cars属性:用0、1、2、3、4表示实际个数7. 变量Theater Freq属性:Rarely用“1”表示,weekly用“2”表示,Monthly用“3”表示,Never 用“4”表示编码后结果如下图3-4 编码后

6、数据表(图中为一部分)4.建立模型4.1决策树模型用决策树方法进行挖掘的步骤和结果如下所示:1.选择数据挖掘决策树图4-1 选择数据源2.选择决策树方法 图4-23.数据源、决策树相关设置其相关设置如图4-4和图4-5所示。图4-3数据源设置图4-4 变量设置图4-5 决策树设置4.得出统计信息(1)决策树描述: 所处理记录个数:200;丢弃的记录个数:2;决策树正确率:100.0,(分裂时一个分支的最小样本数大于2 ,连续值分叉结点的最大分叉数3;生成树方法为信息熵 ;树剪枝的方法:深度剪枝,最大深度为5) (2)决策树结果见图4-6图4-6 决策树(3) 决策树变量分类重要性决策树变量分类

7、重要性变量名称重要性EducationLevel87.22HomeOwnership55.91MaritalStatus100.00TheaterFreq58.12CustomerID62.26Age58.02NumChildren29.32NumCars58.78表4-7决策树变量分类重要性(4)相关规则有决策树结果信息和变量属性的表示方法可以得到65条规则.由于规则较多,下面选取的是可信度为100%的规则一共19条规则4 如果: Marital Status 属于 Married 并且: Education Level 属于 Bachelor's Degree 并且: Custom

8、er ID 属于 884765.99 ,891464.40) 并且: Theater Freq 属于 Never 那么: Income => 150000(可信度100.00%)规则9 如果: Marital Status 属于 Married 并且: Education Level 属于 Bachelor's Degree 并且: Customer ID 属于 >=904861.20 并且: Home Ownership 属于 Rent 那么: Income => 60000(可信度100.00%)规则15 如果: Marital Status 属于 Married

9、 并且: Education Level 属于 Master's Degree 并且: Age 属于 32.00 ,37.40) 并且: Num Cars 属于 >=2.20 那么: Income => 150000(可信度100.00%)规则17 如果: Marital Status 属于 Married 并且: Education Level 属于 Master's Degree 并且: Age 属于 >=37.40 并且: Customer ID 属于 890003.33 ,900478.00) 那么: Income => 100000(可信度10

10、0.00%)规则24 如果: Marital Status 属于 Married 并且: Education Level 属于 Associate's Degree 并且: Customer ID 属于 >=892014.27 那么: Income => 75000(可信度100.00%)规则26 如果: Marital Status 属于 Married 并且: Education Level 属于 Doctorate 并且: Theater Freq 属于 Weekly 那么: Income => 120000(可信度100.00%)规则28 如果: Marita

11、l Status 属于 Married 并且: Education Level 属于 Doctorate 并且: Theater Freq 属于 Never 那么: Income => 100000(可信度100.00%)规则29 如果: Marital Status 属于 Married 并且: Education Level 属于 Grade School 那么: Income => 70000(可信度100.00%)规则44 如果: Marital Status 属于 Never Ma 并且: Education Level 属于 Master's Degree 并且

12、: Age 属于 >=36.40 并且: Theater Freq 属于 Monthly 那么: Income => 60000(可信度100.00%)规则49 如果: Marital Status 属于 Never Ma 并且: Education Level 属于 Doctorate 那么: Income => 100000(可信度100.00%)规则50 如果: Marital Status 属于 Never Ma 并且: Education Level 属于 High School 那么: Income => 80000(可信度100.00%)规则51 如果:

13、Marital Status 属于 Separate 并且: Education Level 属于 Bachelor's Degree 那么: Income => 200000(可信度50.00%)规则52 如果: Marital Status 属于 Separate 并且: Education Level 属于 Doctorate 那么: Income => 135000(可信度100.00%)规则53 如果: Marital Status 属于 Separate 并且: Education Level 属于 Post-Doc 那么: Income => 10000

14、0(可信度100.00%)规则58 如果: Marital Status 属于 Divorced 并且: Education Level 属于 Bachelor's Degree 并且: Home Ownership 属于 Own 并且: Customer ID 属于 >=890170.80 那么: Income => 75000(可信度100.00%)规则59 如果: Marital Status 属于 Divorced 并且: Education Level 属于 Bachelor's Degree 并且: Home Ownership 属于 Rent 那么:

15、Income => 45000(可信度100.00%)规则60 如果: Marital Status 属于 Divorced 并且: Education Level 属于 Master's Degree 并且: Theater Freq 属于 Rarely 那么: Income => 80000(可信度100.00%)规则62 如果: Marital Status 属于 Divorced 并且: Education Level 属于 Master's Degree 并且: Theater Freq 属于 Monthly 那么: Income => 65000(

16、可信度100.00%)规则65 如果: Marital Status 属于 Divorced 并且: Education Level 属于 Post-Doc 那么: Income => 67000(可信度100.00%)4.2关联规则模型用关联规则方法进行挖掘的步骤和结果如下所示:1选择数据源这步操作与决策树中一致.2选择多维关联规则方法3关联规则相关设置见图4-8和4-9.图4-8 变量描述图4-9 参数设置4得出统计信息(1)1项频繁集1项频繁集频繁项集频数EducationLevel(Bachelor's Degree) 101HomeOwnership(Own) 114I

17、ncome(400000) 114MaritalStatus(Married) 90NumChildren(2) 90NumCars(4) 90TheaterFreq(Rarely) 69CustomerID(884789) 69Age(26) 69HomeOwnership(Rent) 84Income(44000) 84MaritalStatus(Never Ma) 79NumChildren(0) 79NumCars(1) 79TheaterFreq(Weekly) 37CustomerID(884951) 37Age(32) 37EducationLevel(Master's

18、Degree) 58TheaterFreq(Monthly) 90CustomerID(885001) 89Age(38) 89(2)部分2项频繁集(3)部分3项频繁集(4)强规则根据上面得出的频繁项集和变量属性的表示方法可以得到以下的强规则.,下图为部分强规则4.3 BRP神经网络模型4.3.1 训练用BRP神经网络模型方法进行挖掘的步骤和结果如下所示:1选择数据源及相关配置2训练精度训练样本目标值和RBF神经网络输出值的均方误差(标准化值)=0.013355训练样本目标值和RBF神经网络输出值的均方误差(实际值)=1858080344.1913943.训练结果4.3.2 测试测试样本目标值和RBF神经网络输出值的均方误差(标准化值)=0.021850测试样本目标值和RBF神经网络输出值的均方误差(实际值)=3039954544.774530测试部分结果5. 总结在本次试验中,在选题方面,我们小组讨论了很久都没有讨论出结果来,后来就决定找一份数据来做数据挖掘。在多份数据中我们选择了该文中的数据,即

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论