




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 1 第十届第十届“认证杯认证杯”数学中国数学中国 数学建模网络挑战赛数学建模网络挑战赛 承承诺诺书书 我们仔细阅读了第十届“认证杯”数学中国数学建模网络挑战赛的竞赛规则。 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网 上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的 资料(包括网上查到的资料) ,必须按照规定的参考文献的表述方式在正文引用处和参 考文献中明确列出。 我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规 则的行为,我们接受相应处理结果。 我们允许数学中国网站()公布论文,以供网友之间学习交流,数学中 国网站以非商业目的的论文交流不需要提前取得我们的同意。 我们的参赛队号为:我们的参赛队号为:1087 参赛队员参赛队员(签名签名) : 队员 1:李予宸 队员 2:龚爱 队员 3:鄢然 参赛队教练员参赛队教练员 (签名签名): 参赛队伍组别(例如本科组参赛队伍组别(例如本科组) :本科组:本科组 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 2 第十届第十届“认证杯认证杯”数学中国数学中国 数学建模网络挑战赛数学建模网络挑战赛 编编 号号 专专 用用 页页 参赛队伍的参赛队号:(请各个参赛队提前填写好): 1087 竞赛统一编号(由竞赛组委会送至评委团前编号): 竞赛评阅编号(由竞赛评委团评阅前进行编号): 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 3 2017 年第十届年第十届“认证杯认证杯”数学中国数学中国 数学建模网络挑战赛第一阶段论文数学建模网络挑战赛第一阶段论文 题目移动端考研产品的春天真的来了! 关 键 词数据挖掘利润最大化定价模型TSA-BP 神经网络变权层次分析法 摘要: 本文研究了移动端考研产品发展的问题。首先根据调查问卷及问卷的结果,通过数数 据挖掘据挖掘找出了影响移动端考研产品发展的主要因素;然后建立利润最大化定价模型利润最大化定价模型,估 计了移动端考研产品的合理价格区间, 并根据BPTSA神经网络神经网络预测了该模型的潜在市 场占有率;最后选择以南京为研究对象,利用变权层次分析法变权层次分析法评价了移动端考研产品投 放的可行性。 对于问题 1, 本文利用了数据挖掘数据挖掘技术。首先,修改了现有的RFM模型模型并用该模 型对用户进行分类,最终得到三种用户类别。然后,将用户属性约简属性约简,计算出信息增益信息增益 率率,得到影响移动端考研产品的主要因素从大到小依次为:平均每日移动端复习时间、 平均每日考研复习时间、平均每日PC端复习时间、备考期长度、所在城市和考研次数。 最后,利用决策树决策树对上述模型进行评估,从而验证了模型的准确性。 对于问题 2,本文首先建立了利润最大化的定价模型利润最大化的定价模型。通过综合考虑各类移动端考 研产品的成本和 10000 份调查问卷中每种产品的需求量,将其带入定价模型中,可以得 出各类型产品的定价依次为:录播课程类产品 5.93 元/课时,直播课程类产品 17.25 元 /课时, 题库/练习类产品116.9元/账号, 单词/词典类产品58元/账号, 考点类产品55.45 元/账号。然后,基于BPTSA神经网络,带入 2016 年 1 月-2016 年 12 月移动端考研 学习产品的市场占有率数据, 并预测了其 2017 年 1 月-2017 年 7 月的市场占有率, 即从 23.9360%持续增长到 25.6048%。 对于问题 3,首先,本文以南京为研究城市,评价多因子与可行性之间多因子与可行性之间的关系,建 立了变权层次分析模型变权层次分析模型。接着,从家庭经济、考研政策、考研资源等九个角度,对线下 考研教育、线上PC端考研教育和线上移动端考研教育的可行性进行了对比分析。从而 得到现阶段移动端考研产品的可行性大小,并对提高其可行性给出了合理化建议。 本文的优点在于充分发挥MATLABSPSSEXCEL、对不同数据处理的优势,能够 快速、准确地完成数据加工处理;结合自身的数据特点,对现有的RFM模型、传统定 价模型和层次分析模型进行了合理的改进,操作简便、易推广。 关键字关键字:RFM模型 决策树模型 利润最大化定价模型BPTSA神经网络 变权层次分 析法 参赛队号:1087 所选题目:C题 参赛密码 (由组委会填写)(由组委会填写) 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 4 英文摘要(选填) In this paper ,we have analyzed the development of mobile products for graduate enrollment-examination .First of all ,according to the statistics of the questionnaires and using data mining ,we figure out the main factors that would have an impact on the development of mobile products for graduate-enrollment examination .Then ,we establish profit maximization pricing model and then estimate the reasonable prices for each kind of products on the mobile phone .Based on the price ranges,we also value their potential market shares usingBPTSA network .At last ,we choose Nanjing as our target city and use variable weight analytic hierarchy process to calculate the feasibility of mobile products for graduate-enrollment examination . Considering question 1 ,we mainly use a method called data mining .Firstly ,we make some improvements on the presentRFMmodel to classify the users into three groups .And then ,by using user attribute reduction to calculate information gain rate,we figure out the three main factors that influence the usage of mobile products for graduate enrollment examination and the results are average daily mobile review time , average daily review time for graduate enrollment exam , average dailyPCreview time ,time span for examination preparation ,city the candidates situated in and the time for the exam preparation the influence the development of this kind of mobile products .In the end ,we use decision tree to evaluate the stated model to verify its accuracy . Considering question 2, first of all, we establish a profit-maximizing pricing model.Taking the costs of various types of mobile graduate-enrollment exam products and the demands for each product of 10000 survey into account,we put them into the pricing model.The prices of each type product are as follows: recording course products are 5.93 yuan / class, live course products is 17.25 yuan / class,exam/practice products are 116.9 yuan / account, word / dictionary products are 58 yuan / account, test gist products are 55.45 Yuan / account. Then, based on theBPTSAneural network,we measure the market share data from January 2016 to December 2016 and we predict its market share from January 2017 to July 2017,which is from 23.9360% continuingly growing to 25.6048%. Considering question 3, first of all, we select Nanjing as the research city to evaluate the relationship between multi-factor and feasibility and establish the variable weight analytic hierarchymodel.Then,fromnine perspectiveincludingfamilyeconomy, entrance examination policy, entrance examination resources and so on ,we compare and analyze the feasibility of off-line undergraduate education, on-linePCeducation and on-line mobile education .As a result ,we get the feasibility of the current development of the mobile products and give rational proposals to improve its feasibility. ThemeritsofthispaperaretomakefulluseofEXCEL,SPSSand MATLABconsidering their own advantages for processing different kinds of data and then complete the data processing at a high speed and accuracy .Combining data characteristics, we improve the existingRFMmodel, the traditional pricing model and the level analysis model to make it easier to operate and promote. Key words:RFMModelDecision Tree ModelProfit Maximization Pricing Model BPTSANeural NetworkVariable Weight Analytic Hierarchy Process 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 1 一、问题重述 2017 年的全国硕士研究生招生考试共有 201 万人报名参加, 比去年增加了 24 万 名考生,增加 13.56%。近年来,随着社会考研热情的逐年增长,考研教学和培训市场 也发生了巨大的变化。移动互联网时代的到来,使得许多考研教学活动转移到了手机等 移动互联网平台。现在的线上学习市场中,纷纷涌现了依托于移动互联网的产品,如教 学 app,手机题库,单词本,错题本或依托于现有移动端视频平台的直播课程等。移动 端产品的使用人数较 PC 端更高,使用时长更长。国内某知名考研网站为了深入了解移 动端考研产品的市场占有率和发展趋势,开展了网上问卷调查,并从中随机抽取出 10000 份样本进行分析。 我们需要建立合理的数学模型找出影响移动端考研产品发展的 主要因素并估计移动端考研产品的合理价格区间, 预测移动端考研产品的潜在市场占有 率。最后,选择一个高校相对较多的城市作为研究对象,充分考虑经济、社会情况和考 研教育的特点,评价移动端考研产品投放的可行性 1。 二、问题分析 对于问题 1:根据调查问卷中的调查数据进行数据挖掘,对现有的 RFM 模型了进行 修改,重新定义了衡量用户价值的三个指标并最终将用户分成三类。通过 JAVA 语言实 现基于依赖度的改进的决策表属性约简算法, 将得到的简约属性输入决策树模型作为条 件属性构建决策树模型, 挖掘出不同用户的使用产品规则, 最后通过信息增益率的计算, 得出影响移动端考研产品发展的主要因素,并能按影响度大小排序。 对于问题 2:我们将调查的各类移动端考研产品的成本值和 10000 份调查问卷中每 种产品的需求量带入利润最大化条件下的定价模型, 求解出在利益最大化的前提下的产 品合理的定价。接着,我们基于 TSA-BP 神经网络对考研产品潜在市场占有率进行预测, 并且利用数据及经验验证了算法结果的正确性。 对于问题 3,以南京为研究城市进行了相关调查,利用变权层次分析模型建立了移 动端考研产品投放可行性评价指标体系,从经济、社会、考研教育特点的角度,对线下 考研产品、线上 PC 端考研产品和线上移动端考研产品投放可行性的进行了对比分析, 最后得到现阶段移动端考研产品的可行性大小并对提高其可行性给出了合理化建议。 三、基本假设与符号说明 1.假设问卷出题合理,填写问卷的人有区域分布均匀且有代表性; 2.假设填写问卷的人都认真填写,如实反映了自身的情况和想法; 3.假设对于问卷样本的选取随机,结果准确无误; 4.假设考研备考生只倾向于备考方式中线下备考、线上 PC 端备考和线上移动端备考方 式中的一种; 5.假设影响移动端考研产品投放可行性的各个指标互相独立,不会相互干扰。 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 2 四、模型的建立与求解四、模型的建立与求解 4.14.1问题一:影响移动端考研产品发展的主要因素问题一:影响移动端考研产品发展的主要因素-数据挖掘技术数据挖掘技术 .1 RFMRFM 模型模型 现有RFM模型的修改 将Arthur和Hughes提出的 RFM 模型进行修改 2,重新定义了衡量用户价值的三个 指标,时长 R(每日移动端学习时间,Routine) 、倾向 F(倾向的学习方式,Favoritism) 和途径 M(获得考研资讯的途径,Method)并对用户进行分类。时长指平均每日通过移 动端学习的时间,访问时间越长,用户的忠诚度越高;倾向指用户喜欢的学习方式,我 们对不同的学习方式进行赋值,越接近于移动端的学习方式的分值越高;途径指用户获 取考研咨询的渠道,我们对不同的渠道进行赋值,越接近于移动端的渠道的分值越高。 我们用 RFM 来分析用户行为,对用户进行分类,识别目标用户,衡量用户的内在 价值和忠诚度。 通常,采用聚类分析来对用户进行分类。 在本文中,采用MediodsK - 方法中的 PAM 算法依据时长、倾向、途径三个变量将用户分成三类。 先将 RFM 数据 标准化处理,去除量纲的影响,然后进行 PAM 聚成三类,最后根据三类的特征,将用 户的类别做一个更细致的划分。 j xj类的样本的平均值 符号 含义 pn,样本容量,样本的类别数 ij xj类的样本的标准差 j s属于j类的样本(pjni, 2 , 1;, 2 , 1) R每日移动端学习时间,routine F倾向的学习方式,Favoritism M获得考研资讯的途径,Method Q需求量 P价格 TC总成本 利润 p最大学习次数的循环控制变量 学习精度 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 3 RFM的标准化处理 为了克服RFM中模型不同变量的计量单位对聚类结果产生不合理的影响,对数据 进行标准化处理, 即先将数据中心化, 再除以标准差。数据标准化的公式如下: pjni S xx x j jij ij , 2 , 1;, 2 , 1 (4.1) 其中, n i jijj n i ijj XX n S pjx n x 1 2 1 1 1 , 2 , 1 1 (4.2) .RFM与用户等级之间的关系 通过 RFM 模型中时长、倾向和途径的值,来确定当前的客户等级,我们将每个类别 的 RFM 平均值和总 RFM 的平均值进行比较,如果单个类别的 RFM 均值大于或等于总 RFM 均值,用一个向上的箭头标记,记为“” ,反之,记为“” 。那么,一个划分的结果 就有两个,RFM 三个划分的可能性总共为 8 个,可以将用户划分为 8 个类型: 类型 1:MFR:这类用户每日使用移动端考研产品的时间长,且更倾向于用移 动端学习和通过线上获取考研咨询,是产品的重要保持用户。 类型 2:MFR:这类用户每日使用移动端考研产品的时间长,且更倾向于用移 动端学习,但更多地通过线下方式获得考研咨询,是产品的重要发展用户。 类型 3:MFR:这类用户每日使用移动端考研产品的时间长,且更多地通过线 上获取考研资讯,但更倾向于用非移动端学习,是产品的一般重要用户。 类型 4:MFR:这类用户每日使用移动端考研产品的时间长,但更倾向于用非 移动端学习和通过线下获取考研咨询,是产品的重要发展用户。 类型 5:MFR:这类用户每日使用移动端考研产品的时间短,但更倾向于使用 移动端产品学习和通过线上获取考研咨资讯,是产品的重要挽留用户。 类型 6:MFR:这类用户每日使用移动端考研产品的时间短,更倾向于使用非 移动产品学习,但更多地通过线上获取考研资讯,是产品的一般用户。 类型 7:MFR:这类用户每日使用移动端考研产品的时间短,且通过线下方式 获得考研咨询,但更倾向于使用移动端产品学习,是产品的一般用户。 类型 8:MFR:这类用户每日使用移动端考研产品的时间短,且通过线下方式 获得考研咨询,也更倾向于使用非移动端产品学习,他们是产品的无价值用户。 可以通过对这些用户类型的分类,来识别聚类后用户的类别,为后续的分析奠定基 础,如表 1 所示。 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 4 表 1 客户类型表 模型求解 1) 原始数据获取 本文主要从用户、商家、社会社会角度来进行对问卷结果进行分类来分析用户对于 移动端考研产品的使用行为模式。 关于客户的变量包括:性别、年龄、所在城市、第几次考研、考研学生种类、获取 考研信息渠道、线下获取信息方式、线上获取信息方式、参加辅导班类型、考研备考期 长度、备考地点、每日备考时间、倾向备考渠道、每日 PC 端学习时间、每日移动端学 习时间、移动端备考产品选择。 关于商家的变量包括:线上产品渠道、线上优于线下特点、移动端优于 PC 端特点、用 户对移动端产品的期待。 关于社会的变量包括:报考最主要原因、移动端侍弄人数增长趋势。 可以看出,用户的变量包含了客户的主体特征、主观倾向、备考时间、备考地点;商家 主要包括产品特性;社会的因素是比较难衡量的,本文主要从外界影响的角度来进行分 析。 2) 数据预处理 对问卷进行删除和提取,删除一些不必要的变量。比如问卷的第 3 题、第 5 题、第 10 题、第 12 题、第 14 题、第 18 题、第 20 题、第 22 题、第 23 题,所在的城市、考研 符号 RFM划 分 类型 客户类型 2 3 4 1 5 6 7 8 RFM RFM RFM RFM RFM RFM RFM RFM 重要发展用户 一般重要用户 重要发展客户 重要保持客户 重要挽留用户 一般用户 一般用户 无价值客户 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 5 的主要原因、选择线上渠道了解考研信息的原因、考研类线上辅导班相较于线下辅导班 的特点、备考地点、PC 端的学习产品、移动端的学习产品、移动端考研类产品相较于 PC 端考研类产品的优势、对移动端考研类产品的期待中,出现了少量无效数据,所以我 们进行了删除。因此,本文用于数据分析的问卷的数量是 9918 份。 对问卷进行整理。对单选题的选项用数字表示, 对于多选题, 调查问卷是比较难 处理的,因为其包含的信息比较多, 不易分析, 在本文中, 将多选题转化为 0/1 格 式进行分析。并且, 需要将问卷中的问卷转换为简洁的属性名称,以便于后续的分析, 转化后的属性如下:序号、年龄、性别、城市、考研次数、考研原因、考研种类、信息 渠道、线下渠道、线上渠道、选择线上渠道原因、考研辅导班类型、线上辅导班优于线 下辅导班类型、备考期长度、备考地点、每天学习时间、倾向学习方式、每日平均 PC 端学习时间、PC 端学习产品、每日平均移动端学习时间、移动端学习产品、移动端使用 人数增长趋势、移动端相比 PC 端优势、对移动端产品的期待,共 24 个。 用户分类 1)数据准备 在调查问卷中, 用户每日移动端学习时长( 时长) 、用户倾向的学习方式(倾向) 、 用户获取咨询的途径(途径) 三个变量 3,三个变量都是类别变量, 取值如表 2 所示: 表 2RFM项对应表 2)数据预处理 因为时长、倾向和途径三者的选项不一样长, 为了克服RFM中模型不同变量的计 量单位对聚类结果产生不合理的影响, 先对数据进行标准化处理,即将数据中心化,除 以标准差。再确定聚类中心的个数为3个。 采用R语言实现PAM算法。 3)聚类结果分析 通过RFM分析,可以将客户分为三个类别,重要保持用户、 一般重要用户、无价 值用户 4,如表 3。用户的级别不仅表现了用户在级别上的差异,而且反映了用户行为 上的特点和差异,可以针对不同的用户级别,采取不同的管理策略,指导移动端考研产 12345 M(途径)线下渠道线上渠道 F(倾向) 线下渠道线上PC端 线上移动端 R(时长) 0-11-2 2-3 3-44 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 6 品制造商的行为,对制造商的营销活动都有一定的指导意义。 表 3 三类用户分析表 .2 属性约简属性约简 1) 决策表数据预处理 性别、年龄、所在城市、考研次数、考研目的、是否属于本校本专业、是否属于本 校跨专业、是否属于跨校本专业、是否属于跨校跨专业、是否通过线下渠道了解备考资 讯、是否通过线上渠道了解备考咨询、是否通过线下学长学姐介绍、是否通过线下图书 馆查阅资料、是否通过线下讲座、是否查阅线上考研讲座、是否使用线上考研 APP、是 否线上报考院校官网、是否认为线上了解权威可信、是否认为线上了解全面及时、是否 认为线上了解方便快捷、是否报名线上辅导班、是否报名线下辅导班、是否报名两种辅 导班、是否认为线上辅导班优于线下辅导班、考研备考期、是否在自习室备考、是否在 学校宿舍备考、 是否在家里备考、 平均每日学习时长、 是否通过线下渠道进行考研学习、 是否通过线上 PC 端进行考研学习、是否通过线上移动端进行考研学习、平均每天 PC 端 考研学习时长、使用 PC 端学习产品、平均每天移动端考研学习时长、是否倾向录播课 程、是否倾向直播课程、是否倾向题库/练习类产品、是否倾向单词/词典类产品、是否 倾向考点类产品、是否认同移动端考研学习人数大幅度增长、是否认为移动端备考产品 优于 PC 端备考产品、是否对于移动端考研类产品期待、顾客类型,分别定义为: 4443424140393837363534333231 302928272625242322212019181716 151413121110987654321 , , , aaaaaaaaaaaaaa aaaaaaaaaaaaaaa aaaaaaaaaaaaaaa C 决策属性为顾客类别,定义为 bD ,该决策表S是一个单一的决策表。 2)核集和约简集 通过Java实现基于依赖度的改进的决策表属性约简算法,通过计算,可以得到,每一个属性的 正域都等于 DPOSC,所以核集为集。且得到的约简集为: 3533292543 ,ReaaaaaaDCd 即得到的约简属性为所在城市、考研次数、备考期、平均每日学习时长、平均每日 PC 比较结果途径(M)倾向(F)客户级别均值数量时长(R) 总均值 2.2941.8041.845 第一类 12783.514 1.521 RFM 1.828 重要保持客户 第三类 61111.3691.0871.811 RFM 无价值客户 第二类 25291.9982.8051.897 RFM 一般重要客户 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 7 端学习时长、平均每日移动端学习时长共 6 个。 将这些属性输入决策树模型作为条件 属性构建决策树模型,挖掘出不同用户的使用产品规则 5。 .3 决策树模型的构建决策树模型的构建 1)数据的预处理 表 4输入输出说明表 1C 2C 3C 4C 5C 6C D 所在城市 考研次数 考研备考期 每 日 PC 端 考研学习时 间 每日移动 终端学习 时间 每日备考时间 顾客类别 输入 输入 输入 输入 输入 输入 输出 离散型 离散型 离散型 离散型 离散型 离散型 离散型 1,2,3,4 1,2,3,4 1,2,3,4 1,2,3,4 1,2,3,4 1,2,3,4 A,B,C 0-1 小时、1-2 小时、2-3 小时、3 小时以上 0-1 小时、1-2 小时、2-3 小时、3 小时以上 3-6 小时、6-9 小时、9-12 小时、12 小时以上 0-3 个月、 3-6 个月、 6-12 个月、12 个月以上 第一次、 第二次、 第三次、 第四次及以上 北上广等一线城市、 二线 城市、三线城市、其他 重要保持客户, 一般重要 客户,无价值客户 编码 属性名称 输入/ 输出 类型 取值取值说明 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 8 表 5占用比 2)构建初始决策树模型 通过3ID算法和5 . 4C算法:训练集为D,它的属性集合为A,|D|为样本容量,样本有k个 类KkCk, 2 , 1,|C| k 为样本个数,且有|C| 1 k D K k 。设特征A有n个不同的取值 n aaa, 21 ,根据A的值,将D划分为n个子集 n DDD, 21, ,|D| i 为 i D的样本数, |D| 1 n i i D。记子集 i D中属于类 k C的样本集合为 ik D,即 kiik CDD,|D| ik 为 ik D的样 本数。 定义 4-1:数据集D的经验熵 DH: | | log | | - 2 1 D C D C DH k K k k 定义 4-2:特征A对数据集D的条件经验熵ADH|: K k i ik i ik n i i i n i i D D D D D D DH D D ADH 1 2 11 | | log | | | | | | | 定义 4-3:信息增益: ADHDHADgain|, 定义 4-4:分裂信息: | | 2log | | inf_ 1 D D D D Dsplit j v j j A 定义 4-5:信息增益率: Dsplit Again Aratiogain A inf_ _ i.计信息增益率 通过Java语言 6实现信息增益率的计算,可以得到训练集中每一个测试属性的 A 类用户占比B 类用户占比C 类用户占比 测试集 训练集 总样本 12.9% 12.9% 12.9% 25.5% 25.5% 25.5% 61.6% 61.6% 61.6% 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 9 信息增益和信息增益率,如表 6 所示。 表 6信息增益表 可以得到,对于信息增益率,平均每日移动终端学习时间平均每日学习时间 平均每日 PC 端学习时间备考期长度所在城市考研次数,平均每日移动终端学习 时间的信息增益率最大, 所以,将其作为决策树的根节点,进行决策树的第一次划 分。 ii.构建决策树模型 对训练集采用 ClementineSPSS 构建原始的决策树模型, 得到一棵多叉树。并 用构建完的决策树对测试集进行预测。 iii.模型评估 对模型预测的结果,用 R 语言建立训练集和测试集的构建误分类矩阵,分析初始决策树 的 分类情况,如表 7、表 8 所示。 表 7初始决策树训练集的分类情况 2C4C6C1C3C5C 0.108 0.1160.2360.1440.1040.292 0.131 0.1260.1410.2870.1750.354gain ratiogain 预测类别 ABC 总计正确率 错误率 实 际 类别 45834490930C97.9612.047 189724186310B 1.777 98.237 9582220916A95.627 4.387 7438总计97.2772.737 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 10 表 8 初始决策树模型测试集的分类情况 可以看出, 该模型对训练集的拟合情况非常好, 对于测试集的拟合情况也较为乐观。 因此,我们可以得到如下结论:在问卷中提到的各项因素中,平均每日使用移动终端进 行考研复习的时间是影响移动端考研产品发展的最主要因素;其次,平均每日考研复习 时间也对移动终端产品的普及有着很大影响;除此之外,每日使用 PC 端学习时间、备 考期长度、考生所在城市和考研次数也对考生对移动端考研产品的使用造成了影响,并 且他们的影响程度从高到底。结果如表 9 示: 表 9影响因素排名 影响因素影响程度系数影响程度排名 平均每日移动端复习时间0.3541 平均每日考研复习时间0.2872 平均每日 PC 端复习时间0.1753 备考期长度0.1414 所在城市0.1315 考研次数0.1266 4.4.2 2 问题二(问题二(1 1) :估计移动端考研产品的价格:估计移动端考研产品的价格 4 .1 利益最大化模型的建立利益最大化模型的建立 传统的定价理论包括两种 7:一种是从生产方考虑,如成本加成定价法;一种是从 需求方考虑,如需求导向定价法。这两种方法都有其合理的地方。在本文中,我们建立 的是经济学中的利润最大化条件下的定价模型。 设市场中企业的需求函数为 PQQ ,Q为需求量,P为价格, 企业的总成本为TC, 利润为,同时引入需求量价格弹性 Q P dP dQ 、总收益PQTR 、边际收益 dQ dTR MR 和 预测类别 ABC 总计正确率 错误率 实 际 类别 1528119711910 2 C78.36% 21.64% 6322259911B 5.26% 94.74% 3204515260A81.23% 18.77% 2480总计84.78%15.22% 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 11 边际成本 dQ dTC 。企业的利益最大化条件为:TCTRmax 要满足该利益最大化条件, 数学上的解法就是等式两端求导数, 令0 dQ d , 可求出: MCMR而 d E P P Q dQ dP PPQ dQ dP MR 1 11 ,故有 1 1 1 1 dd d E MC E E MCP 。令 1 1 d E m ,则有 MCmMCP1 。 我们现在再来看一下这个定价模型 mMCP1 ,很像成本加成定价法,但此时该 定价模型已有新的内容,它是既考虑了生产方又考虑了需求面的定价模型,其中 c IV 代 表了生产方的成本情况,m内包含了需求价格弹性,反映了市场的需求状况和特征。该 定价模型克服了传统的成本加成法和需求导向法的缺路,反映了定价的两条最基本原 则:考虑消费者对价格的敏感度和考虑成本,是在企业利润最大化条件下的定价模型。 4 .2 具体问题的分析具体问题的分析 下面结合我们具体的数据进行分析: (1)调查各类移动端考研产品的成本,结果如下表: 表 10移动端考研产品成本表 产品类型产品成本 录播课程类产品5 元/课时 直播课程类产品15 元/课时 题库/练习类产品100 元/账号 单词/词典类产品50 元/账号 考点类产品50 元/账号 (2)统计 10000 份调查问卷,再考虑到考生的家庭状况、自身经济状况和时间历程, 获得每种产品的需求量,结果如下表: 表 11问卷调查结果 产品类型产品需求 录播课程类产品4422 人次 直播课程类产品904 人次 题库/练习类产品1711 人次 单词/词典类产品1891 人次 考点类产品934 人次 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 12 表 12移动端各类考研产品价目表 录播课程类 需求量Q成本价格P 110558.13 331556.95 直播课程类 需求量Q成本价格P 2261524.56 6781521.25 题库、练习类 需求量Q成本价格P 428100171.92 1283100148.75 单词、词典类 需求量Q成本价格P 4735084.19 14185073.37 考点类 需求量Q成本价格P 2345095.71 7005086.78 (3)根据我们上面的定价模型,要计算出m和MC。可根据已知条件: 表 13移动端各项考研产品定价表 通过表格我们得知,在利益最大化的前提下,一种合理的定价方式为:录播课程类 产品类型 Q P dP dQ Ed 1 1 d E m mMCP1 录播课程类产品(元/小 时) 6.390.1865.93 直播课程类产品(元/小 时) 7.6580.1517.25 题库/练习类产品(元/ 账号) 6.90.169116.9 单词/词典类产品(元/ 账号) 7.2490.1658 考点类产品(元/账号)10.1760.10955.45 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 13 产品价格为 5.93 元/课时, 直播课程类产品为 17.25 元/课时, 题库/练习类产品为 116.9 元/账号,单词/词典类产品为 58 元/账号,考点类产品为 55.45 元/账号。 4.4.3 3 问题二(问题二(2 2) :预测考研端产品的潜在市场占有率:预测考研端产品的潜在市场占有率-基于基于BPTSA神经网络神经网络 .1 时间序列分析模型时间序列分析模型 ARMA模型 8结构可通过方程 t m j jtj n i itit aaYY 11 来表示。 其中 t Y是时间序列 Y在t时刻的观察值,ni i , 2 , 1为自回归系数,mj j , 2 , 1为滑动平均系数, t a 为残差项,n为自回归阶数,m为滑动平均阶数。式 1是一个具有n阶自回归部分,m 阶滑动平均部分的ARMA模型, 故 t Y称为ARMA时序或ARMA过程可以看出, 式 1将 t Y 分解成确定性部分与随机性部分,确定性部分为 m j jtj n i iti aY 11 。因为t时刻, , 21 tt YY均是已经确定ARMA模型是时间序列分析中一种最基本、应用最广的模型, 其模型结构可通过的观察值,尽管 t a是随机干扰序列,是不可测的,但是t时刻以前所 有的, 21 tt aa都已经发生,因而该部分是确定的; t Y的随机部分由不可观察的随机干 扰 t a来确定。nm,的不同取值组成了ARMA的庞大体系;当nm,取较大值时,求解会有 困难。本文中采用BP神经网络来进行TSA建模 9。 .2 2 预测模型原理预测模型原理 在某一时刻,同一市场上,各个企业某品牌产品的市场占有率反应了各个企业营销 的竞争结果,它必然与以前时刻的产品竞争结果有关。设 t Y为在t时刻,某一个区域市 场,各竞争企业某品牌产品的市场占有率组成向量,则 将式 (2-a) 作变换可得 1 Y关于 0 Y的表达式, 代入式 (2-b) 得 2 Y关于 1 Y的表达式, , 依次类推,可以得到NtYTSAY tt , 2 , 1, 1 。按式(2)构造BP神经网络模型,即以 1t Y作为输入模式, t Y作为输出模式,将时间序列 N YYY, 10 形成的N个样本对: NN YYYYYY, 12110 ,提供给BP网络学习,使之逐渐逼近TSA,从而使BP网络掌 握企业综合竞争结果的动态变化特性。 由N个样本训练成功的模型成为BPTSA神经网 络模型。 由于 N YYY, 10 这1N个数据的大小及其先后顺序蕴含了在既定市场上各个企业 第十届数学中国数学建模网络挑战赛 地址:数学中国数学建模网络挑战赛组委会网址: 电话编:010021Email:2017#1087 14 品牌竞争结果(产品市场占有率)变化的系统特性与状态变化信息,因而,将上述1N 个数据,按 tt YY, 1 构成N个样本,对BP网络模型进行训练,BP网将信息凝聚在权空 间W上,权空间W上的元素取代了ARMA模型中的 tji a,。BP神经网络模型的学 习是自动的,当有新样本进入模型时,BP网络将会进行新的学习;因此,可采用这个 模型对企业产品市场占有率进行动态预测。 .3 预测模型的结构和算法预测模型的结构和算法 图 1 预测模型结构图 基于BPTSA神经网络 10的企业产品市场占有率预测模型由数据预处理器 (对输入 模式和目标模式的预处理有助于网络收敛和稳定) 、BP网络和数据后处理器(将网络输 出模式还原)组成(图 1) 。 jkij vw ,分别为不同层次的连接权。网络隐层的学习函数采用 双曲正切Sigmoid函数,输出层的学习函数采用线性函数 xxf,网络输入层的神经 元个数n即为向量 t Y的维数,也是本文研究的既定市场上主要竞争企业的个数,输出层 的神经元个数为m。显然,本模型中n与m相等。隐层的神经元个数l由输入层神经元 个数n与输出层神经元个数m决定,2/32/3 2/1 nnml;设输出层到隐层的连接权为 ij w,隐层到输出
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 德保三年级数学试卷
- 高一期中卷数学试卷
- 二年级去年数学试卷
- 2025年中铁阜阳医院2025年应届毕业生招聘16人笔试历年专业考点(难、易错点)附带答案详解
- 2025年02月广西柳州市工人医院招聘43人笔试历年专业考点(难、易错点)附带答案详解
- 2025至2030船上烟雾信号行业市场深度研究与战略咨询分析报告
- 山东济南大学招聘考试真题2024
- 呼吸道感染病原体识别考核试卷
- 标准化对环境保护的作用考核试卷
- SMT焊接工艺参数选择标准考核试卷
- 《生理学》神经系统课件
- 傲鹏ERP应付会计操作培训课件
- 催收投诉防控预警处理流程(含投诉预警报备台账)
- 荣格心理类型理论课件
- 硬笔书法:幼小衔接识字写字教学课件
- 公开招聘校长后备人选理论考试题库
- 机械优化设计_经典实例PPT课件
- 新人教版八年级物理(下册) 第十一章 功和机械能 第十一章 功与机械能复习课
- 东方航空无成人陪伴儿童乘机申请书
- 火针操作规范
- 智慧工厂解决方案—灯塔工厂引领制造业数字化转型-白皮书
评论
0/150
提交评论