基于“拍照赚钱”的任务定价探究定价规律与定价模型.pdf_第1页
基于“拍照赚钱”的任务定价探究定价规律与定价模型.pdf_第2页
基于“拍照赚钱”的任务定价探究定价规律与定价模型.pdf_第3页
基于“拍照赚钱”的任务定价探究定价规律与定价模型.pdf_第4页
基于“拍照赚钱”的任务定价探究定价规律与定价模型.pdf_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1 基于“拍照赚钱”的任务定价探究定价规律与定价模型 摘要摘要 本文就劳务众包平台的任务定价问题进行了定性研究和定量分析。利用 SPSS、 MATLAB、GPSspg XGeocoding 等软件进行数据处理与分析,并建立数学模型。使用主层 次聚类分析法、多元非线性回归分析法、多维 Logistic 回归分析法、插值与拟合方法、 双边效用最大化方法,分别建立了非线性回归分析模型、效用模型、利润分配模型、 Logistic 模型,分别得出:附件一中项目的任务定价规律;附件一中的任务未完成的 原因;附件一中项目的更加全面的任务定价方案;“打包”条件下的合理的任务定价 模型;附件三中新项目的任务定价方案,并给出方案实施效果的评价。 针对问题一针对问题一,首先,提取处理后的样本数据,利用 MATLAB 对数据进行“均值化” 处理;其次,使用主成分聚类分析法寻找指标间关系。利用 SPSS 计算出指标的相关系 数矩阵及其特征值、特征向量,从而确定主成分个数;然后,基于聚类分析产生的指 标,做基于整体最小二乘的曲面拟合,得出四组拟合曲线,再利用 SPSS 做数据的可靠 性计量;最后,透视任务完成率后,由逐步拟合过程以及 SPSS 和 MATLAB 求解过程 分析出任务未完成的主导因素是未同时考虑“任务点到市中心距离”与“会员地址到市中 心距离”。 针对问题二针对问题二,首先,本文利用问题一建立的模型,得到了影响任务标价的因素。 然后,利用 SPSS 对各个因素与任务标价进行相关性的分析,确定各因素之间的关系。 其次,使用非线性回归分析模型,运用 MATLAB 对数据进行拟合,得到了多元非线性 方程,通过数据检验可以看到其吻合程度较好;最后,对数学模型进行抽样检验,与 原数据进行对比,验证了模型的合理性、有效性。 针对问题三针对问题三,首先,确定任务“打包”标准为区域内等分分割下对应的任务量; 其次,在问题二的基础上,添加“会员的经纬度”和“等分区域内任务量”等因素,在 5 个 指标间做基于最小二乘法的非线性回归分析,拟合“任务定价”函数;对会员“信誉度”划 分为 6 个优先等级,优先等级直接决定会员在包内选择任务的先后次序;然后,建立 出效用模型,得出任务完成率最大化、会员收益最大化以及总效用最优化的关系式表 达式,建立了任务定价与总效用之间的关系;最后,制定任务“打包”状态下会员利润 分配函数。 针对问题四针对问题四,首先,利用问题三得到的结论,对自变量进行了正态性分布检验、 交互相关性检验,确定了自变量之间的相互影响 , 且使用 Spearman 秩相关系数;然后, 利用任务定价与 GPS 关系得到积分方程,对其分别建立了幂函数曲线、Logistic 曲线 增长模型,并基于 Simulink 动态仿真模型进行多元非线性回归,相关系数分别达到了 0.7631,0.9592。 最后最后,本文对模型进行了检验,结果表明四组模型实际性较高,效果理想。同时 本文还对模型进行了优缺点评价,并在横向和纵向对数学模型进行了适用性推广。综 合双边市场经济理论给出合理建议。 关键词:关键词:数据挖掘;众包定价机制;主成分聚类分析;多元回归分析;基于最小 二乘法曲面拟合;效用模型;SPSS; 2 一、 问题重述 1.11.1 问题重述问题重述 1.1.1 问题背景 “拍照赚钱”是移动互联网下的一种自助式服务模式。用户下载 APP,注册成为 APP 的会员,然后从 APP 上领取需要拍照的任务(比如上超市去检查某种商品的上架情 况),赚取 APP 对任务所标定的酬金。这种基于移动互联网的自助式劳务众包平台, 为企业提供各种商业检查和信息搜集,相比传统的市场调查方式可以大大节省调查成 本,而且有效地保证了调查数据真实性,缩短了调查的周期。因此 APP 成为该平台运 行的核心,而 APP 中的任务定价又是其核心要素。如果定价不合理,有的任务就会无 人问津,而导致商品检查的失败。 1.1.2 研究意义 近年来,随着市场竞争的不断加剧,受内部创新瓶颈的制约,越来越多的企业开 始尝试将具有一定创新性和技术性的工作任务通过互联网渠道委托给外部个体或组织 完成,这种新兴的基于互联网的开放式协作创新模式被称为众包。随着众包规模的不 断扩大,众包网站上展示的众包任务种类越来越多,交易方式也日益复杂。从实践层 面看,如何根据众包任务特点选择与之相匹配的交易方式不仅是发包方和接包方十分 关心的问题,也关系到众包平台的持续运营。就理论意义而言,目前学术界对于众包 的研究主要集中在运营模式、参与动机。众包模式的兴起离不开互联网众包平台的发 展,概念和信用评价机制等方面,对众包任务分类和交易方式匹配关系的研究尚不多 见。 1.1.3 提出问题 1.研究附件一中项目的任务定价规律,分析任务未完成的原因。 2.为附件一中的项目设计新的任务定价方案,并和原方案进行比较。 3.实际情况下,多个任务可能因为位置比较集中,导致用户会争相选择,一种考 虑是将这些任务联合在一起打包发布。在这种考虑下,如何修改前面的定价模型,对 最终的任务完成情况又有什么影响? 4.对附件三中的新项目给出你的任务定价方案,并评价该方案的实施效果。 3 二、 基本假设 2.1 模型假设模型假设 (1) 样本排除广州市、深圳市、佛山市、东莞市以外的数据点; (2) 样本数据中经纬度,任务定价,预定任务时间等反映其自身属性的数 据波动范围较小,可取固定值; (3)GPS 定位准确,即所给数据中的经纬度为准确值; (4)进行区域内任务量“打包”时产生的每一个“任务包”均不为空; (5)“任务打包”的目标是任务完成度最大化; (6) 样本容量足够大,样本数据真实,能够反映具体情况; 2.2 名词解释名词解释 众包众包:众包指的是一个公司或机构把过去由员工执行的工作任务,以自由自愿的 形式外包给非特定的(而且通常是大型的)大众网络的做法。 最小二乘法最小二乘法:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小 化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数 据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用 于曲线拟合。 GPSspg xGeocoding :GPSspg xGeocoding 是基于空间定位技术的一种编码方法, 它提供了一种把描述成地址的地理位置信息转换成可以被用于 GIS(地理信息系统)的 地理坐标的方式。 回归分析法回归分析法:回归分析法是在掌握大量观察数据的基础上,利用数理统计方法建立 因变量与自变量之间的回归关系函数表达式(称回归方程式)。回归分析法不能用于 分析与评价工程项目风险。回归分析法是依据事物发展变化的因果关系来预测事物未 来的发展走势,它是研究变量间相互关系的一种定量预测方法,又称回归模型预测法 或因果法,应用于经济预测、科技预测和企业人力资源的预测等。 4 三、 符号说明 符号含义 Ei两点间的平面距离 PI标准圆周率 AiExcel 表格中第 i 行中心点的纬度值 BiExcel 表格中第 i 行中心点的经度值 CiExcel 表格中第 i 行任务点的纬度值 Di第 i 行任务点的经度值 X1任务地点与区域中心点距离 X2区域内任务量 X3区域内会员量 X4任务定价 xij样本中对应的每个数据 i 为第 i 组样本 j第 j 个指标 R相关系数 rij指标 XI *与 X j *之间的相关系数 相关系数矩阵的特征值 Ui相关系数矩阵的特征向量 W累计贡献率 X5任务 GPS 的纬度 X6任务 GPS 的经度 Bi函数自变量前的系数 xl会员 l 获得的任务量 Ul(xl)任务在被会员完成时获得的效用 pk任务 k 的定价 5 四、 模型建立与求解 4.1 数据处理、分析与挖掘数据处理、分析与挖掘 数据(Data)是对事实、概念或指令的一种表达形式,可由人工或自动化装置进 行处理。数据经过解释并赋予一定的意义之后,便成为信息。数据处理是从大量的原 始数据抽取出有价值的信息,即数据转换成信息的过程。主要对所输入的各种形式的 数据进行加工整理,其过程包含对数据的收集、存储、加工、分类、归并、计算、排 序、转换、检索和传播的演变与推导全过程。数据分析是指用适当的统计分析方法对 收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括 总结的过程。数据分析是数学与计算机科学相结合的产物。 本文主要利用 Excel、SPSS、MATLAB、GPSspg XGeocoding 等软件进行数据处理 与分析,先后对数据的格式和内容进行了收集、存储、加工、分类、归并、计算、排 序、转换、检索、传播等过程,对数据进行了“提出坏点”、“指标分类”、 “抽取样本”、“坐标转换”、“粒度划分”、“间距计算”、“均值化消纲”、 “比例分析”等处理。主要得到了以下层面的数据处理结果和数据分析成果。 4.1.1 剔除“坏点” 利用 SPSS 将剔除经纬度小数点后位数不正确的数据,筛选出的点坐标请见附录 显示结果如图 5 所示。 图 5 GPS“坏点”分布图 6 4.1.2 数据指标的分类与样本选取 本文选取的样本为上文数据处理过程的成果,共分为广州市、深圳市、佛山市、 东莞市 4 组,每组样本容量为 400,每个样品有 4 个指标,分别为“任务地点与区域 中心点距离”、“区域内任务量”、“区域内会员量”、“任务定价”,这样每组共 有 1600 个数据,则样本数据可表示为矩阵 X: X=(X1,X2,X3,X4)= 11121 21222 12 j j iiij xxx xxx xxx (1) 其中 X1,X2,X3,X4分别为“任务地点与区域中心点距离”、“区域内任务量”、 “区域内会员量”、“任务定价”4 个指标,为样本中对应的每个数据 i 为第 i 组样本, j 为第 j 个指标,i=1,2,1600;j=1,2,3,4。 选取的样本分别为选取的样本分别为: (1)任务地点与区域中心点距离,请见附件三深圳、广州、东莞、佛山任务点 到城市中心点的距离表 ; (2)区域内任务量、区域内会员量,请见表 6 ; (3)任务定价,请见附录。 表 6不同地区任务量与会员数量 分类广州市东莞市深圳市佛山市 完成任务量195973375 会员数量1554614554 4.1.3 经纬度转化为实际地址 GPSspg xGeocoding 是一种可以利用各大地图 API 接口(地理编码、搜索、坐标 转换)进行批量处理数据的工具,其中整合了坐标转换功能,以方便兼容各家地图不 同的坐标。本文从 522 组“已完成任务数据”中选取 400 组数据,从 1877 组“会员 7 信息数据”中选取 400 组数据,数据集合中包括具体经纬度信息,在 GPSspg xGeocoding 中表示出实际位置,位置点分布图如下图: 图 6 已完成任务样本点地址示意图 图 7 会员样本点地址示意图 由地点分布图直观反映出的信息表明,任务地点多集中在东莞市、广州市和佛山 市,而会员地址多集中在深圳市和广州市。 8 4.1.4 分区统计任务量与会员量 从 GPSspg xGeocoding 导出 4.1.3 数据的转换结果,对导出的具体地址信息(请 见附件一已完成任务地点样本信息表、附件二会员样本地址信息表)进行统 计分析,结果请见下表: 表 7 不同地区完成任务量与会员数量 分类广州市东莞市深圳市佛山市 完成任务量195973375 会员数量1554614554 根据统计分析表进一步进行指标比例分析,得到下图:根据统计分析表进一步进行指标比例分析,得到下图: 图 7 四地区完成任务量比例分布饼图图 8 四地区会员数量比例分布饼图 由此可见,任务及会员的地理位置会对定价规律产生影响。 4.1.5 区域数据粒度划分与中心选址 数据粒度,是指数据仓库中数据的细化和综合程度。根据数据粒度细化标准:细 化程度越高,粒度越小;细化程度越低,粒度越大。本文进行区域粒度划分旨在减小 数据处理难度并找出不同区域数据之间的对比关系。在 SPSS 中以从 GPSspg xGeocoding 导出的实际地址为对象进行数据分类,共分为“深圳市”、“广州市”、 “东莞市”、“佛山市”四个不同数据集合。经查询文献得知,“深圳市”、“广州 市”、“东莞市”、“佛山市”四个地区的地理中心点经纬度分别为: (22.54571389,114.0553889)(23.13175,113.2590222) (23.02339444,113.7465917)(23.02431944,113.1164361) 9 4.1.6 计算间距 在上文划分的区域中已选取地理中心点,现计算样本数据分别与四个地理中心点 的距离,作为聚类分析指标之一。本文利用 Excel 实现两点从经纬度到平面距离的转换 时所用到的公式为: Ei = 6371004 ACOS(1 (POWER(SIN(90 Bi) PI()/180) COS(Ai PI()/180) SIN(90 Di) PI()/180) COS(Ci PI()/180),2) + POWER(SIN(90 Bi) PI()/ 180) SIN(Ai PI()/180) SIN(90 Di) PI()/180) SIN(Ci PI()/180),2) + POWER(COS(90 Bi) PI()/180) COS(90 Di) PI()/180),2)/2)(2) 其中,Ei 为两点间平面距离,PI 为标准圆周率,Ai 为 Excel 表格中第 i 行中心点的纬 度值,Bi 为 Excel 表格中第 i 行中心点的经度值,Ci 为 Excel 表格中第 i 行任务点的纬 度值,Di 为 Excel 表格中第 i 行任务点的经度值,且 i=1,400,A1=A2=Ai=A400, B1=B2=Bi=B400。 由以上公式计算出四组结果,请见附件三深圳、广州、东莞、佛山任务点 到城市中心点的距离表。 在模型建立前进行了以上 6 类数据处理,以上数据处理与分析结果在下文中均被 有效使用。 4.2、模型建立与求解、模型建立与求解 4.2.1 问题一的模型建立与求解 为了由已知数据得出“定价规律”,本文使用定性分析与定量分析相结合的方式。 首先以聚类分析的方式进行数据挖掘。本文在快速聚类分析中选取的样本为上文数据 处理过程的成果,共分为广州市、深圳市、佛山市、东莞市 4 组,每组样本容量为 400,每个样品有 4 个指标,分别为“任务地点与区域中心点距离”、“区域内任务 量”、“区域内会员量”、“任务定价”,这样每组共有 1600 个数据。分析 SPSS 得 出的快速聚类分析结果发现不能得到指标之间的优劣程度的结果。于是使用了主成分 聚类分析法。此种方法是将主成分分析与聚类分析相结合的一种新的综合评价方法, 即先做主成分分析,再取若干主成分对样品进行聚类分析,结合第一主成分得分排序 由此而得到指标间的科学而合理的关系。然后,基于聚类分析产生的指标,做基于整 体最小二乘的曲面拟合,得出四组拟合曲线,再利用 SPSS 做数据的可靠性计量;最后, 透析任务完成率后,由逐步拟合过程以及 SPSS 和 MATLAB 求解过程分析出任务未完成 的主导因素是未同时考虑“任务点到市中心距离”与“会员地址到市中心距离”。 10 stepstep 1. 1.主成分聚类分析法 (一)样本数据均值化 为了使得到的定价规律客观、合理,要求必须消除各指标量纲和数量级的影响, 本文使用 MATLAB 对原始数据进行均值化处理。即 * ij j ij x x X (i=1,2,1600;j=1,2,3,4),(3) 其中 j 1 1 1600 n ij i XX (j=1,2,3,4)(4) MATLAB 源代码请见附件五原始数据均值化处理 MATLAB 源代码,得到的数 据结果请见附件六无量纲数据 。 (二) 计算指标的相关系数矩阵 上文得到均值化数据矩阵后,再利用 SPSS 计算原始 4 个指标的相关系数矩阵: 4 4 ( ) ij Rr ,i=1,2,1600;j=1,2,3,4;(5) 其中是指标与之间的相关系数,则: 16001600 * 11 16001600 * 2* 2 11 ()() ,( ,1,2,3,4) ()() kiikjj kk ij kiikjj kk xXxX ri j xXxX (6) 11 导入附件六无量纲数据,在 SPSS 中输出的结果如表 8 所示。 表 8相关矩阵 相关 任务点与市 中心间距 区域任 务量 区域会 员量 任务 定价 任务点与市中心间距1.000-.322.104.098 区域任务量-.3221.000.295.000 区域会员量.104.2951.000.000 任务定价.098.000.0001.000 由上表得 4 个指标简的相关系数矩阵相关系数矩阵R: 1.0000.3220.1040.098 0.3221.0000.2950.000 0.1040.2951.0000.000 0.0980.0000.0001.000 R (7) (三)计算相关系数矩阵的特征值和特征向量 首先,由特征方程,求出 R 的特征值为;然后分别求出对应于特征值的特征向量。 利用 SPSS 求出实际结果如表 9 所示。 12 表 9解释的总方差 成份 初始特征值提取平方和载入 合计方差的 %累积 %合计方差的 %累积 % 11.39534.86534.86 5 1.39534.86534.86 5 21.13428.35063.21 5 1.13428.35063.21 5 3.96924.21387.42 8 4.50312.572100.0 00 提取方法:主成份分析。 (四) 确定主成分的个数 当前主成分的累计贡献率: 4 11 r ii ii W (8) 达到 85%时,取前 r 个主成分。 表 10 相关系数的特征值、贡献率、累积贡献率 主成分特征值贡献率累积贡献率 1 1.39534.86534.865 2 1.13428.35063.215 3 .96924.21387.428 综上,在 SPSS 中得到 4 个指标之间的相关系数矩阵 R 及相关系数的特征值、贡 献率、累计贡献率如表 10 所示。 13 由表 10 可知,前 3 个特征值为 1.395、1.134 和 0.969,对应的方差贡献率为 34.865%、28.350%、24.213%,前三个公共因子的累积贡献率为 87.428%。根据累 计贡献率大于 85%的原则,可认为原来的 4 个指标能够综合成 3 个主因子作为衡量 “定价规律”的主成分。 由于本文使用聚类分析法的主要目的是找出相关指标,故对于聚类分析法的其他由于本文使用聚类分析法的主要目的是找出相关指标,故对于聚类分析法的其他 步骤(例如:计算主成分得分和主成分得分聚类等)不再进行深入拓展。步骤(例如:计算主成分得分和主成分得分聚类等)不再进行深入拓展。 step 2. 基于聚类分析产生的指标下进行的差值与数据拟合模型 (一)背景: 插值与拟合方法就是要通过这些数据去确定某一类已知函数的参数或寻求某个近 似函数,使所得到的近似函数与已知函数由较高的拟合精度。如果要求的这个近似函 数经过所已知的所有数据点,则称此类问题为插值问题。如果不要近似函数通过所有 数据点,而是要求它能较好地反映数据变化规律的近似函数的方法称为数据拟合。 而本文旨在保持较高精度的情况下拟合出任务价格与聚类分析产生的 3 个主成 分任务点与市中心距离、区域任务量、区域会员量之间的函数。 (二)模型建立与求解: 由上文主成分聚类分析法所得结果得出具有相关性,假设四者间存在以任务价格 为因变量,任务点与市中心距离、区域任务量、区域会员量为因变量的关系式为: 1411112213114215121 2421122323124325132 3431232333234335232 Xa Xa Xa Xa Xa X Xb Xa Xa Xa Xa Xa X Xb Xa Xa Xa Xa Xa X Xb 22 22 22 (9 9) 利用 MATLAB 软件做基于整体最小二乘的曲面拟合,在命令窗口导入待拟合数据 X1,X2,X3,输入“sftool”命令打开曲面拟合工具箱,然后依次选择 x,y,z 数据, 即可得到拟合结果。三组结果的拟合度请见表 x 双因素间拟合度: 表 11 不同指标组合下的拟合度 指标组合拟合度 X1与 X2与 X40.0186 X2与 X3与 X4-0.001079 X1与 X3与 X40.01086 14 拟合图像如图 9、10、11 所示。 图 9指标X1与 X2与 X4组合下的拟合图像 图 10 指标X1与 X2与 X3组合下的拟合图像 图 11 指标X1与 X4与 X3组合下的拟合图像 15 由拟合度极差设想任务定价与其他因素有关,再次加入因素 X5“会员地址到市中 心距离”进行拟合,意外发现 X1“任务点距市中心距离”与 X5“会员地址与市中心距 离”所做拟合结果(请见附件 xX1 与 X5 间拟合呈现出拟合度为 0.9995.因此得到 的拟合曲线为: *00600601220152013 15151*5 4.117*8.922*6.023*6.873*6.204*0.1574XeXeXeXeXeX X (10) 拟合图像如图 12。 图 12 拟合图像 (三)模型检验: 运用 SPSS 从样本中随机抽取 4 组数据(每组 10 个采样)(见附录 2 表 2)对模 型 理论结果进行数据的可靠性计量。利用 SPSS 得出其中一组的结果如表 x 所示: 16 step 3.未完成原因分析 (一)完成率透视 首先,利用 Excel 计算出任务总完成率、粒度区域完成率,分析区域完成率与总完 成率之间的大小关系,分析区域任务点位完成率较低的集中位置特征; (二)主导因素分析 由 逐步拟合过程以及 SPSS 和 MATLAB 求解过程知,定价任务失败的原因在于没 有同时考虑“任务点到市中心距离”与“会员地址到市中心距离”因素对定价任务的 影响。 同时,选取另一组样本(请见附件 x)对相同的 5 个指标进行拟合过程验证,得到 的指标组合与拟合度之间的关系如表 12 所示: 表 12 指标组合与拟合度之间的关系 指标组合拟合度 X1与 X2与 X4 -0.314e+025 X2与 X3与 X4 -1.911e+116 X1与 X3与 X4 -1.044e+028 X1与 X5与 X4 0.01971 X2与 X5与 X4 -2.031e+027 X3与 X5与 X4 -6.122e+023 显然,由拟合度的差异性,“任务点到市中心距离”与“会员地址到市中心距离” 因素对于“任务定价”的影响得到了验证。 17 4.2.2 问题二的模型建立与求解 经过问题一我们研究附件一中完成任务的定价规律,并且对附件一中未完成的部 分的原因做出了说明。经问题一研究发现任务标价与任务到会员之间的距离、任务 GPS 的经度,纬度存在相关性。从而我们利用回归分析法建立模型,使用最小二乘法 拟合与数据相关性大的非线性方程。并且从问题一中我们得出任务标价与任务发布的 地区存在着非常强的相关性,因此我们对任务进行分地区建立非线性回归分析模型。 Step1、模型分析 由于众多因素都有可能影响任务标价的标准,因此要解决“设计定价方案”也需 要涉及众多的因素。因此我们选择几个相对关系较大的因素,即任务与会员的距离, 任务 GPS 的经度,纬度。由于我们将任务定价进行分地区计算,下面将分为四个地区 (深圳,广州,东莞,佛山)进行建立非线性回归模型。 我们将任务定价设为 Y,将任务到会员的距离设为 X1,将任务 GPS 的纬度设为 X2, 将任务的经度设为 X3,对四者进行定量的分析。 首先我们使用 SPSS 对任务定价与任务到会员之间的距离、任务 GPS 的纬度、任 务 GPS 的经度进行定性的分析,即做出他们之间的相关性表格。如下: (1)任务定价与 GPS 的纬度关系,部分数据如下,其他结果请见附录: 表 13 模型汇总 模型RR 方调整 R 方标准估计的误差 1.085a.007.0054.8051 a. 预测变量: (常量), LATB。 18 (2)任务定价与 GPS的经度关系,部分数据如下,其他结果请见附录: 表 14 模型汇总 模型 非标准化系数标准系数 tSig.B标准误差试用版 1(常量)138.67168.6742.019.044 LNGB-.606.605-.044-1.003 .317 由此可以看出各个因素都有可能影响任务价格,且相关系数较高,因此我们采用 非线性回归分析法去求解该问题。 Step2、模型的建立 (1)深圳地区 通过上述分析,我们使用 SPSS 作出三个自变量(任务与会员之间的距离,任务 GPS 的经纬度)和因变量(任务标格)之间的散点图。 图 13 散点图 19 由上述散点图我们可以假设任务标价,任务和会员距离,GPS 的纬度,GPS 的经 度四者之间的数学模型表达式: Y=B1+B2X1+B3X2+B4X3+B5X12+B6X1X2+B7X1X3+B8X22+B9X2X3+B10X33+B11X13+B12X12X2 +B13X22X1+B14X23+B15X12X3+B16X12,X22.*X32+B17X32X1+B18X32X2+B19X33(10) 利用作回归拟合方程,即用 m 次多项式拟合给定的数据,使用中现有的函数: )( 00 myxpolyfitB, (11) 所得到的拟合结果请见附录。 得到其函数图像如 14: 图 14拟合结果 并且其函数表达式为: Y=0.0004X2-0.0002X12+0.0017X1X2-0.0003X1X3-0.1847X12X2+0.0368X23(12) (2)其他三个地区 如同深圳地区使用 SPSS 作出三个自变量(任务与会员之间的距离,任务 GPS 的 经纬度)和因变量(任务标格)之间的散点图,由因为 GPS 的经纬度无变化,与深圳 相同,故只用做出任务与会员之间的距离即可。 20 a.东莞地区 b.广州地区 21 c.佛山地区 由上述散点图我们可以假设任务标价,任务和会员距离,GPS 的纬度,GPS 的经 度四者之间的数学模型表达式: Y=B1+B2X1+B3X2+B4X3+B5X12+B6X1X2+B7X1X3+B8X22+B9X2X3+B10X33+B11X13+B12X12X +B13X22X1+B14X23+B15X12X3+B16X12,X22.*X32+B17X32X1+B18X32X2+B19X33(13) 利用Matlab作回归拟合方程,即用 m 次多项式拟合给定的数据,使用Matlab中现 有的函数: )( 00 myxpolyfitB, (14) 从而得到三组不同的系数,故我们可以将其他三个地区(东莞,广州,佛山)的数学 模型表达式一次建立出来。 22 得到的图像为: 我们得到的数学模型表达式为: Y=0.0004X2-0.0002X12+0.0017X1X2-0.0003X1X3-0.1847X12X2+0.0368X23 得到图像 23 我们得到的数学模型表达式为: Y=-0.0021X2+0.0005X3-0.0039X12+0.0016X1X2-0.0002X1X3+0.0005X23 并且得到图像 我们得到的数学模型表达式为: Y=0.0044X2+0.0009X3-0.0033X12+0.0014X1X2+-0.0001X1X3+0.0010X23 经过上述四个地区的不同计算我们得出了不同地区数学模型 深圳:Y=0.0004X2-0.0002X12+0.0017X1X2-0.0003X1X3-0.1847X12X2+0.0368X23 东莞:Y=0.0004X2-0.0002X12+0.0017X1X2-0.0003X1X3-0.1847X12X2+0.0368X23 广州:Y=-0.0021X2+0.0005X3-0.0039X12+0.0016X1X2-0.0002X1X3+0.0005X23 佛山:Y=0.0044X2+0.0009X3-0.0033X12+0.0014X1X2+-0.0001X1X3+0.0010X23 经过上述模型的分析,建立以及求解,我们可以看出我们设计的新的定价方案比 原方案大大提高了任务完成的情况,因此考虑任务和会员距离,GPS 的经纬度可以很好 的使完成度提高并且使公司的成本得到一定的降低。 24 4.2.3 问题三的模型建立与求解 Step1Step1、问题分析 本文使用双边效用模型对打包后的任务进行定价策略研究,核心定价方法是基于 问题二中的回归拟合曲线做多目标最优化。假设任务和会员都是理性的。任务被会员 完成时获得效用,任务的行为目标是最大化净效用,即使此时众包平台要支付给会员 的费用高,即任务完成率最大化;会员的行为目标是最大化其净收益,即使要完成的 任务复杂性高。 Step2Step2、模型建立效用模型 假定样本(SPSS 随机抽样 400 组会员信息,SPSS 随机抽样 100 组广州市内任务 经纬度)中有任务地点集合 S=S1SKSN,会员地点集合 R=R1RlRM,其中 N=1,2,100;M=1,2,400.xl 是会员 l 获得的任务数量,ul(xl)表示任务在 被会员 xl 完成时获得的效用,pk 表示任务 k 的定价。 任务效用最大化,即任务完成率最大化表示为: 100 1 max(),0; lll l u xx (15) 会员收益最大化表示为: 400 1 max,0; klkl k p x p x (16) 则此时,总效用最优化的问题就是: 400 1 max() klll k p xu x (17) (一)任务“打包” 本文选取的任务“打包”标准是:对各个任务点所在的平面进行单位为 100*100m2 的划分,所得到的每个包中的任务量随机。首先,以广州市为例,利用 MATLAB 对经纬度信息进行处理,使其转化为曲面图形。然后,以边长为 100m 的正 方形区域作为标准对图形进行分割,统计每一分割单位下对应的任务点位置数目,记 为 nk。 25 (二)基于最小二乘法的非线性回归拟合“任务定价”函数 由问题二得到以任务点经度、任务点纬度、任务到市区中心点距离为指标的拟合 函数,本文接下来在问题二的基础上增加“区域内每一分割单位对应的任务点数目” 为指标,继续利用 SPSS 进行基于最小二乘法的非线性回归分析拟合任务定价 pk。 拟合结果为: y=1.100V+23.292V1-1.896V2-0.260X4+1.410(18) (三)包内任务点选择 根据信誉度大小将会员分为 6 类,分别为0,100),100,1000),1000,5000), 5000,10000),10000,20000),20000,+),每组数据代表不同的优先等级,依 次为(1,2,3,4,5,6),显然,优先等级越大,在未达到预定任务限额的情况下,越优先 选择包内任务点。 (四)会员利润分配 未刺激会员选择“打包”状况下的任务点,本文制定了以“信誉度等级 c”、“同 一包内会员数量 m”、“任务定价 pi”为自变量的利润分配函数 z,如下: 1 (1) 2121 i ic cc Zp m (19) 26 4.2.4 问题四的模型建立与求解 Step1、模型的分析 通过附件三给出的因素任务的纬度与任务的经度,再结合前面所求出的方案我们 知道任务与会员之间距离也存在着相关性。因此我们对任务的经纬度和任务与会员之 间距离进行正态性分布检验,交互相关性检验,并算出三者的 Spearman 秩相关系数。 利用问题二的数学模型对其进行非线性回归拟合,得出其相关系数。求出部分任务的 定价,将其与问题一中位置相近并且完成的任务标价进行对比,从而评价该方案的效 果。 Step2、模型的建立 利用 SPSS 对变量进行正态性分布检验和交互相关性检验,再附件(3)中筛选部 分数据(随机抽取 100),再 SPSS 中利用正态性分布检验的方法得出每个因素的正态 性分布。部分结果如下(其他结果见附录) a.任务 GPS 纬度 27 b.任务 GPS 经度 c.任务与会员之间的距离(以深圳市为例) 28 我们利用问题二所得出的数学模型对问题四部分数据进行估计,估计出问题四中 部分任务的标价用来代替问题四中非线性回归拟合的数据。使用 EXCLE 对数据进行估 计。得出的数据见附录。 假设多元非线性回归分析的模型为 Y=F(X1,X2,X3)(20) 利用 MATLAB 对任务标价(因变量),任务与会员之间的距离,GPS 的经纬度进 行非线性回归拟合,利用的 MATLAB 自带的函数 )( 00 myxpolyfitB, (21) 根据 MATLAB 拟合可以得到系数值请见附件。 因此我们得到以下数学模型 Y=0.0871-6.8729X1-0.0139X2+0.0018X3+0.0004X12+0.0004X1X2- 0.0001X1X3+2.7816X13+0.0716X12X2+0.2860X22X1+0.0214X23+0.0006X12X3+0.2976X3 2X1+0.4495X32X2 (22) 29 利用所求的数学模型对任务标价进行对比。选取附件一中部分完成的数据,带入 所求数学模型中,求出任务标价与实际任务标价进行对比。选取 20 组数据,如下表所 示(省略计算标价的小数) 任务 GPS 纬度任务 GPS 经度标价计算标价 22.73004117114.24087956665 22.72704287114.299619965.566 22.70131065114.23360076665 22.73235925114.28666726668 22.71839144114.25754956667 22.75392493114.381925365.566 22.72404221114.272183665.567 22.71937803114.27324786668 22.73028254114.23049556666 22.7187968114.2670276565 22.65746229114.34769576668 22.71611614114.247471665.567 22.72986374114.293901266.568 22.746174114.28586965.569 22.7333086114.29430716667 22.74551648114.274463365.568 22.72282036114.265481366.567 22.72492675114.273130665.568 22.74551648114.274463366.567 30 通过上述表格可以看出已完成的实际任务标记与计算任务标价差别并不明显,因 此我们可以得出该任务定价的方案可以接受,效果较为理想。 31 五、 模型的检验与分析 5.1 模型的检验模型的检验 (1)问题二中我们建立非线性回归分析模型,在进行拟合过程中采用了部分已完 成数据得到所求的数学模型。模型建立后将另一部分数据代入数学模型中,得到一组 任务标价,与原本的任务标价进行对比,得到以下一组数据。如下表(检验标价小数 省略): 纬度经度距离标价检验标价 22.57651183113.95719810648.4679565.567 22.54900371113.97225978544.83506665.568 22.5437861113.923977813497.294896670 22.54797243113.9779097960.83075365.569 22.50616871113.931428413470.100656660 22.49962566113.936514513241.936336667 22.54032142113.923645613543.159376669 22.52455419113.924731913623.7920465.568 22.54603946113.97496848258.9951665.565 22.49772892113.937337713247.618776667 22.49416247113.92713914366.44916669 22.51592012113.935676912733.870736565 22.49308313113.935839113602.962086669 22.52488949113.919142914183.3761865.577 由上表可知,所建的数学模型相对合理。 32 (2)问题四中模型建立完毕以后,将附件一中的数据代入,将其与原来标价进行 对比,以此检验建立的数学模型是否合理,得到的结果如下: 任务 GPS 纬度任务 GPS 经度标价计算标价 22.73004117114.24087956665 22.72704287114.299619965.566 22.70131065114.23360076665 22.73235925114.28666726668 22.71839144114.25754956667 22.75392493114.381925365.566 22.72404221114.272183665.567 22.71937803114.27324786668 22.73028254114.23049556666 22.7187968114.2670276565 22.65746229114.34769576668 22.71611614114.247471665.567 22.72986374114.293901266.568 22.746174114.28586965.569 22.7333086114.29430716667 分析上表可知,问题四所建的模型相对合理。 33 5.2 模型的分析模型的分析 5.2.1 优点: (1)聚类分析模型能够将问题中所给的数据依赖其某些特征,按照某种关系进行 分类,产生多个分类结果,使得一个混乱繁多的数据库变得更加清晰,明了,简洁。 (2)问题二采用了非线性回归分析模型,使用基于最小二乘法的曲线拟合,确保 了模型的正确程度,使得算法更加接近于实际生活。 (3)准备过程中使用 Excel 与 SPSS 软件对数据进行大量的处理,使得各因素之 间的关系很清晰。 (4)在处理各因素关系中,进行了因素的正态分布检验,并且确定了各因素之间 的 Spearman 相关系数,增加了所建的数学模型的可信度。 5.2.2 缺点: (1)在建立问题二的模型是没有使得拟合程度足够的高。 (2)处理数据时,我们采用了随机抽样的方式,采用了部分数据,没有使用全部 的数据。 34 参考文献 1彭文松.主成分聚类分析在广东省区域经济综合评价中的应用J.廊坊师范学院学报 (自然科学版),2013,13(01):61-65.2017-09-17. 2付丽娜,李宝毅,张驰.商品售价与包装内商品数量的函数关系探讨J.天津师范大学学 报(自然科学版),2011,31(03):17-21.2017-09-17. 3唐方成,池坤鹏.双边网络环境下的网络团购定价策略研究J.中国管理科 学,2013,21(03):185-192.2017-09-17.DOI:10.16381/ki.issn1003- 207x.2013.03.020 4涂慧,张广霞,张利斌.基于双边市场理论的众包平台研究J.绿色科技,2015,(05):277- 281.2017-09-17. 5殷爱贞,张在旭,黄昶生,李嘉庆.油田产量优化的目标规划模型J.石油大学学报(自然 科学版),2003,(05):119-121+9-10.2017-09-17. 6付聪,尹贻林,李丽红.基于高峰定价的城市轨道交通价格研究天津地铁定价方案 改进策略J.价格理论与实践,2008,(10):35-36.2017-09-17. 7张佳彤.打车软件参与下出租车动态定价策略研究J.唐山学院学报,2016,29(06):78- 84.2017-09-17.DOI:10.16160/ki.tsxyxb.2016.06.020 8安思锦,翟健.软件众包参与度影响因素分析及预测模型J.计算机系统应 用,2015,24(10):9-16.2017-09-17. 35 附录 附录:MATLAB 拟合非线性回归方程代码 clc;clear A=. 22.73004117114.2408795 27972.96212 66 22.72704287114.2996199 32168.41162 65.5 22.70131065114.2336007 25177.79428 66 22.73235925114.2866672 31529.35627 66 22.71839144114.2575495 28269.46485 66 22.75392493114.3819253 40729.10133 65.5 22.72404221114.2721836 29803.46626 65.5 22.71937803114.2732478 29543.80883 66 22.73028254114.2304955 27279.08969 66 22.7187968114.267027 29020.74856 65 22.65746229114.3476957 32477.83633 66 22.71611614114.2474716 27343.48883 65.5 22.72986374114.2939012 31913.38224 66.5 22.746174114.285869 32500.51724 65.5 22.7333086114.2943071 32191.98638 66 22.74551648114.2744633 31607.48413 65.5 22.72282036114.2654813 29201.80167 66.5 22.72492675114

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论