




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、题目“拍照赚钱”任务定价问题研究本文针对拍照任务定价问题,通过对影响定价因素的研究,建立了线性回归模型、 单任务点定价模型、基于支持向量机的判别预测模型和基于聚类与图论的打包定价模 型,运用matlab> mintab和excel进行求解,并评价了实施效果。针对问题一,建立了线性回归模型。我们首先将附件一的数据转换为散点图,从整 体上观察价格分布情况,定性分析任务价格分布规律,然后利用聚类分析,计算聚类屮 心,接着利用线性回归模型得到任务点价格与类中心辐射半径厂的线性关系p = kr + b, 即每远离屮心坐标1千米,任务价格上升k元。最后通过研究已完成与未完成任务点的 数据分布差异性,
2、找出了任务点未完成的原因。针对问题二,建立了单任务点定价模型和基于支持向量机的判别预测模型。我们首 先根据问题一得到的定价规律,将原基础价分为基础成本价和经济变动价,其屮经济变 动价是由当地的经济水平决定。然后综合考虑路程与任务周边会员分布情况,结合基础 价、路程价与会员增值价确立了单任务点定价模型。最后为了检验定价模型的合理性, 建立了基于支持向量机的判别预测模型,运用matlab求解得出重新标价后任务完成率提 高 16. 2%.针对问题三,建立了基于聚类与图论的打包定价模型。首先,我们限制聚类的条件 确定了任务包的数量,然后将会员与任务包看成完全图,利用模拟退火算法求得最短回 路,旨在提高
3、单位路程收益率,确定了任务包的总价格,与问题二相比成本节约了 17. 2%, 任务完成率提高了 1.95%.针对问题四,我们首先通过附件三所提供的新任务的位置坐标,得到其周边会员的 分布状况,并分别带入单任务点定价模型和基于聚类与图论的打包定价模型进行计算。 然后比较两方案的结果,发现多任务联合打包发布的定价方案,在任务定价总金额上比 单任务点节省了 22. 39%,并且任务完成率提高了 12. 49%.关键字线性回归模型支持向量机模型层次聚类1问题的重述“拍照赚钱”是基于互联网移动智能终端下的一种自助服务模式。用户下载app, 注册成为会员用户,通过从app上领取拍照任务(比如去某百货超市检
4、查某品牌商品 的上架情况),赚取相应的酬金。这种基于移动智能终端互联网的自助劳务众包平台, 可以为企业、商家提供多种商业检查任务以及商业信息搜集任务,相比于传统的调查方 式,这种众包服务可以节省人量调查成本,而且可以有效保证调查数据的真实性,缩短 调查的调查周期。对于此平台来说,移动智能终端上的app软件是该平台运行的核心, 而app软件中,任务定价又是其完成任务的核心要素。如果任务定价不合理,部分任 务就会无人问津,从而导致商业检查任务以及商业信息搜集任务的失败。结合题目中给 出的附件,我们需要讨论完成下面的问题。问题一:研究题目给出的附件一中的数据,附件一包含一组已结束的任务数据,包 括每
5、个任务的地理位置、任务定价和任务完成情况(“1”表示任务完成,“0”表示任务 未完成)。我们需要根据任务的经纬度位置,挖掘经纬度位置背后隐藏的信息,进而研 究项目的任务定价规律,再结合任务完成情况分析任务未完成的原因。问题二:考虑题目给出的附件二,附件二是会员信息数据,包含了会员的位置、信 誉值、参考其信誉给岀了会员接受任务开始预订时间和任务预订限额,会员信誉越高, 越可以优先开始挑选任务,且其任务配额也就越大。以这些数据为基础,我们要为附件 一中的任务设计新的任务综合定价方案,并和旧方案进行对比。问题三:实际情况下,多个任务在相对集中的位置发布,可能会导致用户会争相预 定,有一种考虑是把这些
6、位置接近的任务捆绑在一起打包发布。在这种考虑下,我们需 要修改前面的任务定价模型,分析新的定价模型对最终的任务完成度的影响。问题四:结合题目给出附件三,附件三是一个新的检查项目任务数据,只有任务的 位置信息。我们需要通过对地理位置信息的深度挖掘,获得更多的任务信息,并对附件 三中的新项目给出新的任务定价方案,并从多方面评价该方案的实施效果。2模型的假设(1)假设会员信誉值越高,会员接单可能性越大;(2)假设会员在某时刻选择不接单,一段时间后,才会再次选择是否接单;(3)假设app上发布的任务难度上处于同一水平;(4)假设在其余情况相同的条件下,会员挑单的顺序按照信誉值高低排序选择;(5)假设会
7、员选择任务时,会以利益为导向,优先选择单位距离收益率高的任务;(6)假设打包任务完成,代表任务包内全部任务完成。3符号说明符号说明dx, y)类与类之间的距离d(x. y)欧几里得距离公式arg min f(x)使得函数/(x)取得其最小值的所有自变量x的集合l表示损失函数符号说明p价格圈内(圆形或环形区域)内的平均价格pi每个任务的价格p任务标价p新制定的任务标价片基础价p.路程价呂会员增值价p1改进后的基础价格h表示将两类样本正确分开的超平面w参数向量,即超平面的法向量q任务包内所有任务总定价和4模型的建立与求解4.1问题一的分析与求解4. 1. 1问题一的分析为了研究附件一中项目的任务定
8、价规律,我们先分析附件一中任务的经纬度数据, 这些数据确定了各个任务点的具体位置,然后收集了这些位置的相关信息,包括人口、 地形、交通、地区经济发展水平、地区特色等。先从整体上观察价格分布情况,发现其价格分布大致是以某些低价点为中心呈放射 状逐步提升的,再利用精确的数值计算验证这种规律的存在性。从数据分析的角度,为 了能对各个位置的任务的标价给出一个更准确、细致的分类,我们采用聚类分析。首先 利用层次聚类分析找岀分布的儿个低价中心,然后将高的价格按照低价的聚类中心逐步 聚类,研究每类任务点价格与类中心的距离关系,最后利用最小二乘法拟合,得到任务 定价与距心半径的关系曲线图。我们通过研究已完成的
9、任务点与未完成的任务点的数据分布差异性,找岀了任务点 未完成的原因。4.1.2问题一的模型准备(1)整体情形通过分析所有任务的标价,制作价格的分布图(图4-1-1),我们观察发现,价格的 变化呈现这样一种态势:整体上存在几个半径有限的价格辐射圈,能覆盖整个区域,价 格圈从中心往外辐射,价格逐渐增加。几个价格辐射圈可能相互独立,也可能互有交叉。图4-1-1所有任务价格分布图(2) 局部情形前文是通过全局窥探定价规律,下面我们再从区域出发,进一步分析价格的形成机 制,选择东莞市作为一个样本,在东莞市有179个任务位置,把东莞市任务的定价分成六类,在地图上对应分布,如图4-l-2o+x&山3
10、壬台山风皿75 - 85& o °°mull餅伽入66-5 - 68.5如-70.570.$ 72.572.5 * 7565 - 66.5图4-1-2东莞市任务标价分布图由上图,我们可知,东莞市任务标价分布图可以呈现为一个由中心向外逐步递增的 辐射图。由此,我们发现东莞市拍照赚钱的任务定价规律为:城市屮心圈,即城市屮心五公里内任务标价在65-685之间,在距离城市中心5公里和10公里内的环形区域内 任务标价在6& 5-72. 5之间,在距离城市中心10公里以外的区域内任务标价在72. 5-85之间。4.1.3问题一的模型建立(1)层次聚类分析聚类分析是要用数
11、量化的方法对事物进行分类,就必须用数量化的方法描述事物之 间的相似程度。聚类分析采用一种“贯穿”的方式按照一定的顺序进行,逐个扫描数据 并确定类屮心,再基于一定的标准把观测量分到相应的各类中。我们以经纬度位置为依 据确定样本间的相似度。首先,我们选择欧几里得(euclid ) 离度量样本点间的相似程度,计算公式幵丄如,y) = £l 忑一 鬥2.k=l然后,使用最长距离法来测量类与类之间的距离,即o,y) = maxo,y), 它的直观意义是两个类种最远两点间的距离。最后,在mintab中利用层次聚类,选择相似度指数为99.5,先从标价为65元的任务 点开始聚类,得到四个类中心,如下
12、表,在地图上定位岀具体坐标。表4-1-1类中心经纬度及具体位置类中心纬度经度具体位置123. 032979113.127594佛山市禅城区朝安北路6号铺中石化223. 125205113.295135广州市越秀区寺右新马路82号松岗小区323. 044353113. 770294东莞市天宝路5大地大厦422. 541733113.940582深圳市南山区粤海街道高新区联想大厦我们根据经纬度位置定位出类屮心1为工业区,类屮心2处于住宅区和学校区,类屮 心3处于商业中心圈,类中心4是科技园区。进一步地,通过查阅数据,得到类中心1的 人均gdp比较小,经济发展水平低,其他三类中心的人均gdp大,经济
13、水平高。但这 四类屮心的任务定价都是在65元,故我们推测附件一在定价时可能并未考虑经济影响因 素,这也可能是造成深圳市任务完成率低的一个原因。(2)计算价格分布数列通过前面的分析,我们发现任务的价格大致是以这四个类中心为圆心,向外辐射, 随着辐射半径的増加,价格不断增加。针对某个聚类屮心h来说,我们令数列色表示与 中心h点的距离在w/ + 1)内的所有任务点的价格均值。以同样的办法算出四个类的价 格分布数列,用excel表格画出这些数列的散点折线图(图4-1-3)得到任务定价与辐射半 径的关系。图4-1-3任务定价与辐射半径的关系由此,我们发现拍照赚钱的任务定价规律为:每个城市都对任务有一个基
14、础标价, 随着辐射半径拉大,即辐射半径的增加,路程价不断增加。四个城市的类中心的基础标 价有差异,随着距离的增加,其上升趋势也有所不同。(3)最小二乘法拟合曲线我们用最小二乘法拟合曲线,通过最小化误差的平方和寻找数据的最佳函数匹配, 简便地求得未知的数据,并使得这些求得的数据与实际数据z间误差的平方和为最小。 使用最小二乘法来求线性回归损失函数最优解,本题假设线性回归数据集屮特征与结果 存在着线性关系y = kx+b,使用平方差来衡量估计值与真实值得误差(如果只用差值就 可能会存在负数);定义用于计算真实值与预测值的误差的函数为平方损失函数,这里 用厶表示损失函数厶=(几-(优+")
15、2,整个数据集上的平均损失为1 n厶二亦工£(几,/(兀,x),八 /j=l我们要求得最匹配的加与c使得厶最小,数学表达式可以表示为1 narg min 一工,f(xn,bn s刃心这里,arg min /(x)是指使得函数/(x)取得其最小值的所有自变量兀的集合。我们利用z前求得的价格分布数列,以广州市和深圳市为例,拟合岀广州市和深圳 市价格分布与辐射半径的回归方程分别为y = 0.4182x+64.16,>' = 0.3695x + 70.16.其拟合线图分别是图4-1-8和图4-l-9o它们的r-sq(调整)'90%,故两条曲线的拟合 效果极佳。广州市任务
16、标价与辐射半径拟合线图y= 64.16 + 0.4182x858075-7001020304050辐射半径(km)65图4-1-4广州市任务标价与辐射半径拟合线图86848280787674-72深圳市任务标价与辐射半径拟合线图y= 70.06 + 0.3695x510152025303540辐射半径(km )图4-1-5深圳市任务标价与辐射半径拟合线图根据我们拟合出的任务标价与辐射半径的直线方程,我们可以确定广州市的任务基 础价格为64. 156元,单位距离上的路程价格为0.4182元,深圳市的任务基础价格为 70. 16元,单位距离上的路程价格为0. 3695元。我们拟合出直线方程,在某种
17、程度上验证了我们在刚开始模型准备中的猜想是正确 合理的,所以我们就找到了附件一中的任务定价规律为:每个任务点价格与中心辐射半 径呈线性关系,即每远离中心坐标1千米,任务价格上升0. 2-0.4元。4.1.4未完成情况原因分析从总体来看,附件中一共835项任务,其中已完成的任务有522项,占比62.515%, 各个价格区间段的任务完成数量如图4-1-6。从统计学角度来看,一个任务是否能完成 的概率会受到城市地区经济水平、任务点周围会员状态等指标因素的影响。450400350300 -250200150100 -50075-8565-6767.5-69.570-7272.5-74.5图4-1-6任
18、务完成数量及任务总数图图4-1-7任务完成情况分布图(3完成个数未完成个数观察图4-1-7,可以发现,四个不同市区内的任务完成情况有着明显的不同,广州 市、佛山市区域已完成的任务点和未完成的任务点数量相近,而东莞市绝大部分任务点 都已完成、深圳市大部分任务点未完成。一方面,就城市的经纬度位置而言,东莞市位于广东省的中部,经济发展处于中等 水平、交通较为便利、人口较为密集,城市繁荣度处于中等水平,所以综合而言,东莞 市的定价可能处于人们理想价格水平及其以上,即东莞市的任务定价可能是合理的,也 可能过高,故东莞市的完成率比较低。广州和深圳位于广东省的北部和南部,经济发展水平高,交通便利,人口密集,
19、进 而城市繁荣度高,正因为如此,人们不满足任务的定价,认为收益过低,故造成广东和 深圳完成率低的原因可能是地区经济繁荣但任务标价低。对佛山而言,佛山位于广东省的四部,佛山经济发展水平低,交通不便利,人口数 量处于中等水平,进而城市繁荣度低。故造成佛山完成率低的原因可能是地区经济不繁 荣,任务标价低等。(2) 任务点周围会员情况我们假设一个会员的服务范围是方圆3千米,现统计四个城市的任务完成状况以及会员分布情况,并计算统计量,如平均数、 表4-1-2罗中位数、方差等, e计量数据图定量分析未完成的原因。因素分析统计量完成未完成平均数5413会员人数方差1417. 3466. 13屮位数4523平
20、均距离平均数2. 302. 95(会员与任务点z间)方差 中位数0. 293. 040. 733. 10平均223. 13210. 44平均信誉方差97220. 37286449. 08中位数10&0163. 29平均数6. 111.25信誉中位数方差55. 721.53中位数1.991.63平均数27. 3524. 55平均单位收益方差229. 24292. 54中位数22. 1221.93 会员人数的原因分析完成的任务点和未完成的任务点附近的会员分布状况,完成的任务点附近方圆 五公里平均会员人数集中在17人左右,而未完成的任务点附近平均会员人数集中在23 人左右,口未完成的任务点会
21、员人数的方差远小于完成任务点人数的方差。所以,有些 地域任务未完成很可能是因为这部分地区会员人数过低,任务过多。或者地域地处偏远, 路程距离城市屮心过远,交通不便,区域附近没有会员或者会员很少,所以任务的完成 率较低。 会员信誉度的原因在完成的任务点上,会员的信誉度平均数,中位数都远高于未完成的任务点。所以,有些地域任务未完成很可能是因为这部分地区会员信誉度低,对任务接受的意愿以及完 成态度都有所欠缺。 会员收益率的原因根据单位距离上会员收益率的差异,一方面,会员会倾向选择那些收益率高的任务, 另一方面,地区经济发展繁荣,普通的收益满足不了会员的需求,任务对会员没什么吸 引力,这些都是造成任务
22、未完成的原因。4. 2问题二的分析与求解4.2.1问题二的分析问题一中,我们已经研究出项冃的定价规律为ykx + b又根据分析的未完成原 因,发现附件一在制定基础价格时未考虑当地的经济因素。我们先从基础成本价和经济 变动价两个角度调整任务点的基础价格b.又因为任务点附近的会员分布状况也会影响 任务完成率,因此我们计划用会员增值价调控任务点的整体价格,以保证任务的完成率 达到一个较高水平,这样,我们就得到了定价方案。为了与原方案进行比较,我们需要先做一个判别模型预测在新的定价方案下的任务 完成情况,在此之前需要把每个任务分配给会员。因此我们先设置任务的分配机制,再 建立支持向量机的判别预测的分类
23、器判断任务的完成情况。4.2.2问题二的任务定价我们在本问中重新考虑任务基础价,并增加会员增值价,基础价是任务最低的定价, 会员增值价是考虑会员的人数、信誉度等综合因素,提高任务的价格,新任务定价是由 基础价、路程价和会员增值价共同决定。基础价65元路程价格会员人数,信誉度、基础成木价经济变动价格改进基础价路程价格会员增值价新的任务标价 会员接单意愿等图4-2-1定价流程图(1)基础价p】在问题一中,以标价为65元的任务点为中心聚类,聚成四类,四类恰好在四个城 市,四个城市中心基础价总和为260元,我们保持基础价总和不变。基础价的确定与经 济发展指标紧密相连,随着经济的繁荣发展,任务的基础价格
24、会随之发生变化。我们把 原来的基础价格65元看作是两部分,一部分为基础成本价,另一部分为区域经济水平 引起价格变动,即随着经济的发展,经济变动价格逐渐上升,取标价为65元的基础价 屮50元为基础成本价,15元为区域经济变动价格,此时的经济发展程度可以看做是四 个城市的平均水平。基本小时工资在一定程度上展示了经济的发展水平,政府为了实现宏观上的相对公 平,为群众设置了基本工资,保证了人们的既得利益。工资水平与经济状况紧密相关, 我们查得2017年广东省四市的基木小时工资,四市平均水平为16. 65元/小时。下面计19 5算新的基础价格,以深圳市为例,改进后的基础价为xl5 + 5o = 67.5
25、7元16.65表4-2-1四市基木小时工资和改进后的基础价深圳市广州市佛山市东莞市基本小时工资(元/小时)19. 51&314.414.4基础价格(元)67. 5766. 4962. 9762. 97(2)路程价£我们在本题中类中心不变,位置不变,故单位距离上的收益率不变,比如我们在问 题一中,求出的广州市和深圳市单位距离上的路程价格分别为0.4182元和0. 3695元, 佛山市的单位距离上的路程价格为0.2937元,东莞市的单位距离上的路程价格为 0. 3023元,在本题中我们确定的路程价格与问题一中一样。(3)会员增值价呂每个会员所处位置3千米内的平均任务点数为5.64
26、个,假设会员选择任务的平均 意愿的概率为60%,又每个任务难易程度相同,即被选中的概率相同,所以每个任务被 选中的概率为10. 64%o分析每个会员完成任务的意愿概率,其浮动范围在50%-70%之间, 我们可以按会员的信誉度进行排序,意愿概率从50%等分布到70%。任务完成率过高可能是价格制定的高,不满足经济效益;任务完成率低不符合实际, 没有应用价值,所以控制任务的完成率在80%-90%之间,由此可以计算出在一个任务点 附近分布多少的会员数最为合理,设会员人数为列不等式&)%<1 (1 10.64%)" 590%(4. 1)计算得到人数范围为15</<21
27、.在这个范围内,任务定价就为基础价加远程价,当0sn515时,这部分会员的增值 价可以看作是在原价(基础价加远程价)的基础上减15%,即人数每少1人,相应价格 加1%。当n>50时,根据以上分析发现此时对任务定价并没有产生大幅度影响,所以我 们把50当做是任务点附近3千米会员人数的上界,当21<h<50时,这部分会员的增值 价可以看作是在原价的基础上加15%,即人数每增加一人,价格减少|% = 0.52%0因 此,最终会员增值价的函数表达式为(戸 +北)(1 + *1%),0<h<15,人=戸 + £,15</?<21,(4.2)(匕+鬥)(
28、1 一泸 0.52%), 21<n<50.(4)任务标价p任务标价由改进基础价、远程价和会员增值价共同组成,即p=r+匕+匕,这里p 为新制定的任务标价,h为改进后的基础价格,人为会员增值价。经过编程计算我们得到了所有任务的定价,每个任务的具体定价见支撑材料excel 文件。4. 2. 3问题二模型的建立为了预测新定价方案的成功率,首先需要我们把每个任务分配给会员,然后根据每 个任务点附近3千米内的会员人数、会员平均信誉、会员平均配额、平均单位距离上的 收益率等信息,建立支持向量机模型判别新定价的任务的完成情况,建立支持向量机判 别预测模型吋,使用支持向量机学习算法,根据原定价方案
29、的数据,建立分类器并进行 检验,若其准确率达到85%-90%之间,那么,我们可以把这个分类器应用于新的定价方 案,判别新方案下的完成情况,进而比较两种方案的完成率。定价方案的完成情况判别 流程图见下图4-2-2o83 5个任务1877个会员判别r任务完成情况lj图4-2-2定价方案的完成情况判别流程图(1) 分配设置一个分配机制,把835个任务分配给1877个会员,设每个会员完成任务的意 愿为60%,综合考虑会员信誉度、任务点与会员的距离、限额以及收益率,确定每个任 务的完成情况。会员信誉度展示的是会员的接单意愿,结合接单时间先后顺序确定会员挑选任务的 顺序,我们把1877名会员先按接单时间顺
30、序排序,再按信誉排序,综合比较,确定会 员的接单顺序。会员的任务限额决定了会员接受任务的数量限值,根据会员限额在所有 会员中的比例,确定有835个任务吋,每个会员最多能完成的任务数量。下面介绍任务分配的流程,假设所有的任务在6点30同时发放,先按会员顺序选 择任务,会员如果选择完成任务,那么他选择任务的依据是以单位距离收益率为导向。 如果会员没有选择任务,那么他必须等待一段时间,才能再次选择任务,一直循环,直 到所有的任务都有人完成。由此,现在835个任务都有唯一确定的会员完成。(2) 判别 数据整理我们假设每个会员的平均服务半径是3千米,下面考虑任务点完成情况时,选取任 务点附近3千米的服务
31、圈,收集任务点附近服务圈内的会员人数、会员平均信誉、会员 平均配额、平均单位距离上的收益率等数据,将这些数据作为判断任务完成情况的指标。 支持向量机模型(svm )建立支持向量机是一种基于统计理论的学习系统,它屈于有监督的学习方法。其主要应 用为已知训练点的类别,求训练点和类别之间的对应关系,将训练集按照类别分开,或 者是预测新的训练集所对应的类别。支持向量机基本思想简单总结起来,就是与分类器平行的两个平面,此两个平面能 够很好的分开两类不同数据,且穿越两类数据区域集中的点,现在欲寻找最佳超几何分隔平面使之与两个平面间的距离最大,如此便能实现分类总误差最小。stepl:设线性可分样本(兀.,牙
32、),心1,2, ,/,xi丘心牙g-/,+/, /为训练样本总数,其中点与五角星分别表示两类不同类别的样本,h表示将两类样本正确分开的超平 面,其方向用超平面的法向量来表示,已旧2分别表示是与超平面平行且超过两类样木 中与超平面h距离最近的平面,其间的距离称为分类间隔。最优分类超平面指的是所求 取的超平面不仅能将两类样本正确地区分开,使模型训练误差为零,而且还要使两类的 分类间隔达到最大值。d维空间中的线性判别函数为=超平面方程为”兀+方=0其中,wwr”为参数向量,即超平面的法向量,bw r为分类的阈值,w-x为向量的内积运 算。step2:归一化,使lg(x)ll,离分类样本最近的样本的|
33、g(无)|=1,这时分类间隔为 2,若要求分类间隔最犬,就是要求或者 2最小,而要求分类面对所有样本正确分类,就是要求满足(4.3)= 1,2,3, ,/.求最优分类超平面问题可以转化为下面带约束条件的优化问题进行求解min (vv)=w(4.4)7 = 1,2,3, ,/step3:对于线性可分的样本,可以被最优分类超平面区分开,对于线性不可分的情况,考虑到一部分样本数据不满足式(4.3),存在一定的分类误差,因此我们在约束 条件中引入一个松弛变量6(6 no)來解决误差问题,则式(4.3)变成刃(川兀)1-纟/ = 1,2,3,1.(4. 5)当ov.vl吋,样本点正确分类;当岳上1吋样本
34、中的点召将被错分。为了解决此问题,在最小化目标中加入惩罚项c 土得到如式(4.6)的目标函数/=11 i(咗)=7 /+c&(4.6)2 /=!由此,可以得到线性不可分时的最优分类面,称为广义分类超平面,它可以用公式 (4.7)的优化问题来表示。min(咗)4 /+c立(4.7)乙/=|心 1,2,3,1其中,表示样本集中错分样本个数上界,用与衡量样本数据相对于理想划分条/=!件的偏离程度;c(c>0)用于控制对错分样本的惩罚程度。若c取值较大,则能获得较 小的经验风险(错分误差小);若c取值较小,则能获得较好的推广性能(分类间隔较 大)。为了求解这个优化问题,利用拉格朗日函数,
35、将优化问题转化为对偶形式,如公 式(4.8)min厶(a ) = &厂覆丫陀厂y儿( < x/=|厶 /=1 7=1(4.8)0<ai <ci工w尸04. 2. 4问题二模型的求解在原定价方案中的835条任务信息中随即抽取100组数据进行学习训练,得到分类 器,把剩下的735组数据通过分类器进行分类,比较分类器的完成情况与实际上的完成 情况的匹配率,我们计算得到的成功率在85%-90%之间,因此,它的准确性比较高,所 以可以用这个分类器判别新的定价方案下任务的完成率。比较两个方案的完成率,两个方案完成数量的分布图见下图4-2-4,我们计算得到原定价方案的成功率为61.
36、72%,新定价方案的成功率为77. 93%,原定价方案和新定价 方案的平均成本分别为6& 93元和74. 52元,前后两种方案单位成本上完成率分别为 0.90%和1.05%。所以,比较而言,新的定价方案虽然增加了总成本,但单位成本上的完成率高,反而能赢得最大收益。价格修改前任务完成状况完成任务数未完成任务数价格修改后任务完成状况完成任务数未完成任务数图4-2-4原方案与新方案完成任务数量比较在原定价方案中未完成的任务在新定价方案下的完成率为83. 71%,这说明新的定价 方案更为好,提高了任务的完成率,而且在原定价方案中完成的任务在新方案下的完成 率为74. 34%o新的定价方案是合理
37、的,如果完成率过高,那样可能是因为定价过高,成 本增加太大。我们制定的新方案不仅提高了任务的完成率,而且单位成本上的成功率增 加。4. 3问题三的分析与求解4. 3.1问题三的分析问题三分为两部分,一部分为定价方案,我们在问题二中考虑了单个任务的定价, 本问,考虑把多个位置集中的任务联合在一起打包发布,同问题二一样,可以先聚类分 析,我们确定任务包的数量,把任务包看作整体,将会员与任务包看成完全图,利用模 拟退火算法求得最短回路,进而制定每个任务包的总价。另一部分,考虑任务的完成情况,用问题二的分配机制和支持向量机模型判别任务 完成情况,比较任务的完成率。4. 3. 2问题三打包定价模型在问题
38、二,我们定价是以从低价到高价进行聚类,在本问中,我们运用同样的思想, 先聚类得到任务包个数,再计算包内任务总价,其基本流程图如下图4-3-k图4-3-1打包定价流程图(1)聚类分析考虑把任务打包发布,对任务点进行聚类分析,假设一共聚为类,每一类辐射半h径为则所有类的平均半径为r =上,现平均半径的一个限值为几当r<r可以确定分 n成的类数,即分成个包。(2)打包定价图论思想主要是用图形描述某些事物之间的某种特定关系,用点代表事物,用连接 两点的线表示相应两个事物间具有这种关系。现取任一类,把这一类中的任务记为 知花,呂,对应的价格记为“ p2,,几,会员a选择任务时,主要是以单位距离上的
39、 收益率为导向,设会员a到每个任务点的距离为心,考虑会员来冋往返的距离,原来不 打包时会员完成第厂个任务的收益率为幺=旦2d)如果把任务进行打包,会员去完成任务,最经济的方法就是从原点出发,历经包内 所有点,最终回到原点,使得总距离d最小。会员选择任务的示意图(图4-3-2),从 图论的角度来看,该问题实质是在一个带权完全无向图中,找一个权值最小的hamilton 回路。由于该问题的解可以使用近似算法或启发式算法,主要有遗传算法、模拟退火法、 蚁群算法、禁忌搜索算法、贪婪算法和神经网络等,我们采用模拟退火算法计算最短距 离。设包内所有任务的定价和为q,因此,打包后会员完成所有任务的收益率为(气
40、, 用来度量打包后会员收益率的增加程度,计算=红鱼,假设每一个会员接受任务吋, 打包任务的收益率比单独的收益率高某个限定值,记为八 即当宀丁吋,会员会更倾向 于选择打包的任务。计算包内所有任务的总定价为+ 进而,每个任务包内所有任务点价 2d,格和都能定价。4. 3. 3问题三的求解与解释任务完成后,有两部分指标可以体现任务的最终完成情况,第一项是对所有任务定 价所花费的资金成本,第二项是全部任务的完成比例,分析问题三定价模型对任务的完 成情况的影响,也是从这两方面入手。(1)全体任务定价依照上述模型,首先通过q型聚类分析法,利用mintab软件,对于全部任务点关于 地理位置信息以99. 5%
41、的相似度指标进行聚类计算,得到530个不同的类别,我们依据 聚类情况将835个任务点打包成530个任务包,每个任务包中的任务数量如下图4-3-3.0.75% 1个任务 2个任务 3个任务 4个任务 5个任务6个任务图4-3-3每个任务包内的任务点数以及任务包数量分析上图,在530个总任务包中,有327个任务包中只有一个任务,也就是说相当 于这327个任务不收任务打包影响,而受打包影响的任务有508个,影响率为60.84%。 根据问题三建立的任务包联合定价模型,我们将任务包的分类数据带入mat lab软件编 程(附件)求解得到530个任务包的整体定价。对于这530个任务包,其总定价为51363元
42、,相比打包前835个任务点的总定价 62195元,我们可节省任务酬金17.42%。以第71号任务包和第192号任务包为例,71 号任务包将3个任务点a0093、a0097、a0361 一起打包发布,打包前后总定价分别为 254. 35元和133. 50元,其成本降低了 47. 51%; 192号任务包将两个任务点a0279.a0377 一起打包发布,打包前后总定价分别为143. 29元和130. 85元,其成本降低了 8. 68%。(2)完成情况分析对于这530个任务包我们带入上述问题中所使用的任务分配模型和已经训练好的支 持向量机模型进行任务完成情况预测,可得共有374个任务包被完成,占总任
43、务包数量 的70. 57%,这374个任务包共包含667任务点,占总任务点的79. 88%,相比于新定价 方案、不打包发布时的完成度74.85%有了显著的提高,更是远高于附件一的初始完成度 62. 51%0从上述两方面来看,多任务联合打包发布,具有相当的实用性,配合问题三任务包 全新的定价方案,我们可以将总的任务成本下降17.42%,并口提高了 5. 03%的任务完成 度。4.4问题四的分析与求解4. 4. 1问题四的分析附件三中给出了 2066条新任务的地理位置信息,本文我们总共涉及了两种任务发 布的模式,以及配套的任务定价方案,我们分别应用这两种模型设计岀新的定价方案, 并根据任务接取模型
44、联系任务与会员关系,再利用支持向量机模型判别任务的完成情 况,比较两种定价方案的完成率,并评价它们的实施效果。4. 4. 2问题四模型的求解(1)单任务点定价方案 定价方案利用问题二的定价方案计算,依据每个任务点的地理位置信息和任务点位置附近的 会员信息,确定其相应的定价,每个任务点的计算结果在支撑材料的excel文件中。 完成情况分析按照问题二的分配机制把新的任务分配给会员,利用训练好的支持向量机模型建立 分类器,判断在单任务点定价方案下任务的完成情况。通过matlab软件编程处理,在 2066个任务点中,有1357个任务点被完成,占全部任务点的65.68%,全部任务定价总 金额150528
45、9元。(2)任务包定价方案定价方案利用问题三的定价方案,通过mintab软件对全部任务点进行q型聚类分析,得到 1175个聚类集,也就是将2066个任务点打包成1175个任务包进行联合发布,其中每个 任务包中包含的任务点数量如下图(图4-4-1 )0 1个任务 2个任务 3个任务 4个任务 5个任务 6个任务 7个任务大于8个任务图4-4-1每个任务包内的任务点数以及任务包数量分析上图,在1175个总任务包中,有667个任务包中只有一个任务,也就是说相 当于这667个任务不收任务打包影响,而受打包影响的任务有1399个,影响率为67. 71%。 根据问题三建立的任务包联合定价模型,我们将任务包
46、的分类数据带入matlab软件编 程(附件)求解得到1175个任务包的整体定价。打包后全部任务包总定价为116813元, 相比于未打包前的总定价150529元,打包联合发布,可以将任务打包成本节省22. 39%, 以第350号任务包和第953号任务包为例(表4-4-1),第350号任务包包含c0729、c0730、 c0731这3个任务点,第953号任务包包含c1783、01784, 2个任务点。表4-4-1打包前后数据的变化打包点序号打包个数打包后总定价打包前总定价成本节省率3503121.2016212.524342. 97%9532142.5429150.34595. 19%完成情况分析
47、同样按照问题二的分配机制把新的任务分配给会员,利用训练好的支持向量机模型 建立分类器,判断在任务包定价方案下任务的完成情况。通过matlab软件编程处理,在 1175个任务包中,有738个任务包被完成,占全部任务包的62.81%,这738个任务包 共包含1615任务点,占总任务点的78.17%,相比于单任务点定价方案、不打包发布任 务时的完成度65.68%有了显著的提高。因此,考虑到任务完成率,以及总的任务定价大小,对于附件三中的新项目,使用 多任务联合发布,联合定价的定价方案实施效果更好。5模型的优点与缺点5. 1模型的优点(1)我们设计的新的定价方案与原方案比较,不仅完成率高,而且收益高,
48、所以 新的定价方案应用性更强;(2)我们用最小二乘法拟合的冋归曲线图的/?-sq(调整)“0%,所以曲线的拟合效 果极佳。(3) 本文建立支持向量机的模型预测任务完成情况,具有可行性高、应用性强的 特点,可以进行推广和应用到其它方面。5. 2模型的缺点聚类分析的次数不可只用一至两次,如果对成果率有需求,可以在能力范围内增加 聚类的次数具有一定的局限性。5. 3模型的改进与推广(1) 两个定价模型都提高了任务的完成率,可以把模型推广应用到类似app的定 价上,比如拍拍赚app。(2) 本文建立的支持向量机模型,可以用于预测函数,具有很强的应用性,可以 推广到医保诈骗、检测商业诈骗、军事入侵、电脑
49、病毒、生理疾病等异常行为的发生, 实用性强、开发前景极优。6参考文献1司守奎,孙兆亮数学建模算法与应用m.北京:国防工业出版社,2015.朱元泽,李贤彬matlab实用教程m 镇江:江苏大学岀版社,2013.3 卓金武.matlab在数学建模中的应用m.北京:北京航空大学岀版社,2011.4 韩中庚数学建模方法及其应用m北京:高等教育出版社,005.5 史峰,辉等.matlab智能算法30个案例分析m.北京:北京航空航天大学出版社.6 童咏昕,野,成雨蓉等时空众包数据管理技术研究综述j 软件学报,2017, 28(01) :35-58.7 李国良,建华众包技术研究综述j计算机学报,2015(0
50、9) : 1713-1726.8 夏恩君,王文涛.企业开放式创新众包模式下的社会大众参与动机j 技术经济, 2016, 35(1) :22-29.附录一:clc;clear;load('zong.mat');nl,二size(a);n2,=size(b);w=zeros(nl,8);zx=22.541733,113.940582;23.125205,113.295135;23.032979,113.127594;23.044353,113.770294;jg 二67.56,66.49,62.97,62.97;0.369,0.418,0.29,0.29;%dxx=zeros(nl
51、,4);for i=l:nlfor j= 1:4dxx(i,j)= 11 o*sqrt(a(i,l)-zx(j,l )a2+(a(i,2)-zx(j,2)a2);enda(i,6)=find(dxx(i,:)=min(dxx(i,:);a(i,5)=min(dxx(i,:);end%for i=l:nlx=0;y=o;bs=0;d=zeros(nl,2);g=l;xe=zeros(nl,l);forj=l:n2dl=ll 0*sqrt(a(i,2)-b(j,2)a2+(a(i,l )-b(j,l)a2);讦(dl<3)w(i,4)=w(i,4)+l;x二x+b(j,5)*b(j,2);y
52、=y+b(j,5)*b(j,l);bs=b(j,5)+bs;d(i,l)=dl+d(i,l);xy(g,l)二b(j,5);g二g+1;xe(i,l)=b(j,3)+xe(i,l);endendw(i,l)=x/bs;%3km信誉质心经度w(i,2)=y/bs;%3km信誉质心纬度 w(i,3)=bs/w(i,4);%3km内平均会员信誉%w(i,4)%3km周围会员数w(i,5)=d(i,l)/w(i,4);%3km 内平均会员距离 w(i,6)=a(i,3)/w(i,5);%3km内平均会员单位收益 w(i,7)=median(xy);%3km 内中位会员信誉 w(i,8)=xe(i, 1
53、 )/w(i,4);%3km 内平均会员限额end%rmin=20;rdmin=o;rmax=40;rdmax=60;bl=0.1;for i=l:nlif (w(i,4)<=rdmin)a(i,7)=(jg(l,a(i,6)+jg(2,a(i,6)*a(i,5)*( 1 +bl);elseif (w(i,4)>rdmin&&w(i,4)<=rmin)a(i,7)=(jg(l,a(i,6)+jg(2,a(i,6)*a(i,5)*( 1 +bl/(rmin-rdmin)*(rmin-w(i,4);elseif (w(i,4)>rmin&&w
54、(i,4)<=rmax) a(i,7)=jg(l ,a(i,6)+jg(2,a(i,6)*a(i,5);elseif (w(i,4)>rmax&&w(i,4)<=rdmax)a(i,7)=(jg(l,a(i,6)+jg(2,a(i,6)*a(i,5)*( 1 -bl/(rdmax-rmax)*(w(i,4)-rmax); elseif (w(i,4)>rdmax)a(i,7)=(jg(l,a(i,6)+jg(2,a(i,6)*a(i,5)*( lbl);endendaa=l:nl;a=aaa,w;%k=0;for i=l:nlif (a(i-k,12)=
55、0)a(i-k,:)=;k=k+l;endendxlswritecwneti2.xls',a);a(:,5)=2.*(a(:,5)-0.5);%数据预处理x0=a(:,2:5);for i=l:3x(:,i)=(x0(:,i)mean(x0(:,i)/std(x0(:,i); endm,n=size(x);e=ones(m,l);d=x0(:,4);b=zeros(m,m);c=zeros(m,m);for i=l:mc(i,i)=d(i,l);end%转化成规划模型进行求解a二卜x(:,1)*d, x(:,2).*d, x(:,3).*d, d,b; bl=-e;f=0,0,0,0, ones(l,m);lb=-inf,-inf,-inf,-inf,zeros( 1x = linprog(f,a,bl,f,l,lb);%模型验证与结果显示w=x(l,l),x(2,l),x(3,l);% 提取系数cc=x(4,l);%提取截距t0=a(:,2),a(:,3),a(:,8);for i=l:3t(:,i)=(t0(:,i)-mean(t0(:,i)/std(t0(:,i); endx1=x(
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 财务管理学员问题集锦试题及答案
- 财务管理应用实务试题及答案
- 2025年精神心理健康医疗服务市场供需分析及对策建议报告
- 医疗行业在数字广告中的机遇与挑战
- 2025年财务管理考试的解题思路及试题与答案
- 财务管理与审计配合的试题及答案
- 2025年中医药现代化进程中奥地利市场拓展前景报告
- 初级会计法规尝试试题及答案
- 提升应试能力的中级会计实务试题及答案
- 突破难关的工程法规试题及答案
- 加油站职业危害防治计划和实施方案
- 路面弯沉温度修正系数
- 山东省济南市槐荫区2024届中考联考化学试题含解析
- (完整版)xx中学“双积双评”积分入团实施方案
- 拖拉机和联合收割机安全技术检验合格证明
- 文化产业政策与法规
- 2023年危险化学品经营单位负责人和安全管理人员培训
- 第四讲婴幼儿情绪情感及社会功能的发育
- (完整word版)餐券模板
- 平野苍流:打渔张引黄灌区开灌60周年纪念专辑
- 电梯安全风险管控清单
评论
0/150
提交评论