浙大数模论文.doc_第1页
浙大数模论文.doc_第2页
浙大数模论文.doc_第3页
浙大数模论文.doc_第4页
浙大数模论文.doc_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、 问题重述通信技术极大地促进了社会的发展,而社会的飞速发展对当前的通信设备和业务又提出了更高的要求。如何利用现有的通话数据记录进行概括分析,以便做出合理的决策,进而改善通信设施、拓展新的通信业务,依然是很多通信公司所面临的一个难题。现有一家通信公司公布的2009年6月份某地300个用户10天内的通话记录,分别给出每个用户的主叫时间、被叫时间、通话时长以及主叫者所属基站等信息。我们要解决的问题有:1、 根据这些通话记录信息建立模型对300个用户分类;2、 根据用户分类的结果,探讨如何合理选择部分用户作为新业务的首选推广人群,并撰写一份不超过两页的给公司经理的建议;3、 结合基站分布地图,讨论该地基站建设情况是否合理。如需改进,给出合理的建议。二、 问题分析电信客户细分是依据电信市场特有的运作规律,按照电信客户在需求、行为、支付能力等方面的差异,运用系统的方法,将整个电信用户市场划分为若干个不同的客户群,然后针对各个客户群制定有针对性的营销策略,提供差异化服务,提高客户价值和客户满意度。由于本题给出的数据仅包括每个用户的主叫时间、被叫时间、通话时长以及所属基站等信息,即描述用户行为的相关参数,我们选择根据用户行为的差异对这300个用户进行分类。首先,我们将所有数据按用户编号排序。由数据表可以明显地看出他们在通话时间、通话时长、联系人群、基站使用数等方面存在明显的差异。一方面,这进一步确认了基于行为分类的合理性;另一方面,不同特征的交错性表明用数字精确刻画用户行为特征是不可行的,其特征只能用不同的程度来描述和区分(极高、较高、一般、较低、极低)。另外,所给数据量非常大,用户的行为又具有随机性,造成其蕴含的信息不明显,人工给出明确的分类标准具有极大的难度。因此我们认为借助计算机进行聚类分析是解决这个问题的有效途径。一项新的通信业务的推出,往往针对了一个消费群体的需求。对于通信公司而言,给予特定客户一些他们需要的优惠是吸引客户的主要方式。这是一个典型的决策问题,且目标难以定量描述,可采用比较适合于具有分层交错评价指标的目标系统、而且目标值又难于定量描述的决策问题的层次分析法来解决。 基站位置设计的着重点是站距策略、拓扑结构、话务密度、阻挡和干扰等方面。由本题给出的数据和信息,我们只能从话务密度、单站载荷峰值等基站使用情况来评价和改进基站的建设。另外,为了降低综合建网成本,站址的拓扑结构应尽量符合规则的理想蜂窝网络结构(正六边形的结构),以保证均匀覆盖和减少导频污染。三、 模型假设与符号说明3.1模型的假设1、这300个用户全部为随机抽取,其数据能够反映当地真实情况。2、一个用户在同一时间只能进行一项通话,即不能同时呼叫多余一个用户或被多于一个用户呼叫或同时呼叫和被叫。3、我们认为,在一个小时内,通话记录总条数相对较多则称该时段属于繁忙时间,否则称空闲时间。由数据比较得出,每天00:00至8:00为空闲时间,其他时间为繁忙时间(时间分段见附录)。4、2009年6月1日为周一,6月6号、7号为周六、周日,因此6月1号5号、8号10号为工作日,6号、7号为周末。5、用户作为主叫者时的地理分布概率与作为被叫者时相同。6、为了合理地描述用户的漫游倾向,基于现实情况的考虑,将地图所给区域从北到南划分为三块,即基站16和30所在区域为A区,基站717、28、29所在区域为B区,其余基站在区域为C区。由于题目中没有给出用户归属地,我们可以认为其使用时间最长的基站所在区域为其归属地,则该用户在其他区域通话时视为漫游。7、各基站工作能力相同,即辐射度、工作半径、最大承担载荷、使用寿命等相同。8、用户通话时使用的基站为与其距离最近的基站。9、基站的坐标为所在经纬网方格的中心点,其中30号坐标为其所在交叉点,28、29号坐标为所在边的中点。10、鉴于该区域海上作业比较频繁,视海洋和陆地同样为有效覆盖区域。3.2符号说明:第i个用户通话总时间;:第i个用户主叫总时间;:第i个用户主叫时间比例;:第i个用户漫游时间(在非归属地区通话时长);:第i个用户漫游倾向;:第i个客户繁忙时段通话总时间;:第i个用户忙时通话时间比例;:第i个用户联系人数量;:第i个用户与第j个用户通话时间;:第i个用户与不同联系人通话时间方差;:第i个用户工作日通话总时间;:第i个用户工作日通话时间比例;:第i个用户所属区域;:第i个基站的使用人数;:第i个基站每小时业务量峰值。四、 模型的建立与求解4.1通信用户的分类模型1. 数据处理为了使数据挖掘的效率更高、数据挖掘的结果更合理,用于挖掘的数据应该准确、简洁且易于处理, 因此我们首先按照以下原则剔除错误数据:1) 通话时间不得为负。2) 根据假设1,同一时间不得出现多方通话。处理方法如下:1) 在EXCEL中对全体数据按通话时长排序,发现并删除如下错误数据:编号主叫者被叫者主叫时间通话时长主叫者所属基站47591041120090608 1320-242642701765420090607 1631-9182) 在MATLAB中编写查找错误数据的程序(查找程序见附录),共发现160对(300项)数据,在EXCEL中去除这些数据。算法思想如下:步骤一:将主叫时间和通话时长的单位统一到秒;步骤二:求出所有通话的起始时刻和结束时刻;步骤三:若第q个通话的起始时刻小于第p个通话的起始时刻,而p、q两个通话的主叫者和被叫者只涉及三方,则记下p、q两个通话;步骤四:输出所有被记下的通话,即错误数据的编号。2. 细分变量为了使数据更易于分析,需要由原始数据衍生出一系列变量(数据处理程序见附录)。从已有的通话记录中,我们一共得到了20项用户信息,用以描述用户通话多少、主叫被叫情况、不同时段的通话情况、漫游情况、联系人多少等特征。主叫次数被叫次数总次数主叫时间被叫时间总时间主叫平均通话时间被叫平均通话时间总平均通话时间主叫时间比例忙时通话时间闲时通话时间忙时时间比例工作日通话时间周末通话时间工作日通话时间比例漫游倾向使用过的基站数联系人数不同联系人通话时间方差在统计以上用户信息时,我们发现各个用户的主叫平均通话时间,被叫平均通话时间以及总平均通话时间几乎全部集中在160200之间(说明不同用户间的此项特征十分接近),因而这样的特征对于不同用户来说并没有区分度。所以,我们放弃了平均通话时间这一类数据。另外,我们发现,很多特征之间有较大的相关性(如主叫时间比例已经刻画了用户打电话多还是接电话多的特征,却还有主叫时间和被叫时间这两项特征值),且聚类的维度越大,结果的区分度越小。因此,我们根据我们所关注的用户特征有针对性地选取了7项特征值作为分类标准:1) 通话总时间V1:刻画用户通讯多少这一基本特征;2) 主叫比例V2:描述用户打电话多还是接电话多;3) 漫游倾向V3:刻画用户漫游的情况,以区分长期固定的用户和旅行移动较多的用户;4) 忙时比例V4:描述用户在一天之内不同时段通话的分布;5) 工作日比例V5:描述用户在工作日和周末不同时间的不同通话分布;6) 联系人数量V6:刻画用户的通讯范围;7) 不同联系人通话时间方差V7:描述用户是否固定给若干联系人通话,还是所有联系人通话情况比较平均。每项特征计算方法如下:第i个用户通话总时间: :第i个用户主叫时间比例:第i个用户漫游倾向:第i个用户忙时通话时间比例:第i个用户工作日通话时间比例:第i个用户联系人数量:第i个用户的联系人集分散度(与不同联系人通话时间方差):因此,第i个用户在空间的位置为 。3. 变量标准化可以看出,7个因素数量级上有较大的差别,而且量纲也不尽相同,因此必须进行数据的无量纲化处理。常用的无量纲化处理方法有四大类,此题我们采用标准化方法,即将变量减去其均值,再除以其标准差即:,这种方法使得处理后的数据平均值为0,标准差为1,从而消除了数量级的影响,而且该方法利用了所有的数据信息,采用该方法在无量纲后使得各变量均值相同,标准差也相同,消除了各变量在变异程度上的差异,各变量转化后的各变量在聚类分析中的重要程度是同等看待的,较好地符合本题的要求。4. 聚类算法的选择由于我们选择了上述七个特征来刻画用户行为,则此聚类分析的维度为七,属于高纬度聚类,因此基于距离的传统聚类算法效果并不理想。通过比较,我们选择K-means算法,此算法结合了神经网络能将数据从高维映射到低维、增强有用信息并降低噪音的优点与K均值算法在已知分类数目和中心下精度高的优点。SPSS软件提供了完善、多样的聚类工具,快捷、准确,而且能够对数据进行标准化处理,因此我们使用SPSS进行聚类。算法具体过程如下:首先采用SPSS Clementine提供的方法来确定聚类个数:在K-means模型中分别设定不同的聚类数目,应用SPSS软件得到3-10个类的表,并比较其各类F值(平均组间离差平方和除以平均组内离差平方和)差异的大小,我们观察到聚为7类与8类时的F值的差异不太大,因此将聚类个数定为7,同时这也符合电信市场客户划分的一般规律。然后,从所有数据对象任意选择 7 个对象作为初始聚类中心,而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数(均方差)开始收敛为止。这7个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。5. 聚类结果分析通过上述方法,根据通话总时间、主叫时间比例、漫游倾向、忙时通话比例、工作日通话比例、联系人数量、不同联系人通话时间方差这七个变量,300个用户被聚集为七大类:最终聚类中心聚类1234567V1-.2569572.602083-1.534856-.4949436.255408.788087-.434192V2.212375-1.704192-.423137.580297-2.464767-1.044410.415733V31.609204-.267676-.700425-.450611-.307067-.272609-.552760V4.112350.153424-5.189265-1.094766-.232761.060817.627018V5.172947-.146393-2.549447.499232-.859917-.093734-.311713V6-.2543562.393550-.715265-.3405389.204463.432507-.349263V7.017734.116720-.958679-.362562-.506306.939122-.382819每个聚类中的案例数聚类164.000211.00031.000462.00052.000663.000797.000有效300.000缺失1.000每类客户的七个特征在下图中得到比较:各类用户所占比例如下:根据分析,用极高、较高、一般、较低、极低五个程度来描述每类用户行为特征如下表:类别特征1234567通话总时间较低较高较低一般极高一般一般主叫比例一般较低一般较高极低较低较高漫游倾向较高一般较低较低一般一般较低繁忙时间段通话比例一般一般极低较低一般一般较高工作日通话比例一般一般极低较高较低一般较低联系人数量一般较高较低一般极高较高一般联系人分散度一般一般较低一般较低较高一般人数641116226397为了更清晰地归纳出每类客户的特征,我们将七个特征值还原(还原程序见附录),得到如下图表:从图中我们可以看出第4类和第7类用户除了忙时通话比例和工作日通话比例稍有区别,其他特征基本相同,因此我们将这两类客户进行合并。合并后总结如下:特征结论类1(64个)联系人数量少,漫游倾向最大,通话总时间一般偏低,主叫比例较大经常性出差或旅游人群类2(11个)联系人数量较多,通话总时间较大,不同联系人通话时间方差较大,主叫比例较低企业型大客户类3( 1个)联系人数量最少,通话总时间最低消费最少的低端用户类4(159个)联系人数量少,不同联系人通话时间较为平均,通话总时间一般偏低,主叫比例较大生活型普通用户类5(2个)联系人数量最多,通话总时间最大,主叫比例很低如热线电话、投诉电话等被动用户类6(63个)联系人数量少,不同联系人通话时间差距很大,通话总时间一般偏低,主叫比例一般拥有固定通话对象的普通用户4.2新业务推广人群的选择一项新的通信业务的推出,往往针对了一个消费群体的需求。对于通信公司而言,给予特定客户一些他们需要的优惠是吸引客户的主要方式。这是一个典型的决策问题,可采用比较适合于具有分层交错评价指标的目标系统、而且目标值又难于定量描述的决策问题的层次分析法来解决。将这个决策问题按总目标(推出新业务)、评价准则(不同类别用户的消费行为特征)、备择方案(客户类)的顺序分解为三个层次结构,然后得用求解判断矩阵特征向量的办法,求得每一层次的各元素对上一层次某元素的优先权重,最后再加权和的方法递阶归并各备择方案对总目标的最终权重,此最终权重最大者即为最优方案。层次分析法比较适合于具有分层交错评价指标的目标系统,而且目标值又难于定量描述的决策问题。1. 层次分析模型的建立从上一问题可以看出,第3类和第5类客户所占比例极少,且该地区人口也比较少,所以这两类用户的总数量必然很少,而且消费能力很差,不是主要目标市场,在制定新业务时可以不必针对这两类客户。决策者示意图如下图所示,其中,选择合适的人群属于目标层O;七种行为特征属于准则层C,而五类类用户则属于措施层P。由于准则过多,我们将七种特征概括为通话时间因素、通话时段因素、漫游倾向因素和联系对象因素,并将其作为准则层。同时,为了便于描述和选择,我们依据社会常识将上述四类用户分别命名为:漫游型、企业型、生活型、定向型。首先,建立如下层次结构模型:主叫比例漫游型通话总时间O(选择合适的人群)忙时通话比例漫游倾向联系人数量企业型生活型定向型工作日通话比例联系人分散度然后,构造判断(成对比较)矩阵。方案层 准则层:在采用1-9标度方法的同时,我们以每类用户不同特征的五种程度(极低、较低、一般、较高、极高)来作为标准进行重要性比较,进而构造适合本模型的标度尺:标度量化值同等程度1高一级3高两级5高三级7高四级9两相邻判断的中间值2,4,6,8由此,我们可以设出措施层P对准则层C的判断矩阵: 使用Matlab编程求得最大特征向量和一致性比率:k12345670.0847 0.6298 0.0492 0.2364 0.4016 0.0540 0.4016 0.1428 0.7405 0.1056 0.0484 0.10560.250.250.250.250.2463 0.2036 0.3465 0.20360.0804 0.6856 0.0567 0.17730.1931 0.1931 0.0687 0.5451CI0.09140.0260.002600.02020.03120.0026则 准则层 目标层的判断矩阵A主要由决策人根据特定业务的特点由1-9标度方法来决定(比例标度尺见附录)。然后在Matlab中求解最大特征向量和一致性比率:由此可以计算方案层对目标层的权向量从而得到每类客户对一项新业务的权值,其中,权值最大的客户群为该业务的首推人群。2. 层次分析模型的检验为了检验该模型的准确性,我们使用它来确定“亲情号码”业务的目标市场。在“亲情号码”业务中,突出的特点对拥有固定的通话量极大的经常性联系人的用户给予优惠政策,使其和特定联系人拥有一定量的免费通话时间,这项业务注重的是用户的通话时间因素和联系对象因素。因此,设准则层对该目标层的判断矩阵为在Matlab中计算其最大特征向量和一致性比率:CI=0.3470在此种情况下,措施层P的层次总排序为可以看出,第4类用户的权值最大,因此选择第4类客户群即定向型用户作为“亲情号码”的首推人群。这个结果与现实生活中该业务主要面向在校大学生的情况相符,说明该模型比较合理。3. 给通信公司经理的建议信尊敬的经理:您好!电信部门的市场竞争日益激烈,电信业的管理理念也从过去的以网络为中心、做产品营销的方式转向以客户关系管理为中心、为客户提供不同营销组合的方式。这以深刻变化要求通信行业更加重视并精确化客户的消费行为的分析和研究。不同的客户在消费行为上都有不同的特征,如消费能力、消费倾向等,因此有着不同的需求。我们建议贵公司按照客户在这些方面的差异,运用系统的方法,将整个用户市场划分为若干不同的客户群,然后针对各个客户群制定有针对性的营销策略,提高客户满意度并由此吸引更多的客户。根据贵公司发布的2009年6月份某地300个用户10天内的通话记录,我们采用聚类分析方法进行了数据挖掘,进而根据通话量、主叫比例、忙时通话比例、工作日通话比例、漫游倾向、联系人数量、联系人分散度等特征将这300个用户划分为7类客户群。于这种分类,我们归纳出各类用户的特点并根据社会常识对其定义。另外,我们还就每种情况给出有针对性的业务推广建议。具体如下表所示:比例特征业务建议类1 漫游型用户21.3%联系人数量少,漫游倾向最大,通话总时间一般偏低,主叫比例较大推出“定向长途”、“非常假期”等在特定区域间或特定时间段降低漫游费用的业务类2企业型3.67%联系人数量较多,通话总时间较大,不同联系人通话时间方差较大,主叫比例较低提供企业内部总机、分机服务、客户管理服务、定费包月业务类3低端用户0.33%联系人数量最少,通话总时间最低推荐“市话卡”等消费一定金额后返还部分话费的业务以鼓励其消费类4生活型用户53.00%联系人数量少,不同联系人通话时间较为平均,通话总时间一般偏低,主叫比例较大推出“预交话费送手机”、“话费包月”、“分时段收费”等业务刺激消费类5(2个)被动型用户0.67%联系人数量最多,通话总时间最大,主叫比例很低提供分机、宽频等优惠业务,但是同时收取一定的费用类6(63个)定向型21.00%联系人数量少,不同联系人通话时间差距很大,通话总时间一般偏低,主叫比例一般推出“亲情号码”、“亲情畅聊”等在特定用户之间提供一定免费通话时间的业务其中,第1、4、6类客户占当地用户的比例较大,我们推荐贵公司着重推出针对这些客户的新业务以把握当地市场。另外,当贵公司需要推出一款特定的业务时,如何选择首推人群的问题是一个难以定量研究的问题,我们建议您使用基于客户细分的层次分析法来辅助决策。我们构建的层次结构模型为:目标层(新业务)准则层(通话时间因素、漫游倾向因素、通话时段因素、通话对象因素)措施层(类1、类2、类3、类4、类5)。首先研究确定准则层对目标层的判断矩阵,计算其最大特征向量,通过一致性检验后得到权向量,再代入我们给出的公式: ()得到最终每类客户对新业务的最终权值,取权值最大的客户群为新业务的首推人群。如果您还有什么疑问,请联系我们。此致敬礼4.4基站建设的评价与改进通信基站的建设属于无线网络的规划问题,需要满足的基本要求为:覆盖要求、拥塞率要求、容量要求、无线参数要求等等。由于题目仅仅给出该地区通话业务的有关数据和基站分布图,而基站的相关技术参数,如传输信道速率、最大工作容量、工作频率等全部未知,我们只能从目前这30个基站的工作负载情况和位置来分析其分布是否合理并加以改进。1. 基于业务量的基站评价因为基站的利用率与业务分布即使用人口相关,基站的压力与单位时间业务量峰值相关,因此我们选择以下两个简化的变量来描述基站的使用情况:第i个基站使用人口:在题目所给10内300个客户使用该基站的总次数第i个基站的峰值业务量:一小时内所有使用该基站的客户的通话总时长的最大值用统计软件SPSS中的K-means算法对基站进行二维聚类,得到三种类型的基站:最终聚类中心聚类123Zscore(V1)2.16745.07993-.55230Zscore(V2)2.05009.32512-.65450其特点可描述为:基站类型基站编号基站特点类型一高话务密度型11,28,29,30该类型基站使用人数、业务量峰值均较高,工作压力很大。其中28,29,30互相比邻,说明该区域业务量极大。类型二中话务密度型1,9,12,13,15,16,20,22,23该类型基站压力适中,可以认为得到了合理的使用。类型三低话务密度型2,3,4,5,6,7,8,10,14,17,18,19,21,24,25,26,27该类型基站业务较少,近乎闲置,但是其中一些基站独自覆盖了一些区域,也必不可少。由上表可以看出,该地区部分基站压力过大,部分基站近乎闲置,只有一小部分基站得到了合理利用。也就是说,一些业务量密集地区缺少足够的基站,一定程度上影响了服务质量,而一些业务稀疏的地区基站闲置,导致了资源的浪费。2. 基于网络结构的基站建设评价从基站分布图可以看出,该地区现有的基站大致为正方形分布,各自覆盖的有效范围也为正方形。然而,根据目前的无线网络规划理论可知,六边形网络结构是最佳基站分布形式,不仅可以减少导频污染,还能够做到均匀覆盖、达到最大有效覆盖面积。正方形网络和六边形网络覆盖情况比较如下:小区形状正方形正六边形邻区距离小区面积22.6重叠区宽度0.59r0.27r重叠区面积0.730.35由表可见,在服务区面积一定的情况下,正六边形小区所需的基站数最小,也就是最经济。正六边形的网络形同蜂窝,因此把小区形状为六边形的小区制移动通信网称为蜂窝网。现实生活中,几乎所有的移动系统都是蜂窝的。而该地区基站网络是正方形的,所以存在资源浪费和导频污染较大等问题。3. 基站分布的改进为了实现减少污染、充分利用资源,可以对基站位置和数量进行调整以尽量达到业务量均分。在保持现有基站总数目不变的前提下,按照A、B、C三个区域的话务量比例来分配基站数量,即,调整后A、B、C三个区域的基站数目:,而目前A、B、C三个区各有7、13、10个基站,说明需要从A区和C区各调1个、2个基站到B区。为了达到均匀覆盖,最理想的方案是调整每个区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论