房产数据预处理与分析_第1页
房产数据预处理与分析_第2页
房产数据预处理与分析_第3页
房产数据预处理与分析_第4页
房产数据预处理与分析_第5页
已阅读5页,还剩12页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

当今时代,房价问题一直处于风口浪尖,房价的上涨抑或下跌都牵动着整个社会的利益,即便是政府出台各种政策方针也只能是暂时抑制楼市的涨势,对于需要买房的人来说,除了关注这些变化和政策外,还有一个非常头疼的问题,在哪里买房,房价怎样。普通客户会不停花大量精力逛链家、安居客等房地产网站,借助他们展示的内容进行筛选,但因地区众多,各个地段、房价差异的对比以及入手时机的把握,都得一个个去查阅与分析,非常麻烦。如果可以通过数据的爬取,再按照用户希望的维度统计与分析,会让数据变得清晰明了。本案例旨在对房产数据进行预处理与分析,为刚需购房者提供有用信息。一、数据源本案例利用某爬虫软件爬取某房产网站中苏州地区的房产数据,数据文件为house.xlsx,如图6-*所示。图6-*数据源二、目标1.数据爬取时缺失数据是常见的现象,通过某爬取软件从网站爬取的数据时,如果没有爬取到的数据会返回“暂无数据”,这会影响后期的空值处理,将这些“暂无数据”转换为空值,并统计各列的空值频数,查看缺失数据情况。2.数据爬取的数据往往是带有单位的字符串,这也会影响后期的数据分析,所以需要将这些数去掉单位,再转换为数值型数据。如将字符串“均价”的40000元/m2转换为数值40000。3.为了分析不同区的房产数据,从地址中提取出区的数据。为了分析房龄的数据,从建造年代中提取出房龄数据。4.筛选出区为“工业园”,均价在50000以下,容积率在1.5以下的房源数据。5.查询房价最贵小区的前5名。6. 查询停车位最少小区的前5名。7.统计所有数据的平均房价以及二手房总和数量。8.分析均价40000以上小区中,房源最多是哪个区。三、步骤步骤1:导入库,设置参数。导入所需要的库pandas,利用pd.set_option解除显示宽度的显示,设置数据对齐。步骤1代码如下:importpandasaspdpd.set_option('display.width',None)pd.set_option('display.unicode.east_asian_width',True)步骤2:导入数据并查看。利用read_excel导入house.xlsx(house.xlsx存放在c:\data路径中),将读入的数据命名为data。查看data的行数、列数、列名以及数据的前5行。步骤2代码如下:data=pd.read_excel("c:/data/house.xlsx")print("数据的行数=%d\n数据的列数=%d"%(data.shape[0],data.shape[1]))print("数据的所有列名为:\n",data.columns)print("数据的前5行为:\n",data.head())输出结果如图6-*所示。图6-*步骤2输出结果步骤3:数据空值处理。将数据中的“暂无数据”改为空值,统计出现空值的列及其空值数量,并按降序排序。步骤3代码如下:importnumpyasnpdata=data.replace('暂无数据',np.nan)nun_result=data.isnull().sum()nun_result=nun_result[nun_result>0]nun_result=nun_result.sort_values(ascending=False)print("各列的空值数量为:\n",nun_result)输出结果如图6-*所示。图6-*步骤3输出结果步骤4:数据单位处理。将所有数据的单位去掉,并转换为数值型数据。如将“均价”列中的单位去掉,并将剩下的数据转换为数值。步骤4代码如下:data['均价']=data['均价'].str.replace('元/m²','')data['物业费']=data['物业费'].str.replace('元/㎡/月','')data['总建面积']=data['总建面积'].str.replace('m²','')data['总户数']=data['总户数'].str.replace('户','')data['二手房房源数']=data['二手房房源数'].str.replace('套','')data['租房源数']=data['租房源数'].str.replace('套','')columns_list=['均价','物业费','总建面积','停车位','二手房房源数','租房源数']print(data.head())forcolumnincolumns_list:data[column]=data[column].astype("float")输出结果如图6-*所示。图6-*步骤4输出结果步骤5:添加新列。(1)将“地址”列拆分为3个部分,第1个部分生成新列“区”。(2)生成新列“房龄”,“房龄”列计算公式为:房龄=当前年份(2020)-建造年代。步骤5(1)代码如下:data['区']=data['地址'].str.split('-',expand=True)[0]print(data[['地址','区']][:5])输出结果如图6-*所示。图6-*步骤5(1)输出结果步骤5(2)代码如下:data['房龄']=2020-data['建造年代']print(data[['建造年代','房龄']][:5])输出结果如图6-*所示。图6-*步骤5(2)输出结果步骤6:数据筛选。筛选出区为“工业园”,均价在50000以下,容积率在1.5以下的房源数据。步骤6代码如下:data_loc=data.loc[(data['区']=='工业园')&(data['均价']<50000)&(data['容积率']<1.5)]print(data_loc[['小区名称','区','均价','容积率']])输出结果如图6-*所示。图6-*步骤6输出结果步骤7:数据排序。(1)按照“均价”降序排序,并输出“小区名称”、“区”、“均价”的前5条数据。(2)按照“停车位”升序排序,并输出“小区名称”、“区”、“停车位”的前5条数据。步骤7(1)代码如下:sort1=data.sort_values(by='均价',ascending=False)sort1=sort1[['小区名称','区','均价']][:5]print(sort1)输出结果如图6-*所示。步骤7(2)代码如下:sort2=data.sort_values(by='停车位',ascending=True)sort2=sort2[['小区名称','区','停车位']][:5]print(sort2)输出结果如图7-*所示。图6-*步骤7输出结果步骤8:描述性统计分析。(1)计算所有数据的平均房价、二手房总和。(2)统计均价大于40000的数据中不同区的频数。步骤8(1)代码如下:mean=data['均价'].mean()mean=round(mean,0)sum=data['二手房房源数'].sum()print("房屋总均价为=",mean)print("二手房总房源数=",sum)输出结果如图6-*所示。图6-*步骤8(1)输出结果步骤8(2)代码如下:data_loc=data.loc[data['均价']>40000]count=data_loc['区'].value_counts(ascending=False)print("均价40000以上小区的各区频数统计结果为:\n",count)输出结果如图6-*所示。图6-*步骤8(2)输出结果四、结论1.工业园区中,均价为50000以下,容积率在1.5以下的房源数据包括:苏州桃花源、新城花园。2.房价最贵小区的前5名为:湖滨四季、九龙仓国宾1号(别墅)、和风雅致、金鸡湖花园、拙政别墅。3.停车位最少小区的前5名为:姑苏院子、羽绒新村、南环路3-1号小区、花溪苑三区、拙政别墅。4.平均房价为27099元,二手房总房源数为18525户。5.均价40000以上小区中,工业园区最多。技能目标1.具备电商企业供应链成本简单核算能力2.具备标准成本法在电商企业供应链成本控制中的应用能力3.具备电商企业供应链作业成本核算能力4.具备运输业务的本量利分析能力5.具备为网店核算供应链成本的能力6.具备对网店进行本量利分析的能力【重点难点】1.掌握供应链成本管理的成本决策步骤2.掌握供应链成本管理的成本预测方法【第二部分】案例导入唯品会成本管理中国在线零售市场已经呈现TJV三大主流业态,分别是集市平台模式、传统B2C模式和唯品会特卖模式。整个中国的在线特卖市场中,唯品会以38.1%的市场份额成为中国特卖No.1。在中国领创“品牌折扣+限时抢购+正品保障”的独特商业模式。唯品会现拥有超过3亿的注册会员,用户复购率超过80%。一、唯品会成本管理的优势分析(一)唯品会成本管理的起点——战略成本定位在战略成本管理中,即管理者立足于企业的整体战略而制定出的适合本企业长期发展的成本战略。唯品会最早的市场定位是奢侈品牌的特卖,但由于奢侈品牌的的价格较为敏感,公司在经营之初遇到发展的困境。随后公司调整了发展战略,避开了与众多电商抢夺一线城市的市场,将发展方向聚焦在二三线城市。同时唯品会将限时抢购模式与国内市场及消费习惯相结合,打造了名牌折扣+限时抢购+正品保险的商业模式。差异化的战略管理使得唯品会有了自己独特的竞争优势。(二)成本管理的重点——供应链的成本管理唯品会将上游供应商、自身的特卖平台、下游客户共同组成完整供应链,而正是由于其卓有成效的供应链成本管理为唯品会带来了显著的竞争优势。1.完善供应商的管理,降低采购成本大部分的品牌厂商会选择影响力较大的电子商务平台进行合作,唯品会作为电子商务平台的佼佼者是诸多供应商的首选。现与唯品会合作的供应厂商已累计超过了12000家,供应商看好唯品会的销售渠道纷纷加强与之合作,唯品会也加强了与供应商的合作关系。由于唯品会用户数量的急剧增加,唯品会与供应商的关系也发生了改变,由最初的买手模式成功转为现在的垂直代理模式,为唯品会省去中间商的费用,降低了企业的成本。随着供应商数量的增长与用户数量的直线上升,唯品会与供应商的采购价格也有了较大的优势。根据近几年财报的数据显示,唯品会的采购费用率明显下降。供应商降低供货规模不仅仅因为唯品会的用户数量及供应商数量的增长,更多取决于唯品会可以使供应商的资金迅速回笼。唯品会一般可以保证在闪购结束的10-15天把货款付给供应商,而其他电商至少需要45天,且唯品会会将货款的30%预付给供应商,保证供应商的资金链流通。唯品会不仅为供应商提供强大的销售平台以及快速的回笼资金,从线上推广的角度来看,还为供应商提供了一个较好的商品展示平台。唯品会结合品牌的故事,用其专业团队为上线商品做足视觉包装,为供应商进行了免费的宣传。较低的价格以、更多的商品选择以及视觉上的盛宴为唯品会吸引来更多的用户数量,产生更多的销量。唯品会用以自身为媒介,将上下游都黏住,滚雪球效应也就应运而生。2.加强客户管理,降低隐形成本。(1)提高重复购买率,降低宣传费用。唯品会为顾客提供24小时的客服热线,并设立专门的客服团队负责处理顾客的咨询、建议和投诉等问题。此外,唯品会的货到付款服务以及7天内无条件退货服务,这一系列的人性化服务抓住了消费者的心理,增强了口碑的传播效果,并保持了较高的重复购买率。现唯品会用户的重复购买率已超过了80%。如此高的重复购买率,可以为企业减少宣传费用以及广告支出。(2)提高服务质量,减少退货成本。唯品会建立专门的买手团队并对其进行专业化的培训,这些买手对当前的流行趋势和消费者的偏好都有精确的把握,能够更好地满足消费者的消费心理。同时唯品会对供应商的严格审核,从源头上保证了产品的质量。同时专业的摄影团队为消费者提供商品的真实情况,尽可能的避免因实物不符而引发退货。从商品质量到完善的服务,提高顾客的满意度,有效降低了退换货的成本。思考:1.请分析唯品会的采购成本下降的原因。2.唯品会隐形成本有哪些?如何降低?【第三部分】基础知识一、供应链成本概述(一)供应链成本概念任何制造业都是根据客户或市场的需求,开发产品,购进原料,加工制造出产品,以商品的形式销售给顾客,并提供售后服务。物料从供方开始,沿着各个环节(原材料——在制品——半成品——成品———商品)向需方移动。每个环节都存在“需方”和“供方”的对应关系,形成一条首尾相连的长链,成为供应链。(二)供应链成本分布(三)供应链成本分类对供应链成本进行分类可以向管理者提供更多对决策产生影响的细节问题。而根据管理者决策的需要,供应链成本可以进行不同的分类。1.按供应链成本层次分类供应链成本包括“链”上的所有企业及其与生产过程和提供劳务相关的供应链活动所有环节所发生的费用,按照供应链成本层次分成直接成本、作业成本和交易成本。2.按供应链的运作环节分类企业的供应链成本按运作环节可分为采购成本、生产成本、仓储成本、运输成本、库存成本、缺货成本、质量成本、管理成本。3.按供应链成本的性态分类按供应链成本的性态分类,可将供应链成本分为变动成本和固定成本。(四)供应链成本管理概念供应链成本管理是为了最大限度地缩减在供应链各项环节中的成本开支,使收益最大化。它更多地关注企业间的协调和合作,跨越组织的界限,立足于整体。1.供应链成本管理的层次性和整体性。2.供应链成本管理跨越了组织的界限,是一种跨企业的成本管理。3.供应链成本管理是一种需求拉动型的成本管理模式。(五)供应链成本管理理论1.“黑大陆”学说2.物流成本冰山理论3.“第三利润源”说4.效益背反理论二、供应链成本管理基础供应链成本管理,简而言之,就是通过成本来管理供应链,即管理的对象是供应链而不是成本。(一)供应链成本预测供应链成本预测是根据有关成本数据和企业具体的发展情况,运用一定的技术方法,对未来的成本水平及其变动趋势做出科学的估计。(二)供应链成本决策供应链成本决策是在成本预测的基础上,结合其他有关资料,运用一定的科学方法,从若干个方案中选择一个满意的方案的过程。(三)供应链成本计划(或预算)供应链成本计划是根据成本决策所确定的方案、计划期的生产任务、降低成本的要求以及有关资料,通过一定的程序,运用一定的方法,以货币形式规定计划期供应链各环节的耗费水平和成本水平,并提出保证成本计划顺利实现所采取的措施。(四)供应链成本控制供应链成本控制是根据计划目标,对成本发生和形成过程以及影响成本的各种因素和条件施加主动的影响,以保证实现供应链成本计划的一种行为。(五)供应链成本核算供应链成本核算是根据企业确定的成本对象,采用相适应的成本计算方法,按规定的成本项目,通过一系列的供应链费用汇集与分配,从而计算出各供应链活动成本对象的实际总成本和单位成本。(六)供应链成本分析供应链成本分析是在成本核算及其他有关资料的基础上,运用一定的方法,揭示供应链成本水平的变动,进一步查明影响供应链成本变动的各种因素。【第四部分】工作任务【工作任务一】供应链物流成本的简单核算工作任务要求理解供应链物流成本核算的目的,掌握供应链物流成本核算的方法,运用简单除法核算示例中电商企业的物流作业成本。活动设计建立工作小组,分工协作选出优秀作业进行点评【工作任务二】ABC作业成本法的应用工作任务要求理解掌握ABC作业成本法的原理、作用和计算方法,依据电商企业提供的基础数据完成供应链作业成本的计算。活动设计学生独立完成工作任务推荐学生到讲台上来介绍自己的成果【第五部分】实践应用【实践应用一】标准成本法在供应链成本控制中的应用1.实践内容运用标准成本法实施对电商企业的供应链成本控制。2.应用步骤①了解供应链成本控制方法;②理解标准成本的概念;③熟悉标准成本的制定步骤;④运用标准成本法实施对电商企业的供应链成本控制。【实践应用二】本量利分析法在供应链运输成本控制中的应用1.实践内容某物流企业为一电商供应链提供运输服务,运用本量利分析法计算该企业运输业务的盈亏平衡点。2.应用步骤①理解本量利分析的基本概念;②熟悉本量利分析的基本模型;③掌握盈亏平衡点的计算方法;④运用本量利分析法计算该企业运输业务的盈亏平衡点和税前利润。【第六部分】任务拓展【任务拓展一】京东商家供应链成本核算1.任务内容某京东商家专门从事图书和音乐CD的网上营销,本月采购图书10

000个单位,采购音乐CD12

000个单位,该企业自建有一个仓库,仓库中图书尚存4

545个单位,音乐CD尚存9

550个单位。该月为采购图书和音乐CD两种商品所耗费的服务资源总费用为126

565元,其中人工费80

500元、电费3

835元、折旧费24

030元、办公费10

200元、存货占用资金利息费8

000元。该京东商家共有员工20人,其中采购4人,收货3人,验货2人,储存4人,票款处理3人,一般管理4人。本0°,仓库1

333°,会计部480°,行政管理部门700°。京东商家固定资产为160万元,各部门占有固定资产的比例为采购部门5%,收货部门7%,检验室10%,仓库65%,会计部3%,行政管理部门10%。本月京东商家采购部门的图书购物单数量106个,音乐CD购物单数量214个;收货部门的图书收货单数量82个,音乐CD收货单数量118个;检验室的图书检验单数量100个,音乐CD检验单数量300个;会计部门的图书付款次数106次,音乐CD付款次数214次;行政管理部门在图书管理上花费的时间占60%,在音乐CD上花费的时间占40%。请根据上述资料运用ABC成本法核算该京东商家的供应链作业成本。2.任务要求本任务是一个自主学习型任务,要求学生一边学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论