最完整北京民宿数据分析_第1页
最完整北京民宿数据分析_第2页
最完整北京民宿数据分析_第3页
最完整北京民宿数据分析_第4页
最完整北京民宿数据分析_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、最完整北京民宿数据分析1 提出问题 1 内容获得北京特色住宿相关的数据,数据信息包含民宿数量,主要分布的区域,住客打分,住客点评量,价格,距离中心区公里数等。2 工具市场上没有“现成”的数据,该怎么办?这是面临的第一个难题,后来仔细想想,解决这个难题有3个方法:A 请专业编程人员爬取数据 B用简单易上手的爬虫软件 C手抄第一个得花钱,不考虑;第三个得吐血,不考虑。于是选了第二个方法,自学爬虫软件。先后分别用集搜客和八爪鱼爬取数据,相比较八爪鱼更简单。3 网站选好了工具,现在要确定从哪个网站进行爬取。分别研究了缤客、携程、去哪儿、Airbnb等,最终选择途家,网站的定位与研究主题一致。缘起闺蜜要

2、来北京啦,我要综合分析北京特色民宿和酒店为朋友们安排一个难忘的“one night in Beijing”一、提出问题1.北京253个商圈中,哪些民宿最集中?通州北关和百子湾,哪个周围民宿最多?2.北京16个区,不同类型的民宿面积多大?海淀的复式面积多大?东城区的四合院面积多大?朝阳的公寓面积多大?3.不同区域的民宿,哪些以情侣为主,哪些以家庭为主?看完这篇文章,你就可以来北京投资民宿 2 数据获取二、数据获得 爬取字段包括:房源描述、区域、商圈、离最近商圈距离、格局、户型、面积、宜住人数、床数、住客评分、住客点评数、价格 共12个字段,3000多条数据集八爪鱼规则制定数据搜集器:八爪鱼八爪鱼

3、爬取过程截图二、数据获得3 数据清洗重新命名。标题呈现“字段_文本”,“字段_链接”等字样,与主题无关,删除字样,依次改为和内容相关的标题。三、数据清洗(一)理解数据取子集。原始数据也称作“dirty data”,大量信息是我们不需要的,例如网络链接这列和空白列等,均删除,也可以选择将其隐藏。三、数据清洗(一)理解数据删除重复。完成理解数据后,进行重复数据的删除。选择整个数据表格,点击“数据”-“删除重复项”,我们找到386个重复数据,将其删除,剩余2824条有效数据。三、数据清洗(二)删除重复项通过观察我们发现有大量的数据空缺。点击“查找和选择”-“定位条件”-“空值”,定位所有的缺失值所在

4、单元格。三、数据清洗(三)处理空缺值处理缺失值有3种处理方式:1直接删除 2填写数据平均值 3手动填写一个值通过“Ctrl+Enter”实现批量填补。分列功能。第1步:选择“住客点评数”这列,通过观察你发现,内容由“/”分成左右两部分,“/”符号是关键。我们要做的是:先复制粘贴这一列,然后按“数据”-“分列”,进行分列。在“其他”处,填写“/”。电脑很听话,看到这个符号,就把内容分列到两列。三、数据清洗(四)分列分列前,先增加新列将1列“分列”成2列分列功能。第2步:选择“格局”这列,单元格内容为:“复式/1室1厅1卫/40平米/宜住2人/1床”,共含5条内容。先插入5列空白列,进行分列,重复

5、第一步的步骤,最终将1列,分列为5列。三、数据清洗(四)分列数字转化。价格这列数字靠左侧、左上角出现绿三角,说明它是字符串类型,也就是说电脑认为它们是文字,而非数字,我们需要将其转化为数值类型。第1步:复制粘贴到新的一列第2步:按“分列”-“常规”-“完成”第3步:转化成功。数字靠右侧,这是判断它是数值类型的标准。字符型靠单元格左侧,数值型靠右侧三、数据清洗(五)数字转化为数值类型1.这列数字为字符串类型2.将列复制粘贴3.分列功能4.成功转化成为数字类型EXCEL截取函数。用MID函数截图“点评数”。三、数据清洗(六)截取内容EXCEL截取函数。用MID函数截取“商圈”。三、数据清洗(六)截

6、取内容最难的部分:将距离单位统一为“米”第1步,用if语句把带公里的单元格选出来;第2步,用字符串截取函数,把选出来的数据,比如4.8公里,里面的数值提取出来是4.8;第3步,4.8*1000”。三、数据清洗(七)统一单位 4 构建模型1.价格描述性统计分析北京民宿最普遍的定价是398元,如果你打算开一家民宿,可以作为参考。特别注意的是众数和中位数相差无几,说明这个定价符合市场情况。四、构建模型(一)描述性统计分析2.点评数描述性统计分析 点评数反应用户粘性,住客体验后,来评价写下评论,同时反应民宿的热度。四、构建模型(一)描述性统计分析3.住客评分描述性统计住客评分均值为4.848,说明住客

7、对北京民宿的满意度普遍较高,北京民宿服务水平较高。特别注意的是,中位数和众数均为5,再次印证了住客高满意度。如果你想在北京开一家民宿,一定要在设计、服务等方面,做得更好。四、构建模型(一)描述性统计分析4.宜住人数描述性统计分析宜住人数的众数为2,说明大多数民宿的目标客户是情侣或闺蜜,后面的内容有更详细的分析印证这个结论。四、构建模型(一)描述性统计分析5.面积描述性统计分析数据显示,众数为50,中位数为60,均值为75,可以发现北京民宿以小户型为主。四、构建模型(一)描述性统计分析6.离最近商圈距离描述性统计分析离最近商圈距离说明民宿生活的便利性。从中位数、众数、平均数来看,民宿周边500-

8、1500米内就有一个商区。这个距离可以说很便民了。如果你要开民宿,先看看周围1500米内有没有商圈,选址很重要!四、构建模型(一)描述性统计分析7.床数描述性统计分析床数最普遍的是“1”,和前面我们得出的结论“大多数民宿的目标客户是情侣或闺蜜”相符合,在后面更详细的分析中,我们会看到更多证据。四、构建模型(一)描述性统计分析1. 每个区,不同类型民宿的数量从数量上来说,朝阳区民宿最多,占33%,然后是东城区和海淀区。朝阳区民宿数量是东城区的2.4倍。从类型上说,别墅,复式,公寓,客栈,四合院这5中类型中,公寓数量最多,占到78%。其次是复式。在各区中,复式民宿集中在朝阳、顺义、大兴、通州4个区

9、;别墅集中在昌平;四合院集中在东城区。四、构建模型(二)各个区域民宿特点2.每个区,不同类型民宿的点评数四合院住客写点评的数量是别墅的4倍,四合院带给游客更深的体验感。 四、构建模型(二)各个区域民宿特点3.各区对应的民宿均价各区中,怀柔的价格最高,均价接近3000元。原以为是某个异常值拉高了平均值,重新翻看数据,发现怀柔有4-5家高端民宿,定价均在4000-7000的范围不等。也有多个价格在2000以上的民宿,表明北京高端民宿在怀柔较为集中。其次价格最高的依次是延庆、昌平区,西城区、东城区。东城区和西城区均价大体一致。房山和门头沟均价最低。四、构建模型(二)各个区域民宿特点5 大数据告诉我们

10、什么以上是数据最简单的分析方法,研究对象只有2个,例如:价格和区域的关系、区域和点评数的关系。在下面部分,将分析更复杂的问题,将解决以下几个问题:A哪些商圈,周围民宿最集中?例如:通州北关和百子湾,哪个周围民宿最多。B不同区域、不同类型的民宿面积多大?例如:昌平的复式面积多大,东城区的四合院面积多大,朝阳的公寓面积多大。C不同区域的民宿,哪些以情侣为主,哪些以家庭为主?五、大数据告诉我们什么分组分析前,先处理几组数据。对面积和商圈距离这两列进行分组,使集散的数据按组分类,方便后续进行比较。民宿离最近商圈的距离,我们分为六个组,分别表示0到1千米,1千米到2千米,2千米到3千米,3千米到4千米,

11、4千米到5千米,5千米到6千米,共六组数据。使用VLOOKUP函数进行操作。五、大数据告诉我们什么分组将民宿面积分为小,中,大,很大,共4组。小代表50平米以内的民宿,中代表50到100平米的民宿。大代表100到200的民宿。很大代表200平米以上的民宿。哪些区域的民宿大,哪些区域的民宿小?带着问题,我们继续挖掘本质。五、大数据告诉我们什么1.哪些区域面积大,哪些区域面积小?昌平区 别墅型民宿的面积都在200平米以上;84%的公寓型民宿面积在0-100平米朝阳区 一半的复式型民宿面积在50-100平米,且一半的公寓型民宿在面积同样在50-100平米大兴区 复式和公寓型也主要集中在50-100平

12、米。东城区 51%的复式型民宿在50-100平米,38%的复式型民宿在100-200平米,70%的公寓式民宿在50-100平米。顺义和东城区情况类似西城区 70%的公寓型民宿在50-100平米丰台区 90%的公寓型民宿在100平米以内。海淀区93%的公寓型民宿在100平米以内门头沟区 民宿以100-200平米居多通州区 47%的复式型民宿在50-100平米,97%的公寓型民宿在100平以内整体来讲,北京民宿面积在50-100平米之间,占民宿数量的53.17%五、大数据告诉我们什么1.哪些区域面积大哪些区域面积小?五、大数据告诉我们什么2. 253个商圈,哪些商圈最贵总体来看,景区或公园周边的民

13、宿均价普遍较高,如怀柔景区,小汤山温泉区,十三陵景区等。核心商业区如磁器口、东四十条、五棵松等价格在500-600之间。这个数据有253个,就不一一截图,大家感受一下就好。五、大数据告诉我们什么3.哪些商圈最热门数字越大,民宿数量越多,共有253个数据,截图感受一下。五、大数据告诉我们什么3.哪些商圈最热门五、大数据告诉我们什么让我感到惊讶的是通州北关排第一,这是个什么样的地方?地图显示,它位于通州区,大运河五河交汇处附近,这里是北京大运河文化最有代表性的地方。美景加文化,有看头,有说头,有玩头,有想头,不热起来也难。4. 住客对北京民宿评价如何超高!有58.48%的住客对北京民宿打了满分!五

14、、大数据告诉我们什么5. 住客以家庭为主还是以情侣、闺蜜为主?宜住人数为民宿承载的顾客数量,从数据看,2人,4人,6人最多,分别占到总数的38%,26%和12%。从供给侧看,情侣、闺蜜、家庭是目标客群,重点以情侣或闺蜜为主。五、大数据告诉我们什么6. 家庭房面积多大?情侣、闺蜜房面积多大?数据显示,在寸金寸土的北京,无论针对家庭还是情侣、闺蜜,民宿面积差异不大,83%的民宿面积在100平米以内。较明显的差异是,60%的情侣房、闺蜜房面积小于50平米,而大部分家庭房在50-100平米之间。五、大数据告诉我们什么7. 住的人数越多,价格越贵吗?低价民宿未呈现人数越高价格越贵的趋势,当价格达到1880元时,出现拐点。明显呈现出,随人数增加价格升高的趋势。五、大数据告诉我们什么 6 结论六、总结1.北京253个商圈中,哪些民宿最集中?排名依次为:通州北关、双井、珠市口

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论