




已阅读5页,还剩40页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
最完整北京民宿数据分析 1提出问题 1内容获得北京特色住宿相关的数据 数据信息包含民宿数量 主要分布的区域 住客打分 住客点评量 价格 距离中心区公里数等 2工具市场上没有 现成 的数据 该怎么办 这是面临的第一个难题 后来仔细想想 解决这个难题有3个方法 A请专业编程人员爬取数据B用简单易上手的爬虫软件C手抄第一个得花钱 不考虑 第三个得吐血 不考虑 于是选了第二个方法 自学爬虫软件 先后分别用集搜客和八爪鱼爬取数据 相比较八爪鱼更简单 3网站选好了工具 现在要确定从哪个网站进行爬取 分别研究了缤客 携程 去哪儿 Airbnb等 最终选择途家 网站的定位与研究主题一致 缘起 闺蜜要来北京啦 我要综合分析北京特色民宿和酒店为朋友们安排一个难忘的 onenightinBeijing 一 提出问题 1 北京253个商圈中 哪些民宿最集中 通州北关和百子湾 哪个周围民宿最多 2 北京16个区 不同类型的民宿面积多大 海淀的复式面积多大 东城区的四合院面积多大 朝阳的公寓面积多大 3 不同区域的民宿 哪些以情侣为主 哪些以家庭为主 看完这篇文章 你就可以来北京投资民宿 2数据获取 二 数据获得 爬取字段包括 房源描述 区域 商圈 离最近商圈距离 格局 户型 面积 宜住人数 床数 住客评分 住客点评数 价格共12个字段 3000多条数据集 八爪鱼规则制定 数据搜集器 八爪鱼 八爪鱼爬取过程截图 二 数据获得 3数据清洗 重新命名 标题呈现 字段 文本 字段 链接 等字样 与主题无关 删除字样 依次改为和内容相关的标题 三 数据清洗 一 理解数据 取子集 原始数据也称作 dirtydata 大量信息是我们不需要的 例如网络链接这列和空白列等 均删除 也可以选择将其隐藏 三 数据清洗 一 理解数据 删除重复 完成理解数据后 进行重复数据的删除 选择整个数据表格 点击 数据 删除重复项 我们找到386个重复数据 将其删除 剩余2824条有效数据 三 数据清洗 二 删除重复项 通过观察我们发现有大量的数据空缺 点击 查找和选择 定位条件 空值 定位所有的缺失值所在单元格 三 数据清洗 三 处理空缺值 处理缺失值有3种处理方式 1直接删除2填写数据平均值3手动填写一个值通过 Ctrl Enter 实现批量填补 分列功能 第1步 选择 住客点评数 这列 通过观察你发现 内容由 分成左右两部分 符号是关键 我们要做的是 先复制粘贴这一列 然后按 数据 分列 进行分列 在 其他 处 填写 电脑很听话 看到这个符号 就把内容分列到两列 三 数据清洗 四 分列 分列前 先增加新列 将1列 分列 成2列 分列功能 第2步 选择 格局 这列 单元格内容为 复式 1室1厅1卫 40平米 宜住2人 1床 共含5条内容 先插入5列空白列 进行分列 重复第一步的步骤 最终将1列 分列为5列 三 数据清洗 四 分列 数字转化 价格这列数字靠左侧 左上角出现绿三角 说明它是字符串类型 也就是说电脑认为它们是文字 而非数字 我们需要将其转化为数值类型 第1步 复制粘贴到新的一列第2步 按 分列 常规 完成 第3步 转化成功 数字靠右侧 这是判断它是数值类型的标准 字符型靠单元格左侧 数值型靠右侧 三 数据清洗 五 数字转化为数值类型 1 这列数字为字符串类型 2 将列复制粘贴 3 分列功能 4 成功转化成为数字类型 EXCEL截取函数 用MID函数截图 点评数 三 数据清洗 六 截取内容 EXCEL截取函数 用MID函数截取 商圈 三 数据清洗 六 截取内容 最难的部分 将距离单位统一为 米 第1步 用if语句把带公里的单元格选出来 第2步 用字符串截取函数 把选出来的数据 比如4 8公里 里面的数值提取出来是4 8 第3步 4 8 1000 三 数据清洗 七 统一单位 4构建模型 1 价格描述性统计分析北京民宿最普遍的定价是398元 如果你打算开一家民宿 可以作为参考 特别注意的是众数和中位数相差无几 说明这个定价符合市场情况 四 构建模型 一 描述性统计分析 2 点评数描述性统计分析点评数反应用户粘性 住客体验后 来评价写下评论 同时反应民宿的热度 四 构建模型 一 描述性统计分析 3 住客评分描述性统计住客评分均值为4 848 说明住客对北京民宿的满意度普遍较高 北京民宿服务水平较高 特别注意的是 中位数和众数均为5 再次印证了住客高满意度 如果你想在北京开一家民宿 一定要在设计 服务等方面 做得更好 四 构建模型 一 描述性统计分析 4 宜住人数描述性统计分析宜住人数的众数为2 说明大多数民宿的目标客户是情侣或闺蜜 后面的内容有更详细的分析印证这个结论 四 构建模型 一 描述性统计分析 5 面积描述性统计分析数据显示 众数为50 中位数为60 均值为75 可以发现北京民宿以小户型为主 四 构建模型 一 描述性统计分析 6 离最近商圈距离描述性统计分析离最近商圈距离说明民宿生活的便利性 从中位数 众数 平均数来看 民宿周边500 1500米内就有一个商区 这个距离可以说很便民了 如果你要开民宿 先看看周围1500米内有没有商圈 选址很重要 四 构建模型 一 描述性统计分析 7 床数描述性统计分析床数最普遍的是 1 和前面我们得出的结论 大多数民宿的目标客户是情侣或闺蜜 相符合 在后面更详细的分析中 我们会看到更多证据 四 构建模型 一 描述性统计分析 1 每个区 不同类型民宿的数量从数量上来说 朝阳区民宿最多 占33 然后是东城区和海淀区 朝阳区民宿数量是东城区的2 4倍 从类型上说 别墅 复式 公寓 客栈 四合院这5中类型中 公寓数量最多 占到78 其次是复式 在各区中 复式民宿集中在朝阳 顺义 大兴 通州4个区 别墅集中在昌平 四合院集中在东城区 四 构建模型 二 各个区域民宿特点 2 每个区 不同类型民宿的点评数四合院住客写点评的数量是别墅的4倍 四合院带给游客更深的体验感 四 构建模型 二 各个区域民宿特点 3 各区对应的民宿均价各区中 怀柔的价格最高 均价接近3000元 原以为是某个异常值拉高了平均值 重新翻看数据 发现怀柔有4 5家高端民宿 定价均在4000 7000的范围不等 也有多个价格在2000以上的民宿 表明北京高端民宿在怀柔较为集中 其次价格最高的依次是延庆 昌平区 西城区 东城区 东城区和西城区均价大体一致 房山和门头沟均价最低 四 构建模型 二 各个区域民宿特点 5大数据告诉我们什么 以上是数据最简单的分析方法 研究对象只有2个 例如 价格和区域的关系 区域和点评数的关系 在下面部分 将分析更复杂的问题 将解决以下几个问题 A哪些商圈 周围民宿最集中 例如 通州北关和百子湾 哪个周围民宿最多 B不同区域 不同类型的民宿面积多大 例如 昌平的复式面积多大 东城区的四合院面积多大 朝阳的公寓面积多大 C不同区域的民宿 哪些以情侣为主 哪些以家庭为主 五 大数据告诉我们什么 分组分析前 先处理几组数据 对面积和商圈距离这两列进行分组 使集散的数据按组分类 方便后续进行比较 民宿离最近商圈的距离 我们分为六个组 分别表示0到1千米 1千米到2千米 2千米到3千米 3千米到4千米 4千米到5千米 5千米到6千米 共六组数据 使用VLOOKUP函数进行操作 五 大数据告诉我们什么 分组将民宿面积分为小 中 大 很大 共4组 小代表50平米以内的民宿 中代表50到100平米的民宿 大代表100到200的民宿 很大代表200平米以上的民宿 哪些区域的民宿大 哪些区域的民宿小 带着问题 我们继续挖掘本质 五 大数据告诉我们什么 1 哪些区域面积大 哪些区域面积小 昌平区别墅型民宿的面积都在200平米以上 84 的公寓型民宿面积在0 100平米朝阳区一半的复式型民宿面积在50 100平米 且一半的公寓型民宿在面积同样在50 100平米大兴区复式和公寓型也主要集中在50 100平米 东城区51 的复式型民宿在50 100平米 38 的复式型民宿在100 200平米 70 的公寓式民宿在50 100平米 顺义和东城区情况类似西城区70 的公寓型民宿在50 100平米丰台区90 的公寓型民宿在100平米以内 海淀区93 的公寓型民宿在100平米以内门头沟区民宿以100 200平米居多通州区47 的复式型民宿在50 100平米 97 的公寓型民宿在100平以内整体来讲 北京民宿面积在50 100平米之间 占民宿数量的53 17 五 大数据告诉我们什么 1 哪些区域面积大哪些区域面积小 五 大数据告诉我们什么 2 253个商圈 哪些商圈最贵总体来看 景区或公园周边的民宿均价普遍较高 如怀柔景区 小汤山温泉区 十三陵景区等 核心商业区如磁器口 东四十条 五棵松等价格在500 600之间 这个数据有253个 就不一一截图 大家感受一下就好 五 大数据告诉我们什么 3 哪些商圈最热门数字越大 民宿数量越多 共有253个数据 截图感受一下 五 大数据告诉我们什么 3 哪些商圈最热门 五 大数据告诉我们什么 让我感到惊讶的是通州北关排第一 这是个什么样的地方 地图显示 它位于通州区 大运河五河交汇处附近 这里是北京大运河文化最有代表性的地方 美景加文化 有看头 有说头 有玩头 有想头 不热起来也难 4 住客对北京民宿评价如何超高 有58 48 的住客对北京民宿打了满分 五 大数据告诉我们什么 5 住客以家庭为主还是以情侣 闺蜜为主 宜住人数为民宿承载的顾客数量 从数据看 2人 4人 6人最多 分别占到总数的38 26 和12 从供给侧看 情侣 闺蜜 家庭是目标客群 重点以情侣或闺蜜为主 五 大数据告诉我们什么 6 家庭房面积多大 情侣 闺蜜房面积多大 数据显示 在寸金寸土的北京 无论针对家庭还是情侣 闺蜜 民宿面积差异不大 83 的民宿面积在100平米以内 较明显的差异是 60 的情侣房 闺蜜房面积小于50平米 而大部分家庭房在50 100平米之间 五 大数据告诉我们什么 7 住的人数越多 价格越贵吗 低价民宿未呈现人数越高价格越贵的趋势 当价格达到1880元时 出现拐点 明显呈现出 随人数增加价格升高的趋势 五 大数据告诉我们什么 6结论 六 总结 1 北京253个商圈中 哪些民宿最集中 排名依次为 通州北关 双井 珠市口 良乡大学 花梨坎 T3航站楼 青年路 磁器口 后沙峪 传媒大学等 2 北京2
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 节约用水宣传片课件
- 解读中小学五项管理实施方案工作方案教师培训课件全文
- 2025年外贸业务员中级求职面试模拟题及答案
- 2025年初学入门遗体整容技术模拟考试题及答案解析
- 2025年大学物理课程难点突破及预测试题
- (2025年标准)股权委托代理协议书
- 2025年数据库管理与应用中级考试模拟题及答案详解资源包
- 2024-2025年部编版六年级语文上册阅读指导计划
- (2025年标准)股东收回协议书
- (2025年标准)股东代签协议书
- 推广服务合同范例
- 《分红保险的魅力》课件
- 住建局条文解读新规JGJT46-2024《施工现场临时用电安全技术标准》
- 叉车装卸货合同范例
- 电力设备运行与维护管理手册
- 工程审计课程设计
- 附件2:慢病管理中心评审实施细则2024年修订版
- 食品安全制度管理目录
- (正式版)SH∕T 3548-2024 石油化工涂料防腐蚀工程施工及验收规范
- 医院科研诚信课件
- 小学校园安全知识
评论
0/150
提交评论