【《基于hadoop的电商大数据探析平台设计》9500字】

上传人：E*** IP属地：湖北上传时间：2025-11-03 格式：DOC 页数：31 大小：1.90MB 积分：27 举报 版权申诉

已阅读5页，还剩26页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

目录。其它地区的大数据市场规模还很大。美国的数据处理技术有三个方面：商业服务，医疗保健，以及教育和训练。在这些行业中，商务服务业的比重超过80%。其次是交通、金融、零售。比如美国的Uber。Uber在66个不同的国家，拥有449个不同的城市。Uber有超过一千万的使用者，它在这个行业中占有绝对优势。在这项令人艳羡的成就的背后，在于运用大量的数据和背后的价值，获取创意，做出合理的商业决定，以更改游戏的规则。数据分析能帮Uber解决定价政策，伪造用户账号，假乘车，排名等问题。Uber可以利用Hadoop和Spark等技术来采集Uber的每一次出行记录。Uber的数据分析员通过使用这一信息来理解顾客的喜好，从而为顾客提供高效的服务。Uber公司的数据分析师对这些资料进行了详尽的研究，包括：对乘客需求进行预估、票价确定、交通服务质量较低等。Uber公司采取“激增定价”战略，以获取更多的利益和更多的乘客。该公司拥有大型、精密的资料处理中心及一系列高级的管理体系。该软件可以根据使用者的需要，自动地调整线路以适应使用者的需要，并将相关的资讯提供给旅客，让他们可以自行决定自己的行程。通过即时的数据统计，他们经常会在乘客晚到达的时间为乘客提供免费的交通工具，但是通过快速价格计算，他们可以得到比平时高出两三倍的价格。他们正在采用一种基于机器学习的运算法则来进行定价，以便对市场的需求做出更大的预期，从而帮助他们吸引更多的驾驶员。Uber确实有大量的用案例来说明资料分析的重要意义。亚马逊作为一家高度信息化的公司，亚马逊需要处理海量的各类数据，亚马逊网站创造了大量的交易数据。亚马逊通过对业务和用户行为进行分析，并对其进行个性化分析。其中包括店铺运营信息，例如店铺销售额、订单数量、具体商品销售额、报表、订单的下单时间、用户的收货地址等，及时了解店铺运营情况，以助于公司决策；CPC网站上的广告数据REF_Ref102461059\r\h，商家大量投入广告是非常昂贵的，所以需要分析广告给商品销量带来的效率，亚马逊根据用户的行为点击广告的次数和具体下单量来分析广告的投入产出率，以助于企业做出相应决策；产品数据分析，包括数据流、销售额、各时间段的产品数据、销售额，用来判断商品是否需要升级改进以及具体方向。通过对海量数据的处理分析，亚马逊个性化推荐、预测个人行为，给用户带来良好的体验。Bruce等人收集了用户在社交网站上的点击量，并从中抽取相应的信息，以此来分析用户的使用时间和规则，并且根据用户的点击量，建立一种识别综合统计信息的模型。Qing等人将用户在社会化网站上发布的海量社会化文字进行了自然语言的加工，并通过与该话题相关的综合统计信息来增强其语意表达能力，进而构建出基于该特征的用户肖像模型，实现了对其进行个性化的推荐。第二章相关技术介绍2.1Hadoop平台Hadoop体系结构是一种基于云计算的基础架构，它的优势在于它可以让基础薄弱的使用者在海量数据的基础上，通过相应的界面实现相应的功能，从而获得更多的应用。此外，Hadoop的体系结构还可以适应各种语言的转换，它的跨平台特性也得到了广泛的关注，比如C++,Java等等。Hadoop并不是一种技术，它只是一种技术的总称，比如Hadoop就包含了HDFS,MapReduce,HBase等开放的子框架。在Hadoop中，MapReduce和HDFS都是典型的Hadoop技术，当然还有其它一些非常流行的开放源码项目。本次将会在Hadoop体系结构中介绍Zookeeper、Hive和HBase的部分。Hadoop体系结构如图2-1所示。图2-1Hadoop体系结构图2.2Spring框架介绍Spring框架可以帮助处理J2EE层次上的问题，其目的是贯穿整个开发过程，包括表现层、业务层和持久层。Spring框架被使用后，为了提高您的系统的开放性，您必须继续使用Spring和原始框架。Spring框架的一些主要特点是：(1)Spring体系结构不同于其他体系结构，它包括不同的商业对象和不同的管理模式；(2)Spring体系结构的内部结构采用分层结构，可以对需要的构件进行任意选取，各个构件可以单独工作而不会相互影响；(3)Spring框架起初只是为了在开发过程中协助开发人员进行测试，但在实践中它却是一种非常有用的架构；(4)Spring框架在使用时不会和其它框架产生冲突，并且Spring框架可以成为能够满足很多系统需求的基本框架的备选框架。2.3分布式数据库—HBaseHBase是一种基于HDFS的分布式存储系统。HBase不同于MySQL这种普通数据库，MySQL经常通过索引进行相关查询。而HBase则可以通过行健完成毫秒级快速查询，也可以使用行健与单元格值相结合的方式实现多维查询。所以对于HBase表中行健的设计尤为重要，合理的行健不仅可以提高HBase的查询速度，更能够在HBase表的行列发生变化时保证查询效率。除此之外，HBase能够实时读写以及随机读取，因此具有良好的可扩展性和可操作性。ZooKeeper组件能够对Hbase中的各区域服务器进行统一调度，并提供集群中各节点的配置权限。在HBase进行shell操作时，任何HBase中的节点都可以随时进入并进行数据的读写控制。HBase的体系架构如图2-2所示。图2-2HBase的体系构架2.4漏斗模型漏斗模型分析是根据用户行为分析指标对用户行为的数据进行定性和定量的分析，通过追踪或记录用户行为事件，可以快速的了解到事件的趋势走向和用户的完成情况。以渠道访问的用户留存为例，我们对APP端有过访问行为的渠道用户进行留存分析。从图中可以看出8月14日~8月20日的次日留存率在41%以上，周留存率在22%以上。但在8月17日的次日留存率突然飙升到67%，一般是进行了活动策划或功能优化才会留存率这么高。常用的分析模型有：行为事件分析、用户留存分析、漏斗模型分析、行为路径分析和福格模型分析。第三章需求分析3.1可行性分析3.1.1经济可行性商家在使用了该电商行业综合统计信息系统以后，可以更加准确地掌握消费者的信息，从而制定相应的市场营销战略。这种方式可以增加商户的收入，相对于系统的研发费用来说，这个系统的研发费用仅占了总体费用的5%左右，所以在商业上是非常具有竞争力的。3.1.2技术可行性可以在系统开发期间使用已有技术，将其发展成一个阶段的产物，将来会有很大的使用价值，而且具体的实现方式很简单。本系统采用了Hadoop技术与HBase数据库相结合的方法。由于目前的数据信息都是由数据库来存储，所以从技术上来说，这个体系是可以实现的。3.1.3操作可行性由于这个软件在开发的早期就考虑了它的操作界面，以及其他的开发界面，以及一些简单的操作名字，使得用户可以很好地理解这个软件的操作。在短时间内，使用者就可以使用它，熟悉它的主要功能。另外，本软件的用户主要是针对电子商务平台的运营人员，这些人都是熟悉计算机的。因此，在操作这一点毋庸置疑，是可行的。3.2功能需求分析3.2.1数据来源Web页面数据采集通过Javascript实现，基于HTML5在各Web浏览器通用性,不需要考虑用户终端系统差异，IOS和Android均适用同一套Javascript代码。当用户在页面进行访问、点击、滚动等操作时，会将当前用户对页面的行为,按照约定内容、格式上报给服务端。Web页面数据的采集，相比APP页面数据，定制化更高，更适用于较复杂的用户行为上报。具体应用中上报的埋点如图4-5所示:图3-1会场上报埋点示例该埋点包括用户访问APP的设备信息、用户信息、访问终端载体信息、编码格式、访问页面信息、事件ID、事件参数、访问渠道信息等等。3.2.2数据分析数据分析主要工作是对资料的分析。而数据分析的前提就是要对这些乱七八糟的数据进行整理和整理，为后续的数据分析打下基础。通常，在进行数据分析之前，对数据进行预处理。数据清洗包括数据分析和数据预处理。服务端存储的埋点数据作为初始数据，会存在异常，以及和后续平台要求数据格式不同的情况，需要进行数据清洗得到能输入特征构建的数据集。主要包括处理原始数据重复、缺失、空数值等异常，以及数据格式转换，实现平台数据一致性。3.2.3数据储存数据库是整个软件系统的重要组成部分，其性能的好坏直接关系到整个软件系统的运行。大数据分析系统需要更多的数据存储和读取数据。此外，由于Hadoop数据分析平台是在Linux虚拟机上部署的，因此，所选用的数据库必须具备良好兼容的Windows和Linux环境，并能在Windows和Linux环境下稳定地进行数据传送。在Hadoop大数据平台上采集到的所有数据，都会被存储在数据库中。数据存储在数据库中，使得前后两个平台之间的数据调用更为方便和快速。HBase是本次毕业设计的首选，它与当前多种主流开发语言兼容。3.2.4分析结果展示展示所采用的技术主要是ECharts架构，它具有数据展示的能力，具有大量的直观、生动的图形，可以根据不同的用户的需求，通过特定的规则将其引入到用户的视野中。此外，可交互性和高度个人化的特点也是人们信任的一个因素。3.3数据库需求HBase具有良好的运行性能、经济性和安全性，所以HBase作为主要数据库。电商数据平台Hadoop技术的大数据分析，需要存储与被解析用户的有关的信息，从而保证数据库的安全，避免用户的个人资料外泄。所以无论从什么角度看，HBase都满足了该平台的要求，是一种非常实用的方法，可以用于电商平台的综合统计信息研究。在进行数据库的设计时，要确保各个资料库的关系，以防止不断地建立资料表。提高了对系统的反应能力，同时确保了数据的准确性。

第四章系统设计4.1系统整体设计本文主要包括两大部分：一是采用Java语言编写HiveSQL，对综合统计信息进行分析，并将分析后的数据写入HBase数据库；第二种方法是利用Spring架构建立一个前台电商网站和后台可视化系统，利用ECharts技术展示HBase中的数据结果，并展示用户区域分析与展示、用户渠道分析与展示、用户需求类型分析等多种功能。在图4-1中显示了整个系统的发展过程。图4-1总体系统开发流程图4.2功能设计由图4-2可知，该系统具有以Hadoop为基础的综合性数据平台，包括：“用户漏斗”模型、最多购买商品、最多购物车、最多浏览、最多收藏、一段时间用户流量、一天的全面数据、综合统计信息漏斗模型。系统整体功能设计如图4-2所示。图4-2系统功能设计本系统所使用的可视化技术，是基于Web服务器实现的。本文介绍了应用ECharts的有关软件和技术进行数据信息的可视化。其主要作用是实现最直观、形象、生动的图形，同时，ECharts的相关部件和技术也具备很好的互动和个人化的特性，它不仅能提高用户的使用体验，还能提高用户对数据的敏感度。能够清晰地看到商品的信息。HBsae数据库HBsae数据库图4-3可视化流程设计

第五章系统实现5.1开发环境部署该系统在Linux环境下运行，包括操作系统、硬件平台和其它相关应用软件。(1)硬体环境CPU:3级及以上；4GB或更高的记忆体。(2)软体操作系统：Windows7/XP,Centos；本系统支持各种软件的开发；解析度应选用标准清晰或更高。Hadoop环境的构建流程是这样的：表5.1Hadoop环境构建流程（1）安装vm、jdk、hadoop、Hive（2）配置jdk、hadoop环境（3）修改hadoop相关文件（4）格式化hdfs（5）启动hadoop集群，启动状态如图5-1所示图5-1Hadoop集群启动5.2信息处理与分析鉴于数据量问题，当前数据采用导入方式，重在解释分析处理过程，数据来自阿里巴巴天池大数据大赛的公开数据集5.2.1信息预处理删除文件的首行记录：sed-i'small_user.csv请查看头5行的数据：头5small_user.csv，具体的实施见图5-2。图5-2数据清洗5.2.2数据存储在hive创建表（1）储存信息，建立数据表的语句如下所示：通过HiveSQL提供的create命令创建数据表，数据表包含用户编号、商品编号、综合统计信息类型等字段。建表语句如下所示：在Hive中建立表格的特定实现见图5-3。图5-3在Hive中创建表创建一个存储分析的表格，用于Hive：在图图5-4创建了一个存储分析表格。图5-4创建存储分析的表HiveSql提供了load命令，该命令是将HDFS中的数据加载到Hive数据仓库指定的表中。过下面的命令来装载信息到Hive，具体如图5-5所示。loaddatainpath'/small_user.csv'overwriteintotableshop;图5-5将信息加载到Hive5.2.3数据分析（1）商品销量前10数据分析过程通过HiveSQL提供的select查询命令对数据进行分析。以商品销量前10数据分析为例，查询的字段为商品id、销量，通过where过滤综合统计信息为购买的用户，同时对结果进行分组和排序。分析查询语句如下所示：图5-6商品销量前10数据分析（2）商品销量类型前10分析过程图5-7商品销量类型前10数据分析（3）用户10001082行为分析图5-8综合统计信息分析分析结果写入表：（4）用户购物排名前10图5-9用户购物排名前10分析分析结果写入表：5.2.4RFM模型用户分层最近一次购物，R值越高，代表使用者的消费频率就越高，而F值越高，就代表使用者的忠诚度就越高。第一名的使用者给5分，前1/5的用户打5分，1/5-2/5的用户打4分，2/5-3/5的用户打3分，3/5-4/5的用户打2分，5/5-5/5的用户打4分。在图5-10中显示了RFM模型的用户层次划分。图5-10RFM模型用户分层5.3数据可视化5.3.1独立访客漏斗模型当系统开发完毕时，将其部署并在eclipse编译器中执行。在浏览器中键入对应的网址，就可以直接访问到主控界面。在菜单栏中选取相应的模块，可以看到相应的显示效果。其中，一个独立的游客漏斗模型的可视化步骤是：(1)在Eclipse中开始一个程序；(2)将网址输入到网页的主界面；(3)单击独立的游客漏斗模型模块，并在图5-11中看到一个独立访客漏斗模型的分布。图5-11独立访客漏斗模型界面图5-11中显示了一个独立访客漏斗模型，它将index的接口以注释的方式暴露出来，然后使用SpringJPA来查询数据库中的数据。数据库查询主要是通过JpaRepository提供的SpringJPA封装的公共查询界面来完成数据查询！没有定义的书签，当查询结束时，将数据存储在SpringMVC模型范围中，然后使用JSTL和EL表达式在网页端进行数据采集，并使用Layui进行页面渲染和展示。5.3.2购买数量最多的商品最大采购项目可视化步骤：(1)在Eclipse中开始一个程序；(2)将网址输入到网页的主界面；(3)点击最多的项目，可以看到最多的项目分布，见图5-12。图5-12购买数量最多的商品界面从图5-12可以看出，在采购最多的项目中，编号“4157431”是最多的，而其它20名则是以条形图显示，总体上相差不大。5.3.3加入购物车次数最多的商品添加最多购物车的可视化步骤：(1)在Eclipse中开始一个程序；(2)将网址输入到网页的主界面；(3)按一下最常加入购物车的项目，可以看到最多的物品分配，见图5-13。图5-13加入购物车次数最多的商品界面从图5-13可以看出，在购买最多的商品中，编号“2331370”是最多的一种，其它20名的排名都是用条形图表显示的，总体上没有太大的差别。在实施上，首先由用户端请求后端接口获取数据，而这个接口则是利用SpringMVC向外部公开，从Web页面上获取key，从数据库中检索出符合要求的数据，并将其上传到list中。后台程式会把清单与商品资讯组合一起传到前端网页，最后会向使用者显示。5.3.4浏览次数最多的商品最常见的产品可视化步骤：(1)在Eclipse中开始一个程序；(2)将网址输入到网页的主界面；(3)点击浏览最多的商品模块，会在图5-14中看到最多的项目。图5-14浏览次数最多的商品界面从图5-14可以看出，在被人浏览最多的项目中，编号“812879”的商品是排名前20的，而其它前20名则通过柱状图显示出来，显示为“812879”的商品是有绝对优势的。5.3.5收藏次数最多的商品最受欢迎的产品可视化步骤：(1)在Eclipse中开始一个程序；(2)将网址输入到网页的主界面；(3)点击最受欢迎的项目，并在图5-15中找到最受欢迎的项商品。图5-15收藏次数最多的商品界面（柱状图）从图5-15可以看出，在最受欢迎的项目中，“2279428”是最受欢迎的，而在其它20名中，排名前20的商品“2279428”占据了压倒性的优势。5.3.6一段时间内的用户流量一段用户业务的可视化步骤：(1)在Eclipse中开始一个程序；(2)将网址输入到网页的主界面；(3)按一段时期的用户流量模块，观察一段时期的用户流量分布，具体见图5-16。图5-16一段时间内的用户流量界面（折线图）从图5-16可以看出，从用户流量的分布来看，11月27到12月2日是最多的，其余时间的流量都比较小。5.3.7一天时间内的综合统计信息一日的全面统计数据可视化步骤：(1)在Eclipse中开始一个程序；(2)将网址输入到网页的主要接口；(3)按一日期间的全面统计数据模块，可以看到一日期间的整体统计数据分布情况，具体见图5-17。图5-17一天时间内的综合统计信息界面从图5-17可以看出，从一天的整体数据来看，最高的是5-6点，中午的数据相对降低，从下午到傍晚的数据会越来越多。5.3.8用户总行为漏斗模型对于漏斗模型，用户总线可视化步骤：(1)在Eclipse中开始一个程序；(2)将网址输入到网页的主要接口；(3)按一下用户总行为漏斗模式模组，查看用户总行为的漏斗模式，具体见图5-18。图5-18用户总行为漏斗模型界面

第六章总结本文基于Hadoop实现的电商行业综合统计信息系统设计与实现，本此设计完成的主要工作有：（1）在了解了国内外的研究状况后，结合对相关技术的深入学习，确定了系统的基本要求，并进行了整个系统的流程设计；(2)利用Java语言及Spring架构，开发了一个具有基本网络浏览、购物功能的前端电子商务网页，并生成相应的综合统计数据；(3)运用Hadoop技术，对数据进行了全面的统计分析，包含了一个独立的游客漏斗模型、购买最多的商品、最多的购物车、最多浏览、最有收藏、一段时间的用户流量、一天中的全面数据、全面的数据、综合统计信息漏斗模型。利用Hadoop技术开发的电商大数据分析系统，能在最短的时间内了解到网站的销售状况，从而为企业提供最佳的网络营销战略，降低市场的盲目。在开发过程中，我们使用了Hadoop平台，JAVA语言，HBase数据

人人文库> 全部分类> 行业资料 > 工业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

【《基于hadoop的电商大数据探析平台设计》9500字】

文档简介

温馨提示

最新文档

评论

【《基于hadoop的电商大数据探析平台设计》9500字】

文档简介

温馨提示

最新文档

评论

相关文档