【《用户听歌行为数据分析的可视化系统设计》11000字(论文)】_第1页
【《用户听歌行为数据分析的可视化系统设计》11000字(论文)】_第2页
【《用户听歌行为数据分析的可视化系统设计》11000字(论文)】_第3页
【《用户听歌行为数据分析的可视化系统设计》11000字(论文)】_第4页
【《用户听歌行为数据分析的可视化系统设计》11000字(论文)】_第5页
已阅读5页,还剩25页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章绪论1.1课题背景及意义当下社会倡导以人为本,而随着科学技术的普及,大众对于生活中方方面面的需求也越来越多元化、个性化。各种技术综合发展使得人们对于终端上的应用期盼值越来越高,希望其能提供更加具有针对性的服务,相关计算机应用从业人员对于其所能满足需求的要求也越来越高。因此,多元化、个性化、人性化成为发展主旋律,这促使相关技术人员逐渐认识到对用户的对于各种行为分析的意义。受到文献[7]的启发,了解到人性化设计的概念。而结合计算机应用,对各种平台访问量的一系列基本数据进行采集后,分析用户的行为规律。一方面,根据分析得到的数据进行结果分析,了解用户切实的需求,从而才能为用户提供具有差异性的服务;另一方面,为营销方提供参考。由于生活中人们的行为涉及方方面面,所以客观来说,对于用户行为分析应有所侧重点。结合多方面的考量,本课题选取用户听歌这一行为进行分析。音乐,人类重大艺术的代表,作为人类情感的载体,对于人类而言,音乐一直是精神支柱般的存在。日常生活中,听歌无疑成为了一项重要行为。而处于信息化时代,音乐市场的应用也越发广阔。于是乎,探究人们对于听歌行为的切实需求,也有着重要意义。对于人们听歌行为分析的数据处理和结果可以为发展数字时代音乐市场提供新的充足动力;使音乐应用能够尽可能地满足人们需求,提高人们对于体验感的“满意度”,以至于“流连忘返”,增加效益,从而达到用户与开发人员“双赢”的效果。总体而言,用户听歌行为分析是极具意义的一项工作。而本课题基于机器学习,结合最恰当的算法,完成用户听歌行为分析。1.2国内外研究概述1.2.1行为分析研究进展用户行为分析是一种针对用户的研究方法,研究人的各类行为,许多人对它的了解还不够到位,在理论方面也还存在些许漏洞,但是相关学术研究部门已经将其作为重点研究的一个方向。在文献[1]中了解到,美国某大学一新战略研究的案例以及香港某课题通过观察一些研究用户的某些日常生活行为,了解人们在生活中的偏好取向和使用规律等信息,知晓用户的基本需求,并将此作为公司开发产品和进行服务的风向标。心理学家亨特提出行为分析这个概念,他对用户行为进行了阐述。与此同时,在国内,有老师提出行为思维结合的新的创新模式。诚然,许多领域都需要对用户行为进行研究,但是目前很多产品还是存在着个性化程度不够的缺点,结果还是不尽如人意。1.2.2机器学习研究进展为了提高生活效率、生活自动化,关于计算机的机器学习概念被提出来,它是一门涉及多领域交叉的学科,结合了统计学、计算机科学、概率论等多门学科内容,它能学习人类行为根据其研究结果将其转化新的知识和技能,对本身已有的知识进行重组再构造,并且不断提高学习能力。五十年代,机器学习初期从研究人工神经网络开始;六十年代至七十年代,开始采用某些计算机逻辑,对人类的概念学习过程进行再学习;七十年代至八十年代,开始努力探索各种学习方法及策略,并将应用和学习系统结合;得益于神经网络网络的再度兴起以及实验和应用研究的空前重视,九十年代,机器学习发展进入另一高度。目前,研究机器学习的内容主要分为三个部分,第一是面向任务的研究,主要是针对相关学习系统的分析和探究;第二是确定最恰当的认知模型,利用计算机模仿人类学习行为;第三是进行合理的理论分析,积极探寻各种算法。近年来,在应用方面的发展速度令人叹为观止,比较典型的有语音识别、图像识别等,经典案例如2016年AlphaGo战胜李世石、自动车驾驶等。1.2.3流行音乐研究进展由于本课题选取从网易云音乐平台所爬取的数据进行分析,所以针对网易云音乐排行榜得到的一些数据进行整理,参考文献[2],了解了当下流行音乐的发展现状以及用户偏好现状。通过曲风、歌曲排名、歌手等信息的综合分析,得到用户的关注点和流行趋势。发现以下三大趋势,第一是歌曲曲风多样化,分类显示包含了抒情、流行、rap、古典等类别,而同时人们对于不同风格都能接受,而且大众喜爱的风格也不统一,呈现多元化,萝卜青菜,各有所爱;第二是主流歌手和小众歌手共同占有市场,平分秋色,呈现出歌手类别多样化趋势;第三从评论的分析看来,评论类型分为词、曲、歌手本身、抒情等,发现绝大多数用户选择抒情,说明人们更注重情感上的表达,这是马斯洛需要层次理论在高层次的体现。1.3本文作者主要工作本文的目的是通过调用网易云官方API,爬取用户听歌的相关数据,根据主观分类的各类歌单mp3,形成数据集。再对音频文件进行处理,构建合理的音乐分类器,基于机器学习的方式设计听歌行为分析系统,以此对所得到的用户数据实现可视化。本课题的主要工作为以下三个方面:1.了解本课题研究的意义和相关背景,分析本课题展开的可行性,对课题所应用到的理论知识进行梳理;2.完成音乐分类器,首先是训练分类器,步骤是调用网易云API爬取mp3文件(根据主观分类筛选的相关歌单),收集数据集;将音频文件处理成适当的格式,提取特征向量,再用SVM算法进行曲风分类;3.实现系统的整体运作,对用户听歌过程中的五种行为进行数据分析,用Python可视化功能实现结果展示,设计完善系统功能。1.4本文组织结构论文共分为四章,其余章节内容如下:第二章,系统开发技术综述部分。这部分对于本课题开展中的一些理论知识,如机器学习相关算法以及用户行为分析模型进行简单介绍总结。第三章,基于机器学习的用户听歌系统。这是本课题的具体实现功能,构建音乐分类器模型,实现整个系统的整体运作;第四章,系统成果演示,UI界面展示;总结章节部分,对于本课题的工作展开后的总结,以及接下来可以进一步改进的地方,对存在的不足进行反思。第2章系统开发技术综述2.1机器学习简介机器学习是跨学科交融的成果,包括了概率论、统计学、计算机科学等等一系列学科相关内容。随着计算机硬件的提升,计算机运算速度提高,机器学习开始进入我们生活中。机器学习通过指引的方式,让计算机模仿人类的\t"/item/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/_blank"学习行为,然后更新知识体系,使得对自身原有知识进行重构,然后提高性能。从文献[4]中了解到,现在,机器学习的核心可以分为半监督学习、集成学习和迁移学习等。第一,半监督学习,由于现实生活中人工标注存在很大的局限性,所以对于未标记的数据的处理结果往往是只有一小部分能被标记,于是会产生极少量的标记数据和大量的标记数据,所以人们思考如何利用这些数据一起来训练模型,希望这样的创新处理方式能促进机器学习性能提升,于是半监督学习应运而生;第二,集成学习,它“博采众长”,构建多个机器学习器,通过一定的策略,生成一个准确率更高的强学习器,来提高完成学习任务的效率;第三,迁移学习,它是利用待解决任务和已经分析过的任务存在的相似性,将后者向前者迁移,从而达到更好更高效地处理目的。本课题最终选择本质为监督学习的支持向量机SVM算法来实现系统核心部分。2.2用户行为分析在大数据的背景下,对用户行为采集后,对于获得的数据进行分析研究,这样的方法被称为用户行为分析,它可以了解用户需求,从而在一些在经营销售、推广方式等过程中发现优化方向,从而精准有效地改善,提高业务质量,在文献[6]和文献[8]有一定了解。目前,用户行为分析主要存在以下几种方法:行为事件分析行为事件分析[8]法用来研究某一行为事件的发生,是否对企业或者组织价值造成影响并分析其影响程度。它具有极强的筛选、分聚能力,使用简单,因此应用范围广,一般分为三个环节。用户行为路径分析用户路径分析[8]指的就是对用户在APP或网站中的使用路径进行分析,从中了解用户使用顺序、操作习惯和操作规律等,实现用户流的可视化,从而较全面地掌握用户的整体性行为,同时,对于产品的优化改进有极大帮助,它能够为企业就数据以及布局调整等方面提供有效指导依据。页面点击分析点击分析的特点就是直观,效果一目了然,效率高,并且灵活,可操作性强。它采用的是可视化设计思想,将用户所喜好热衷的区域直观地呈现,帮助运营人员和开发人员对网页布局的合理规划设计进行评估。企业力求精细化管理,满足用户对于可视化的更高需求(图2-1)。图2-1页面点击热力图转化分析转化分析[8]是将数据分析的过程进行流程化,它能反映从开始到结束每个环节之间的转化率情况,通过数据对比,发现问题所在,更有针对性地处理问题,改善用户体验(图2-2)。2-2漏斗模型示例用户画像分析将用户的一些信息,比如用户属性、用户偏好取向、用户行为等等进行抽象化处理,将用户模型进行标签化,用来描述用户的特征要保证精确精炼,便于计算机理解(图2-3)。图2-3用户标签库用户健康度分析用户健康度是从用户角度对使用情况总体数据的综合考虑全面评估的指标,能够展示产品的基本运营情况,对产品定位和发展预测有重要作用。用户健康度指标包括:使用时长、使用频率、安装量、激活量等等。统筹兼顾以上几种模型的优缺点,本课题选取了前三种模型的综合来完成用户听歌系统设计。2.3SVM算法概述SVM[5]即支持向量机,是一种强大的算法。它源于统计学习理论,属于分类精度较高的强学习器之一。SVM具体在算法文献[3]和文献[9]有阐述。它对样本依赖性小,不会过拟合,文本分类、垃圾文本识别、图像分类,用于图像分割系统甚至蛋白质分类等。SVM应用广泛,并且在处理这些实际问题的过程中表现优秀,至今仍为褪色。之所以选择SVM算法,是因为它反其道而行,与传统解决方法不同,避开直面高维空间,利用核函数,将复杂的高维问题转化为线性可分的方式求解,对样本适应能力较好。svm.SVC函数(图2-4):图2-4SVM函数本课题Python中的Scikit-learn模块,下面介绍一下sklearn库的SVM的主要参数(表2-1)。表2-1SVM参数参数含义CSVC的惩罚参数,默认值为1.0,C越大,对分类错误惩罚大,准确率高,泛化能力弱;C越小,对分类错误惩罚小,泛化能力强kernel核函数,默认是rbfdegreepoly函数的维度,默认为3gamma三类核函数的参数,默认是‘auto’tol停止训练的误差大小,默认为le-3random_state数据洗牌时的种子值,int值max_iter最大迭代次数。-1为无限制cache_size核函数cache缓存大小,默认为200probability是否采用概率估计,默认为Falsecoef0核函数常数项,对‘poly’,‘sigmoid’有效值得一提的是,SVM是针对两个类别区分的任务,但是实际上,绝大部分分类问题都不是二分类的,于是为了达到区分多个类别的目的,SVM采取将二类分类法组合的方式,以与本课题相关的音乐分类器来说,就有一对多和一对一两种方法,参考文献[10]。就分类效力而言,支持向量机无论是在现行还是非线性分类中,都是非常重要的存在。下图就几种常用算法在数据集上的准确率进行对比(图2-5):图2-5算法准确率对比2.4本章小结本章主要对本课题所完成的系统开发中运用到的技术进行概括梳理,机器学习理论部分相关内容,用户行为分析中一些比较经典的模型,并最终选定了三个模型的综合使用,以及Scikit-Learn机器学习框架的SVM算法的使用说明。第3章基于机器学习的用户听歌分析系统本课题构建一个基于机器学习的用户听歌系统,目的是收集一部分音乐歌单(最好已经有分类),下载相关音频文件,对音频文件进行相关操作处理得到能够支持计算机机器学习的格式文件,以机器学习的方法,构建音乐分类器,形成最终听歌分析系统。基于系统,对用户听歌行为数据进行分析研究,实现数据可视化,以此了解用户的偏好以及听歌习惯。而有关于数据集的建立,在了解了一些目前现有的研究后,由于前人的数据集歌单分类类型局限性,综合考量之后,决定自己爬取数据,构造数据集。参考文献[2]对国内现有几大音乐平台的对比分析,鉴于网易云调用接口的可操作性以及数据的全面性,最终本课题选择调用网易云官方接口,爬取采集相关数据。3.1构建音乐分类器模型本节内容为构造分类器模型,其流程大致如(图3-1)所示,首先从网易云音乐平台完成对用户听歌数据的爬取,对爬取到的数据预处理调整成合适的数据格式(如歌词存储到字典,MP3转为wav格式),对处理过的数据利用MFCC特征向量提取,将数据分成训练集和测试集来训练得到最优参数,将参数代入模型,再讲所有数据一起训练模型,生成分类器。图3-1音乐分类器流程3.1.1音频文件的采集通过对比,选择网易云音乐官方API调用的原因是它能让我们获得的数据有效并且全面。要采集音频文件,首先应该先确定我们需要的音频样本类型,从网易云音乐榜单排行中,确定了七个用户较偏好的曲风类型进行采集。按照github上指导运行调用API的步骤,安装NodeJS环境,启动相应的项目服务,将端口http://localhost:3000在浏览器中打开,就能得到数据。主要代码:爬取音频文件部分a.判断对应的歌曲MP3文件是否可下载,判断歌曲是否存在(图3-2)图3-2爬取代码b.下载单曲MP3文件(图3-3)图3-3下载MP3文件代码c.获取单首歌歌词,将爬取得到的json字符串转化为字典格式储存,定位关键字提取内容(图3-4)图3-4获取歌词代码d.用类似方法,判断用户账号密码是否匹配,若正确,返回用户id(图3-5)图3-5身份验证代码3.1.2提取和处理音频文件特征向量所得到的数据集不能为计算机所直接利用,因此必须转化成机器学习所能操作的数据格式,对于音频文件的特征提取以及处理是构建音乐分类器最重要的一个环节。提取特征向量在尝试了诸如变换FTT作为特征向量之后,综合准确率等因素的考量,本课题最终选择对于音乐分类比较具有优越性的梅尔频率倒谱系数(MFCC)[3]进行特征提取。MFCC是能够对人的声音分类的一套完整算法,模拟耳朵对于声音的处理,由于人耳的听觉特性与梅尔频率的增长基本拟合,因此用Mel倒谱系数作为音频文件的特征向量来用于音乐分类,效果较为理想。参考文献[11]和[12],提取流程大致如下(图3-6):图3-6特征向量处理流程图预加重[5]。用一个高速滤波器过滤语音,提升输入的语音中高频部分,使得频谱平缓化,能够确保整段频带求频谱的过程中信噪比相同。分帧[5]。一般采用交叠分段的方式,使帧与帧之间连贯。加窗[5]。窗函数可分为包括汉明窗在内的多种窗函数,根据不同需要选择适当的窗函数和窗口长度。每一帧乘以汉明窗快速傅里叶变换。将其经过快速傅里叶变换转化为频域上的能量分布来观察,以此得到各帧的频谱。三角带通滤波器。快速傅里叶变换后得到的能量图谱,乘上一组m个的三角带通滤波器来降低资料维度,平滑化频谱。对数能量。将前一步所得的m个频带能量取对数,得到对数能量。将前一步所得的对数能量带入离散余弦变换,去除相关性,求出MFCC系数。主要代码:MP3文件对于Python而言处理起来相对复杂,因此先将MP3文件读取再转化为wav格式(图3-7);图3-7转为wav格式代码处理特征向量上述所提取的MFCC特征向量结果为M*L矩阵,其中M为三角滤波器个数,L为MFCC系数阶数,通常是12-16。要形成训练集,需要把这个矩阵转化为一维矩阵。学习总结现有方法后,选择mean和cov两个函数。前者用来矩阵平均值,后者用来求协方差。补充介绍,librosa是一个用于音频、音乐分析、处理的python工具包,功能强大,运用于本课题的特征提取。主要代码(图3-8):图3-8处理特征向量代码对于上述得到的数据集提取MFCC特征向量后,存储在本地文件内。本课题采集的数据按照七种曲风分类,每种类型大约150左右首歌,总数为1000个音乐文件。将这些数据进行分配,其中八成为训练集,其余剩下的为测试集,以备后续过程使用。主要代码(图3-9):图3-9存储成txt文件代码3.1.3构造音频分类器模型对于分类器算法的选取,参考文献[13]中对于机器学习6种模型的对比,再加上对于KNN算法的评估,这些算法准确度大致为:BP神经网络>SVM算法>RF分类模型>LR分类模型>KNN算法>CART决策树模型。统筹兼顾了准确率以及实现过程的可操作性,最终选择SVM算法来构建音乐分类器。寻找最优参数在第二章中,对于Scikit-learn库中SVM的一些主要参数有了相应说明,那么怎样找到最优参数,让我们算法模型的准确率尽量提高呢?学习文献[14],本文采用基于交叉验证的网格参数寻优方法来确定模型的最优参数,其核心原理是首先先确定所要搜索的参数区域,然后将区域网格化,而网格的一个个交叉点就是要评估的参数组合,然后用k-fold分别去测试每个组合的准确率,准确率最高的组合就是我们要找的最优参数组合。主要代码:用每种类型前130首歌做训练集,后20首歌做测试集,交叉网格验证寻找最优参数(图3-10);图3-10寻找最优参数代码b.交叉网格验证部分(图3-11);图3-11交叉网格验证代码c.测试结果(图3-12):图3-12准确率测试结果代码得到最优参数结果:C:0.1decision_function_shape:ovoKernel:linearprobability:True生成分类器利用上一步骤得到的最优参数,结合数据集,进行学习分类,生成分类器,最后存储模型。主要代码(图3-13):图3-13分类器模型代码3.2数据信息处理对用户听歌行为中的五种表现,进行一个权重划分,这是因为,考虑到不同行为所反映用户的偏好程度不一样,细化权重比例能够更贴切更真实地反映用户偏好,对于用户整体行为的分析准确率才能提高。对于本课题分析的五种听歌行为类型权重进行解释:其中循环播放以及片段播放行为综合次数等于其自身原本次数;对于查看评论行为,综合次数等于评论时长和评论次数的比值;对于点赞评论行为,其综合次数为原本次数的70%;对于歌曲的收藏行为,综合次数为基数10。主要代码(图3-14):图3-14权重计算代码3.3实现可视化本课题选择Python中的pyecharts库来实现最直接的一个环节——对分析得到的数据的可视化操作。这一环节主要有三个部分,分别是用户行为统计、用户偏爱曲风还有词云展示。用户行为统计,包括用户听歌习惯中的循环播放和片段播放,听歌行为中的查看评论和点赞评论,还有歌曲收藏。以条形图和折线图展示具体的综合次数,用饼图展示各种行为的比例分布;用户偏爱曲风,对于七种热门类型,用户取向和偏好情况进行展示,如行为统计,以条形图和折线图展示具体的综合次数,用饼图展示各种行为的比例分布;词云展示,利用jieba分词库辅以工具生成歌曲词云图。3.4用户听歌行为分析系统的实现这一部分,是本课题的系统功能的实现部分。大体上分为三个环节,第一为收集用户听歌数据,第二为用户数据分析,第三为对分析数据实现可视化。按照功能,进行系统模块划分。各模块各得其所,功能不一,缺一不可。功能模块的划分(图3-15):图3-15模块组成3.4.1数据库的建立与实现建立数据库表结构整理了参考文献的的一些对于用户行为分析的研究,结合本课题针对用户听歌的这一行为,系统分析的用户行为有:用户循环播放的记录、片段播放的记录、点赞评论、查看评论、收藏歌曲。以这些数据为基础,搭建数据库,最终用数据库的形式存储这些数据。最终创建三个表。数据结构:recoder表(表3-1)对个别属性解释:对于tag属性,有1~5分别标记五种听歌过程中的行为;对于start_time表示歌曲开始播放时刻或者是查看评论开始时间(0);对于end_time则表示歌曲停止播放时刻或者是查看评论结束时间(时长)。表3-1recoder表属性名别名数据类型长度recoder_idkeyint0user_id用户idvarchar1000song_id歌曲idvarchar1000tag行为标签int0start_time开始时间int0end_time结束时间int0times总次数int0message备注text0inserttime插入数据时间datetime0songs表(表3-2)表3-2songs表属性名别名数据类型长度song_id歌曲idchar1000song_name歌曲名字varchar1000song_author歌曲作者varchar1000song_lrc歌曲歌词text0song_url歌曲路径varchar1000users表(表3-3)表3-3users表属性名别名数据类型长度user_id用户idvarchar0antique古风音乐类型double0classical古典音乐类型double0electronic电子音乐类型double0folk民谣音乐类型double0pop流行音乐类型double0rap说唱音乐类型double0rock摇滚音乐类型double0lasttime最近更新时间datetime0songs更新数量int0实现数据库表对于本课题数据库的实现,选操作简便的MySQL工具手动存储数据;数据信息:a.recoder表(图3-16)图3-16recoder表数据b.songs表(图3-17)图3-17songs表内容c.users表(图3-18)图3-18users表内容3.4.2系统设计上文提到的本系统涵盖的几个主要模块:用户基本信息爬取模块、训练音乐分类器模块、用户数据信息分析模块以及可视化模块。用户信息爬取模块,即上文所述的对于用户听歌行为信息的收集(如3.1.1),其功能为通过调用网易云API,按照曲风类型不同的歌单下载歌曲MP3文件、歌词、用户播放记录等等,建立数据集,是后续数据分析的保障工作。训练音乐分类器模块,即上文(3.1.2和3.1.3)所述的对于数据集的处理,构造最终的音乐分类器模型。其功能是通过机器学习完成对于音乐分类模型的拟合,尽可能地提高分类的准确率,为后续曲风分析、识别歌曲类型、歌单分析的功能实现做准备。用户数据信息分析模块,如上文(3.2)所述,通过五种不同听歌行为分别设置不同权重,以次数的形式呈现各种行为的比例关系。其功能可以可作为后续可视化部分的展示成果。可视化模块,如上文(3.3)所述,对于我们的分析成果如用户曲风喜好分析和各类行为统计以图表等形式呈现,直观,一目了然,以达到我们设计该系统——用来了解用户听歌行为偏好的目的。以数据流动方向来表现各模块之间联系,如(图3-19)所示图3-19数据流向3.5本章小结本章主要完成完整的听歌分析系统,首先通过支持向量机算法完成音乐分类器,对于分类的性能可圈可点,准确率差强人意。接着设计核心的系统结构以及数据库的构建,本系统由最终大致有四个核心模块构成,对所分析的数据进行可视化,最终实现识别单曲以及完整歌单的分析功能。系统成果展示4.1成果展示(1)登录界面,主要元素有背景图,用户名、密码标签,登录、退出按钮;其中用户名为手机号码(即网易云音乐账号),系统会自动检测账号密码是否匹配,只有匹配才可以顺利登录(图4-1);图4-1登录界面(2)系统界面(主界面),主要元素包括背景图,五个按钮,分别是三个可视化部分:歌词词云、用户偏爱曲风、用户行为统计;以及两个系统功能部分:识别歌曲类型、歌单分析;这是用户成功登录之后所呈现的界面,用户可根据需要点击按钮(图4-2);图4-2主界面(3)可视化展示界面,主要包括三部分:用户听歌过程中五种行为分别统计、七种曲风用户偏爱取向展示、歌词词云;以条形图和折线图展示具体的综合次数,用饼图展示各种行为的比例分布;直观地体现了本课题针对用户听歌这一行为分析之后的研究结果;词云,主要是对歌词进行分析,对于词频等因素的一个反映,生动形象。点击主界面的三个按钮会分别呈现(图4-3、图4-4、图4-5);图4-3用户行为统计展示图4-4用户偏爱曲风展示图4-5词云展示识别歌曲类型功能,点击主界面的“识别歌曲类型”按钮,则出现曲风识别界面,输入歌曲id,通过系统的音乐分类器对输入歌曲进行分类,弹出识别结果窗口,里面显示该首歌曲的歌曲id、歌名、作者、所分析的曲风类型结果以及歌曲的下载路径(图4-6、图4-7);图4-6曲风识别界面图4-7曲风识别结果(5)歌单分析功能,点击主界面的“歌单分析”按钮,弹出歌单分析界面,输入歌单id,系统通过利用音乐分类器,逐首分析歌单里的每一首单曲。如我们分析图2的歌单,开始分析,执行程序,会出现图三的分析过程;分析结束之后,呈现歌单分析结果,对于歌单内展示每首歌的歌曲id、歌名、作者、曲风类型(图4-8、图4-9、图4-10、图4-11);图4-8歌单分析界面图4-9示例识别歌单图4-10识别分析过程图4-11歌单识别分析结果展示4.2本章小结本章是最终完成的系统成果的展示,以及UI界面的实现,通过点击按钮的方式呈现最后可视化的数据分析结果,并且可以查看使用系统的核心功能——识别单曲和歌单分析。结论与展望本课题完成了一个基于机器学习的用户听歌行为分析的简单系统,音乐和我们的生活息息相关,因此对用户听歌行为数据进行处理和整合,从中探求每个人的取向偏好,切实了解用户在听歌这一方面的需求,从而能够为用户提供个性化服务,针对不同曲风爱好者,合理进行差异化推荐。我认为这具有一定的使用意义。总体来看,本课题所实现的系统完成基于SVM算法的音乐分类器,对从网易云音乐爬取的音乐数据曲风的辨别,进行准确率较高的分析。利用python语言的强大的库函数,数据的可视化较为美观,可读性较高,通过登录网易云音乐账号,点击曲风分析按钮,即可查看自己对于七种曲风歌曲的喜爱程度,非常直观清晰;一方面,对于用户自身,他们可能也不清楚音乐的类别,曲风分析结果可以帮助他们定位自己的曲风取向,通过类别搜索同类歌曲,能发现更多符合自己品味的歌;另一方面,对于音乐平台,可根据分析结果,智能化推荐,从而实现用户与相关从业人员的“双赢”;点击行为统计按钮,用户即可对自己在网易云音乐平台听歌习惯有一些基本了解。当然,由于本人对机器学习以及用户行为分析相关知识的了解不够深入,该系统还存在很多不足。首先,音乐分类器的准确率还存在提高空间,对于有些歌曲曲风分类不够准确会导致分析结果存在偏差;其次,系统实现的功能太过于单一,只是局限在对单曲和歌单的曲风辨析,可以增加用户行

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论