已阅读5页,还剩17页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
姓名:导师:,基于主题模型的用户手机日志数据分析,内容简介主要工作及结果总结展望,内容简介,主要工作,数据预处理,语料库(Corpus)中共有两篇文档(Documents)Johnlikestowatchmovies.Marylikesmoviestoo.Johnalsolikestowatchfootballgames.构建单词库(Vocabulary)得到bag-of-words表示1,2,1,1,2,0,0,0,1,11,1,1,1,0,1,1,1,0,0,Bag-of-words,手机用户安装的应用列表手机应用对应的标签列表,原始数据,获取Bag-of-labels,用户特征分析,主题模型,什么是主题?,主题模型,LatentSematicAnalysisSVD分解,主题模型,ProbabilisticLatentSematicAnalysis参数估计方法:EM算法PLSA优点:有统计基础,能比LSA更好地提取文章特征。PLSA缺点:对于训练集以外的文章,难以给出一个主题分布。,主题模型,LatentDirichletAllocation,LDA,在PLSA的基础上增加了先验,可以对训练集以外的文本进行推断LDA参数估计方法分两类:变分推导(VariationalInference)采样(SamplingMethods)我的实现:基于GibbsSampling,LDA结果,聚类及可视化,K-means聚类,气泡图可视化,简单的推荐系统,简单的推荐系统,思路:基于用户相似度的协同过滤。方法:对于某一个待推荐的用户,找到训练集中与他相似度最高的前K个用户,然后进行推荐。两个推荐系统的不同之处仅在于用户相似度计算方法推荐系统1:利用用户安装列表直接计算相似度推荐系统2:利用用户的主题分布计算相似度,推荐系统准确率对比,结论:使用了LDA以后,用户相似度的计算更加准确,因此LDA可以更好地提取用户的特征。,完成了用主题模型对手机日志数据进行分析的一种方法:1)用主题模型对用户数据进行分析2)利用分析结果进行聚类和人群可视化3)利用分析结果进行应用推荐未来方向:1)完善手机应用标签库(可能需人工干预)2)结合用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年出境游合同
- 2026年医疗药品临床试验协议
- 长沙幼儿师范高等专科学校《JSP网络编程》2024-2025学年第一学期期末试卷
- 延伸护理中家属困惑与解答:护理团队沟通技巧
- 天津美术学院《机器人创新设计基础》2024-2025学年第一学期期末试卷
- 浙江省杭州市西湖高中2025年化学高二第一学期期末综合测试试题含解析
- 新疆昌吉二中2025年生物高二第一学期期末学业水平测试试题含解析
- 上海华东师大三附中2025-2026学年高二化学第一学期期末质量跟踪监视模拟试题含解析
- Day 21 为什么有些歌总在大脑里单曲循环 任务单-2026届高三年级上册英语一轮复习专项
- 新生儿肠梗阻家庭参与式护理模式构建
- 县校本研修管理办法
- 要素式民事起诉状(房屋租赁合同纠纷)
- 白内障术后并发症
- 2025年混凝土考试题库及答案
- 寻常痤疮基层诊疗指南(2023版)
- 教师心理健康知识培训
- DB23∕T 2334-2019 装配式混凝土渠道应用技术规范
- 2025年春江苏开放大学机械创新设计060260过程性考核作业123答案
- T/CCS 029-2023综采工作面采煤机惯性导航系统技术规范
- 水利安全风险防控“六项机制”与安全生产培训
- 校园暴力预防培训课件(教师)
评论
0/150
提交评论