下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、北京交通大学毕业设计(论文)开题报告题 目 :文章推荐系统学院:软件学院专业:软件工程学生姓名: xxxxxx 学号: xxxxxxxx1项目概述:一、 项目来源与背景近些年,个性化服务越来越受到互联网公司的重视,也成为了良好用户体验的保障。随着大数据时代的到来,推荐系统成为个性化服务的核心,从亚马逊淘宝等电商, 到豆瓣的电影图书,再到各个音乐播放器,推荐系统都是其业务的重要支撑。推荐系统可以充分挖掘历史数据的价值,让数据库中看似繁冗无用的历史数据发挥出无比的价 值,为用户提供他们更想听到的,更想看到的,以此增加用户粘性。36kr 公司是国内知名互联网创业生态服务平台,主业务有 36 氪股权投
2、资、投融资 FA 服务、36 氪媒体四块。公司希望借助 36 氪媒体吸引更多的读者,吸引更多的潜在投资者和潜在创业者,从技术层面来讲,推荐系统将是解决这一问题的不二之选。二、 项目与实习的关系本人于 36kr 公司数据部实习。部门希望从技术层面解决文章阅读量不足的问题, 因此要上线针对文章的推荐系统,由我负责推荐引擎部分的开发,实践一些机器学习的算法。三、 项目开发意义对用户而言,推荐系统能提供个性化的服务,为用户从海量的科技资讯中找到他们更偏爱的,优化用户体验。对公司而言,优良的用户体验可以增强用户粘性,这样一来可以留住普通的读者, 增加公司品牌的知名度,二来能转换更多的深层次用户,挖掘到潜
3、在的投资人与创业者,为公司的融投资平台转化更多的用户,间接提高了公司的业务量。对我个人而言,这是一次绝佳的学习机会,既可以实践我已有的软件工程技能, 又可以学习到机器学习的知识,为我以后的发展做准备。四、 项目主要内容该推荐系统主要由三大模块组成,后端数据存储模块,推荐引擎模块,前端展示模块,我主要负责推荐引擎模块,包含协同过滤引擎与文本聚类引擎两大模块。协同过滤引擎包含1. 基于文章的协同过滤2. 基于用户的协同过滤文本聚类引擎包含北京交通大学毕业设计(论文)开题报告21. Elasticsearch + TFIDF 引擎2. LSI 模型引擎3. pLSA 模型引擎五 项目重点难点该项目有
4、以下重点难点1. 学习成本高,短期内学习大量自然语言处理,机器学习的知识2. 用户体验要求高,要及时响应用户的操作3. 减轻服务器压力4. 功能模块化5. 推荐系统可能见效慢,效果不直观6. 提高数据库效率,减轻数据库压力北京交通大学毕业设计(论文)开题报告3设计方案:一 项目背景36kr 媒体是 36kr 公司的重要业务,每一位潜在读者都是潜在的深度用户,因此公司决定上线自学文章的推荐系统,以此增大用户数量与粘性。二 理论基础本项目的推荐系统引擎主要包含两大类,文本聚类引擎与协同过滤引擎。文本聚类引擎,借助自然语言处理的方法与机器学习的相关算法,对文本进行建模,提取主题,并根据主题的相近程度
5、确定给定两篇文档的相似程度,最后给出相似文章的推荐。TF-IDF(Term FrequencyInverse Document Frequency)可有效找出一篇文章中重要的词语,确认表层的主题,而 LSI(Latent semantic indexing)模型可有效找出一篇文章的潜在语义主题,为相似度的计算提供很好的依据。协同过滤引擎,借助已有用户的行为数据和现有文章的评价数据,推测用户对一篇新文章的态度,可以从历史数据中挖掘出用户的兴趣所在,并以此进行推荐。三 解决问题的方法步骤1. 与组内成员确认业务需求2. 学习必要的自然语言处理知识,机器学习知识,补充数学基础3. 建立模型,完成初步
6、 demo,对小量数据进行实验,观察改进现有算法4. 与前端后端人员确认交互方式,明确接口5. 采用 Scrum 敏捷开发,快速迭代,同时比较多个模型推荐效果6. 根据用户反馈,调整模型,调整策略四 预期成果1. 推荐系统一方面增加了注册用户数,另一方面增加了单个用户阅读的文章数2. 完成指导老师在任务书中安排的任务3. 完整的文档资料,包括需求分析文档,系统概要设计文档,系统详细设计文档, 用户手册。北京交通大学毕业设计(论文)开题报告4主要参考文献:【1】李航,统计学习方法,清华大学,2012 年 3 月【2】Sheldon M. Ross,概率论基础教程,人民邮电,2010 年 4 月【
7、3】盛骤 / 谢式千 / 潘承毅 ,概率论与数理统计,高等教育,2008 年 6 月【4】项亮,推荐系统实战,人民邮电,2012 年【5】Dietmar Jannach / Markus Zanker / Alexander Felfernig / Gerhard Friedrich ,推荐系统,人民邮电,2013 年 6 月【6】Deerwester, S., Dumais, S., Landauer, T., Furnas, G. and Harshman,R. (1990). “Indexing by Latent Semantic Analysis”. Journal of the A
8、merican Society of Information Science 41(6):391-407.【7 】Jackson, J. E. (1991). A Users Guide to Principal ComponentsAnalysis. John Wiley & Sons, NY.【8】Manning, C. and Schutze, H. (1999). Foundations of StatisticalNatural Language Processing. MIT Press, Cambridge, MA.【9 】Marcus, M. and Minc, H. (196
9、8). Elementary Linear Algebra. The MacMillan Company, NY.【10】Gilbert Strang,Linear Algebra and Its Applications ,Brooks Cole, 2005 年 7 月毕业设计(论文)进度安排:序号毕业设计(论文)各阶段内容时间安排备注1根据实习内容,与导师沟通,讨论题目2015.12-2016.12根据导师意见,查阅资料,准备开题20161-2016.23开题后按计划完成知识储备与架构设计2016.2-2016.34完成文本聚类推荐引擎并准备中期检查2016.3-2016.4北京交通大学毕业设计(论文)开题报告指导教师(审核签名): 审核日期:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年山西财贸职业技术学院单招职业技能考试题库含答案详解(突破训练)
- 2026年广西农业职业技术大学单招职业技能考试题库及1套参考答案详解
- 2026年山西艺术职业学院单招职业倾向性考试题库含答案详解(基础题)
- 2026年广州体育职业技术学院单招综合素质考试题库带答案详解(b卷)
- 2026年广东舞蹈戏剧职业学院单招职业技能测试题库附答案详解(黄金题型)
- 2025浙江台州市安诚能源科技有限公司招聘财务人员1人笔试参考题库附带答案详解
- 2025河南三门峡黄河明珠(集团)有限公司招聘高校毕业生24人笔试参考题库附带答案详解
- 2025江苏福如东海发展集团有限公司竞聘中层干部6名笔试参考题库附带答案详解
- 2025新疆西域学府项目建设管理有限公司招聘5人(阿拉尔市)笔试参考题库附带答案详解
- 2025广东清远市东胜服务有限公司公开招聘绿美东城管护员36人笔试参考题库附带答案详解
- 昏迷恢复量表CRS-R使用指南
- Premiere题库资料完整版
- 2025年南京铁道职业技术学院单招真题及答案详解
- 2026年黑龙江农业工程职业学院单招职业倾向性测试题库附答案解析
- 医院中层干部选拔任用工作方案
- 2026年佳木斯职业学院单招综合素质笔试备考题库带答案解析
- 2026年设计师雇佣合同协议书
- 建材销售油漆合同范本
- 浙江国企招聘-2025年绍兴杭绍临空示范区开发集团有限公司工作人员招聘14人(公共基础知识)综合能力测试题附答案
- 《人工智能通识(AIGC版)》 课件 项目6 AIGC+数字人应用
- 2026年常州纺织服装职业技术学院单招职业技能测试题库附答案详解
评论
0/150
提交评论