




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、北京交通大学毕业设计(论文)开题报告题 目 :基于迭代决策树的试题库去重入库系统的设计与实现学院: 软件学院 专业:软件工程学生姓名: XXX 学号: XXX项目概述:1. 项目的来源与背景k12(Kindergarten through twelfth grade)教育即基础教育,代表从小学一年级到高中三年级的 12 年中小学教育。教育部统计数据显示,截止 2012 年末普通高中在校生 3311 万人,普通初中在校生 6333 万人,普通小学在校生 1.14 亿人, 并且在校学生人数呈快速增长模式。随着互联网的迅速发展,在巨大的市场需求下, K12 在线教育产品发展迅速,学而思、作业盒子、猿
2、题库等教育产品层出不穷,BAT 三大公司也有相应的教育产品。在竞争如此激烈的情况下,题库的数量及题库的质量成为 K12 教育产品的核心竞争力。从而优化题目入库流程成为关键工作:提高题目入库速度为用户提供最新题目信息,做好题目收益评估工作为用户提供高质量题目的同时降低企业开发成本,降低题库题目重复度为用户提供更多有效选择的同时也缓解了数据库压力,提高检索速度。通过这些流程的优化,从而为用户提供最优质的体验。2. 项目与实习的关系本人在一家专注于 K12 教育的公司实习,该系统来自于本人所在团队负责开发的题库优化系统。感谢公司领导的信任,让我参与到整个项目的开发过程中。3. 项目开发意义、必要性与
3、现实价值题库资源作为 K12 教育平台的核心竞争力。通过该系统,实现题目入库的半自北京交通大学毕业设计(论文)开题报告动化,提高题目的入库速度和入库质量。对用户来讲,由于半自动化的实现,保证了用户可以及时的获取最新更全面的题目信息;对数据挖掘人员来说,减少了大量重复工作,并且工作上手快,降低新员工培训成本;对公司来说,一方面大大提升了用户满意度,有助于扩大用户群,另一方面降低了公司的开发成本,最终实现了利益最大化。此系统的实现,改变了以往人工入库的方式,实现了各方利益的最大化。本人通过题库优化系统的开发,学习并了解了公司整个题目入库流程,对文本相似度计算中的特征值选取以及 GBDT 算法进行学
4、习,在开发过程中体会到从特征值选取到建模,再到训练数据不断完善的过程。4.项目的内容本项目的主要内容是对题目入库过程中各个流程进行优化。首先是 GBDT 的题库收益评估模型的建立。模型的本质是文本相似度的计算, 基于题库这样的应用场景,最终选择了 GBDT 算计进行数据训练、测试已经计算。GBDT(Gradient Boosting Decision Tree)即迭代决策树,该算法由多颗决策树组成,所有数的结论累加起来做最终答案。在选择算法进行数据训练测试过程中有两个比较常见的问题:泛化能力弱和过拟合现象。泛化能力指机器学习算法对新鲜样本的适应能力,存在一种情况是算法对训练数据的预测效果较好,
5、但是对测试样本或者是真正数据的预测效果却不好;过拟合是指为了得到一致假设而使假设变得过度复杂,过拟合问题发生也是由于在训练数据过程中,使用回归算法过度拟合数据特征而导致测试样本或者真正数据的预测效果不好,而 GBDT 算法的泛化效果好,同时过拟合现象发生较少,可以最大化的保证通过训练数据可以对真实数据有较好的预测。北京交通大学毕业设计(论文)开题报告关于数据特征的选择,常用的有 LCS、prefix、suffix 等,而基于我们的题目应用场景,会选择一些题目的特殊特征,例如文本中的公式等进行特征计算从而使文本相似度计算更契合题库场景。主要包括以下四个模块:1)Url 正则建立模块 2)网站收益
6、评估模块 3)题目去重模块 4)清洗入库模块。Url 正则建立模块提升了从网页库过滤有效网页的效率与覆盖率首先根据域名从公司网页库中拉取此网站的全部链接,由于只需要单个题目的链接,故将拉取的 url 通过脚本进行拆分分类,获取此网站单题的 url 正则,相对于之前通过人工点击网站来总结 url 正则来说,通过脚本提高了 url 正则建立速度和全面性。网站收益评估模块提高了收录题目质量的同时最有效的控制了开发成本。通过提取出的题目题干信息,去除 html 标签、数据归一,文本特征值选取,类似LCS、prefix、suffix 等特征之后,与数据库中的题目使用机器学习中的 GBDT 算法进行文本相
7、似度计算,通进行训练测试,寻求最精准的相似度值。通过随机选取一定数量网页进行模型计算,判断出相似度阈值,小于阈值即为收益,根据收益判断是否进行入库。题目去重模块为检索提供更高质量的数据源。通过收益评估模型,也可以获取题目去重的阈值,例如确定阈值的相似度为 0.9,相似度大于 0.9 的部分通过评估可以确定题目一定相同,则选取小于阈值部分的题目进行最终的清洗入库,一方面降低数据库压力,另一方面能够为检索团队提供更优质的数据源。清洗入库模块使得工作进度可视化。主要有格式化抽取以及排版等部分,此模块主要由人工完成,网页主要用于显示清洗数据的进度,便于工作控制和工作交流。北京交通大学毕业设计(论文)开
8、题报告5.重点和难点工作项目的难点是题目收益评估模型的建立。收益评估是成本控制和题库去重的基础,因此此系统的重点就在于得出精确的收益评估结果,为我们的下一步工作打好基础,做好指导工作。收益评估的本质是通过新题目与数据库题目进行文本相似度比较,主要是文本特征值的选取和机器学习算法的选取,基于题库的应用场景中,我们要改变选取的文本特征值和及其学习算法来进行训练模型。GBDT 即迭代决策树,该算法由多颗决策树组成,所有数的结论累加起来做最终答案。由于 GBDT 良好的泛化能力以及极少出现过拟合现象,无论是对线性回归还是非线性回归都使用,故经过测试和团队开会最终决定采用 GBDT 算法来进行训练模型。
9、对于文本特征值的选取,目前还在不断的调整,通过 文本特征在 GBDT 算法来训练模型,可以尽可能准确的获得两个文本的相似度,为收益评估提供决策建议,一般的特征有 LCS、prefix、suffix 等,同时基于题目这样的应用场景,也会将文本中的公式等作为文本特征进行计算。项目的重点有以下几个方面:收益评估模型的建立。模型是整个系统的核心内容,完成精准模型的建立才能更好的进行成本控制,同时也是题库去重的基础。题库去重模块的实现。模型不可能实现对题目百分百的预测,不同网站的题目在数据库存在的比例也不同,故我们需要随机选取不同相似度下的题目进行人工评估, 确定合适的阈值,经过去重再进行清洗入库。北京
10、交通大学毕业设计(论文)开题报告研究方案:1. 项目背景随着九年义务教育的普及,中国在校学生数量急剧增长,同时在互联网飞速发展的环境下,K12 线上教育产业蓬勃发展,学而思、猿题库、作业盒子等,包括 BAT 三大公司都有相关产品,在竞争如此激烈的情况下,题库的数量和质量成为核心竞争力。为了保持产品的竞争力,优化入库流程尤为重要。2. 理论基础1. 题目收益评估的本质是文本相似度的计算,文本相似度计算已有一些成熟的例子,基于题库的应用场景,最终考虑使用 GBDT 的机器学习算法,但是对于文本特征的选择,还在不断改变测试,通过 文本特征来度量文本进行特征计算,利用GBDT 算法得到尽可能准确的文本
11、相似度值。2. 基于 Web 前端技术(Javascript/CSS/HTML)的前端开发3. 软件生命周期、软件设计模式等。3. 解决问题的方法与步骤1) 熟悉题目入库流程,确认题库入库优化系统的开发流程及开发计划。2) 学习机器学习基础内容,选择适用于题库场景的机器学习算法,选择适合题目的文本 特征,进行测试建模,选择最合适的 特征和适合的学习算法。3) 详细设计并实现题目入库优化系统的各个功能模块,提升题目入库的效率和入库的题目质量。北京交通大学毕业设计(论文)开题报告4) 结合实际业务,完成各个模块的实现5) 开发完成后自行测试各个功能模块是否运行正常,最后对项目进行黑盒测试、白盒测试
12、,以保证项目的正确性。4. 预期成果1) 完成需求分析,建立需求分析文档,同时在概要设计、详细设计、开发的过程中,编写概要设计文档、详细设计文档和开发文档,便于后期工作交接和二次开发。2) 完成题目入库优化系统的开发,主要是四个模块:url 正则建立模块,题目收益评估模块,题库去重模块和清洗入库模块。主要参考文献:1 Peter Harrington 著,李锐曲亚东 王斌译. Machine Learning in Action M .北京:人民邮电.2013.062 李航 .统计学习方法M .北京:清华大学.2012.033 孙万龙. 基于 GBDT 的社区问题标签推荐技术研究D.哈尔滨工业
13、大学.2015 4刘宏哲. 文本语义相似度计算方法研究D.北京交通大学.20125 Christopher D.Manning ,Hinrich Schiitze 著. 苑春法,李庆中,王晙,李伟, 曹德芳等译.Foundations of Statistical Natural Language ProcessingM.北京: 电子 工 业 .2005.016 黄立冬. 中国 K12 在线教育的发展机遇与对策分析J. 数字社区_ 教育云北京交通大学毕业设计(论文)开题报告梯,2015,197 孙鑫. 机器学习中特征选择问题研究J.无,不详, TP1818 金博,史彦军,滕弘飞著. 基于语义理
14、解的文本相似度算法J.无,不详,TP391.19 美泽德 A 肖(Zed A. Shaw)著,王巍巍翻译. Learn Python the Hard Way: A Very Simple Introduction to the Terrifyingly Beautiful World of Computers and Code (3rd Edition)M.北京:人民邮电 .2014.1010 Mark Lutz 著. Learning PythonM. OReilly Media.2013.07毕业设计(论文)进度安排:序号毕业设计(论文)各阶段内容时间安排备注1针对实习工作,查找资料,确定选题2016.1.20-2016.1.302准备毕业设计、开题报告2016.2.1-2016.2.203学习机器学习算法以及文本特征选取2016.2.10-2016.3.154完成概要设计文档和详细设
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- “醉驾”型危险驾驶罪综合治理模式的实践探索与反思
- 农村供水绩效管理办法
- 标准化管理下的消毒供应中心质量控制体系构建与实践
- 民政小区车辆管理办法
- 小学篮球社团活动方案
- 220kV变电站工程试运行流程与解析
- 古代文学专题:经典文本与思想传承研究
- 公共平台建设管理办法
- 大豆籽粒营养成分与豆乳品质的关系分析
- 高考期间食堂食品安全保障措施
- 2024年江苏三支一扶真题
- 《危险货物港口作业重大事故隐患判定指南》解读与培训
- 主、被动防护网施工方案-图文
- 2025年初中语文文学常识:常考100题汇编
- 君易和文化课件
- 药食同源106种25年4月更新
- 2025年江苏省南通市中考英语适应性试卷(A卷)
- 无机盐在化妆品行业的应用研究考核试卷
- 猪场生产安全
- 2025年度苗圃土地承包合同-观光树种植与生态旅游产业链投资合作框架
- 《城市供水》课件
评论
0/150
提交评论