版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
文本数据挖掘教学大纲课程名称:文本数据挖掘学分:2总学时:32理论学时:24实验学时:8先修课程:数据库原理与应用、Python高级语言编程、数据结构适用专业:数据工程专业开课学期:第六学期01课程性质、定位和教学目标课程性质:文本数据挖掘是数据工程专业的必修课程,本课程以文本数据挖掘为主要内容,讲述实现文本数据挖掘的各主要功能、挖掘算法和应用,并通过对实际数据的分析更加深入地理解常用的文本数据挖掘模型。课程定位:“文本数据挖掘技术导论”是针对数据工程专业的专业技术课程,同时也是该专业的核心课程,也是本专业创业创新教育课程。在学生专业培养中起到至关重要的作用。教学目标:通过“文本数据挖掘技术导论”课程的教学,使学生理解文本数据挖掘的基本概念和方法,学习和掌握中的文本数据挖掘的经典方法。使学生能够借助Python高级语言编程工具进行具体文本数据的挖掘分析。02教学内容与要求第一章绪论【教学目的与要求】了解文本挖掘研究背景、意义及国内外研究现状,掌握文本挖掘的概念,了解文本挖掘主要研究领域,了解文本挖掘在制药企业应用案例。【教学内容】1.1文本挖掘研究背景及意义1.2文本挖掘的国内外研究现状1.3文本挖掘概述1.4文本挖掘的过程1.5文本挖掘在制药企业应用案例【教学重点与难点】重点:文本挖掘研究背景、意义国内外研究现状、文本挖掘概念难点:文本挖掘的过程【教学手段】利用网络环境、多媒体课件,案例教学、实理一体化教学方法等【课后作业】文本挖掘与数据挖掘有何联系和区别?目前文本挖掘的领域主要涉及到哪些?第二章文本切分及特征词选择【教学目的与要求】掌握文本数据采集的常用方法、了解中文语料库与词典,熟练掌握文本切分和文本特征词选择的方法,熟练掌握PythonJieba分词模块及其用法。【教学内容】2.1文本数据采集2.2语料库与词典简介2.3文本切分2.4文本特征词选择2.5PythonJieba分词模块及其用法【教学重点与难点】重点:文本切分、文本特征词选择、PythonJieba分词模块及其用法难点:PythonJieba分词模块及其用法【教学手段】利用网络环境、多媒体课件,案例教学、实理一体化教学方法等【课后作业】1利用现代汉语语料库进行一段中文文本的汉语分词、词性自动标注、字频统计和词频统计。2用Python实现双向最大匹配的算法。3利用jieba进行一段中文文本的三种模式的分词。第三章文本表示模型【教学目的与要求】熟练掌握文本预处理的常用方法、掌握向量模型、概率模型和主题概率模型的概念及Python的实现。【教学内容】3.1文本预处理3.2向量空间模型3.3概率模型3.4主题概率模型【教学重点与难点】重点:文本预处理、向量空间模型、概率模型、主题概率模型难点:主题概率模型【教学手段】利用网络环境、多媒体课件,案例教学、实理一体化教学方法等【课后作业】1给出一段中文文本,利用Python的re.split()函数,分隔所有短句。2给出一段中文文本,去除停用词,完成操作后将结果读出来。第四章文本分类【教学目的与要求】了解文本分类意义、国内外研究现状与发展趋势,掌握文本分类的定义,熟练掌握文本分类的流程和文本分类预处理。掌握典型的常用文本分类器,了解分类模型的性能评估。【教学内容】4.1文本分类概述4.2常用文本分类器4.3分类模型的性能评估【教学重点与难点】重点:常用文本分类器难点:常用文本分类器【教学手段】利用网络环境、多媒体课件,案例教学、实理一体化教学方法等【课后作业】1给定有类别标注的文本向量集,参考例4.2,对于一组待分类的文本,判断分别属于哪一类。2利用Python编程,对给定相关数据验证SVM算法。3Python编程,利用朴素贝叶斯分类器实现垃圾邮件过滤。4给定相关数据,利用Python编程,验证ID3和C4.5算法。第五章文本聚类【教学目的与要求】了解文本聚类意义、国内外研究现状与发展趋势,掌握文本聚类的定义,熟练掌握文本聚类的流程和文本聚类预处理。掌握典型的常用文本聚类器,了解聚类模型的性能评估。【教学内容】5.1文本聚类概述5.2文本聚类原理与方法5.3文本聚类评估【教学重点与难点】重点:文本聚类原理与方法难点:文本聚类原理与方法【教学手段】利用网络环境、多媒体课件,案例教学、实理一体化教学方法等【课后作业】1描述基于划分的聚类方法,并分别验证例5.1和例5.2中的k-means、k-medoids聚类。2描述基于层次的聚类方法。验证例5.6中AGNES算法。3参照例5.9,给定一组文档集的向量,利用python实现DBSCAN算法。第六章文本关联分析【教学目的与要求】了解文本关联规则基本概念和意义,掌握关联规则分类和关联规则挖掘算法,熟练掌握Apriori算法,了解FP-Growth算法。【教学内容】6.1引言6.2文本关联规则6.3关联规则挖掘算法【教学重点与难点】重点:文本关联规则、关联规则挖掘算法难点:关联规则挖掘算法【教学手段】利用网络环境、多媒体课件,案例教学、实理一体化教学方法等【课后作业】1简述研究文本关联规则的意义。2根据例6.1,理解Apriori算法的步骤。第七章Python处理文本数据简单应用【教学目的与要求】掌握文本集的情感分析、关键词和摘要自动生成的Python实现,掌握使用SnowNLP进行商品评价的Python实现,掌握利用Python生成“词云”。【教学内容】7.1情感分析7.2自动生成关键词和摘要7.3使用SnowNLP进行商品评价7.4生成“词云”【教学重点与难点】重点:自动生成关键词和摘要、使用SnowNLP进行商品评价难点:使用SnowNLP进行商品评价【教学手段】利用网络环境、多媒体课件,案例教学、实理一体化教学方法等【课后作业】1利用TextRank算法的python算法仿照例7.3实现,创建中文文本文件,利用TextRank4Keyword将文本拆分成4种格式:sentences、words_no_filter、words_no_stop_words禾和words_all_filters。2创建中文文本文件,参照例7.4和例7.5生成关键字和摘要。3输入一段中文文本,利用7.3.1中的样例,验证SnowNLP的主要功能。03学时分配课程内容学时分配小计讲课习题课讨论课实验其他第一章绪论22第二章文本切分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025福建泉州晋江智信大数据科技有限公司招聘8人笔试参考题库附带答案详解
- 2025福州市长乐区粮食购销有限公司招聘员工笔试参考题库附带答案详解
- 2025湖北恩施州来凤县咏凤教育科技发展有限公司招聘5人笔试参考题库附带答案详解
- 2025浙江省安全生产科学研究有限公司招聘19人(杭州市)笔试参考题库附带答案详解
- 2025河北衡水市公开招聘12名工作人员12人笔试参考题库附带答案详解
- AR虚拟试衣技术:从体验革命到商业价值重构
- 龙岩市2025年福建龙岩体育运动学校招聘2名编外聘用教练员笔试历年参考题库典型考点附带答案详解
- 重庆市2025重庆大学先进技术研究院劳务派遣人员招聘3人笔试历年参考题库典型考点附带答案详解
- 绵阳市四川绵阳市数字化城市管理中心编外聘用制工作人员公开招聘(3人)笔试历年参考题库典型考点附带答案详解
- 永胜县2025云南丽江永胜县融媒体中心“本籍人员回引”1人笔试历年参考题库典型考点附带答案详解
- 工程维修单表格(模板)
- 维修协议劳务合同
- 全国赛课一等奖人教版美术四年级下册《对称的美》课件
- T-CECS120-2021套接紧定式钢导管施工及验收规程
- 2022年江苏省常州市强基计划选拔数学试卷(附答案解析)
- 绿色食品山楂生产技术操作规程
- JTS-T-116-2019水运建设工程概算预算编制规定
- 《公路桥涵养护规范》(JTG5120-2021)
- 饲料质量培训课件
- 化脓性汗腺炎演示课件
- 2022年北京海淀初一(下)期中英语试卷(教师版)
评论
0/150
提交评论