




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
《非结构数据分析与建模》教学大纲课程编号:121193B课程类型:□通识教育必修课□通识教育选修课□学科基础课□专业核心课☑专业提升课□专业拓展课总学时:48讲课学时:32实验(上机)学时:16学分:3考试类型:□考试☑考查适用对象:数据科学与大数据技术专业□是☑否适合作为其他专业学生的个性化选修课先修课程:数学分析、数理统计、大数据分析算法、概率论、随机过程一、教学目标《非结构数据分析与建模》课程是我校数理统计专业大数据方向本科生的专业选修课,通过本课程的学习使学生能够掌握文本、社交网络等非结构数据的分析方法,加深学生对这些方法的原理和思想的理解,培养学生分析和挖掘非结构数据中的数据模式的能力。本课程的教学内容主要包括文本挖掘和社会网络分析。目标1:在理论层面,要求学生对各分析方法的理论具有深入的理解目标2:在技术层面,对于各主要分析方法,尽量要求学生能够以某种编程语言手段实现程序的再现目标3:在应用层面,希望学生获得书本范围外与现实问题密切相关的更广的知识和技术,深入浅出,广而精目标4:培育有坚定理想信念、深厚爱国主义情怀、高尚道德情操,具有扎实统计专业学识,坚韧奋斗进取品格的社会主义新青年二、教学内容及其与毕业要求的对应关系本课程主要学习常用的社交网络以及研究的主要问题;社交网络中的社区发现;社交网络中的个体社会影响力分析;社交网络中的链接预测;社交网络中的集体行为;文本预处理;文本自动分类技术;文本自动聚类技术;文本关联分析技术等,每一部分都是本课程授课的主要内容,对各种主要分析方法的过程与原理,都力求深入浅出;在理论层面,精讲细讲;在技术层面,根据学生已有的计算机技术水平,尽量实现学生能够以某种编程语言再现程序;授课方式采用PPT课堂授课、学生讨论及上机实验相结合的形式;每部分的授课前段采用老师授课方式,后段采用学生讨论的形式,并在适当的教学阶段安排上机实验,并要求学生以上机报告的形式完整给出实验目标、过程、结果及分析。本课程有助于学生在专业知识、交叉学科基础、计算机能力以及交叉学科综合应用与创新能力方面的培养。三、各教学环节学时分配以表格方式表现各章节的学时分配,表格如下:教学课时分配序号章节内容讲课实验其他合计1总体介绍10012常用的社交网络以及研究的主要问题32053社交网络中的社区发现43074社交网络中的个体社会影响力分析43075社交网络中的链接预测32056社交网络中的集体行为32057文本挖掘简介10018文本预处理41059文本自动分类技术310410文本自动聚类技术310411文本关联分析技术3104合计3216048四、教学内容第一章总体介绍第一节结构化与非结构化数据非结构化数据与结构化数据的区别第二节非结构化数据分析方法现有分析方法的思想及原理简单介绍教学重点、难点:掌握结构与非结构的数据类型,重点掌握非结构数据的特点,并了解目前常见的非结构数据分析方法。课程思政切入点:非结构数据挖掘的发展历程与前沿复习思考题:请给出现实生活中非结构数据的数据例子。第二章常用社交网络简介第一节当前主要的研究问题现实生活中常见社交网络简介;社交网络中主要的研究方面第二节社交网络描述方式及其基本统计特征节点、连边、邻接矩阵、度、路径、点间距离、网络直径、聚类系数、连通分支等;无标度度分布、自相关性、网络小直径特性、高聚类特性、点中心性、随机游走特性等第三节可视化工具和分析软件教学重点、难点:了解社交网络数据,掌握其描述方式,掌握其基本统计特性,初步运用工具或软件进行社交网络可视化。复习思考题:给出生成无标度网络的程序示例,并在生成的无标度网络中考查其相应的统计特性。第三章社交网络中的社区发现第一节网络社区的概念第二节社区发现在社交网络分析中的作用理论层面的重要作用及现实层面的重要作用第三节社区划分的度量及几种重要的发现算法常见度量方法介绍;社区发现算法简介;GN分裂算法;边聚类系数分裂算法第四节社交网络中社区发现的发展趋势及前景教学重点、难点:深刻理解社区结构的概念;掌握常用的社区划分的有效度量方法;了解社区发现算法的基本思想;掌握一到两种具体的社区发现算法,并能够运用某种手段或工具实现算法重现。课程思政切入点:数据质量的重要性,培养“求真务实”品德。复习思考题:给出一种社区发现算法的程序实现。第四章社交网络中的个体社会影响力分析第一节个体社会影响力研究的引入介绍理论层面和现实层面的重要性第二节常见个体影响力度量技术及后续演化基于度的常见个体社会影响力度量;基于路径数的常见个体社会影响力度量;基于社团结构的个体社会影响力度量;HITS算法;PageRank算法;基于用户行为的个体社会影响力度量;基于用户信息的影响力度量第三节社交网络个体影响力研究的一般流程影响强度的度量技术,个体影响力度量技术,影响力扩散的对比研究第四节基于网络社团结构的个体传播影响力分析教学重点、难点:深刻理解个体社会影响力在现实问题中的重要性;掌握各类个体社会影响力度量技术;熟练运用个体社会影响力研究的一般流程。课程思政切入点:结合实际案例,使学生立个体社会影响力的重要性,引导学生传播正能量。复习思考题:给出一个规模不小于50的网络中节点VC中心性排序。第五章社交网络中的链接预测第一节问题描述及应用第二节Bayesian概率模型第三节概率关系模型PRMs教学重点、难点:理解社交网络链接预测相关问题;掌握一到两种预测模型的具体设计思想;能够运用某种手段或工具实现某种预测模型的算法实现。复习思考题:给出一种链接预测模型的算法思想步骤。第六章社交网络中的集体行为第一节社交网络中的扩散过程第二节社会影响及影响的传播第三节谣言及信息散布教学重点、难点:了解社交网络中的各种集体行为;了解集体行为的研究思想。课程思政切入点:理解扩散过程,引导学生不信谣不传谣,弘扬社会主义核心价值观。复习思考题:思考社交网络中集体行为与个体社会影响力之间有无关系。第七章文本挖掘简介介绍文本挖掘概念,研究意义,主要应用,研究难点,一般流程和基本技术框架教学重点、难点:了解文本数据特点;了解文本挖掘相关概念、相关研究流程及一般技术框架。第八章文本预处理第一节数据获取第二节分词、词性标注、短语识别…第三节文本表示教学重点、难点:掌握文本预处理的原理和一般流程。课程思政切入点:组织学生以小组为单位进行案例分析,培养学生的团队精神。复习思考题:利用课上所学获取现实网络上的文本数据。第九章文本自动分类技术第一节特征选择相对熵、信息增益等第二节分类算法决策树、SVM、神经网络、贝叶斯、kNN等教学重点、难点:掌握文本自动分类的原理;能够运用某种自动分类技术。复习思考题:针对某个合适的规模较小的文本数据,详细阐述某种自动分类技术的具体过程及最后结果。第十章文本自动聚类技术第一节特征选择第二节聚类算法教学重点、难点:掌握文本自动聚类技术的原理;能够运用某种聚类算法。课程思政切入点:对政府工作报告进行文本聚类分析,掌握方法原理的同时,有利于学生即使了解国家的大政方针,提高政治敏锐性。复习思考题:阐述分类技术与聚类技术之间的关联。第十一章文本关联分析技术第一节“共现”词语挖掘第二节关联规则挖掘第三节基于关联规则的分类教学重点、难点:了解文本关联分析的原理和技术。五、考核方式、成绩评定本课程一般按闭卷、开卷或论文方式考核,卷面一般占70%,考勤与平时作业一般占30%。六、主要参考书及其他内容[
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 更换质押物协议书
- 弟弟查拆迁协议书
- 盲盒商品销售品牌授权及区域保护协议
- 婚前签家务协议书
- 精金粉购销协议书
- 合作社用工协议书
- 租车位劳动合同范本
- 标识导视牌协议书
- 物流承包区协议书
- 增用户用水协议书
- 2023年江苏省生物初中会考试卷
- 偏微分方程的数值解法课后习题答案
- 保密管理-保密教育培训签到簿
- 手术室剖宫产护理查房-课件
- 消防档案范本(企业类)
- 隧道工程隧道洞口临建施工方案
- 心理咨询的面谈技术
- (word完整版)污水处理厂安全评价报告
- DB50∕T 867.6-2019 安全生产技术规范 第6部分:黑色金属冶炼企业
- 新产品开发流程课件
- 高中语文部编版选择性必修下册第四单元 单元学习导航 课件 (8张PPT)
评论
0/150
提交评论