Chapter5-第5章 自然语言处理-厦门大学-林子雨-人工智能通识:零基础学AI(2025年12月)_第1页
Chapter5-第5章 自然语言处理-厦门大学-林子雨-人工智能通识:零基础学AI(2025年12月)_第2页
Chapter5-第5章 自然语言处理-厦门大学-林子雨-人工智能通识:零基础学AI(2025年12月)_第3页
Chapter5-第5章 自然语言处理-厦门大学-林子雨-人工智能通识:零基础学AI(2025年12月)_第4页
Chapter5-第5章 自然语言处理-厦门大学-林子雨-人工智能通识:零基础学AI(2025年12月)_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

E-mail:ziyulin@林子雨

副教授厦门大学人工智能通识——零基础学AI主讲教师和作者林子雨简介厦门大学计算机科学与技术系副教授以第一作者编著20本大数据与人工智能教材被国内1000余所高校采用荣获“2022年福建省高等教育教学成果奖特等奖(个人排名第一)”入选“2021年高校计算机专业优秀教师奖励计划”2018年国家精品在线开放课程(独立主讲)2020年国家级线上一流本科课程(独立主讲)2021年国家级线上一流本科课程(独立主讲)入选“2023年教育部国家智慧教育公共服务平台应用典型案例”《人工智能通识——零基础学AI》教材《人工智能通识——零基础学AI》林子雨

编著人民邮电出版社2025年12月第1版ISBN:978-7-115-68594-0定价:49.8元教材官网提供详细信息和样书申请官网:/post/ai-basic/扫码访问教材官网了解详情、获取资源、申请样书教材官网提供配套教学资源:教学大纲、讲义PPT、上机实验手册、案例视频、MOOC视频、大模型科普讲座PPT、大模型讲座视频和1000道题库等第5章自然语言处理目录01自然语言处理概述02自然语言处理的核心基础任务03自然语言处理的典型应用场景01自然语言处理概述Partone5.1自然语言处理概述什么是自然语言处理自然语言处理的重要性与应用价值自然语言处理的发展简史5.1.1什么是自然语言处理定义自然语言处理是指让计算机接受用户自然语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,以模拟人类对自然语言的理解,并返回用户所期望的结果。应用自然语言处理的目的在于用计算机代替人工来处理大规模的自然语言信息。自然语言处理在很大程度上与计算语言学重合,是计算机科学与语言学的交叉学科,也是人工智能的重要方向。目标自然语言处理的研究,能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。让计算机能够确切理解人类的语言并自然地与人进行交互,是自然语言处理的最终目标。5.1.2自然语言处理的重要性与应用价值社会层面产业层面技术层面个人层面重要性与应用价值5.1.2自然语言处理的重要性与应用价值技术层面人工智能“认知能力”的核心标志。语言是人类思维的载体,理解语言意味着计算机能触及人类认知的核心。例如,能回答“为什么秋天树叶会变黄”的AI,不仅需要存储知识,更需理解“为什么”所指向的因果关系。这种能力是AI从“执行指令”(如计算器)迈向“模拟思考”的关键。自然语言处理的突破(如GPT系列模型),本质上推动了AI从“工具属性”向“助手属性”的跨越。5.1.2自然语言处理的重要性与应用价值社会层面打破信息壁垒,提升效率在信息爆炸的时代,自然语言处理是信息筛选与传递的“超级翻译官”跨语言沟通实时翻译工具(如百度翻译、科大讯飞翻译机)让不同语言使用者实现无障碍交流,推动全球化协作(如跨国会议、外贸沟通)。智能搜索(如百度的语义搜索)能理解“如何在三天内规划厦门亲子游”这类复杂需求,而非仅匹配关键词,大幅降低信息获取成本。语音转文字技术(如讯飞听见)帮助听障人士“阅读”声音,文字转语音技术帮助视障人士“聆听”文字,体现技术的包容性。​信息获取特殊群体支持5.1.2自然语言处理的重要性与应用价值产业层面重塑千行百业的工作模式。几乎所有依赖“语言信息处理”的行业,都因自然语言处理发生变革。AI写作工具(如文案生成器)可根据“推广一款低糖蛋糕”的需求,自动生成符合品牌调性的宣传语,同时保留人类创作者的创意主导权。内容创作领域智能客服能瞬间解答“信用卡逾期影响征信吗”

等高频问题,同时通过分析用户投诉文本(如“贷款审批太慢”)自动归类需求,推动业务优化。金融领域NLP技术可从病历文本中提取关键信息(如“患者有高血压病史”),辅助医生快速掌握病情,甚至通过分析医学文献自动生成“肺癌最新治疗方案”摘要。医疗领域作文批改系统能识别“语句不通顺”“逻辑断层”等问题,并给出修改建议,减轻教师重复劳动。教育领域5.1.2自然语言处理的重要性与应用价值个人层面重构日常生活的交互体验。从清晨被智能音箱(如小爱同学)播报“今日天气与日程”,到用手机APP查询“附近评分最高的川菜馆”,再到通过聊天机器人解决快递售后问题,自然语言处理已渗透到生活的细节中,其核心价值在于让人机交互“零学习成本”,无需记忆复杂操作(如点击多级菜单),只需像和人说话一样发出指令。5.1.3自然语言处理的发展简史阶段一:基于规则的方法自然语言处理的最早阶段主要采用基于规则的方法,通过人工定义语法和规则来解析和生成文本。这些方法的局限性在于难以涵盖语言的复杂性和多样性,因为规则需要人为设计且难以适应不同的语境。5.1.3自然语言处理的发展简史阶段二:统计学习方法随着统计学习方法的兴起,自然语言处理进入了统计学习阶段。该阶段的代表性方法包括隐马尔可夫模型和最大熵模型。这些方法通过从大量语料中学习统计规律来解决语言处理问题,提高了模型的泛化能力。5.1.3自然语言处理的发展简史阶段三:词向量与词嵌入随着深度学习的兴起,自然语言处理迎来了词向量与词嵌入的时代。Word2Vec和FastText等算法通过将单词映射到高维空间的向量表示,实现了对语义信息的更好捕捉。这使得计算机能够更好地理解语义关系和上下文信息。5.1.3自然语言处理的发展简史阶段四:深度学习与神经网络深度学习的广泛应用,推动了自然语言处理领域的进一步发展。循环神经网络和长短时记忆网络等模型,在序列标注、机器翻译等任务上取得了显著的成果。随后,注意力机制和Transformer模型的提出,进一步提升了自然语言处理的性能,例如BERT、GPT等模型。02自然语言处理的核心基础任务​Parttwo5.2自然语言处理的核心基础任务文本分类:情感分析与主题识别关系抽取:挖掘实体间的关联命名实体识别:从文本中提取关键信息文本聚类:相似文本的自动归组信息检索:快速找到所需内容5.2.1文本分类:情感分析与主题识别文本分类是自然语言处理中最基础、应用最广泛的任务之一,其核心是将非结构化文本按照预设的类别体系进行自动划分。情感分析与主题识别是文本分类中两个典型且高度实用的子任务:前者聚焦文本的主观情感倾向,后者关注文本的客观核心内容。两者虽目标不同,但均依赖对文本语义的深层理解,且共同构成了从“文本内容”到“文本意义”的解析链条。5.2.1文本分类:情感分析与主题识别情感分析情感分析(又称情感分类)是对文本中蕴含的主观情感、态度、倾向进行自动识别和提取的任务。它旨在回答“文本表达了正面、负面还是中性的情感?”“情感的强度如何?”“具体针对什么对象表达情感?”等问题。情感分析的目标可按粒度划分为多个层次:判断文本的情感倾向(正面/负面/中性)。极性分类(最基础)量化情感的强烈程度。情感强度分析识别具体情感类型,而非简单的正负划分。情感维度识别5.2.1文本分类:情感分析与主题识别情感分析情感分析的难点源于人类情感表达的复杂性和隐晦性,主要体现在:上下文依赖同一词汇在不同语境中情感倾向可能反转。文化与领域差异不同文化对情感表达的习惯不同;不同领域的情感词汇体系差异大。讽刺与反语字面意义与真实情感完全相反。情感模糊性文本可能包含混合情感或弱情感,边界模糊导致分类困难。5.2.1文本分类:情感分析与主题识别情感分析情感分析的典型应用场景包括:舆情监控实时分析社交媒体(如微博)中关于品牌、事件的情感倾向(如“某明星绯闻引发的负面舆情扩散速度”)。客服自动化自动识别用户投诉的情感强度(如“愤怒”需优先处理),提升响应效率。电商与消费领域分析商品评论(如“差评集中在物流”),辅助商家改进产品和服务,帮助用户决策。5.2.1文本分类:情感分析与主题识别主题识别主题识别是从文本中自动提取核心议题或主题的任务,旨在回答“文本在讨论什么内容?”。例如,新闻“央行下调存款准备金率,释放1.2万亿元流动性”的主题是“货币政策调整”;用户评论“电池用半天就没电,充电还慢”的主题是“产品续航与充电速度”。主题提取的核心目标包括:从文本中挖掘潜在的核心主题(如价格、质量、服务),通常以关键词或短语形式呈现。主题提取将文本归入预设的主题类别体系(如新闻分为“政治”、“经济”、“体育”)。主题分类发现文本集合中隐藏的主题结构(如多篇影评中共同讨论的“剧情”、“演员”、“特效”)。主题建模5.2.1文本分类:情感分析与主题识别主题识别主题识别的难点在于文本内容的多样性和主题的模糊性:单篇文本可能涉及多个主题。主题重叠与交叉不同领域的主题体系差异极大。领域依赖性短文本(如微博、聊天记录)信息有限,关键词少,难以准确识别主题。短文本主题稀疏语言的动态性导致新主题不断涌现,模型需实时适应。新兴主题的动态追踪5.2.1文本分类:情感分析与主题识别主题识别主题识别的典型应用场景包括:新闻APP按“科技”、“娱乐”等主题分类,实现个性化推荐;学术论文按“机器学习”、“计算机视觉”等主题聚类,辅助文献检索。内容聚合与推荐电商平台从海量评论中提取“物流”、“包装”、“售后”等主题,针对性改进服务(如发现“物流慢”是高频主题,则优化配送流程)。用户反馈分析监控社交媒体中与某事件相关的主题演变(如某政策发布后,公众讨论从“政策内容”逐渐转向“实施效果”)。舆情主题追踪5.2.2关系抽取:挖掘实体间的关联关系抽取是自然语言处理的核心基础任务之一,旨在从非结构化文本中识别出实体对之间的语义关联,是构建知识图谱、语义理解、智能问答等高级任务的关键支撑。例如,从句子“马斯克是特斯拉的CEO”中,抽取实体对(马斯克,特斯拉),并识别出二者的关系为“任职于(CEO)”。关系抽取的核心目标就是输出结构化的“实体-关系-实体”三元组,如(马斯克,任职于,特斯拉),将非结构化文本转化为机器可理解的结构化知识,为后续的知识组织、推理和应用奠定基础。5.2.2关系抽取:挖掘实体间的关联根据关系的预定义范围和抽取场景,关系抽取可分为以下几类:关系类型是预定义的、有限的,通常针对特定领域(如医疗、金融、法律)或通用但数量固定的关系集合(如“上下位关系”“部分-整体关系”)。比如,在医疗领域,预定义关系可能包括“药物-治疗-疾病”“基因-关联-疾病”等;通用领域常见关系如“人物-出生地-地点”、“公司-总部位于-地点”。限定域关系抽取不限制关系类型,旨在从文本中抽取所有可能的语义关系,甚至包括未预定义的关系(如“合作开发”、“资助”等)。需要模型具备更强的语义泛化能力,避免被固定关系类型束缚。开放域关系抽取一是句内关系抽取,实体对和关系均存在于同一句话中,比如“鲁迅创作了《呐喊》”,实体对(鲁迅,《呐喊》)的关系为“创作”。二是句间关系抽取,实体对的关系需要结合多个句子甚至段落的上下文才能确定,比如段落中先提到“张三在A公司工作”,后提到“A公司的总部在上海”,则可抽取(张三,工作地点所属,上海)。按抽取范围划分5.2.2关系抽取:挖掘实体间的关联尽管技术不断进步,关系抽取仍面临以下关键难题:关系抽取依赖实体识别结果,如果实体边界或类型识别错误(如将“苹果公司”误分为“水果”),会直接导致关系抽取失败。实体识别误差的传导同一实体对在不同语境中可能对应不同关系。例如,“张三和李四在银行见面”中“银行”是地点,而“张三在银行工作”中“银行”是机构,二者与“张三”的关系不同。关系的歧义性与复杂性复杂句(如嵌套句、多实体句)中,实体对可能存在多层关系。例如,“A公司的子公司B收购了C公司的产品D”中,存在(B,C)是“收购”关系、(A,B)是“子公司”关系等多重关系,容易混淆。实体对可能存在多层关系文本中实体对的关系可能未通过显式动词表达,需要结合上下文推理。例如,“张三毕业于清华大学,现任职于百度”中,(张三,百度)的“任职”关系是显式的,但(张三,清华大学)的“毕业于”关系需要从“毕业于”推断,而更复杂的如“张三的导师是李四,李四的研究方向是AI”中,(张三,AI)的“研究相关”关系则是隐式的。隐式关系的抽取不同领域(如医疗、法律)的关系类型和表达习惯差异大(如医疗领域的“药物-适应症”关系,法律领域的“原告-被告”关系),模型在一个领域训练后,迁移到新领域时性能会显著下降(领域偏移问题)。领域适应性差高质量的关系标注数据需要专家手动标注,成本极高(尤其是专业领域),而无标注数据的利用(如远程监督)可能引入噪声(标注错误),影响模型性能。​标注数据的稀缺性5.2.2关系抽取:挖掘实体间的关联关系抽取的结构化输出(三元组)是许多NLP系统的核心支撑,典型应用包括:医疗与法律信息抽取舆情分析与风险监控智能问答与信息检索知识图谱构建典型应用5.2.3命名实体识别:从文本中提取关键信息命名实体识别(NamedEntityRecognition,简称NER)是自然语言处理中的核心基础任务之一,其核心目标是从非结构化文本中自动识别并提取出具有特定意义的“命名实体”,并将其归类到预定义的类别中(如人名、地名、组织名等)。这些实体是文本中承载关键信息的核心单元,例如,“深圳”、“华为公司”、“2025年”等,命名实体识别的结果为后续的信息抽取、知识图谱构建、问答系统等任务提供了重要基础。5.2.3命名实体识别:从文本中提取关键信息命名实体识别的核心目标可以概括为两点:确定文本中哪些字符串是命名实体(例如,从“张三在华为工作”

中识别出“张三”和“华为”是实体,而非“张”、“三在”等);识别“实体边界”将识别出的实体归类到预定义类别(例如,“张三”属于“人名”,“华为”属于“组织名”)。标注“实体类型”通过命名实体识别,非结构化文本可以转化为结构化的“实体-类型”对,从而实现对文本关键信息的高效提取和理解。5.2.3命名实体识别:从文本中提取关键信息命名实体识别是许多自然语言处理下游任务的“前置步骤”,其结果直接影响后续任务的效果,典型应用包括:舆情分析机器翻译问答系统知识图谱构建05040302典型应用信息抽取与结构化015.2.4文本聚类:相似文本的自动归组文本聚类是自然语言处理中典型的无监督学习任务,核心目标是将无标签的文本集合自动划分成若干个“簇”(Cluster),使得同一簇内的文本具有较高的相似度,而不同簇内的文本相似度较低。它通过挖掘文本间的潜在关联,实现对海量文本的自动归组,为后续的数据分析、信息检索或决策支持提供基础。5.2.4文本聚类:相似文本的自动归组文本聚类的核心价值在于从无序文本中发现隐藏的结构和模式,具体可概括为:数据简化将海量文本压缩为若干簇,降低数据复杂度,便于人工或机器进一步分析。模式发现挖掘文本集合中潜在的主题、趋势或群体特征(例如,用户评论中自动发现“产品质量”、“物流速度”等讨论主题)。无监督学习适配在缺乏标注数据(标签)的场景下,替代有监督的文本分类完成初步分组。异常检测通过识别“离群点”(与所有簇差异较大的文本),发现异常内容(如垃圾邮件、恶意评论)。010203045.2.4文本聚类:相似文本的自动归组文本聚类和文本分类都属于文本分组任务,但本质差异显著,下表给出了二者的区别。维度文本聚类文本分类监督方式无监督(无需标注数据,依赖文本自身特征)有监督(需要标注好的训练数据,学习标签与特征的映射)目标发现隐藏的自然分组(簇)按预定义标签(类别)划分文本适用场景数据无标签、探索性分析(如未知主题发现)数据有标签、目标明确(如情感极性分类:正面/负面)结果解释簇的含义需人工后验解读(可能不明确)类别含义预先定义(如“体育”“科技”)5.2.4文本聚类:相似文本的自动归组文本聚类目前面临的关键技术难点包括:同一聚类算法在新闻文本上表现好,在专业论文(如医学、法律)上可能效果差(因术语密集、语义复杂),需结合领域知识优化预处理或特征表示。领域适应性文本向量化后通常形成高维向量(如词汇表规模达10万级),且多数维度值为0(稀疏),导致聚类算法效率低、距离计算失真。高维稀疏问题同一词可能有不同含义(如“苹果”指水果或公司),不同词可能表达同一语义(如“打车”和“叫车”),传统基于词频的方法难以捕捉深层语义。语义模糊性多数算法(如K-Means)需预先指定簇数量,但实际场景中“合理的簇数量”往往未知,需通过经验或网格搜索(尝试多个K值)解决,成本较高。簇数量不确定5.2.4文本聚类:相似文本的自动归组文本聚类在实际场景中应用广泛,以下是几个典型案例:典型案例垃圾邮件过滤新闻主题自动聚合用户评论分析学术文献管理社交媒体监控5.2.5信息检索:快速找到所需内容信息检索是自然语言处理中与实际应用结合最紧密的核心基础任务之一,其目标是从大规模文本数据中快速、准确地找到与用户查询相关的信息。无论是搜索引擎(如谷歌、百度)、智能问答系统,还是文献管理工具(如知网、PubMed),都依赖信息检索技术实现高效的内容匹配与筛选。5.2.5信息检索:快速找到所需内容信息检索的核心目标包括:返回的结果与用户查询的匹配程度高。相关性在海量数据中快速响应查询(通常毫秒级)。效率尽可能覆盖所有相关信息(召回率),同时减少无关信息(精确率)。召回率与精确率平衡深层理解查询背后的真实需求(如歧义、多意图、模糊查询等)。用户意图理解5.2.5信息检索:快速找到所需内容目前阶段,信息检索面临如下关键挑战:

传统方法依赖词汇匹配,难以处理同义词(如“土豆”与“马铃薯”)、歧义(如“苹果”指水果或公司)、多语言查询等。

用户查询可能简短(如“附近美食”)、不明确(如“如何学好它”),需结合上下文或用户历史推断意图。

海量数据(如互联网网页)导致索引维护成本高,且新内容(如实时新闻)需快速更新,考验系统的实时性。01语义理解不足02用户意图模糊03数据规模与动态性

不同用户对同一查询的需求可能不同(如“java”对程序员指编程语言,对咖啡爱好者指咖啡),需结合用户画像实现个性化推荐。04个性化需求

除文本外,用户可能需要检索图片、视频等(如用文本“红色玫瑰花”检索相关图片),需跨模态匹配技术。05多模态检索5.2.5信息检索:快速找到所需内容信息检索的典型应用场景包括:典型应用搜索引擎01电商商品检索​05企业知识库检索04智能问答系统02文献检索0303自然语言处理的典型应用场景Partthree5.3自然语言处理的典型应用场景自然语言处理主要包括以下典型应用场景:​01机器翻译​02智能问答系统​03文本摘要05对话系统与聊天机器人04情感分析​典型应用场景04本章小结Partfour5.4本章小结本章详细阐述了自然语言处理的概念、应用、核心任务、技术演进和应用场景。从技术演进看,自然语言处理经历了从规则与统计模型的初步探索,到词向量实现语义量化、循环神经网络处理序列数据,再到Transformer凭借注意力机制革新范式,最终迎来预训练大模型的爆发,每一步突破都推动机器对语言的理解向深层迈进。在应用层面,机器翻译打破语言壁垒,智能问答系统加速信息获取,文本摘要解决信息过载,情感分析挖掘用户态度,对话系统实现自然交互,这些场景共同构建了NLP服务人类的实用版图。值得注意的是,NLP的进步不仅依赖算法创新,更得益于数据规模扩大与算力提升的协同。当前,尽管技术已能处理复杂语言任务,但在歧义消解、文化适配、可解释性等方面仍存挑战,未来需在技术深度与应用广度上持续突破,让语言智能更好服务社会。谢谢观看!2025年8月林子雨

副教授厦门大学附录A:主讲教师林子雨简介单位:厦门大学计算机科学与技术系E-mail:ziyulin@个人网页:/post/linziyu数据库实验室网站:主讲教师:林子雨林子雨,男,1978年出生,博士(毕业于北京大学),全国高校知名大数据教师,入选“2021年高校计算机专业优秀教师奖励计划”。现为厦门大学计算机科学与技术系副教授,厦门大学信息学院实验教学中心主任,曾任厦门大学信息科学与技术学院院长助理、晋江市发展和改革局副局长。中国计算机学会数据库专业委员会执行委员,中国计算机学会信息系统专业委员会执行委员。国内高校首个“数字教师”提出者和建设者,厦门大学数据库实验室负责人,厦门大学云计算与大数据研究中心主要建设者和骨干成员,2013年度、2017年度、2020年度和2023年度厦门大学教学类奖教金获得者,荣获2024年福建省高等教育教学成果奖特等奖(个人排名第七)、2022年福建省高等教育教学成果奖特等奖(个人排名第一)、2018年福建省高等教育教学成果奖二等奖(个人排名第一)、2018年国家精品在线开放课程、2021年国家级线上一流本科课程、2020年国家级线上一流本科课程。主要研究方向为数据库、数据仓库、数据挖掘、大数据、云计算和物联网,并以第一作者身份在《软件学报》《计算机学报》和《计算机研究与发展》等国家重点期刊以及国际学术会议上发表多篇学术论文。作为项目负责人主持的科研项目包括1项国家自然科学青年基金项目(No.61303004)、1项福建省自然科学青年基金项目(No.2013J05099)和1项中央高校基本科研业务费项目(No.2011121049),主持的教改课题包括1项2016年福建省教改课题、1项2016年教育部产学协作育人项目、1项2024年教育部产学协作育人项目。编著出版了《大数据技术原理与应用》等18本大数据与人工智能系列教材,被国内1000多所高校采用;建设了国内高校首个大数据课程公共服务平台,为教师教学和学生学习大数据课程提供全方位、一站式服务,年访问量超过400万次,累计访问量超过2800万次。大数据系列MOOC课程入选“2023年教育部国家智慧教育公共服务平台应用典型案例”。附录B:大数据学习路线图大数据学习路线图访问地址:/post/10164/附录C:林子雨大数据系列教材了解全部教材信息:/post/bigdatabook/附录D:《人工智能通识教程》林子雨

主编《人工智能通识教程》人民邮电出版社ISBN:978-7-04-064880-52025年6月第1版,定价:39.9元

教材官网:/post/ai/本书详细阐述了培养具有人工智能(AI)素养的综合型人才所需要的相关知识储备。作为通识类课程教材,本书在确定知识布局时,紧紧围绕通识教育核心理念,系统介绍人工智能相关知识,努力培养学生的AI思维和AI能力。全书共9章,内容包括信息与计算机基础、人工智能概述、人工智能与其他新兴技术的关系、大模型:人工智能的前沿、智能体、具身智能、AIGC应用与实践、AI智能办公、人工智能伦理等。本书以“零代码”学习人工智能为原则,使用AIGC工具解决学习、工作、生活中的各种问题。书中包含了大量生动、有趣、实用的实战案例,可以让读者切身感受人工智能的强大功能,培养读者使用AI工具解决实际问题的能力。厦门大学数据库实验室和金山WPS校企合作教材附录E:《数字素养通识教程》林子雨编著《数字素养通识教程——大数据与人工智能时代的计算机通识教育》人民邮电出版社ISBN:978-7-115-65946-02025年1月第1版,定价:59.8元

教材官网:/post/digital-literacy/15年计算机教学生涯感悟升华,15本计算机畅销教材知识凝练数字时代的大学计算机公共课教材,重构大学计算机公共课知识体系深刻变革传统大学计算机通识教育,培养学生计算思维、数据思维和AI思维附录F:《大数据导论(通识课版,第2版)》教材高等教育出版社

2024年7月第2版ISBN:978-7-04-062466-3定价:39.50元

教材官方网站:/post/bigdataintroduction2/0503020104引导学生步入大数据时代,积极投身大数据的变革浪潮之中了解大数据概念,培养大数据思维,养成数据安全意识认识大数据伦理,努力使自己的行为符合大数据伦理规范要求熟悉大数据应用,探寻大数据与自己专业的应用结合点激发学生基于大数据的创新创业热情开设全校公共选修课的优质教材,本课程旨在实现以下几个培养目标:附录G:《大数据与人工智能导论(通识课版)》《大数据与人工智能导论(通识课版)》版次:2025年1月第1版林子雨

编著,人民邮电出版社

ISBN:978-7-115-65696-4定价:59.8元

教材官网:/post/bigdata-ai-introduction/本书详细阐述了培养具有数字素养的综合型人才所需要的相关知识储备。作为通识类课程教材,本书在确定知识布局时,紧紧围绕通识教育核心理念,系统介绍大数据、云计算、物联网、人工智能、区块链、元宇宙等技术的相关知识,努力培养学生的数字素养。全书共9章,内容包括大数据概述、大数据技术、大数据应用、大数据基础知识、人工智能、大模型:人工智能的前沿、AIGC应用与实践、新兴数字技术、新兴数字技术的伦理问题。为了避免陷入空洞的理论介绍,本书在很多章节都融入了丰富的案例,这些案例就发生在我们生活的数字时代,很具有代表性和说服力,能够让学生直观感受相应理论的具体内涵。附录H:《大数据导论(第2版)》教材林子雨编著《大数据导论(第2版)》人民邮电出版社

ISBN:978-7-115-64185-4定价:59.80元2024年7月教材官方网站:/post/bigdata-introduction2/开设大数据专业导论课的优质教材,本书详细阐述了培养复合型大数据专业人才所需要的大数据相关知识。全书共10章,内容包括:大数据概述大数据与其他新兴技术的关系大数据基础知识大数据应用大数据硬件环境数据采集与预处理数据存储与管理数据处理与分析数据可视化大数据分析综合案例在大数据基础知识部分,本书详细介绍了与培养学生的数据素养相关的知识,包括大数据安全、大数据思维、大数据伦理、数据共享、数据开放和大数据交易。附录I:《大数据技术原理与应用(第4版)》教材《大数据技术原理与应用——概念、存储、处理、分析与应用(第4版)》林子雨编著,人民邮电出版社

ISBN:978-7-115-64181-6定价:65元2024年8月教材官方网站:/post/bigdata4国内高校第一本系统介绍大数据知识的专业教材,本书系统介绍大数据的相关知识,分为大数据基础篇、大数据存储与管理篇、大数据处理与分析篇、大数据应用篇。全书共14章,内容包含:本书在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等相关章安排了入门级的实验,以便读者能更好地学习和掌握大数据的关键技术。大数据概述大数据处理架构Hadoop分布式文件系统HDFS分布式数据库HBaseNoSQL数据库云数据库MapReduceHadoop再探讨数据仓库HiveSpark流计算Flink图计算大数据应用附录J:《大数据基础编程、实验和案例教程(第3版)》与《大数据技术原理与应用(第4版)》教材配套的唯一指定实验指导书林子雨编著,清华大学出版社

ISBN:978-7-302-66922-7

定价:69元

2024年8月第3版《大数据基础编程、实验和案例教程(第3版)》深入浅出,去粗取精,丰富的代码实例帮助快速掌握大数据基础编程方法步步引导,循序渐进,详尽的安装指南为顺利搭建大数据实验环境铺平道路0102精心设计,巧妙融合,八套大数据实验题目促进理论与编程知识的消化和吸收03结合理论,联系实际,大数据课程综合实验案例精彩呈现大数据分析全流程04附录K:《数据采集与预处理(第2版)》详细阐述了大数据领域数据采集与预处理的相关理论和技术林子雨编著,人民邮电出版社2025年1月

978-7-115-65728-2

定价:69.80元教材官网:/post/data-collection2/全书共8章,内容包括:概述大数据实验环境搭建网络数据采集分布式消息系统Kafka日志采集系统Flume数据仓库中的数据集成ETL工具Kettle使用pandas进行数据清洗本书在网络数据采集、Kafka、Flume、Kettle、pandas等重要章节安排了丰富的实践操作,以便读者更好地学习和掌握数据采集与预处理的关键技术。附录L:《Python程序设计基础教程(微课版)》教材:林子雨,赵江声,陶继平.《Python程序设计基础教程(微课版)》人民邮电出版社,2022年2月.教材官网(获取讲义PPT、代码等):

/post/python/

实验手册:林子雨,郑海山.《Python程序设计实验指导与习题解答》.人民邮电出版社,2022年4月.实验手册官网(获取代码等):/post/python-experiment/附录M:《Python程序设计基础(通识课版)》教材:林子雨.《Python程序设计基础(通识课版)》人民邮电出版社,2025年2月.教材官网(获取讲义PPT、代码等):

/post/python-general/

教材ISBN:978-7-115-65678-0定价:59.8元本书详细介绍了获得Python基础编程能力所需要掌握的各方面技术。全书共11章,内容包括Python语言概述、基础语法知识、程序控制结构、序列、函数、模块、异常处理、文件和数据库操作、常用的标准库和第三方库、基于Matplotlib的数据可视化、网络爬虫等。本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Python编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、源代码、软件、数据集等。附录N:《Python数据分析、挖掘与可视化》教材:林子雨

编著《Python数据分析、挖掘与可视化》人民邮电出版社,2025年5月.教材官网(获取讲义PPT、代码等):/post/python-analysis/教材ISBN:978-7-115-66088-6定价:59.8元数据分析能够帮助人们深入洞察数据的内在规律和趋势,提取有价值的信息,为决策提供科学依据。在当今信息爆炸的时代,数据分析已成为各行各业不可或缺的技能。本书通过丰富的案例帮助读者快速掌握Python数据分析的核心技能,提高数据处理和分析的能力,从而更好地应对学习和工作中的挑战。全书共10章,内容包括Python语言概述、基础语法知识、程序控制结构、序列、函数、文件和数据库操作、数据分析基础工具NumPy、基于Matplotlib的数据可视化、基于pandas的数据预处理和分析、基于sklearn的机器学习。附录O:《Spark编程基础(Scala版,第2版)》《Spark编程基础(Scala版,第2版)》林子雨,赖永炫,陶继平

编著,人民邮电出版社

ISBN:978-7-115-59501-0

教材官网:/post/spark2/本书以Scala作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共9章,内容包括:大数据技术概述Scala语言基础Spark的设计与运行原理Spark环境搭建和使用方法RDD编程SparkSQLSparkStreamingSparkMLlib本书每个章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。披荆斩棘在大数据丛林中开辟学习捷径填沟削坎为快速学习Spark技术铺平道路深入浅出有效降低Spark技术学习门槛资源全面构建全方位一站式在线服务体系附录P:《Spark编程基础(Python版,第2版)》《Spark编程基础》(Python版,第2版)林子雨,郑海山,赖永炫

编著,人民邮电出版社

ISBN:978-7-115-64403-9

出版发行,教材官网:/post/spark-python2/本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共9章,内容包括:大数据技术概述Spark的设计与运行原理大数据实验环境搭建Spark环境搭建和使用方法RDD编程SparkSQLSparkStreamingSparkMLlib本书在非理论的章节都安排了入门级的编程实践操作,以便读者更好地学习和掌握Spark编程方法。本书官网免费提供了全套的在线教学资源,包括讲义PPT、习题、源代码、软件、数据集、授课视频、上机实验指南等。披荆斩棘在大数据丛林中开辟学习捷径填沟削坎为快速学习Spark技术铺平道路深入浅出有效降低Spark技术学习门槛资源全面构建全方位

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论