2025 高中信息技术数据与计算的信息抽取项目实例课件_第1页
2025 高中信息技术数据与计算的信息抽取项目实例课件_第2页
2025 高中信息技术数据与计算的信息抽取项目实例课件_第3页
2025 高中信息技术数据与计算的信息抽取项目实例课件_第4页
2025 高中信息技术数据与计算的信息抽取项目实例课件_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

一、课程背景与核心价值:为何聚焦信息抽取?演讲人01课程背景与核心价值:为何聚焦信息抽取?02知识铺垫:信息抽取的底层逻辑与工具链03项目实例:校园活动信息抽取系统的设计与实现04实践拓展:从校园到更广阔的应用场景05总结与展望:信息抽取的教育价值再审视目录2025高中信息技术数据与计算的信息抽取项目实例课件01课程背景与核心价值:为何聚焦信息抽取?课程背景与核心价值:为何聚焦信息抽取?作为深耕高中信息技术教学十余年的一线教师,我常思考一个问题:如何让“数据与计算”模块的教学跳出理论灌输,真正培养学生用技术解决实际问题的能力?2022年新课标明确指出,“数据与计算”要着重发展学生的数据意识、算法思维和数字化工具应用能力,而信息抽取正是连接理论与实践的关键桥梁——它既是数据处理的起点,也是算法思维的具象化应用场景。1信息抽取的教育定位信息抽取(InformationExtraction,IE)是从非结构化或半结构化文本中提取特定类型信息(如实体、关系、事件)并转化为结构化数据的技术。在高中阶段,它的价值体现在三方面:知识衔接:承接“数据编码”“数据管理”等基础内容,为后续“数据可视化”“机器学习基础”做铺垫;能力培养:通过需求分析、规则设计、模型调优等环节,训练学生的问题分解能力与计算思维;素养落地:让学生在真实任务中体会“用技术赋能生活”的价值,例如从校园公告中自动提取活动信息、从社区问卷中统计民意焦点。2高中生的认知适配性考虑到学生的知识储备(已掌握Python基础、简单正则表达式、文本处理库),我们选择“基于规则+轻量级机器学习”的混合方案。这既避免了深度学习的复杂理论,又能通过可解释的规则设计让学生理解技术本质——信息抽取不是“黑箱”,而是“有逻辑的信息打捞”。02知识铺垫:信息抽取的底层逻辑与工具链知识铺垫:信息抽取的底层逻辑与工具链在开展项目前,必须帮助学生建立清晰的知识框架。我通常会用“拆解-重构”的思路,从具体案例入手,逐步抽象出技术模型。1信息抽取的核心任务类型通过对比不同场景的实例,学生能更直观理解任务差异:实体抽取(EntityExtraction):从“2024年10月15日,高三(3)班在体育馆举办科技节开幕式”中提取“时间:2024-10-15”“地点:体育馆”“主办方:高三(3)班”“事件:科技节开幕式”;关系抽取(RelationExtraction):从“李老师指导的机器人社团获得市级一等奖”中提取“指导关系:李老师-机器人社团”“获奖关系:机器人社团-市级一等奖”;事件抽取(EventExtraction):从“台风‘海葵’导致A市12条道路积水,消防部门已转移500名群众”中提取“灾害事件:台风‘海葵’-影响-道路积水”“救援事件:消防部门-转移-500名群众”。2技术路径的选择与对比我会通过表格对比不同方法的适用场景(表1),引导学生根据任务需求选择工具:|方法类型|核心思想|优势|局限性|高中适用场景||----------------|---------------------------|-----------------------|-----------------------|-----------------------||基于规则|人工定义关键词/正则表达式|可解释性强、实现简单|依赖先验知识,泛化性差|实体类型固定的短文本||基于统计学习|用标注数据训练分类模型|能处理部分复杂模式|需要一定量标注数据|关系抽取、情感分析||基于深度学习|用神经网络自动学习特征|准确率高、适应性强|计算资源需求大,解释性弱|不推荐(超出高中范围)|3常用工具与环境配置考虑到教学实际,我们选择Python作为开发语言,重点使用以下工具库:文本处理:jieba(中文分词)、re(正则表达式);数据标注:LabelStudio(可视化标注工具,支持实体、关系标注);模型训练:sklearn(逻辑回归、SVM等基础分类器);结果验证:Pandas(结构化数据存储与分析)。在第一次课上,我会带着学生完成环境搭建,并演示用jieba分词标注实体的过程——当学生看到“科技节开幕式”被正确切分为“科技节/开幕式”时,他们会直观感受到“分词是信息抽取的基石”。03项目实例:校园活动信息抽取系统的设计与实现1项目背景与需求分析2023年9月,我所在的学校公众号每月发布约50篇活动推文(如社团招新、学科竞赛、志愿服务),但活动信息(时间、地点、报名方式)分散在长文中,师生查找效率低。学生团队提出:“能否做一个自动提取活动信息的工具?”这成为项目的起点。需求清单(学生主导梳理):输入:公众号推文文本(含标题、正文);输出:结构化表格(字段:活动主题、时间、地点、主办方、报名截止时间、联系人);约束:准确率≥85%(人工验证),处理单篇文本时间≤5秒。2数据收集与预处理数据质量直接影响抽取效果。学生团队通过以下步骤完成数据准备:数据采集:用Python的requests库爬取公众号历史推文(已获学校授权),共收集2022-2023年推文127篇,筛选出含活动信息的89篇作为训练集,20篇作为测试集;数据清洗:去除图片描述、超链接等干扰内容,合并分段的长句(如“活动时间:10月10日。地点:”合并为“活动时间:10月10日,地点:”);数据标注:使用LabelStudio标注实体(表2),每篇文本由2名学生交叉标注,不一致处由教师仲裁,最终形成标注语料500条。|实体类型|示例|标注标签|2数据收集与预处理|主办方|“校信息技术社团”|B-ORG/I-ORG|05|时间|“2024年11月5日14:00”|B-TIME/I-TIME|03|----------------|-----------------------|----------------|01|地点|“实验楼301会议室”|B-LOC/I-LOC|04|活动主题|“人工智能科普讲座”|B-TITLE/I-TITLE|023技术方案设计:从规则到模型的迭代基础层:用jieba分词+自定义词典(含“社团”“学生会”“实验室”等关键词)预处理文本;05规则抽取层:针对格式固定的字段(如“报名截止时间:”后内容)用正则提取;06主办方可能隐含(如“本次活动由学生会承办”中的“学生会”),需结合上下文判断。03于是团队调整方案,采用“规则+统计学习”的混合架构(图1):04学生最初尝试纯规则方法,用正则表达式匹配“时间:\d{4}年\d{1,2}月\d{1,2}日”等模式,但遇到两大问题:01时间表述多样(如“下周三下午3点”“11/5(周一)14:00”),规则覆盖不全;023技术方案设计:从规则到模型的迭代模型抽取层:对表述灵活的字段(如活动主题、主办方),用标注数据训练逻辑回归模型,特征包括词频、词性(名词、动词占比)、关键词共现(如“举办”前的名词常为主办方)。4实现与调优:在试错中成长项目实施历时8周,学生经历了多次迭代:第一次测试(规则版):时间抽取准确率62%,因无法处理“下周三”等相对时间;→解决方案:添加时间归一化函数(如“下周三”转为具体日期需结合当前日期);第二次测试(规则+模型版):主办方抽取准确率78%,但误将“活动负责人”识别为主办方;→解决方案:增加上下文特征(如“由...主办”“承办单位:”等触发词);第三次测试(优化版):综合准确率达87%,满足需求。当学生看到自己的工具成功从一篇2000字的推文中提取出完整活动信息时,有位学生兴奋地说:“原来代码真的能‘读懂’文字!”这种成就感,正是项目式学习的核心动力。04实践拓展:从校园到更广阔的应用场景1课堂实践任务设计01020304为了让更多学生参与,我设计了分层实践任务:基础任务:用正则表达式从“社团招新公告”中提取招新时间、地点(提供样例数据);进阶任务:用jieba分词+自定义词典标注“志愿者活动”推文的主办方实体(标注工具实操);挑战任务:小组合作设计“班级日志信息抽取”方案(字段自定,提交需求文档与技术路线图)。2跨学科融合的可能性信息抽取的应用远不止信息技术课堂:语文:从名著中提取人物关系(如《红楼梦》的“亲属关系”“主仆关系”);历史:从史料中提取事件要素(时间、地点、人物、结果);地理:从新闻中提取自然灾害信息(类型、影响范围、伤亡人数)。我曾与语文组合作,让学生用信息抽取工具分析《水浒传》的人物互动网络,学生不仅掌握了技术,还更深入理解了“梁山好汉的关系网如何影响情节发展”。05总结与展望:信息抽取的教育价值再审视1核心收获的凝练通过这个项目,学生不仅掌握了信息抽取的技术流程,更重要的是:计算思维:理解“规则设计-数据标注-模型优化”的工程思维;问题解决能力:学会从“模糊需求”到“可操作方案”的分解方法;技术伦理意识:在数据爬取、隐私保护(如避免提取学生姓名等敏感信息)中建立责任感。2对2025年教学的启示随着大语言模型(LLM)的普及,信息抽取的工具更强大(如用ChatGPT的函数调用功能),但高中教学的重点不应是追逐技术前沿,而是“以技术为载体,培养思维与素养”。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论