人工智能数据工程基础-概念、方法与案例习题参考答案

上传人：q*** IP属地：山东上传时间：2026-06-19 格式：DOCX 页数：24 大小：68.94KB 积分：38 举报 版权申诉

已阅读5页，还剩19页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PAGEPAGE4《人工智能数据工程基础》

习题参考答案依据教材章节习题整理，结合数据工程实践、人工智能大模型、多模态数据、合成数据、数据治理与合规等前沿趋势补充完善供教师备课、学生复习与教材配套资源建设参考编著者：聂明2026年5月

使用说明本答案按教材第1章至第8章习题顺序编写，保留原题类型和题干，答案力求做到“概念准确、过程完整、代码可改、工程可落地”。对代码题、实践题和操作题，答案给出可运行的参考思路或样板程序。实际教学中可根据本地数据、平台许可、网络条件和学生基础进行裁剪。对涉及网络爬虫、API调用、众包采集、医疗影像、合成数据等内容的题目，答案特别补充合法合规、隐私保护、质量评估和可追溯交付要求。对“链式思维（CoT）”类题目，本答案建议生成“可验证的分步解析”或“简明解题步骤”，不要求学生诱导模型披露私有隐藏推理过程，以符合当前大模型安全与教学规范。

第1章人工智能数据工程概述1．概念题：简述人工智能数据工程的定义及其生命周期的五个阶段，并说明每个阶段的核心任务。人工智能数据工程是面向人工智能模型训练、评估、部署和持续迭代的一套系统化、工程化方法。它通过规范的数据需求分析、采集、清洗、标注、质量控制、存储管理、治理合规和交付运维，将原始数据转化为可训练、可评估、可追溯、可复用的数据产品。其核心不是简单“收集数据”，而是围绕AI任务构建高质量数据闭环。阶段核心任务关键交付物/指标需求分析明确业务场景、模型任务、数据模态、标签体系、规模、质量标准和合规边界。需求说明书、数据规格书、标签定义、风险清单。数据采集从开源数据、爬虫、传感器、业务系统、众包、API或合成数据中获得原始样本。原始数据池、采集日志、许可/授权记录、元数据。数据处理与标注完成清洗、去重、格式转换、脱敏、增强、标注和结构化组织。标准化数据、标注文件、样例库、版本记录。质量控制与评估从准确性、完整性、一致性、多样性、偏差、时效性等维度进行抽检、复检和统计评估。质检报告、Kappa/一致率、错误清单、返工记录。交付与迭代按照约定格式交付数据集，并根据模型训练、评估和业务反馈持续更新。数据集交付包、README/数据卡、验收单、版本号。前沿补充：当前数据工程已经从“一次性数据准备”转向“数据闭环运营”。在大模型和多模态模型场景中，数据版本管理、数据卡、自动质检、模型反馈回流和数据治理越来越重要。2．分析题：选择数据质量的两个指标（如准确性和一致性），阐述其定义、度量方法，并举例说明其对AI模型训练的影响。可以选择“准确性”和“一致性”进行分析。二者都是影响监督学习、指令微调、偏好学习和评测可靠性的关键指标。准确性是指数据内容或标签是否真实、正确地反映了客观对象或任务要求。常见度量方法包括抽样复核准确率、错误率、Precision/Recall、专家审核通过率等。例如水果图像分类中，如果“苹果”被错误标为“梨”，模型会学习到错误特征，导致分类边界混乱。一致性是指不同数据、不同标注员或不同时间批次对同一规则的执行是否一致。常见度量方法包括一致率、Cohen’sKappa、Fleiss’Kappa、冲突样本比例和规则违背率。例如文本情感分析中，如果标注员对“还可以”有时标为正面、有时标为中性，模型会在边界样本上表现不稳定。对模型训练的影响：准确性不足会增加标签噪声，使模型泛化能力下降；一致性不足会导致同类样本标签分布混乱，使模型难以收敛或在评估集上波动较大。改进方法：先进行小样本试标，建立样例库和冲突案例库；用双人标注和专家仲裁控制一致性；使用自动规则检测重复、缺失、异常值；将错误样本反馈到规范修订和标注员复训中。前沿补充：在数据中心化AI（Data-centricAI）方法中，提升数据质量往往比盲目更换模型更有效。现代工程实践通常将数据质量指标接入CI/CD或数据管道，实现持续监控。3．实践题：使用Python和Matplotlib，编写代码绘制一个包含“需求分析、数据采集、数据处理、质量控制、交付”五个阶段的数据工程项目甘特图，标注每个阶段的持续时间（假设时间为1-2周）。参考思路是将每个阶段表示为一个任务，设置开始周和持续周数，再用Matplotlib的barh函数绘制横向条形图。importmatplotlib.pyplotasplt#解决中文显示问题：不同系统可替换为SimHei、MicrosoftYaHei或NotoSansCJKSCplt.rcParams['font.sans-serif']=['NotoSansCJKSC','SimHei','MicrosoftYaHei']plt.rcParams['axes.unicode_minus']=Falsetasks=[('需求分析',0,1),('数据采集',1,2),('数据处理',3,2),('质量控制',5,1),('交付',6,1),]fig,ax=plt.subplots(figsize=(9,4.8))fori,(name,start,duration)inenumerate(tasks):ax.barh(i,duration,left=start,height=0.45)ax.text(start+duration/2,i,f'{duration}周',va='center',ha='center',fontsize=10)ax.set_yticks(range(len(tasks)))ax.set_yticklabels([t[0]fortintasks])ax.set_xlabel('项目时间（周）')ax.set_title('人工智能数据工程项目甘特图')ax.grid(axis='x',linestyle='--',alpha=0.4)ax.invert_yaxis()plt.tight_layout()plt.show()结果应能清晰展示五个阶段之间的顺序关系。进一步优化时，可加入“返工/迭代”阶段、里程碑节点、责任人、交付物和风险状态。4．对比题：比较数据工程与传统软件工程在交付物和迭代方式上的主要差异，结合一个AI项目案例（如ChatGPT训练）说明数据工程的独特挑战。比较维度传统软件工程人工智能数据工程主要交付物源代码、可执行程序、接口文档、测试报告。数据集、标签体系、标注规范、质检报告、元数据、数据卡、版本记录。质量判断功能是否符合需求，代码是否稳定、可维护。数据是否真实、完整、准确、一致、代表性强、可追溯、合规。迭代方式通常围绕需求变更、Bug修复和功能优化迭代。围绕模型误差、数据分布漂移、标注规则修订和新场景覆盖迭代。风险来源代码缺陷、接口不兼容、性能瓶颈。采集偏差、标签噪声、隐私泄露、版权风险、数据过期、分布漂移。验收方式单元测试、集成测试、用户验收。抽检复核、一致性评估、模型训练验证、数据合规审查。以ChatGPT类大模型训练为例，软件工程解决的是训练框架、推理服务、接口和系统稳定性问题；数据工程则要处理海量网页、书籍、代码、对话、多语言和多模态数据的采集、过滤、去重、脱敏、毒性内容清理、版权风险评估、指令数据构造、偏好数据采集和评测集设计。其独特挑战在于：数据规模巨大、来源复杂、质量难以一次性保证、标注标准会随模型能力持续变化，并且合规、版权、偏见和安全问题会直接影响模型可用性。5．案例分析：分析GPT-3使用的训练数据集（如CommonCrawl、Wikipedia）的特点，讨论其规模和多样性如何影响模型性能。GPT-3使用的训练数据来源具有“大规模、跨领域、多文体、弱结构化、噪声较高”的特点。CommonCrawl覆盖全球网页，规模巨大、主题丰富，但噪声、重复、广告、低质量文本和偏见较多；Wikipedia相对结构清晰、质量较高、知识密度大，但风格偏百科、覆盖存在语言和地域差异；Books类数据提供长文本、叙事结构和上下文连贯性；WebText类数据偏向高质量网页和网络讨论。规模的影响：规模越大，模型越容易学习语言规律、事实知识、推理模式和长尾表达，有助于提升泛化能力。多样性的影响：多来源、多领域、多语言和多文体可以提升模型对不同任务和用户表达的适应能力。质量的影响：如果数据过滤不足，模型会学习错误事实、有害表达、偏见或重复模板；如果过滤过强，又可能丢失长尾知识和多样表达。工程要求：需要进行去重、质量评分、隐私过滤、毒性内容过滤、版权和许可审查、语种识别、领域配比控制，并通过评测集和红队测试验证模型输出风险。前沿补充：当前大模型数据工程更加重视“高质量小数据+大规模预训练数据+人类偏好数据+合成数据+RAG知识库”的组合，而不仅仅追求原始数据规模。第2章数据产品的工程化生产1．概念题：简述数据产品的七大特征，说明其中“合规与伦理”在数据生产中的具体体现。数据产品是经过系统设计、规范采集、加工处理、质量控制和交付验收，能够服务特定AI任务或业务应用的数据集及配套文档。其七大特征可以概括为：（1）系统化设计与构建：围绕明确目标设计数据规格、样本结构、标签体系和生产流程。（2）高质量标准：通过清洗、标注、质检、抽检和错误修正保证可用性。（3）规模与可扩展性：能够满足训练、验证、评测和后续扩充需求。（4）验证与质量控制：用指标、规则、抽检和模型验证证明数据质量。（5）特定用途与应用：服务明确任务，如分类、检测、语音识别、问答、推荐等。（6）可复用性、交易性与流通性：格式标准、文档完整、版本清晰，便于复用和交换。（7）合规与伦理：数据来源、采集授权、隐私保护、公平性和安全使用符合规范。“合规与伦理”具体体现在：采集前检查授权、许可协议和服务条款；对个人信息进行脱敏、匿名化或Token化；对敏感数据执行最小化采集和访问控制；对数据偏见、歧视和有害内容进行评估；在数据交付中附带来源说明、许可说明、使用限制和风险提示。2．分析题：分析ImageNet数据集如何通过多源数据整合和质量控制实现高适用性，举例说明其对深度学习模型训练的贡献。ImageNet通过互联网图像采集、WordNet层次类别体系和众包标注，将海量图像组织为标准化视觉数据产品。多源数据整合使其覆盖日常物体、动物、场景和细粒度类别，增强了数据多样性；质量控制通过类别定义、人工标注、复核、去除低质量和不相关图像来降低噪声。高适用性来源于标准化类别体系：同一类别具有统一语义定义，不同类别之间具有层次结构，便于分类任务和迁移学习。高适用性来源于大规模和多样性：不同角度、光照、背景和形态的图像有助于模型学习稳健特征。对深度学习的贡献：ImageNet挑战赛为AlexNet、VGG、GoogLeNet、ResNet等模型提供统一基准，推动卷积神经网络成为计算机视觉主流方法。工程启示：数据产品不仅要“大”，还要类别清楚、标注一致、质量可验、文档可查，才能成为可复用的行业基准。前沿补充：今天的多模态基础模型仍大量依赖类似思想：通过大规模图文对齐数据、数据过滤、去重、质量评分和安全过滤构建可训练语料。3．实践题：使用Python的Scrapy爬取一个公开图片网站（如Unsplash）的前100张图像，结合Pandas和OpenCV统一图像格式（JPEG，224x224），输出处理后的数据集统计。参考答案应强调合规优先：正式项目建议使用网站公开API或获授权的数据接口，遵守robots.txt、服务条款、版权许可和访问频率限制。下面给出“以图片URL清单为输入”的通用处理脚本，教学中可将Scrapy采集结果保存为image_urls.csv后执行。importos,requests,cv2,pandasaspdimportnumpyasnpfrompathlibimportPathOUT=Path('images_224')OUT.mkdir(exist_ok=True)df=pd.read_csv('image_urls.csv')#至少包含url字段，建议还有source/license/categoryrecords=[]foridx,rowindf.head(100).iterrows():url=row['url']try:resp=requests.get(url,timeout=15,headers={'User-Agent':'DataEngineeringCourse/1.0'})resp.raise_for_status()img_arr=cv2.imdecode(np.frombuffer(resp.content,dtype='uint8'),cv2.IMREAD_COLOR)ifimg_arrisNone:raiseValueError('无法解码图像')img=cv2.resize(img_arr,(224,224),interpolation=cv2.INTER_AREA)fname=OUT/f'image_{idx:04d}.jpg'cv2.imwrite(str(fname),img,[int(cv2.IMWRITE_JPEG_QUALITY),92])h,w=img.shape[:2]records.append({'file':str(fname),'width':w,'height':h,'status':'ok','bytes':len(resp.content)})exceptExceptionase:records.append({'file':'','width':0,'height':0,'status':f'error:{e}','bytes':0})stat=pd.DataFrame(records)print(stat['status'].value_counts())print(stat[['width','height','bytes']].describe())stat.to_csv('dataset_statistics.csv',index=False,encoding='utf-8-sig')统计报告至少应包括：成功下载数量、失败数量、统一尺寸、文件大小均值/最大值/最小值、格式、来源、许可、重复图像比例和异常样本列表。4．案例分析：针对第2章中的电商用户行为数据集案例，分析如何通过埋点技术和外部API整合数据，并提出两种隐私保护措施（如Token化、脱敏）。电商用户行为数据集通常包括浏览、点击、搜索、收藏、加购、下单、支付、评价和售后等行为。埋点技术负责在网页、APP、小程序或后端服务中记录用户行为事件；外部API可补充商品信息、物流状态、天气节假日、地理区域、广告投放和市场价格等上下文信息。埋点设计：定义事件名称、触发条件、用户ID、商品ID、时间戳、页面来源、会话ID、设备类型和渠道信息；统一事件字典和字段规范。API整合：通过商品、地区、时间或订单ID等主键，将外部数据与内部行为数据关联，形成更完整的用户行为样本。隐私保护措施一：Token化。将手机号、邮箱、用户ID等直接标识符替换为不可逆或受控映射的Token，业务分析使用Token而非原始身份。隐私保护措施二：脱敏与最小化。对姓名、地址、经纬度等敏感字段做泛化、掩码、截断或聚合，只保留完成建模所必需的信息。可进一步加入访问控制、日志审计、差分隐私、联邦学习和数据使用审批，降低二次泄露风险。5．设计题：为一个语音识别数据集生产项目设计项目管理方案，包含时间表（6周）、人员分工（采集、处理、标注团队）和Trello看板结构。周次主要任务阶段交付物第1周需求分析、语种/场景/说话人规格、采集方案、合规审批。需求书、采集规范、知情同意模板。第2周录音采集、设备测试、样本元数据记录。原始音频、采集日志、元数据表。第3周格式转换、切分、降噪、音量归一化、质量初筛。预处理音频、异常清单。第4周转写标注、说话人/时间戳标注、术语表维护。标注文本、TextGrid/JSONL。第5周双人复核、一致性评估、抽检、返工。质检报告、Kappa/一致率、返工记录。第6周数据集打包、README、数据卡、交付验收和复盘。交付包、验收单、项目复盘。人员分工：采集团队负责场景选择、设备部署、录音和授权；处理团队负责格式转换、降噪、切分、元数据管理和脚本维护；标注团队负责转写、校对、复核和冲突仲裁；项目经理负责进度、风险、沟通和验收。Trello看板可设置：Backlog、ToDo、InProgress、Review、Rework、Done、Risk/Issue七列。每张卡片包含任务描述、负责人、截止时间、输入数据、输出交付物、质量标准、相关附件和评论记录。6．实操题：使用Python对一个简单数据集进行清洗（去重、处理缺失值）并生成描述统计报告，展示清洗前后的数据对比。importpandasaspdraw=pd.DataFrame({'id':[1,2,2,3,4,5],'age':[20,None,None,25,28,30],'score':[85,90,90,None,76,88],'label':['A','B','B','A',None,'C']})print('清洗前：')print(raw)print(raw.describe(include='all'))clean=raw.drop_duplicates()clean['age']=clean['age'].fillna(clean['age'].median())clean['score']=clean['score'].fillna(clean['score'].mean())clean['label']=clean['label'].fillna('Unknown')print('清洗后：')print(clean)print(clean.describe(include='all'))report=pd.DataFrame({'指标':['记录数','重复记录数','缺失单元格数'],'清洗前':[len(raw),raw.duplicated().sum(),raw.isna().sum().sum()],'清洗后':[len(clean),clean.duplicated().sum(),clean.isna().sum().sum()]})print(report)report.to_csv('cleaning_report.csv',index=False,encoding='utf-8-sig')参考结论：清洗前存在重复记录和缺失值；清洗后重复记录数为0，缺失单元格数为0，数据规模和统计指标发生变化。正式项目中还应保留清洗日志，不能只保存清洗后结果。第3章开源数据的利用与整合1．操作题：选择一个开源数据集（如IMDb电影评论数据集），使用Python完成数据的预处理（文本分词、去停用词），展示处理前后的数据示例。以IMDb英文电影评论数据为例，预处理流程包括读取文本、统一大小写、去除HTML标签和特殊符号、分词、去停用词、保存处理结果。中文数据则可使用jieba或HanLP分词，并结合中文停用词表。importreimportpandasaspdfrombs4importBeautifulSoupfromsklearn.feature_extraction.textimportENGLISH_STOP_WORDS#示例数据，实际可替换为IMDbCSV文件texts=['<br/>Thismovieiswonderful!Ilovethestoryandactors.','Boringplot,badacting,andveryslowpacing.']defpreprocess(text):text=BeautifulSoup(text,'html.parser').get_text('')text=text.lower()text=re.sub(r'[^a-z\s]','',text)tokens=[wforwintext.split()ifwnotinENGLISH_STOP_WORDSandlen(w)>1]returntokensfortintexts:print('处理前：',t)print('处理后：',preprocess(t))处理前文本包含HTML标签、大小写和标点；处理后文本变为词元列表，保留更能表达情感倾向的词，如wonderful、love、story、actors、boring、bad、slow等。2．概念题：简述开源数据的三大优势和三大局限性，说明其对中小企业开发AI模型的意义。优势一：降低数据获取成本。中小企业可以用公开数据完成原型验证、模型预训练或迁移学习。优势二：促进创新和复现。统一数据集可以支持算法对比、论文复现和教学训练。优势三：提供标准化基准。ImageNet、CIFAR、LibriSpeech、IMDb等数据集使模型性能具有可比性。局限一：质量不均。可能存在重复、错误、缺失、噪声和标签不一致。局限二：偏差和适配不足。公开数据可能与企业目标场景在地域、用户、设备、语言和业务流程上不一致。局限三：许可和合规风险。不同数据集许可协议差异大，商业使用、再分发、署名和衍生作品要求不同。对中小企业而言，开源数据的意义在于降低试错成本、缩短模型开发周期、建立初始基线；但最终落地仍需融合自有业务数据、补充高质量标注、控制合规风险并进行持续评估。3．分析题：比较CCBY和CCBY-SA许可协议的异同，分析违反CCBY-SA协议的潜在法律后果。协议共同点差异点使用建议CCBY都允许复制、分发、改编和商业使用；都要求署名、说明修改和链接许可。CCBY不要求衍生作品继续采用相同协议。适合希望开放使用但要求署名的数据或内容。CCBY-SA都要求保留作者署名和许可说明。SA表示ShareAlike，衍生作品必须以相同或兼容协议继续共享。适合希望开放生态持续共享的数据或内容。违反CCBY-SA的典型情形包括：未署名、未说明修改、未提供许可链接、将衍生数据集改用更封闭协议、禁止他人按同等协议继续使用。潜在后果包括被要求停止使用、下架产品或数据集、重新发布合规版本、承担侵权赔偿或商业合同违约责任。前沿补充：工程实践中应将许可协议作为数据产品元数据的一部分，记录来源、作者、URL、许可版本、是否允许商用、是否要求同协议共享和是否允许再分发。4．实践题：使用KaggleAPI下载“zillow/zecon”数据集，编写Python脚本统计“regionidzip”唯一值数量，并使用SHA-256验证数据完整性。参考流程：先在Kaggle账号中生成kaggle.json，配置到本机凭据目录；再通过KaggleAPI下载数据集；最后用pandas读取CSV并统计字段唯一值，用hashlib计算文件哈希。#命令行准备：pipinstallkagglepandas#Linux/macOS:mkdir-p~/.kaggle&&cpkaggle.json~/.kaggle/&&chmod600~/.kaggle/kaggle.json#Windows:将kaggle.json放到C:\Users\用户名\.kaggle\目录importhashlibimportzipfilefrompathlibimportPathimportpandasaspd#1.下载：也可在命令行执行#kaggledatasetsdownload-dzillow/zecon-pdata/zillowzip_path=Path('data/zillow/zecon.zip')out_dir=Path('data/zillow/zecon')out_dir.mkdir(parents=True,exist_ok=True)#2.计算SHA-256，记录到交付文档中defsha256_file(path):h=hashlib.sha256()withopen(path,'rb')asf:forchunkiniter(lambda:f.read(1024*1024),b''):h.update(chunk)returnh.hexdigest()print('SHA-256:',sha256_file(zip_path))#3.解压并搜索包含regionidzip的CSV文件withzipfile.ZipFile(zip_path,'r')aszf:zf.extractall(out_dir)forcsv_pathinout_dir.rglob('*.csv'):try:df=pd.read_csv(csv_path,nrows=1000)cols=[c.lower()forcindf.columns]if'regionidzip'incols:full=pd.read_csv(csv_path,usecols=[df.columns[cols.index('regionidzip')]])print(csv_,'regionidzip唯一值数量:',full.iloc[:,0].nunique(dropna=True))exceptExceptionase:print('跳过',csv_path,e)验收要点：能够说明下载方式、文件路径、哈希值、字段统计结果和异常处理。SHA-256用于验证下载文件是否被篡改或损坏。5．案例分析：针对第三章中ImageNet推动深度学习的案例，分析其标准化基准如何促进模型创新，提出两种改进ImageNet偏差的方法。ImageNet的标准化基准作用主要体现在：统一训练/验证/测试数据，统一类别体系，统一评价指标，使不同研究团队的模型结果可比较。AlexNet之后，VGG、GoogLeNet、ResNet等模型不断在同一基准上改进结构、深度、归一化和残差连接，推动计算机视觉快速发展。改进偏差方法一：数据再平衡与分层采样。对类别、地域、文化、拍摄场景、光照、设备来源进行统计，补充低频类别和欠代表群体，减少类别不均衡和背景偏差。改进偏差方法二：数据集文档化与偏差审计。为数据集建立数据卡，公开采集来源、类别分布、标注流程、已知限制和不适用场景；定期用自动化工具和人工审核识别错误标签、冒犯性内容和社会偏见。还可采用去重、近重复检测、主动学习补样、跨域评测集和真实部署场景验证，避免模型只在标准数据集上表现好。6．设计题：为一个医疗影像分析项目设计开源数据融合方案，结合NIHChestX-rayDataset和自有数据，明确格式统一和标签映射步骤。医疗影像数据融合必须把临床合规、安全脱敏和专家质控放在首位。参考方案如下：（1）数据盘点：统计NIHChestX-ray与自有数据的图像格式、分辨率、设备来源、体位、标签体系、患者年龄性别、采集时间和许可限制。（2）格式统一：将DICOM或PNG/JPEG统一到项目标准；保留必要元数据；统一灰度范围、像素间距、方向、尺寸和命名规则；不要破坏诊断相关信息。（3）隐私处理：去除DICOM中的姓名、ID、日期等个人标识，建立脱敏日志和访问控制。（4）标签映射：建立映射表，例如Atelectasis、Cardiomegaly、Effusion等映射到统一中文/英文标签；处理同义词、多标签、阴性标签和不确定标签。（5）质量控制：剔除损坏图像、重复图像、错误体位、低质量扫描；抽样由影像专家复核；统计每类样本数量和阳性率。（6）数据划分：按患者级划分训练集/验证集/测试集，避免同一患者图像泄露到不同集合。（7）文档交付：提供数据卡、许可说明、预处理脚本、标签字典、质检报告和模型适用边界。前沿补充：当前医疗AI更强调外部验证和多中心数据融合。单一开源数据集训练出的模型往往难以直接用于真实临床部署，必须通过本地数据微调和伦理审批。第4章数据获取1.理论题：比较网络爬虫、众包和传感器数据采集的优缺点，说明各方法适用的场景（如大规模公开数据、用户生成内容、实时环境数据）。方法优点缺点适用场景网络爬虫规模大、成本低、自动化程度高、适合公开网页。受版权、服务条款、反爬机制和数据噪声影响；结构变化会导致脚本失效。新闻、商品信息、公开评论、开放网页语料。众包可获得人工判断、主观标签和复杂语义标注；弹性高。质量受标注员能力影响，需要培训、质检和激励机制。图像分类、文本情感、语音转写、偏好标注。传感器采集实时、连续、可反映物理世界状态；适合时空数据。设备成本、标定、同步、丢包、噪声和隐私风险较高。智慧城市、自动驾驶、工业物联网、环境监测。实际项目常采用组合方式：开源数据建立基线，爬虫扩充长尾样本，众包完成标签，传感器补充实时场景，合成数据覆盖稀缺边界条件。2.代码题：修改示例代码【4-1.ipynb】，添加异常处理（处理429状态码，重试3次，指数退避延迟1-4秒），并记录爬取日志（包含时间、URL、状态码、数据量）。importtime,logging,requestsfromdatetimeimportdatetimelogging.basicConfig(filename='crawler.log',level=logging.INFO,format='%(asctime)s\t%(levelname)s\t%(message)s',encoding='utf-8')deffetch_url(url,max_retry=3):headers={'User-Agent':'DataEngineeringCourseCrawler/1.0'}forattemptinrange(max_retry):try:resp=requests.get(url,headers=headers,timeout=10)size=len(resp.contentorb'')(f'URL={url}\tstatus={resp.status_code}\tsize={size}\tattempt={attempt+1}')ifresp.status_code==200:returnresp.textifresp.status_code==429:delay=min(4,2**attempt)#1,2,4秒time.sleep(delay)continueresp.raise_for_status()exceptrequests.RequestExceptionase:logging.warning(f'URL={url}\terror={e}\tattempt={attempt+1}')time.sleep(min(4,2**attempt))returnNonehtml=fetch_url('')print('抓取成功'ifhtmlelse'抓取失败')答案要点：429表示请求过多，应降低访问频率、指数退避并尊重网站规则。日志应记录时间、URL、状态码、数据量、重试次数和错误信息，便于追溯和调试。3.设计题：为收集张水果图像设计众包任务，包含任务描述、奖励机制（基础报酬+激励）、质量控制（验证题目、重复标注），并说明如何确保数据多样性。题干中“收集张水果图像”缺少具体数量，可按“收集1000张水果图像”设计，教学中可根据课程要求调整规模。任务描述：采集苹果、香蕉、橙子、梨、葡萄等类别图像，要求主体清晰、真实拍摄、无明显水印、不过度后期处理；每张图像记录类别、拍摄环境、光照、角度、是否有遮挡、采集设备和授权声明。奖励机制：每通过一张图像给予基础报酬；对稀缺类别、复杂场景、高质量样本给予额外奖励；对重复、侵权、低质量或伪造样本扣除奖励。质量控制：设置验证题目和示例图片；每张图像至少两人审核；系统自动检测分辨率、重复度、模糊度和EXIF；冲突样本由专家仲裁。多样性保障：预设类别配额、场景配额、地区/设备/光照/背景配额；主动补采低频组合，如夜间、室内、遮挡、不同成熟度水果；定期统计分布并调整任务。交付物：图片文件、JSONL元数据、授权记录、质检报告、重复检测报告和数据卡。4.分析题：分析案例4.1.4中某公司因非法爬虫被起诉的法律问题，提出3条改进措施（服务条款检查、匿名化处理、频率控制），并讨论道德规范对数据工程的影响。非法爬虫风险通常包括违反网站服务条款、绕过技术保护措施、过高频率影响服务、未经授权收集个人信息、侵犯版权或商业秘密、将数据用于超出授权范围的商业用途。（1）服务条款检查：采集前检查robots.txt、服务条款、版权声明和API政策；优先使用官方API、开放数据接口或取得书面授权。（2）匿名化处理：对个人信息进行脱敏、匿名化、聚合或Token化；避免采集与任务无关的敏感字段。（3）频率控制：设置User-Agent、限速、重试退避、缓存和增量采集，避免对目标网站造成压力。道德规范对数据工程的影响体现在：工程师不仅要关注“能不能抓”，还要关注“应不应该抓”“能否公开使用”“是否会伤害个人或群体”。负责任的数据工程应遵守透明、最小必要、尊重用户、可追溯和可问责原则。5.实践题：使用DeepSeek生成10条链式思维（CoT）数学题（如示例4.4.2），包含问题、推理步骤和答案，验证推理过程的准确性，统计生成数据的多样性。教学中可将“链式思维（CoT）”表述为“可验证的分步解析”或“简明解题步骤”。不建议诱导模型输出其私有隐藏推理，而应要求生成适合学生学习和机器校验的清晰解题过程。提示词示例：请生成10道小学高年级到初中难度的数学应用题。每条以JSONL输出，字段包括id、topic、difficulty、question、solution_steps、answer。solution_steps只写必要的公开解题步骤，不要输出冗长思维。题型覆盖比例、方程、几何、行程、统计。#假设已经将模型输出保存为math_cot.jsonlimportjson,re,pandasaspdfromcollectionsimportCounterrows=[]withopen('math_cot.jsonl',encoding='utf-8')asf:forlineinf:rows.append(json.loads(line))df=pd.DataFrame(rows)print(df[['id','topic','difficulty','question','answer']])#多样性统计：题型分布、难度分布、问题文本去重率print('题型分布:',Counter(df['topic']))print('难度分布:',Counter(df['difficulty']))print('去重后问题数:',df['question'].nunique(),'/',len(df))#准确性验证：人工复核+可编程校验；这里示例检查答案是否非空assertdf['answer'].notna().all()准确性验证可采用三步：模型自检、规则/程序校验、教师或学生人工复核。多样性可统计题型覆盖、难度覆盖、答案形式、文本重复率和知识点分布。6.操作题：选择任一公开API（如OpenWeatherMap天气API），使用Python实现数据的调用与存储，并展示获取到的数据样例。importos,requests,pandasaspdfromdatetimeimportdatetimeAPI_KEY=os.getenv('OPENWEATHER_API_KEY')#建议用环境变量保存密钥city='Guiyang,CN'url='/data/2.5/weather'params={'q':city,'appid':API_KEY,'units':'metric','lang':'zh_cn'}resp=requests.get(url,params=params,timeout=10)resp.raise_for_status()data=resp.json()record={'city':data.get('name'),'time':datetime.utcnow().isoformat(),'temperature':data['main']['temp'],'humidity':data['main']['humidity'],'weather':data['weather'][0]['description'],'wind_speed':data['wind']['speed']}print(record)pd.DataFrame([record]).to_csv('weather_sample.csv',index=False,encoding='utf-8-sig')答案应展示样例字段，并说明API调用需要密钥管理、错误处理、访问频率限制、数据字段解释和存储格式。正式项目中还应记录API版本、请求参数、时间戳和响应状态码。第5章图像处理与数据集生产案例1.理论题：解释RGB、HSV和YCbCr色彩模型的区别与应用场景，说明在水果分类任务中选择RGB格式的原因。色彩模型含义优点典型应用RGB用红、绿、蓝三通道表示颜色，是相机和显示设备常用格式。直观、与深度学习图像输入兼容，工具支持广泛。图像显示、CNN训练、常规图像分类。HSV用色相、饱和度、明度表示颜色，更接近人对颜色的感知。便于按颜色阈值分割目标，降低光照影响。水果颜色检测、目标分割、图像检索。YCbCr将亮度Y与色度Cb/Cr分离。适合压缩编码和亮度/色度分离处理。JPEG压缩、视频编码、人脸检测预处理。水果分类任务通常选择RGB格式，是因为原始图片和深度学习预训练模型大多使用RGB输入，颜色和纹理信息能够直接被CNN或VisionTransformer学习；同时RGB格式便于使用OpenCV、PIL、PyTorch和TensorFlow进行处理。若任务特别强调颜色阈值或成熟度识别，可将HSV作为辅助特征。2.代码题：基于示例【5-8.ipynb】，编写脚本处理100张图像，添加随机旋转（±10°）和亮度抖动（±15%），保存为JPEG，统计处理后图像的平均亮度和清晰度（拉普拉斯方差）。importcv2,randomimportnumpyasnpimportpandasaspdfrompathlibimportPathIN_DIR=Path('fruit_images')OUT_DIR=Path('fruit_aug')OUT_DIR.mkdir(exist_ok=True)records=[]forimg_pathinlist(IN_DIR.glob('*.*'))[:100]:img=cv2.imread(str(img_path))ifimgisNone:continueh,w=img.shape[:2]#随机旋转±10°angle=random.uniform(-10,10)M=cv2.getRotationMatrix2D((w/2,h/2),angle,1.0)rotated=cv2.warpAffine(img,M,(w,h),borderMode=cv2.BORDER_REFLECT)#亮度抖动±15%factor=random.uniform(0.85,1.15)bright=np.clip(rotated.astype(np.float32)*factor,0,255).astype(np.uint8)out_path=OUT_DIR/f'{img_path.stem}_aug.jpg'cv2.imwrite(str(out_path),bright,[int(cv2.IMWRITE_JPEG_QUALITY),92])gray=cv2.cvtColor(bright,cv2.COLOR_BGR2GRAY)mean_brightness=gray.mean()sharpness=cv2.Laplacian(gray,cv2.CV_64F).var()records.append({'file':out_,'angle':angle,'brightness_factor':factor,'mean_brightness':mean_brightness,'laplacian_var':sharpness})stat=pd.DataFrame(records)print(stat.describe())stat.to_csv('fruit_aug_statistics.csv',index=False,encoding='utf-8-sig')平均亮度反映图像整体明暗；拉普拉斯方差越低通常表示图像越模糊。增强后的统计报告应检查是否出现过暗、过曝或模糊样本。3.设计题：为水果分类数据集标注规范，包含类别命名（英文、编码）、JSONL格式示例和冲突解决流程，说明如何确保Kappa≥0.85。标注规范应包括任务目标、类别范围、正反例、边界情况、文件命名、标注格式、质检流程和冲突处理。示例类别如下：apple(A001)、banana(B001)、orange(O001)、pear(P001)、grape(G001)。{"image_id":"img_0001.jpg","label_code":"A001","label_en":"apple","label_zh":"苹果","annotator":"u01","confidence":0.95,"note":"单个红苹果，主体清晰"}{"image_id":"img_0002.jpg","label_code":"B001","label_en":"banana","label_zh":"香蕉","annotator":"u02","confidence":0.90,"note":"一串香蕉，无遮挡"}冲突解决流程：两名标注员独立标注；若标签一致则通过；若不一致进入复核池；由高级标注员或教师仲裁；仲裁结果更新样例库和规范说明。确保Kappa≥0.85的方法：先小样本试标并培训；提供正例、反例和易混淆案例；统一成熟度、遮挡、多水果同图等边界规则；定期计算Kappa并对低一致性类别复训。当Kappa低于阈值时，不应简单要求标注员“改到一致”，而应分析原因：类别定义不清、样本质量差、图片含多目标或标注工具设置不合理。4.分析题：分析数据集偏差对水果分类模型的影响（如类别不均、单一背景），提出3种改进措施（增强、多样性采集、均衡采样），并讨论人脸脱敏（模糊、GAN替换）的实现与局限性。数据集偏差会使模型学习到错误相关性。例如某类水果总在白色背景出现，模型可能把背景当成类别特征；某类样本过少会导致召回率低；拍摄角度、光照和设备单一会降低真实场景泛化能力。（1）数据增强：使用旋转、亮度变化、裁剪、模糊、背景替换等增加样本变化，但不能替代真实多样性。（2）多样性采集：按类别、背景、光照、成熟度、遮挡、设备、地区建立采集配额，主动补齐弱覆盖场景。（3）均衡采样：训练时对少数类过采样、对多数类欠采样或使用类别权重，避免模型偏向大类。人脸脱敏在水果图像中可能用于处理背景人物。模糊方法简单、稳定、成本低，但可能影响图像自然性和背景信息；GAN替换可生成更自然背景，但存在生成伪影、身份泄露残留、不可解释和合规审计困难。正式数据集应尽量避免采集包含人脸的图片，必要时采用可审计的脱敏流程并保留处理记录。5.实践题：使用LabelMe标注50张水果图像（参考示例【5-9.ipynb】），应用ResNet-50预标注，计算两标注员的Kappa系数，提交质量报告（准确率、异常分析）。参考流程：先用ResNet-50对50张图片生成预标注；导入LabelMe人工修正；两名标注员独立标注；导出JSON；计算一致性和错误类型。importjson,globfromsklearn.metricsimportcohen_kappa_score,accuracy_score,confusion_matrix#假设两个标注员导出的JSON中都有label字段labels_a,labels_b=[],[]forf1,f2inzip(sorted(glob.glob('ann_a/*.json')),sorted(glob.glob('ann_b/*.json'))):withopen(f1,encoding='utf-8')asfa,open(f2,encoding='utf-8')asfb:ja,jb=json.load(fa),json.load(fb)labels_a.append(ja['shapes'][0]['label'])labels_b.append(jb['shapes'][0]['label'])kappa=cohen_kappa_score(labels_a,labels_b)acc=accuracy_score(labels_a,labels_b)print('一致率:',acc)print('CohenKappa:',kappa)print(confusion_matrix(labels_a,labels_b))质量报告应包括：任务说明、数据规模、类别分布、预标注模型、人工修正比例、一致率、Kappa、错误矩阵、异常样本截图或文件名、原因分析和改进建议。Kappa≥0.85说明一致性较好；若低于阈值，应回到规范和样例库进行修订。第6章音频处理与数据集生产案例理论题：比较PCM、MP3和FLAC编码的优缺点，说明在城市声音数据集（、单声道）中选择WAVPCM）格式的原因。编码/格式优点缺点适用场景PCM/WAV无压缩、保真度高、处理简单、便于特征提取和标注。文件体积大。机器学习训练、语音/环境声音标注、实验数据保存。MP3压缩率高、文件小、传播方便。有损压缩，会损失细节并引入压缩伪影。音乐分发、普通播放、低带宽传输。FLAC无损压缩，文件小于WAV且保真。解码处理比PCM复杂，部分工具兼容性不如WAV。高质量音频存档、音乐无损保存。城市声音数据集通常选择WAV/PCM、固定采样率、单声道，是因为模型训练和声学特征提取需要稳定、可重复、无损的输入。单声道可以降低存储和计算成本；固定采样率便于统一频谱特征，如MFCC、Log-Mel和声谱图。若原题中的采样率缺失，可在教学中设定为16kHz或44.1kHz，并在数据规格中明确。代码题：基于示例【6-12.ipynb】音频降噪样板程序，编写脚本对10条音频进行降噪（谱减法，SNR>25），绘制原始与降噪后波形和声谱图对比，统计SNR提升值。importnumpyasnpimportlibrosa,librosa.displayimportsoundfileassfimportmatplotlib.pyplotaspltfrompathlibimportPathIN_DIR=Path('audio_raw')OUT_DIR=Path('audio_denoised')OUT_DIR.mkdir(exist_ok=True)defspectral_subtract(y,sr,noise_sec=0.5,alpha=1.0):n=int(noise_sec*sr)noise=y[:n]S=librosa.stft(y)N=np.mean(np.abs(librosa.stft(noise)),axis=1,keepdims=True)mag,phase=np.abs(S),np.angle(S)clean_mag=np.maximum(mag-alpha*N,0.0)y_clean=librosa.istft(clean_mag*np.exp(1j*phase),length=len(y))returny_cleandefsnr_estimate(y,noise_part):signal_power=np.mean(y**2)noise_power=np.mean(noise_part**2)+1e-12return10*np.log10(signal_power/noise_power)records=[]forwavinlist(IN_DIR.glob('*.wav'))[:10]:y,sr=librosa.load(wav,sr=None,mono=True)before=snr_estimate(y,y[:int(0.5*sr)])y2=spectral_subtract(y,sr)after=snr_estimate(y2,y2[:int(0.5*sr)])sf.write(OUT_DIR/,y2,sr)records.append((,before,after,after-before))plt.figure(figsize=(8,3))librosa.display.waveshow(y,sr=sr,alpha=0.6,label='原始')librosa.display.waveshow(y2,sr=sr,alpha=0.6,label='降噪后')plt.legend();plt.title();plt.tight_layout();plt.show()print('文件名,降噪前SNR,降噪后SNR,提升值')forrinrecords:print(r)注意：简单SNR估计依赖噪声片段假设，真实项目应使用人工标注噪声段或专门指标。若降噪后SNR仍低于25dB，应进入返工、重采或人工审核。设计题：为城市声音采集设计众包任务，包含任务描述（采样率、时长3-5秒）、奖励机制（基础+高质量奖励）、质量控制（SNR检测、人工审核）。任务描述：采集交通、鸣笛、人群、施工、雨声、警笛、地铁、商场等城市声音；每条3-5秒；建议16kHz/44.1kHz、16bit、WAV、单声道；记录地点类型、时间段、设备和场景标签。奖励机制：通过基础质量检查即可获得基础报酬；稀缺场景、高SNR、标签准确、元数据完整可获得高质量奖励；重复、侵权、过度剪辑、含敏感隐私内容的样本不予通过。质量控制：自动检测时长、采样率、响度、静音比例、削波、SNR和重复音频；人工审核声音类别、隐私风险和背景干扰；对关键样本进行双人标注和专家复核。合规要求：避免采集可识别个人隐私的清晰谈话内容；必要时进行人声模糊或转录脱敏；记录授权和采集说明。分析题：分析城市声音数据集中背景噪声对语音识别的影响，提出3种降噪方法（谱减法、维纳滤波、深度学习）并比较其适用场景。背景噪声会掩盖语音特征，使声学模型难以区分音素、声调和词边界，导致识别错字、漏字或对齐失败。交通、风噪、多人说话和混响会降低信噪比，并造成训练集与实际部署场景不一致。方法特点适用场景局限谱减法估计噪声频谱并从原始频谱中扣除。稳定背景噪声、教学演示、轻量化预处理。对非平稳噪声效果有限，可能产生音乐噪声。维纳滤波基于信号与噪声统计估计最优滤波。噪声统计较稳定、实时性要求较高场景。依赖噪声估计，复杂环境下效果不稳定。深度学习降噪用神经网络学习噪声到干净语音的映射。复杂噪声、多说话人、真实城市环境。需要训练数据和算力，可能引入模型伪影。实践建议：先通过采集规范提高原始质量，再用轻量降噪处理常见噪声，对复杂噪声可采用深度学习模型，但必须保留原始音频和处理版本，避免不可追溯。实践题：使用MFA对10条中文语音进行字级对齐，生成TextGrid文件，检查2条对齐结果，分析误差原因并提出改进建议。MontrealForcedAligner（MFA）用于将音频与文本转写进行强制对齐，输出TextGrid等文件。参考步骤如下：#命令行示例，具体模型名称以本机MFA安装情况为准#1.准备目录：wav文件和同名txt转写文件#corpus/#utt001.wav#utt001.txt##2.下载或准备中文声学模型与词典#mfamodeldownloadacousticmandarin_mfa#mfamodeldownloaddictionarymandarin_china_mfa##3.执行对齐#mfaaligncorpusmandarin_china_mfamandarin_mfaaligned_output--clean检查2条TextGrid时，应打开Praat或可视化工具，核对字/词边界是否与波形和声谱图一致。常见误差原因包括转写文本错误、普通话发音与词典不一致、背景噪声过大、语速过快、音频切分不合理、静音段过长或采样率不统一。改进建议：修正转写文本；扩充自定义词典；先进行降噪和VAD切分；统一采样率；对低质量样本重录；必要时从字级对齐改为词级或音节级对齐。第7章文本处理与数据集生产案例1.理论题：比较BOW、TF-IDF和BERT上下文嵌入的优缺点，说明在中文知识问答数据集中选择BERT嵌入的原因。表示方法优点缺点适用场景BOW简单、可解释、计算成本低。忽略词序和语义，维度高且稀疏。文本分类入门、关键词统计。TF-IDF突出区分度高的词，适合检索和传统机器学习。仍难理解上下文、多义词和深层语义。关键词检索、基线模型、相似度初筛。BERT上下文嵌入能根据上下文表示词义，捕捉句子语义和问答匹配关系。计算成本高，需要模型和算力支持。语义检索、问答匹配、NER、文本理解。中文知识问答数据集选择BERT嵌入的原因是：问答任务不仅看关键词是否相同，还要理解语义等价、上下文关系和问题意图。BERT能够处理“苹果”在水果、公司、手机等不同上下文中的不同含义，也能提高相似问题归并、答案段落匹配和实体识别效果。前沿补充：当前RAG系统常将BERT类模型或更强的中文/多语种向量模型用于知识库检索，再由大语言模型生成答案。2.代码题：基于示例【7-4.ipynb】，编写脚本使用requests和BeautifulSoup抓取100篇新闻正文，保存为CSV，添加噪声过滤（去除广告、HTML标签）。抓取新闻应优先使用允许转载或开放API的数据源，遵守网站许可、robots.txt和访问频率。下面示例假设已有新闻URL列表news_urls.txt。importre,time,requests,pandasaspdfrombs4importBeautifulSoupheaders={'User-Agent':'DataEngineeringCourse/1.0'}records=[]defclean_text(html):soup=BeautifulSoup(html,'html.parser')fortaginsoup(['script','style','nav','footer','aside','iframe']):tag.decompose()text=soup.get_text('\n')lines=[]forlineintext.splitlines():line=re.sub(r'\s+','',line).strip()ifnotline:continueifany(kinlineforkin['广告','相关阅读','责任编辑','版权声明']):continueiflen(line)<10:continuelines.append(line)return'\n'.join(lines)withopen('news_urls.txt',encoding='utf-8')asf:urls=[u.strip()foruinfifu.strip()][:100]forurlinurls:try:r=requests.get(url,headers=headers,timeout=10)r.raise_for_status()content=clean_text(r.text)records.append({'url':url,'content':content,'length':len(content)})time.sleep(1)exceptExceptionase:records.append({'url':url,'content':'','length':0,'error':str(e)})df=pd.DataFrame(records)df.to_csv('news_corpus.csv',index=False,encoding='utf-8-sig')print(df[['url','length']].head())验收要点：CSV字段完整，正文无明显HTML标签、广告、导航文本和脚本内容；保留URL、抓取时间、长度、错误信息和来源许可。3.设计题：为中文知识问答数据集设计众包标注任务，包含任务描述（JSONL格式、问题类型）、奖励机制（基础+高质量奖励）、质量控制（双人标注、Kappa≥0.85）。任务描述：基于教材、百科或课程资料生成中文问答对。问题类型包括事实型、解释型、比较型、应用型、开放建议型；答案必须来源明确、完整通顺，不得编造。{"id":"qa_0001","source_id":"doc_001","question_type":"事实型","question":"人工智能数据工程的生命周期包括哪些环节？","answer":"包括需求分析、数据采集、数据处理与标注、质量控制与评估、交付与迭代等环节。","evidence":"第1章相关段落","annotator":"u01"}奖励机制：通过基础格式检查和内容审核获得基础奖励；高质量奖励依据答案完整性、证据准确性、问题多样性和低返工率发放。质量控制：每条QA由两名标注员独立完成或复核；对问题类型和答案正确性计算一致性；Kappa≥0.85为合格阈值；低于阈值时进行规范修订和复训。风险控制：禁止复制大段版权文本；答案要基于资料归纳；对涉及事实更新的内容标注日期；对争议内容提供来源和不确定性说明。4.分析题：分析多语言（中英混合）文本在分词和NER中的挑战，提出2种解决方案（如混合分词器、语言检测预处理）并比较其优劣。中英混合文本常见挑战包括：中文没有天然空格，英文有大小写和词形变化；同一实体可用中文、英文、缩写或音译表达；技术术语、品牌名、代码、URL和表情符号混杂；中英文标点和空格不统一；NER边界容易错切。方案做法优点不足混合分词器中文用jieba/HanLP，英文用spaCy或正则，统一处理数字、URL、邮箱和专名。实现相对简单，适合教学和规则清晰场景。规则维护成本高，对新词和复杂上下文适应性有限。语言检测预处理先按字符片段或句子识别语言，再分别调用对应分词和NER模型，最后合并结果。更精细，可按语言选择最优模型。语言切分错误会传递到后续步骤，混合实体边界仍难处理。多语种预训练模型使用mBERT、XLM-R或中文增强模型进行端到端NER。上下文理解更强，适合复杂语义。需要标注数据和算力，解释性较弱。实践中可采用“规则预处理+多语种模型+人工复核”的组合方式。5.实践题：基于示例【7-14.ipynb】，使用SpaCy对100条中文问答数据进行词性标注和NER，统计名词/动词Top10，绘制柱状图，分析实体分布。importpandasaspdfromcollectionsimportCounterimportmatplotlib.pyplotaspltimportspacy#需要安装中文模型，例如：python-mspacydownloadzh_core_web_smnlp=spacy.load('zh_core_web_sm')df=pd.read_csv('qa_100.csv')#字段：question,answertexts=(df['question'].fillna('')+''+df['answer'].fillna('')).tolist()noun_counter,verb_counter,ent_counter=Counter(),Counter(),Counter()fortextintexts:doc=nlp(text)fortokindoc:iftok.pos_in['NOUN','PROPN']:noun_counter[tok.text]+=1eliftok.pos_=='VERB':verb_counter[tok.text]+=1forentindoc.ents:ent_counter[ent.label_]+=1print('名词Top10:',noun_counter.most_common(10))print('动词Top10:',verb_counter.most_common(10))print('实体类型分布:',ent_c

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能数据工程基础-概念、方法与案例 习题参考答案

文档简介

温馨提示

最新文档

评论

相关文档

人工智能数据工程基础-概念、方法与案例习题参考答案