数据科学与工程行业案例教程-课件第7章食品安全行业大数据应用案例

上传人：h*** IP属地：山东上传时间：2026-06-07 格式：PPTX 页数：68 大小：6.74MB 积分：15 举报 版权申诉

已阅读5页，还剩63页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第7章

食品安全行业大数据应用案例数据科学与工程行业案例教程汇报人姓名汇报日期

了解食品安全现状与挑战，包括全球化供应链、微生物污染和化学污染对食品安全的影响。

熟悉大数据和区块链技术在提升食品质量安全管理中的应用方法及其重要性，包括数据收集与处理、数据分析以及区块链的基本特性和适用性。

掌握如何通过分析不良食品事件数据集来识别潜在的健康风险，并理解构建食品溯源平台的关键步骤。学习目标目录CONTENTS12345案例概述数据管理数据分析及可视化食品溯源小结6习题7.1案例概述食品安全关乎公众健康与社会稳定，然而在全球化背景下，食品供应链日益复杂，微生物污染、化学污染等问题频发，传统依赖人工记录和中心化管理的监管模式面临数据易篡改、追溯效率低、风险预警滞后等挑战。为应对这些问题，大数据与区块链技术展现出巨大潜力。大数据通过对生产、加工、运输、检测等多源信息的采集与分析，实现食品安全风险的识别、监测与预测；区块链则凭借其去中心化、不可篡改和可追溯的特性，构建透明可信的食品流通记录体系，有效提升供应链各环节的责任可追溯性。1.食品安全现状与挑战（1）食品安全的重要性食品安全是关系到公众健康、社会稳定和国家形象的重要议题。随着全球化进程的加快以及食品供应链的日益复杂化，食品从种植养殖、加工制造、物流运输到终端销售的各个环节中，信息不对称、数据不透明、责任难界定等问题日益突出。世界卫生组织（WHO）数据显示，全球每年有多达6亿人因吃了被污染的食物而生病，约造成42万人死亡（中国质量新闻网/pp/content/2015-12/07/content_2606546.htm），反映出当前食品安全管理体系存在重大漏洞。传统的食品安全监管方式依赖人工记录和中心化数据库，面临数据易篡改、追溯效率低、响应速度慢等挑战。例如，在某婴幼儿奶粉质量安全事件中，监管部门耗费数周时间才能完成问题批次的溯源工作，期间已造成大规模市场恐慌和经济损失。（2）现有挑战及技术解决方案①全球化供应链。随着食品生产与分配的全球化，食品安全面临前所未有的复杂性。跨国界的食品供应链使得追踪食品来源变得更加困难，一旦发生食品安全事件，迅速定位并控制源头变得尤为复杂。大数据分析可以通过收集来自不同环节的数据（如生产、加工、运输等），并对这些数据进行深入分析，帮助识别潜在风险点，及时发现并应对食品安全隐患。区块链技术由于其不可篡改性和透明度高的特点，非常适合用于构建食品安全追溯体系，确保每一个步骤都能被准确记录和追踪，从而增强消费者的信任感。通过这两种技术的结合使用，可以有效地提升食品供应链的透明度和可追溯性。7.1.1案例背景②微生物污染。细菌、病毒和寄生虫等微生物是引起食源性疾病的主要原因。大数据分析能够实时监控食品生产和流通环节中的微生物污染情况，通过对大量数据的快速处理和分析，及时预警可能存在的安全隐患。同时，区块链技术可以确保所有记录的数据真实可靠，防止任何篡改行为的发生，这对于食品安全至关重要。例如，在发生食源性疾病爆发时，利用区块链上的记录可以迅速确定污染源头，采取有效措施控制疾病传播。③化学污染。自然产生的毒素、环境污染物（如重金属铅、镉、汞）、工业化学品等化学物质也可能污染食物链，引发急性中毒或长期疾病，如癌症。大数据技术可以帮助监测和预测化学污染的风险，通过对历史数据的学习和模型预测，提前预防潜在的安全问题。区块链技术则可以确保从原材料采购到最终产品的每个阶段都符合严格的质量标准，任何不符合规定的操作都将被记录在案，无法篡改，从而提高了整个供应链的安全性。综上所述，当前食品安全面临的挑战是多方面的，但通过大数据与区块链技术的有效结合，可以在很大程度上解决这些问题。大数据提供了强大的数据分析能力，能够实时监控和预测食品安全风险；而区块链则保证了数据的真实性和不可篡改性，增强了食品安全管理的透明度和可靠性。这些技术的应用不仅有助于保护公众免受食源性疾病的威胁，还能促进更健康的未来。7.1.1案例背景本章包含两个案例，分别为大数据在食品安全管理中的应用。第一个案例利用美国食品药品监督管理局（FDA）食品安全与应用营养中心（CFSAN）的不良事件报告系统（CAERS）数据集，旨在通过数据分析和可视化手段探讨食品、膳食补充剂及化妆品相关的健康风险。第二个案例为虚拟案例，主要内容为模拟一个“Python区块链食品溯源系统”，该系统旨在记录和验证食品交易信息。通过这种方式，可以确保食品供应链的透明性和可追溯性。7.1.2案例描述为有效提升食品安全管理水平，必须依赖于准确且全面的数据。大数据技术提供了强大的工具和方法来实现这一目标。本节将探讨如何通过大数据技术分析不良食品事件数据集，以确保食品安全管理的有效性和可靠性。7.2数据管理1.案例数据来源数据集来源于美国食品药品监督管理局（FDA）食品安全与应用营养中心（CFSAN）的不良事件报告系统（CAERS），涵盖了2000年至2016年间关于食品、膳食补充剂及化妆品的不良事件报告。它包含了详细的报告信息，如报告编号、事件开始日期、产品角色（怀疑或伴随使用）、品牌/产品名称、消费者的年龄和性别等。该数据集旨在支持安全监测项目，通过分析这些数据可以识别出哪些产品可能导致健康风险，如死亡或其他严重症状，并发现不同性别和年龄段之间的差异。该数据集由12个字段组成，见表7.1。7.2数据管理表7.1不良食品事件数据集CAERS数据字段名称描述1.RA_Report#标识每一例不良事件的唯一编号2.RA_CAERSCreatedDate数据首次录入CAERS系统的日期3.AEC_EventStartDate消费者首次经历不良事件的报告日期4.PRI_ProductRole产品在事件中的角色5.PRI_ReportedBrand/ProductName报告中提及的消费者所使用产品的确切品牌和/或产品名称6.PRI_FDAIndustryCode与所报告产品类型相关联的FDA行业代码7.PRI_FDAIndustryName与所报告产品类型相关联的FDA行业描述（如：冰淇淋产品、化妆品、咖啡/茶等）8.CI_AgeatAdverseEvent遭遇不良食品事件的消费者的年龄7.2数据管理续表7.1不良食品事件数据集CAERS数据字段名称描述9.CI_AgeUnit遭遇不良食品事件时年龄字段中提供的年龄的时间单位（天、周、月、年）10.CI_Gender遭遇不良食品事件的个体性别11.AEC_OneRowOutcomes报告人所描述的受伤消费者经历的不良食品事件的结果；每份报告可包含一个或多个结果12.SYM_OneRowCodedSymptoms报告人所描述的受伤消费者经历的症状，由FDA根据《监管活动医学数据词典》（MedDRA）进行标准化编码；每份报告可包含一个或多个症状2.数据收集本案例数据集采用网络下载的方式获取，下载地址为：/datasets/fda/adverse-food-events/data。进入数据集主页后单击Download按钮，进行注册登录后即可下载，如图7.1所示。7.2数据管理图7.1Kaggle不良食品事件数据集7.3数据分析及可视化1.数据加载（1）安装导入第三方库首先在cmd中安装所需的第三方库，如有缺失可按照终端提示进行相应第三方库的安装。pipinstallpandasmatplotlibseaborn然后导入第三方库，由于后续需要绘制图形，为解决中文和负号显示问题，此处提前设置字体为黑体并设置使用ASCII字符表示负号，代码如下。importpandasaspdimportmatplotlib.pyplotaspltimportseabornassns#设置字体为黑体并解决负号显示问题plt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus']=False（2）读取并预览数据使用pd.read_csv()函数读取数据，并将其存储在adverse_food_events变量中。#读取CSV文件adverse_food_events=pd.read_csv("./CAERS_ASCII_2004_2017Q2.csv")7.3数据分析及可视化#显示前几行数据以检查adverse_food_events.head()程序运行结果如图7.2所示。7.3数据分析及可视化图7.2程序运行结果2.数据处理由图7.2运行结果可知，列名虽然规范但使用起来不够用好，因此，本案例首先对列名进行重命名，代码如下。#重命名列adverse_food_events=adverse_food_events.rename(columns={'RA_Report#':'ReportNo','RA_CAERSCreatedDate':'CreatedDate','AEC_EventStartDate':'StartDate','PRI_ProductRole':'ProductRole','PRI_ReportedBrand/ProductName':'ProductName','PRI_FDAIndustryName':'IndustryName','CI_AgeUnit':'AgeUnit','CI_AgeatAdverseEvent':'AgeAtAdverseEvent','CI_Gender':'Gender','AEC_OneRowOutcomes':'Outcomes','SYM_OneRowCodedSymptoms':'Symptoms'})7.3数据分析及可视化#打印新的列名print(adverse_food_events.columns)程序运行结果如下。Index(['ReportNo','CreatedDate','StartDate','ProductRole','ProductName','PRI_FDAIndustryCode','IndustryName','AgeAtAdverseEvent','AgeUnit','Gender','Outcomes','Symptoms'],dtype='object')3.数据分析本案例从症状、产品、行业、报告结果、年龄和报告结果较为严重的群体所使用的产品6个不同角度对不良食品事件数据进行分析，以供读者参考。（1）不良食品事件中出现频率最高的症状本段代码对不良食品事件数据集中的症状信息进行了清洗、统计和可视化分析。首先，将Symptoms列中用逗号分隔的多个症状拆分为单独的行，并进行数据清洗，去除空格和缺失值。随后，统计每个症状出现的频次，并按频率从高到低排序，提取出现次数最多的前五个症状。最后，使用条形图将结果可视化，展示最常见的五种症状及其发生数量。7.3数据分析及可视化#将Symptoms列按逗号分割成多个行symptoms_exploded=adverse_food_events['Symptoms'].str.split(',').explode()#去除空格和缺失值symptoms_cleaned=symptoms_exploded.str.strip().dropna()#计算每个症状的出现次数（默认按出现次数降序排序）symptom_counts=symptoms_cleaned.value_counts().reset_index()symptom_counts.columns=['SymptomName','Count']#取前5个症状top_symptoms=symptom_counts.head(5)#绘制条形图plt.figure(figsize=(10,8))ax=sns.barplot(x='Count',y='SymptomName',data=top_symptoms)7.3数据分析及可视化#使用bar_label方法自动添加标签ax.bar_label(ax.containers[0],label_type='edge',fontsize=22,padding=3)ax.set_xlabel('数量',fontsize=22)ax.set_ylabel('症状',fontsize=22)ax.set_title('症状及其数量',fontsize=24)#设置坐标轴刻度字号ax.tick_params(axis='both',which='major',labelsize=22)#保存图片output_filename="symptom_bar_plot.tif"plt.savefig(output_filename,bbox_inches='tight')plt.show()7.3数据分析及可视化程序运行结果如图7.3所示。由程序运行结果可知排名前五的症状分别为：DIARRHOEA（腹泻）、VOMITING（呕吐）、NAUSEA（恶心）、ABDOMINALPAIN（腹痛）和MALAISE（全身不适）。7.3数据分析及可视化图7.3程序运行结果（2）不良食品事件中出现频率最高的产品本段代码对不良食品事件数据集中的产品信息进行统计分析与可视化展示。首先，通过groupby方法按ProductName（产品名称）对数据进行分组，并使用size()函数计算每个产品出现的次数，得到各产品的报告频次，结果以Count列的形式存储。随后，将统计结果按出现次数降序排列，并选取频次最高的前5个产品作为分析重点。为了在图表中更清晰地呈现结果，代码将ProductName列转换为有序分类类型（Categorical），确保条形图中的产品按指定顺序排列。#按ProductName分组并计算出现次数product_counts=adverse_food_events.groupby('ProductName').size().reset_index(name='Count')#按Count降序排序并取前5个产品top_products=product_counts.sort_values(by='Count',ascending=False).head(5)#重新排序ProductName以便在条形图中按顺序显示top_products['ProductName']=pd.Categorical(top_products['ProductName'],categories=top_products['ProductName'],ordered=True)7.3数据分析及可视化#绘制条形图plt.figure(figsize=(10,8))ax=sns.barplot(x='Count',y='ProductName',data=top_products,color='skyblue')#使用bar_label方法自动添加标签ax.bar_label(ax.containers[0],label_type='edge',fontsize=22,padding=3)#设置标签和标题ax.set_xlabel('数量',fontsize=22)ax.set_ylabel('产品',fontsize=22)ax.set_title('产品及其数量',fontsize=24)#设置坐标轴刻度字号ax.tick_params(axis='both',which='major',labelsize=22)#保存图片output_filename="product_bar_plot.tif"plt.savefig(output_filename,bbox_inches='tight')plt.show()7.3数据分析及可视化程序运行结果如图7.4所示。由运行结果可知，除REDACTED（已编辑/隐藏）因保密或其他原因被删除或隐藏外，排名前四的产品分别为：VITAMIND（维生素D）、MULTIVITAMIN（多种维生素）、SUPERBETAPROSTATE（超级β前列腺）和FISHOIL（鱼油）。7.3数据分析及可视化图7.4程序运行结果（3）不良食品事件中出现频率最高的行业本段代码用于分析不良食品事件数据集中涉及的行业分布情况。通过对数据按IndustryName（行业名称）进行分组并统计每个行业出现的次数，代码筛选出报告数量最多的前5个行业，并使用条形图将其可视化展示。#按IndustryName分组并计算出现次数industry_counts=adverse_food_events.groupby('IndustryName').size().reset_index(name='Count')#按Count降序排序并取前5个行业top_industries=industry_counts.sort_values(by='Count',ascending=False).head(5)#重新排序IndustryName以便在条形图中按顺序显示top_industries['IndustryName']=pd.Categorical(top_industries['IndustryName'],categories=top_industries['IndustryName'],ordered=True)#绘制条形图plt.figure(figsize=(10,8))ax=sns.barplot(x='Count',y='IndustryName',data=top_industries,color='skyblue')7.3数据分析及可视化#使用bar_label方法自动添加标签ax.bar_label(ax.containers[0],label_type='edge',fontsize=22,padding=3)#设置标签和标题ax.set_xlabel('数量',fontsize=22)ax.set_ylabel('行业',fontsize=22)ax.set_title('行业及其数量',fontsize=24)#设置坐标轴刻度字号ax.tick_params(axis='both',which='major',labelsize=22)#保存图片output_filename="industry_bar_plot.tif"plt.savefig(output_filename,bbox_inches='tight')plt.show()7.3数据分析及可视化程序运行结果如图7.5所示。由运行结果可知排名前五的行业分别为：Vit/Min/Prot/UnconvDiet（Human/Animal）（人用/动物用的维生素/矿物质/蛋白质/非常规饮食）、Cosmetics（化妆品）、Nuts/EdibleSeed（坚果/可食用种子）、Vegetables/VegetableProducts（蔬菜/蔬菜制品）和SoftDrink/Water（软饮料/饮用水）。7.3数据分析及可视化图7.5程序运行结果（4）不良食品事件中出现频率最高的报告结果本段代码对不良食品事件数据集中的“结果（Outcomes）”字段进行了分析，用于统计并可视化最常见的不良事件结果类型。由于原始数据中“Outcomes”列可能包含多个结果，代码首先对这些结果进行拆分，并将每条结果单独展开为一行，形成结构化的数据格式。随后，对每种结果进行清洗和统计，计算其出现次数，并选取出现频率最高的前10项进行展示。最后，使用条形图将这些结果按发生次数从高到低进行可视化呈现，便于直观识别哪些结果在不良食品事件中最为常见。#拆分Outcomes列outcomes_split=adverse_food_events['Outcomes'].str.split(',')#展开成新的DataFrameall_outcomes=outcomes_split.explode().reset_index(drop=True).to_frame(name='OutcomeName')#去除前后空格all_outcomes['OutcomeName']=all_outcomes['OutcomeName'].str.strip()#统计每个OutcomeName的出现次数7.3数据分析及可视化outcome_counts=all_outcomes.groupby('OutcomeName').size().reset_index(name='Count')#按Count降序排序并取前10个结果top_outcome_counts=outcome_counts.sort_values(by='Count',ascending=False).head(10)#重新排序OutcomeName以便在条形图中按顺序显示top_outcome_counts['OutcomeName']=pd.Categorical(top_outcome_counts['OutcomeName'],categories=top_outcome_counts['OutcomeName'],ordered=True)#绘制条形图plt.figure(figsize=(10,8))ax=sns.barplot(x='Count',y='OutcomeName',data=top_outcome_counts,color='skyblue')7.3数据分析及可视化#使用bar_label方法自动添加标签ax.bar_label(ax.containers[0],label_type='edge',fontsize=22,padding=3)#设置标签和标题ax.set_xlabel('数量',fontsize=22)ax.set_ylabel('结果',fontsize=22)ax.set_title('结果及其数量',fontsize=24)#设置坐标轴刻度字号ax.tick_params(axis='both',which='major',labelsize=22)#保存图片output_filename="outcome_bar_plot.tif"plt.savefig(output_filename,bbox_inches='tight')plt.show()程序运行结果如图7.6所示。7.3数据分析及可视化7.3数据分析及可视化图7.6程序运行结果由运行结果可知，排名前10的报告结果分别为：①OTHERSERIOUS(IMPORTANTMEDICALEVENTS)：其他严重事件（重要的医学事件）。指那些可能不是直接威胁生命或导致死亡、残疾，但被认为是严重的，需要医学关注的重要事件。②NON-SERIOUSINJURIES/ILLNESS：非严重伤害/疾病。指的是那些不会导致严重后果，如不威胁生命、不需要住院治疗、也不会造成永久性损伤的伤害或疾病。③VISITEDAHEALTHCAREPROVIDER：访问医疗服务提供者。表示患者因为不良事件而寻求了医生或其他医疗服务提供者的帮助。④HOSPITALIZATION：住院。指由于不良事件的影响，患者需要入院接受治疗的情况。⑤VISITEDANER：访问急诊室。指患者因不良事件而前往急诊室求医的情况。⑥LIFETHREATENING：生命威胁。指的是不良事件对患者的生命构成了直接威胁。⑦SERIOUSINJURIES/ILLNESS：严重伤害/疾病。指那些可能导致长期损害、威胁生命、需要医疗干预或者延长现有住院时间的伤害或疾病。⑧REQ.INTERVENTIONTOPRVNTPERM.IMPRMNT.：需要干预以防止永久性损伤。表示为了预防永久性的身体功能损伤或恶化，必须进行医疗干预。⑨DISABILITY：残疾。指不良事件导致了暂时或永久的功能丧失或能力下降。⑩DEATH：死亡。指不良事件最终导致了患者的死亡。7.3数据分析及可视化（5）不良食品事件中出现频率最高和最低的年龄为查看不良事件是否与年龄有直接关系，本案例还对数据集中的年龄做了统计分析。由于年龄中存在异常值，且80以上自带基础病较多，因此本案例首先过滤年龄中的非整数和异常值，并只针对0-80岁的数据进行分析。此外，原始数据中的年龄字段存在不同单位，因此还需要对该字段进行标准化处理。随后按照数量进行降序，取前10个和后10个年龄段进行可视化。#年龄处理deftransform_into_years(row):ifnotpd.isna(row["AgeAtAdverseEvent"]):x=float(row["AgeAtAdverseEvent"])row["AgeAtAdverseEventInYears"]=x#默认赋值ifrow["AgeUnit"]=="Month(s)":row["AgeAtAdverseEventInYears"]=x/12elifrow["AgeUnit"]=="Week(s)":row["AgeAtAdverseEventInYears"]=x*7/365elifrow["AgeUnit"]=="Day(s)":row["AgeAtAdverseEventInYears"]=x/3657.3数据分析及可视化elifrow["AgeUnit"]=="Decade(s)":row["AgeAtAdverseEventInYears"]=x*10returnrow#应用转换函数到每一行adverse_food_events=adverse_food_events.apply(transform_into_years,axis=1)#转换为数值类型并过滤非整数及异常值adverse_food_events["AgeAtAdverseEventInYears"]=pd.to_numeric(adverse_food_events["AgeAtAdverseEventInYears"],errors='coerce')#设置合理的年龄范围（单位：年）以及只保留整数年龄min_age=0max_age=807.3数据分析及可视化age0_80_adverse_food_events=adverse_food_events[(adverse_food_events['AgeAtAdverseEventInYears']>=min_age)&(adverse_food_events['AgeAtAdverseEventInYears']<=max_age)&(adverse_food_events['AgeAtAdverseEventInYears'].apply(lambdaage:age.is_integer()ifpd.notnull(age)elseTrue))]#统计每个年龄段的事件数量age_counts=(age0_80_adverse_food_events.dropna(subset=["AgeAtAdverseEventInYears"]).groupby("AgeAtAdverseEventInYears").size().reset_index(name="Count"))7.3数据分析及可视化#合并前10和后10，保持降序排列的顺序combined=pd.concat([top_10,bottom_10],ignore_index=True)#设置Categorical保持合并后的顺序combined['AgeAtAdverseEventInYears']=pd.Categorical(combined['AgeAtAdverseEventInYears'],categories=combined['AgeAtAdverseEventInYears'],ordered=True)#绘图plt.figure(figsize=(10,8))ax=sns.barplot(x="Count",y="AgeAtAdverseEventInYears",data=combined,color='skyblue')#添加数据标签ax.bar_label(ax.containers[0],label_type='edge',fontsize=22,padding=3)7.3数据分析及可视化#设置标签和标题ax.set_xlabel('数量',fontsize=22)ax.set_ylabel('年龄（年）',fontsize=22)ax.set_title('Top10与Bottom10年龄段及其数量',fontsize=24)#设置坐标轴刻度字号ax.tick_params(axis='both',which='major',labelsize=22)#保存图片output_filename="top_bottom_10_age_bar_plot_correct_order.tif"plt.savefig(output_filename,bbox_inches='tight')plt.show()7.3数据分析及可视化程序运行结果如图7.7所示。由运行结果可知，不良食品事件大致与年龄的增长成正相关，既年龄越大的群体发生不良食品事件的数量越多。7.3数据分析及可视化图7.7程序运行结果（6）死亡、70岁及以上人员死亡、残疾人员中出现频率最高的产品本段代码围绕不良食品事件数据集中的“结果（Outcomes）”字段，重点分析与死亡和残疾相关的不良事件，并进一步识别出与此类严重后果相关的产品。代码首先对“结果”列进行拆分和展开，以便单独统计每种结果的出现频率。随后，分别针对“死亡（DEATH）”和“残疾（DISABILITY）”两类严重后果进行数据过滤，并结合产品名称进行分析，筛选出与这些结果关联最频繁的前五种产品。为进一步挖掘高风险人群中的情况，代码还特别关注了年龄在70岁及以上的死亡案例，分析哪些产品与老年群体的死亡报告密切相关。最终，通过三幅条形图分别展示了：与“死亡”相关的前五种产品、与70岁以上人群“死亡”相关的前五种产品、与“残疾”相关的前五种产品。#拆分Outcomes列outcomes_split=adverse_food_events['Outcomes'].str.split(',')#展开成新的DataFrameall_outcomes=outcomes_split.explode().reset_index(drop=True).to_frame(name='OutcomeName')#去除前后空格all_outcomes['OutcomeName']=all_outcomes['OutcomeName'].str.strip()#关键词keyword_outcome="DEATH"7.3数据分析及可视化#过滤包含特定关键词的行outcome_specific_events=adverse_food_events[adverse_food_events['Outcomes'].str.contains(keyword_outcome)]#进一步过滤条件filtered_events=outcome_specific_events[outcome_specific_events['ProductName']!="REDACTED"]#获取前五个产品top_products_1=filtered_events['ProductName'].value_counts().head(5).index.tolist()df_top_1=filtered_events[filtered_events['ProductName'].isin(top_products_1)]#绘制第一个图并保存为tifplt.figure(figsize=(10,8))ax=sns.countplot(y='ProductName',data=df_top_1,order=top_products_1,color="red")ax.bar_label(ax.containers[0],label_type='edge',fontsize=22,padding=3)ax.set_xlabel('数量',fontsize=22)ax.set_ylabel('产品名称',fontsize=22)7.3数据分析及可视化ax.set_title('DEATH-过滤后的产品(排除REDACTED)',fontsize=24)ax.tick_params(axis='both',which='major',labelsize=22)output_filename_1="death_filtered_products.tif"plt.savefig(output_filename_1,bbox_inches='tight')plt.show()#过滤年龄大于等于70岁filtered_events_age=filtered_events[filtered_events['AgeAtAdverseEventInYears']>=70]#获取前五个产品top_products_2=filtered_events_age['ProductName'].value_counts().head(5).index.tolist()df_top_2=filtered_events_age[filtered_events_age['ProductName'].isin(top_products_2)]7.3数据分析及可视化#绘制第二个图并保存为tifplt.figure(figsize=(10,8))ax=sns.countplot(y='ProductName',data=df_top_2,order=top_products_2,color="red")ax.bar_label(ax.containers[0],label_type='edge',fontsize=22,padding=3)ax.set_xlabel('数量',fontsize=22)ax.set_ylabel('产品名称',fontsize=22)ax.set_title('DEATH-年龄>=70的产品(排除REDACTED)',fontsize=24)ax.tick_params(axis='both',which='major',labelsize=22)output_filename_2="death_filtered_products_age.tif"plt.savefig(output_filename_2,bbox_inches='tight')plt.show()#更改关键词keyword_outcome="DISABILITY"7.3数据分析及可视化#过滤包含特定关键词的行outcome_specific_events_disability=adverse_food_events[adverse_food_events['Outcomes'].str.contains(keyword_outcome)]#获取前五个产品top_products_3=outcome_specific_events_disability['ProductName'].value_counts().head(5).index.tolist()df_top_3=outcome_specific_events_disability[outcome_specific_events_disability['ProductName'].isin(top_products_3)]#绘制第三个图并保存为tifplt.figure(figsize=(10,8))ax=sns.countplot(y='ProductName',data=df_top_3,order=top_products_3,color="blue")ax.bar_label(ax.containers[0],label_type='edge',fontsize=22,padding=3)ax.set_xlabel('数量',fontsize=22)ax.set_ylabel('产品名称',fontsize=22)ax.set_title('DISABILITY-过滤后的产品',fontsize=24)7.3数据分析及可视化ax.tick_params(axis='both',which='major',labelsize=22)output_filename_3="disability_filtered_products.tif"plt.savefig(output_filename_3,bbox_inches='tight')plt.show()程序运行结果如图所示。7.3数据分析及可视化由运行结果可知，RawOysters（生蚝）、Axon（阿克松膳食补充剂）、BenefiberwithWheatDextrin（含小麦糊精的Benefiber膳食纤维补充剂）和HourEnergy（5小时能量饮料）在不良食品事件中是最容易导致死亡的5种产品，而VitaminD（维生素D）、MultiVitamin（多种维生素）、FishOil（鱼油）、CALCIUM（钙）和VitaminC（维生素C）在不良食品事件中则是最容易导致残疾的5种产品。7.3数据分析及可视化6.结论通过分析2000年至2016年间美国食品药品监督管理局（FDA）食品安全与应用营养中心（CFSAN）的不良事件报告系统（CAERS）数据集，本案例探讨了食品、膳食补充剂及化妆品相关的健康风险。以下是对该研究的主要结论：（1）常见症状：数据分析揭示了在不良食品事件中出现频率最高的五种症状分别是腹泻、呕吐、恶心、腹痛和全身不适。这表明肠胃问题是最常见的健康风险之一。（2）涉及的产品类型及其所属行业：维生素D、多种维生素、超级β前列腺和鱼油是报告中最常提及的产品。而人用/动物用的维生素/矿物质/蛋白质/非常规饮食、化妆品、坚果/可食用种子、蔬菜/蔬菜制品以及软饮料/饮用水则是报告数量最多的五个行业领域。（3）不同年龄段受影响的情况：研究发现不良食品事件的数量大致与年龄增长成正相关，即年纪越大的群体发生不良事件的概率越高。此外，特别关注了老年人群中的严重后果，如死亡或残疾。（4）高风险产品：对于导致死亡的事件，生蚝、阿克松膳食补充剂、含小麦糊精的Benefiber膳食纤维补充剂和5小时能量饮料是最容易引发死亡的五种产品。而对于导致残疾的事件，维生素D、多种维生素、鱼油、钙和维生素C是最常关联的产品。虽然通过数据分析我们能够识别出某些趋势和模式，如特定症状、产品以及行业与不良健康事件之间的关联，但这些发现并不能替代专业医疗意见。7.3数据分析及可视化7.4食品溯源1.平台整体架构设计构建一个面向食品行业的区块链溯源平台，需采用模块化组件设计，确保系统的灵活性与可扩展性。该平台通常由以下四个核心层级组成：（1）数据采集层负责采集食品全生命周期中的关键数据，包括生产环境参数（如温度、湿度）、加工工艺、物流路径、质检报告等。借助物联网设备（如传感器、RFID标签、GPS定位系统），实现数据的实时采集与上传，确保信息真实可靠。（2）数据存储层利用区块链技术进行分布式存储，确保数据不可篡改与高可用性。每条数据经过哈希加密处理后被打包成区块，并通过共识机制上链，形成一条完整且不可更改的数据链。（3）智能合约层用于自动执行预设业务逻辑，如订单确认、质量检测、付款结算等，减少人工干预，提高效率并增强交易安全性。（4）应用层面向消费者、企业和监管部门提供可视化查询、分析与预警服务。例如：消费者扫码即可查看产品溯源信息；企业端可实时监控生产进度与库存状态；监管端可动态获取数据，实施风险预警与联合执法。7.4.1构建食品溯源平台2.数据上链流程为了确保食品安全管理的有效性和透明度，食品企业需要建立标准化的数据上链流程。这一流程不仅包括数据的采集和初步验证，还涉及数据的打包、共识机制以及数据共享与访问控制。通过这些步骤，可以确保所有参与方提供的信息真实有效，并实现供应链各方的高效协作和信息透明。（1）数据采集与初步验证食品企业在实施区块链溯源时，需建立标准化的数据上链流程，确保所有参与方提供的信息真实有效。首先，在数据采集与初步验证阶段，各参与方（如供应商、加工厂、物流企业等）需要在各自环节中收集并记录食品相关的详细数据，包括原材料采购单、质检报告和物流轨迹等。这些数据在上传至区块链平台前，必须进行严格的初步验证，以确保其真实性和完整性。每个参与方使用自己的私钥对上传的数据进行数字签名，保证数据来源的真实性，并防止数据被篡改。同时，对上传的数据生成唯一的哈希值，并将其与原始数据进行比对，以确认数据未被修改。如果哈希值匹配，则说明数据完整无误；否则，系统会拒绝该数据上传。此外，还可以引入第三方认证机构对关键数据进行审核，进一步增强数据的可信度。7.4.1构建食品溯源平台（2）数据打包与共识上链经过初步验证的数据会被临时存储在一个待处理队列中，等待被打包成区块。每个区块通常包含前一区块的哈希值、当前区块的时间戳以及交易数据（即经过验证的食品相关数据）。为了确保数据的一致性和安全性，采用联盟链中的共识机制来达成多方认可。常见的共识算法包括实用拜占庭容错（PBFT）和权威证明（PoA）。一旦数据通过共识机制的验证，就会被正式写入区块链，形成不可更改的历史记录。这一过程不仅提高了数据的安全性，还增强了整个供应链的透明度。（3）数据共享与访问控制在数据共享与访问控制阶段，区块链技术的一个重要特点是去中心化和分布式账本，这意味着所有授权的参与方都可以查看链上的数据。为了实现高效的数据共享，通常会设置一个统一的数据管理平台，供各方查询和更新相关信息。例如，供应商可以通过平台查看其原材料的流向，确保产品质量；加工厂可以获取上游供应商的数据，以便更好地安排生产和质量控制；物流企业可以实时监控运输状态，优化配送路线和服务质量；消费者可以通过扫描产品二维码直接访问区块链上的溯源信息，了解产品的全生命周期。7.4.1构建食品溯源平台近年来，国内外多个企业和机构积极探索大数据及区块链技术在食品领域的应用，并取得了初步成效，形成了具有代表性的实践案例。其中，沃尔玛联合IBM与清华大学，进行了食品追溯试点项目，以提升供应链透明度和食品安全。该项目选取猪肉作为试点产品，通过二维码标签记录生产、运输等各环节信息，并将数据上传至区块链平台，确保信息透明且不可篡改。试点结果显示，定位一批次产品仅需不到10秒，极大提升了溯源速度和效率，同时降低了产品质量风险。该项目荣获2017CCFA零售创新大奖（供应链及产品创新），展示了区块链在食品行业应用的巨大潜力，为构建更安全高效的食品体系提供了成功范例。7.4.1构建食品溯源平台1.系统简介本节将模拟一个Python食品溯源系统，该系统旨在记录和验证食品交易信息。通过这种方式，可以确保食品供应链的透明性和可追溯性。其主要功能包括：（1）初始化区块链：创建创世区块，即区块链的第一个区块。添加交易：在下一个待挖取区块中记录食品流转信息，包括发送者、接收者和食品详细信息。（2）挖掘新区块：通过工作量证明（ProofofWork,PoW）算法找到合适的哈希值，从而完成新区块的生成。（3）验证哈希值：检查生成的哈希值是否满足条件（以四个零开头），确保数据的有效性。（4）数据可视化：使用Pandas和Matplotlib库对存储在区块链中的食品流转数据进行统计和可视化展示。2.系统演示本案例在主程序部分创建一个视频溯源实例，并添加部分食品交易信息。然后，进行工作量证明以找到新区块的证明，并将这些交易打包成一个新的区块。最后，打印整个区块链的内容，并调用可视化函数来展示食品流转的数量统计图。7.4.2案例实操（1）安装并导入Python库首先在cmd中使用pip命令安装第三方库。pipinstallpandasmatplotlib随后，导入Python库。importhashlibimportjsonfromtimeimporttimeimportpandasaspdimportmatplotlib.pyplotasplt因为需要使用matplotlib进行可视化，所以预先解决字体和负号显示问题。#设置字体为黑体plt.rcParams['font.sans-serif']=['SimHei']#解决负号显示问题plt.rcParams['axes.unicode_minus']=False7.4.2案例实操（2）定义Blockchain类本段代码定义Blockchain类，构建了区块链的核心结构，包括区块生成、交易记录、哈希计算和工作量证明机制，能够模拟食品在供应链各环节中的流转过程，并将关键信息记录在不可篡改的区块链上。同时，代码中还引入了可视化函数visualize_food_transfers，利用pandas和matplotlib对食品流转数据进行统计与图形展示，增强数据的可读性和分析能力。classBlockchain:def__init__(self):#初始化区块链，创建一个空的链和当前交易列表self.chain=[]self.current_transactions=[]#创建创世区块（第一个区块）self.new_block(previous_hash='1',proof=100)7.4.2案例实操defnew_block(self,proof,previous_hash=None):"""

创建一个新的区块并将其添加到链中:paramproof:由工作量证明算法提供的证明:paramprevious_hash:前一个区块的哈希值:return:新区块"""#构建区块字典block={'index':len(self.chain)+1,#区块索引'timestamp':time(),#时间戳'transactions':self.current_transactions,#当前区块的交易列表'proof':proof,#工作量证明'previous_hash':previous_hashorself.hash(self.chain[-1]),#前一个区块的哈希值}7.4.2案例实操#重置当前交易列表，准备下一个区块的交易self.current_transactions=[]#将新生成的区块添加到区块链中self.chain.append(block)returnblockdefnew_transaction(self,sender,recipient,food_info):"""

在下一个待挖取的区块中创建一笔新的交易:paramsender:发送者的地址:paramrecipient:接收者的地址:paramfood_info:食品信息:return:将会持有这笔交易的区块的索引"""7.4.2案例实操#创建交易字典并添加到当前交易列表中self.current_transactions.append({'sender':sender,'recipient':recipient,'food_info':food_info,})#返回将要保存这笔交易的区块索引returnself.last_block['index']+1@propertydeflast_block(self):"""返回区块链中的最后一个区块"""returnself.chain[-1]@staticmethoddefhash(block):"""7.4.2案例实操

给定一个区块字典，返回其SHA-256哈希值:paramblock:区块:return:字符串形式的哈希值"""#确保字典是有序的，以避免不同顺序导致不同的哈希值block_string=json.dumps(block,sort_keys=True).encode()returnhashlib.sha256(block_string).hexdigest()defproof_of_work(self,last_proof):"""

简单的工作量证明算法：-查找一个p'使得hash(pp')以四个零开头-p是上一个区块的证明，而p'是新区块的证明:paramlast_proof:上一个区块的证明:return:新区块的证明"""7.4.2案例实操proof=0#循环直到找到有效的证明whileself.valid_proof(last_proof,proof)isFalse:proof+=1returnproof@staticmethoddefvalid_proof(last_proof,proof):"""

验证证明：是否hash(last_proof,proof)以四个零开头？:paramlast_proof:上一个区块的证明:paramproof:当前区块的证明:return:如果正确则为True，否则False"""7.4.2案例实操#构造猜测字符串guess=f'{last_proof}{proof}'.encode()#计算猜测字符串的SHA-256哈希值guess_hash=hashlib.sha256(guess).hexdigest()#检查哈希值是否以四个零开头returnguess_hash[:4]=="0000"defvisualize_food_transfers(blockchain):"""

可视化区块链中的食品流转数据，并将结果保存为TIFF格式图片"""transactions=[]#遍历区块链中的所有区块，收集所有交易forblockinblockchain.chain:transactions.extend(block['transactions'])7.4.2案例实操food_types={}#统计每种食品类型的数量fortxintransactions:food_type=tx['food_info']['类型']iffood_typeinfood_types:food_types[food_type]+=1else:food_types[food_type]=1#将统计结果转换为DataFramedf=pd.DataFrame(list(food_types.items()),columns=['食品类型','数量'])#设置字体大小plt.rcParams.update({'font.size':22,#全局字体大小'axes.titlesize':24,#标题字体大小'axes.labelsize':22,#坐标轴标签字体大小7.4.2案例实操'xtick.labelsize':22,#x轴刻度字体大小'ytick.labelsize':22,#y轴刻度字体大小'legend.fontsize':22#图例字体大小})#使用Matplotlib绘制柱状图ax=df.plot(kind='bar',x='食品类型',y='数量',legend=False,color='skyblue',edgecolor='black')plt.title('食品流转数量统计')plt.xlabel('食品类型')plt.ylabel('数量')plt.xticks(rotation=0)#保持x轴标签水平显示plt.tight_layout()#自动调整布局，防止重叠#保存为TIFF格式图片plt.savefig('food_transfers_statistics.tif',format='tiff',dpi=300,bbox_inches='tight')plt.show()7.4.2案例实操（3）主函数本段代码为系统主函数，演示了如何使用Blockchain类构建一个简单的食品流转区块链系统，依次添加了三条食品交易记录，并通过工作量证明机制生成新区块，将交易信息写入链中。最后输出完整的区块链结构

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据科学与工程行业案例教程-课件第7章食品安全行业大数据应用案例

文档简介

温馨提示

最新文档

评论

数据科学与工程行业案例教程-课件 第7章食品安全行业大数据应用案例

文档简介

温馨提示

最新文档

评论

相关文档

数据科学与工程行业案例教程-课件第7章食品安全行业大数据应用案例