卷烟主流烟气及其物理化学检测数据的挖掘与信息抽提.pdf_第1页
卷烟主流烟气及其物理化学检测数据的挖掘与信息抽提.pdf_第2页
卷烟主流烟气及其物理化学检测数据的挖掘与信息抽提.pdf_第3页
卷烟主流烟气及其物理化学检测数据的挖掘与信息抽提.pdf_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Vol 33 No 1 2007 02 华 东 理 工 大 学 学 报 自 然 科 学 版 Journal of East China University of Science and Technology Natural Science Edition 收稿日期 2005 12 14 作者简介 倪力军 1963 女 湖南益阳人 副研究员 博士 主要从事天然产物分析与质量控制 通讯联系人 张立国 hardtimes ecust edu cn 文章编号 1006 3080 2007 01 0079 05 卷烟主流烟气及其物理化学检测数据的挖掘与信息抽提 倪力军 郭 佳 张 鑫 张立国 华东理工大学化学与分子工程学院 上海 200237 摘要 应用因子分析与典型相关分析方法对卷烟生产企业批量样品实际检测的 18 个检测指标 进行了数据挖掘与信息抽提 因子分析表明 可用 12 个独立的公共因子来描述卷烟质量 其中主 流烟气中的总粒相物 烟碱 焦油与物理指标稀释率 闭式吸阻相关性很强 且可用第一主因子来体 现其对卷烟质量的影响 第二主因子主要体现了总氮的信息 前两个主因子占总信息量的 66 典型相关分析表明 卷烟主流烟气与物理化学信息间存在显著的整体相关 其中反映主流烟气信息 的 U 典型变量主要来自总粒相物 焦油 烟碱 水分 水分含率及抽吸口数的贡献 反映物理 化学 指标信息的 V 典型变量主要来自稀释率 闭式吸阻 单支重及总糖 氯等化学指标的贡献 其中稀 释率的作用最大 而 CO 圆周与硬度对卷烟主流烟气与理化性质两类信息间的整体相关性的影 响不大 有关结果对卷烟的降焦减害 建立卷烟主流烟气信息与理化信息间定量关系提供了重要 信息和理论依据 关键词 信息挖掘 因子分析 典型相关分析 卷烟主流烟气 中图分类号 O657 TS411文献标识码 A Data Digging and Information Extraction Based on Mainstream Smoke Physical and Chemical Data of Cigarettes NI Li jun GUO Jia ZH ANG Xin Z H ANG Li guo School of Chemistry and Molecular Engineering East China University of Science and Technology Shanghai 200237 China Abstract Factor analysis and canonical correlation analysis CCA based on 18 test indices of 595 bat ches cigarettes manufactured in some Tobacco corporations are carried out Factor analysis shows that the quality of cigarettes could be characterized by 12 independent principal factors where TPM tar and nico tine in mainstream smoke physical indices ventilation rate and close resistance are closely correlative and their influence on quality of cigarettes is represented in the first principal factor The second principal fac tor mainly represents the effect of total nitrogen The first two factors represent 66 of total information CCA indicates that there are strong integrated correlation between mainstream smoke and the physical and chemical properties where canonical variable U representing information of mainstream smoke is mainly contributed by TPM tar nicotine vapor vapor content and puff times canonical variable V representing physical and chemical information of cigarettes is mainly contributed by ventilation rate close resistance cigarettes weight and total sugar total organic chlorine etc where ventilation rate plays an important role The contribution of CO of mainstream smoke circumference and rigidity of cigarettes to the integra 79 DOI 牨 牥 牨 牬 牨 牫 牭 牤 j cnki 牨 牥 牥 牰 牠 牫 牥 牳 牥 牪 牥 牥 牱 牥 牨 牥 牨 牳 tion relativity between the two kinds of information is very small The results provide an important infor mation and reference for reducing harm of cigarettes and developing quantitative relationship between mainstream smoke information and physical and chemical information of cigarettes Key words information mining and extraction factor analysis canonical correlative analysis main stream smoke of cigarettes 为了降低卷烟烟气对人体的危害 国内外烟草 行业不断推出各种措施降低主流烟气中的焦油 总 粒相物等有害成分 1 此外 卷烟的主流烟气检测 耗时 繁琐 2 用于卷烟生产过程质量控制与监测时 存在滞后的问题 卷烟的相关理化指标的检测相对 主流烟气的检测要简捷迅速得多 3 有关研究表明 卷烟 烟叶 的物理 化学指标与其主流烟气指标间 存在不同程度的相关性 4 6 主流烟气的指标间 化 学指标间也存在相关性 7 但这些研究中采集的数 据量不多且进行的都是一对一关联 难以反映各因 素共同存在和作用时主流烟气与理化指标间的关 系 且由于实验条件和原料的不同也会产生相互矛 盾的结果 因此系统地研究影响主流烟气的各类因 素及其相互间的关系 对于降低与控制卷烟的危害 卷烟的质控和质检十分重要 烟草企业在日常质检过程中积累了大量准确而 有代表性的数据 需要从中提取有用信息及对信息 进行加工以指导生产 也即数据信息的采掘与知识 获取 这已是当今信息科学的一个新热点 8 因子 分析与典型相关分析是一种先进的统计技术 可以 用来分析 解释变量的数据结构和建立两类变量间 的关系 有关方法在气象与环境 9 10 食品 11 分 析化学 12 等领域得到了广泛应用 本文对卷烟生 产企业批量样品实际检测的物理 化学指标及主流 烟气的测试数据进行因子分析 旨在确定对主流烟 气有重要影响的卷烟理化指标 确定独立的因子数 目及其实际含义 为控制烟气烟碱 焦油等有害物质 提供参考依据 对卷烟主流烟气数据和卷烟物理 化学数据进行典型相关分析 以判断主流烟气与物 理 化学性质间相关性的强度 建立其间定量关系 并 分析其可行性与准确程度 为进一步建立两类信息 主流烟气与理化性质 间的定量关系 实现根据理化 性质快速预测卷烟主流烟气的目标提供理论依据 1 材料与方法 1 1 样品与数据 样品及数据来源 国内卷烟生产企业实际产品 的批量检测数据 共有 7 个主流烟气指标 总粒相 物 水分 水分含率 焦油 烟碱 CO 抽吸口数 6 个 物理指标 单支重 卷烟圆周 开式吸阻 闭式吸阻 稀释率 硬度 5 个化学成分指标 总氮 总糖 还原 糖 总植物碱 总氯 1 2 因子分析 13 设有 n 个卷烟样本共取得了 p 个检测项目的 分析 其结果组成了 n p 个测量数据矩阵 X 在经 过 均值 中心化 处理后为矩阵 R 相关矩阵 R X T X 将 R对角化 P 1RP diag k 其中 k是矩阵R 的特征值 其对应的特征向量 为 pk 即 RPk kpk 由于 P 为正交矩阵 P 1 RP P 1 X T XP XP T XP 记 XP T 即可得 X TPT 1 主因子分解结果 即得 X t1p1 t2p2 tkpk 2 tk常称为因子得分 pk则称为因子载荷 根据 载荷和得分 可分析卷烟测试数据中的隐含信息 1 3 典型相关分析 典型相关分析 CCA 13 是识别并量化两组变 量间整体相关性的统计分析方法 该方法提供各因 素共同作用时得到的两类信息间的关系 其研究焦 点是寻找一组变量的线性组合与另一组变量的线性 组合间的相关关系 在各因素间存在交互作用时 CCA 提供的结果比简单相关分析更符合实际情况 CCA 的思路是先求一对原始变量的线性组合 使它们之间有最大的相关系数 然后在剩下的线性 组合中再去寻找有最大相关系数的一对 如此继续 下去可找到一系列相关系数依次递减的线性组合 这些选出的线性组合称为典型变量 每一对典型变 量间的相关系数称为典型相关系数 假设两组原始变量用Y 和Z 表示 由Y 和Z 的 线性组合所表示的典型变量分别用 U 与 V 表示 在本文中 Y 是卷烟物理 化学或物理 化学 指标 的数据矩阵而 Z 是卷烟样品的主流烟气数据矩阵 两个数据矩阵的维数分别为 n ny与n nz n 为卷 烟样本的个数 ny与 nz分别表示矩阵 Y Z 中变量 的个数 对于本文 n 595 nz 6 ny有 3 个取值 80 华 东 理 工 大 学 学 报 自 然 科 学 版 第 33 卷 当考虑物理性质与主流烟气的整体相关性时ny 7 当考虑化学性质与主流烟气的整体相关性时 ny 5 当考虑卷烟物理 化学性质与主流烟气的整体相 关性时 ny 12 将Y 变换为 U 所需的权值可通过 求解下面的本征值问题获得 Y TY 1 YTZ ZTZ 1 ZTY 2 I 0 3 其中 2 表示特征值 是典型相关系数的平方 I 为 单位矩阵 对应的特征向量矩阵 A 给出 U 与Y 之 间的变换关系 U YA 4 与方程 1 类似的特征问题的求解可以给出将 Z 变换为 V特征向量矩阵 B 使得 V ZB 5 典型变量 U V 有如下性质 Var Uk Var Vk 1 Cov Uk Ul Corr Uk Ul 0 k l Cov Vk Vl Corr Vk Vl 0 k l Cov Uk Vl Corr Uk Vl 0 k l 其中 k 1 2 p p 为特征值个数 Var Cov Corr 分别为方差 协方差 相关系数 第 k 对Uk Vk间的相关系数计算公式如下 Corr Uk Vk n i 1 U ik Uk Vik Vk n i 1 U 2 ik n i 1 V 2 ik 6 典型变量配对个数的选择涉及概率统计 13 2 结果与讨论 2 1 数据评价与考察 对595 个数据进行 T2检验 临界值 n 1 p n p Fp n p 0 05 594 18 577 F18 577 0 05 30 05 共有 9 个样本的 T2值大于临界值 说明这些样本偏离群体 太远 予以剔除 本文的数据分析均以剔除这 9 个样 本后的 586个样本数据为基础进行 相关的数据分 析 运算程序在 MATLAB6 5下编译 实施 2 2 因子分析结果 对 18 个卷烟检测指标 物理 化学 主流烟气 综合进行因子分析 前 12 个主因子的累计贡献率已 达 99 07 说明这 18 个卷烟测试指标之间并不完 全独立 其信息可以由 12 个主因子来反映 为了更 清晰地了解各个主因子所代表的具体信息 对前 12 个主因子进行方差最大正交旋转 13 表 1 给出了 前 12 个主因子 F1 F12 分别在 18 个卷烟指标上 的因子载荷系数 根据表 1 可知 方差最大的第 1 主因子主要体 现了总粒相物 TPM 载荷系数 0 353 焦油 载荷 系数 0 424 烟气烟碱 载荷系数 0 269 闭式吸阻 载荷系数 0 538 与稀释率 载荷系数 0 483 的 共同影响 载荷系数表明物理指标稀释率与闭式吸 阻对与烟气总粒相物 焦油和烟碱呈密切的负相关 关系 第 2 3 4 5 主因子分别反映的是总氮 开式吸 阻 硬度 圆周的信息 第 6 主因子体现了水分和水 分含率的信息 第 7 8 9 主因子分别体现了总植物 碱 总氯 抽吸口数的信息 第 10 主因子反映了总糖 和还原糖的信息 第 11 12 主因子分别反映单支重 烟气CO 的信息 其中第 1 第 2 主因子的累计贡献 率为 66 由此可以看出 卷烟产品质量差异主要 由主流烟气的总粒相物 焦油 烟气烟碱及物理性质 闭式吸阻 稀释率与化学性质总氮的波动所引起 2 3 主流烟气与物理 化学性质间的典型相关分析 根据式 6 计算出了卷烟主流烟气与物理 化学 性质 主流烟气与物理性质 主流烟气与化学性质间 的前 3个典型相关变量间的相关系数 结果表明 卷烟主流烟气与卷烟的物理 化学性质间存在非常 显著的典型相关关系 卷烟主流烟气与卷烟的物理 化学性质间的第一典型相关系数 0 965 5 主流烟 气与物理指标的第一典型相关系数 0 956 7 与化 学指标的第一典型相关系数 0 809 1 其他典型 变量间的相关系数亦呈现出相同的递减规律 限于篇幅 本文仅给出卷烟主流烟气与物理 化 学信息间典型相关分析的结果 表 2 的第 1 列元素 依次为第 1 第 2 第 7 对典型变量 U1 V1 U2 V2 U7 V7 间的相关系数 在 7 对典型变量中 有 4 对变量达到 5 的显著性水平 且第 1 对典型 变量间的相关系数为 0 965 5 典型变量 U V 可分 别体现卷烟主流烟气 85 8 的信息量 物理 化学 指标 55 9 的信息量 表 3 和表 4的每一列即为该典型变量与原始变 量间的线性组合系数 根据这些系数可判断原始变 量在典型变量中的权重和作用 由表 3 的前 4 列可 知 卷烟主流烟气典型变量 U1 U4主要来自主流 烟气中的总粒相物 水分 水分含率 焦油 烟气烟碱 及抽吸口数的贡献 表 4 的前 4 列表明 与卷烟主 流烟气有最大相关性的卷烟物理 化学指标的典型 变量 V1 V4间主要来自单支重 闭式吸阻 稀释 率 氯 总糖的贡献 CO 在各典型 U 变量中的构成 系数与其他主流烟气指标的系数相比均很小 表明 CO 对卷烟主流烟气与理化指标间的整体相关性贡 献很小 硬度及圆周在第3对典型变量V变量中 81 第 1 期倪力军 等 卷烟主流烟气及其物理化学检测数据的挖掘与信息抽提 表 1 前 12个主因子最大方差旋转后的因子载荷系数表 Table 1 Factor loadings of first 12 principal factors after maximum variance rotation F1F2F3F4F5F6F7F8F9F10F11F12 TPM0 35280 0046 0 0213 0 01090 00580 09750 0085 0 02250 06470 0127 0 0175 0 0502 Vapor0 12830 0034 0 0051 0 0074 0 00040 52130 0047 0 01640 0104 0 00210 0204 0 0244 Ratio of vapor 0 0726 0 00500 02030 0089 0 00230 8395 0 00600 0208 0 01570 0039 0 01870 0385 Tar0 42420 0009 0 0276 0 01160 0082 0 03950 0017 0 01340 07270 0167 0 0224 0 0517 Nicotine of smoke0 26860 04200 0039 0 00570 00070 01700 0979 0 13260 16680 0205 0 1091 0 1164 CO0 1227 0 00920 03630 0062 0 0077 0 0078 0 01420 0241 0 0353 0 00520 0233 0 9479 Puff count0 1108 0 0125 0 00530 0085 0 00260 0027 0 02610 03630 9380 0 01770 03410 0489 Cigarette weight0 0453 0 00200 00050 0023 0 0002 0 0124 0 01000 0110 0 0155 0 0064 0 98210 0214 Circumference 0 01990 0021 0 0087 0 0007 0 99790 00320 0005 0 00260 0040 0 0008 0 0003 0 0060 Open resistance0 1968 0 0193 0 85340 0084 0 0242 0 0387 0 00640 0302 0 04290 01050 01310 0882 Closing resistance 0 53760 0462 0 4911 0 02490 05310 07630 0272 0 08600 1371 0 0062 0 0499 0 2395 Ventilation 0 48270 00430 1654 0 0240 0 0151 0 05330 0515 0 06580 24410 0612 0 0805 0 0642 Rigidity0 0165 0 00110 0020 0 9991 0 00070 0020 0 00140 0028 0 0048 0 00130 00200 0051 Total nitrogen0 01430 99600 00620 0011 0 0021 0 0004 0 00220 0045 0 0054 0 00070 00030 0057 Total sugar0 05860 0403 0 0002 0 00230 0129 0 0303 0 0070 0 01070 0126 0 70860 07180 0609 Revert sugar 0 0745 0 04020 00510 0015 0 01350 02920 00910 0086 0 0086 0 7019 0 0754 0 0635 Total plant alkali0 0166 0 0035 0 00020 0016 0 0005 0 00010 99280 0084 0 0101 0 00430 00910 0121 Total chlorine 0 03830 0079 0 0074 0 00330 0027 0 00110 01240 98290 02190 0057 0 0143 0 0245 表 2 卷烟主流烟气指标与卷烟物理 化学性质间的典型 相关分析结果 Table 2 Canonical correlation analysis between main stream smoke indices and physical chemical properties Canonical correlation coefficient Accumula tive ratio of U canonical variables Accumula tive ratio of V canonical variables 2 Degree of freedom Significant level 0 96550 71030 33272164 3770 0 72400 78010 4191592 42600 0 37710 81550 4961157 9450 0 26990 85780 559368 062320 00021 0 16930 90670 635023 67210 30934 0 08160 99370 73496 5746120 8844 0 06681 00000 78962 638350 75554 的权值高于其他变量中的权值 说明这两个指标的 作用在第 3 对典型变量中有一定体现 它们对两类 信息间整体相关性的贡献不大 3 结 论 1 18个卷烟主流烟气 物理及化学指标可以 采用 12 个主因子来描述 其中烟气烟碱 总粒相物 焦油及稀释率 闭式吸阻因为相互关联度很强 可用 第一主因子来体现其作用和影响 第二主因子主要 体现了总氮的影响 水分和水分含率 总糖及还原糖 之间因具有较强的相关性可分别合并在第 6 第 10 主因子中 CO 的作用体现在第 12 个主因子中 2 圆周对主流烟气的影响可以忽略不计 3 卷烟产品质量差异主要由主流烟气的总粒 表 3 卷烟主流烟气的 U 典型变量构成 Table 3 Constitution of U canonical variables of main stream smoke of cigarettes ItemU1U2U3U4U5U6U7 TPM0 6455 0 43222 5406 7 9862 1 4126 9 915048 1820 Vapor 0 57071 1547 1 33797 9021 1 7966 0 3482 12 0110 Ratio of vapor0 4095 0 15460 4697 3 15532 64591 86390 5200 Tar0 56242 11720 34942 3232 0 23647 8107 34 8630 Nicotine of smoke0 2101 2 5330 3 16830 16491 09990 4169 2 9189 CO 0 01290 0803 0 26720 2446 0 33540 99580 2557 Puff count 0 2703 0 40901 62510 83310 37880 14930 0334 82 华 东 理 工 大 学 学 报 自 然 科 学 版 第 33 卷 表 4 卷烟物理 化学指标的 V 典型变量构成 Table 4 Constitution of V canonical variables of physical and chemical properties of cigarettes ItemV1V2V3V4V5V6V7 Cigarette weight0 217 7 0 77020 9545 0 4954 0 11981 01570 1503 Circumference 0 01310 0614 0 2936 0 1144 0 1237 0 08020 5789 Open resistance0 0386 0 02970 78260 1852 1 4625 0 5840 0 1152 Closing resistance 0 1512 0 3020 0 10790 88481 02181 27830 0755 Ventilation 0 7272 0 79421 0061 0 1736 1 1995 1 3121 0 0766 Rigidity0 01300 1431 0 3535 0 05030 2372 0 16810 2799 Total nitrogen0 0690 0 26990 12160 63830 36820 28120 7843 Total sugar 0 11620 18410 9951 0 18430 2754 0 57631 4186 Revert sugar0 0095 0 1346 0 62350 99790 2542 0 3653 0 3382 Total plant alkali0 0888 0 4288 0 52500 0589 0 4408 0 1706 0 0245 Total chlorine 0 12860 48760 4477 0 6345 0 25030 27760 5567 相物 焦油 烟气烟碱及物理性质闭式吸阻 稀释率 与化学性质总氮的波动所引起 4 卷烟的主流烟气与物理指标的相关性大于 与卷烟主要化学成分的相关性 第一典型 V 变量 中 稀释率的作用最大 单支重与闭式吸阻次之 且 三者均对 V 变量呈现出负贡献 在控制卷烟主流 烟气指标及建立主流烟气预测模型时 应重点考虑 这 3 个物理指标的作用 5 卷烟的主要化学成分与主流烟气有一定相 关性 主要体现在第 2 3 4 典型 V 变量中 其中总 糖和总氯在第 1 典型 V 变量中呈现出较大的负贡 献 但在第 2 典型 V 变量中又呈现出较大的正贡 献 表明化学指标对主流烟气的影响较为复杂 不 易做出趋势性判断 而文献报道的化学指标对主流 烟气的影响趋势相反的实验现象亦说明了这一点 6 卷烟主流烟气与卷烟的物理 化学性质间 存在极显著的典型相关关系 表明可以根据卷烟物 理 化学性质定量预测卷烟主流烟气 7 由于主流烟气中的 CO 在各典型 U 变量中 的权值很小 表明 CO 与所考察的 11 个卷烟物理 化学指标间的相关性很弱 提示我们根据这 11 个指 标可能较难良好地预测卷烟主流烟气的 CO 值 参考文献 1 史宏智 美国烟草业的挑战和减害研究的历史与现状 J 烟 草科技 烟草工艺 2004 4 8 11 2 闫克玉 李兴波 李志同 等 烤烟 40 级 烟叶焦油量和烟气 烟碱的测定分析 J 郑州轻工业学院学报 1994 9 2 52 57 3 王瑞新 韩富根 烟草化学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论