知识计算白皮书-使能行业智能化升级地全新路径_第1页
知识计算白皮书-使能行业智能化升级地全新路径_第2页
知识计算白皮书-使能行业智能化升级地全新路径_第3页
知识计算白皮书-使能行业智能化升级地全新路径_第4页
知识计算白皮书-使能行业智能化升级地全新路径_第5页
已阅读5页,还剩121页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

知识计算,使能行业智能化升级的全新路径知识计算白皮书华为云华为云AI公众号公众号回复关键字“知识计算”提供白皮书电子版下载链接问官网留资会由客服回访知识计算使能行业智能化升级的全新路径page中国工程院院士中国人工智能产业发展联盟理事长习近平总书记最近指出,互联网、大数据、云计算、人工智能、区块链等技术日益融入经济社会发展各领域全过程,正在成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。要充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统产业转型升级,催生新产业新业态新模式,不断做强做优做大我国数字经济。人工智能作为数字技术的领引力量,是数字经济发展的重要战略抓手。随着社会需求、信息环境以及人工智能基础和目标的转变,促使人工智能已走向2.0。近年来,人工智能2.0向大数据智能、群体智能、跨媒体智能、人机混合增强智能、自主智能系统五大方向发展的重要性和影响力已开始展现。当前,我们要认识到,而其中数据和知识是两个最重要的基本关键元素,多种知识的协同使用,以及知识和数据的联合驱动将能促进人工智能算法与系统的创新,并提高它们的效率与page02知识计算研究各种知识表达、学习并将各类知识转化为可计算的模型,协同数据联合建模,面向行业提供知识应用全生命周期解决方案。知识计算充分发挥知识价值、有效助力人工智能认知、决策和学习,为产业网络化、数字化、智能化的转型提供有力支撑。中国人工智能产业发展联盟、华为云和中国信息通信研究院联合编写的《知识计算白皮书》,多维度、多角度、多层次地剖析了知识在企业从数字化到智能化的过程中发挥的重要作用,综合阐述并客观分析了知识计算从知识层、模型层、算子层到行业应用的框架体系,通过能源、工业、医疗、政务、金融等行业的知识计算应用案例阐释知识计算为产业、行业、企业带来的价值,描绘了未来知识计算在技术、产业、标准、生态等方面的发展愿景。我相信,《知识计算白皮书》的发布将会促进知识计算技术及其产业的发展。知识和数据双轮驱动的人工智能2.0将会大幅度提升人工智能的水平和效率、扩大机器认知与推理的疆域,进一步拓展人工智能行业应用场景,加速产业数字化、智能化、知识化转型升级,成为未来经济增长、科技发展、与产业变革的强大力量。page03伟华为公司董事科学家咨询委员会主任数字经济是推动经济高质量发展的重要引擎,面对数字化浪潮中急剧增加的海量、复杂数据,以人工智能为代表的智能化技术展现出人力无法企及的优势,在有些领域正在超越人类的智力极限。我国颁布多项政策支持人工智能创新发展,旨在发挥人工智能对传统产业赋能作用,促进人工智能与实体经济加速融合,对于转变经济发展方式、加快建设创新型国家和世界科技强国都具有重要意义。随着深度学习技术的出现和蓬勃发展,人工智能的算法能力得到显著增强。然而AI技术从算法到产品的工程化之路还存在断点,在实践中我们发现很多企业认为“人工智能”就是“算法”,这一定程度上使得AI落地在工程和系统方面的复杂度在设计阶段就被低估,AI科学家不理解产业需要解决什么问题,而产业专家很难将工程难题准确提炼为AI问题,很难找到结合点。而知识计算将行业知识表达为能够被机器所理解和处理的数学模型,再由AI算法对数学模型进行高效求解,帮助克服行业专家建模复杂、求解困难的问题。page04知识计算通过结合行业知识与AI技术,缩小行业与AI之间的鸿沟,实现人工知识表达到自动知识构建的转变,帮助AI进入企业核心生产系统。华为在智慧城市、智能交通、智能制造、智能医疗、智能机器人等行业的实践,实现了企业把AI引入核心生产系统带来18%以上盈利和效率的提升。《知识计算白皮书》将技术框架与丰富的行业实践相结合,对正在探索行业AI落地的开发者,以及所有相关的技术和服务提供者都具有参考和启示价值。知识计算技术框架需要持续的迭代更新,需要‘产、学、研、用’联合起来,共同延展出更多高效、便捷的新算子、新模型。降低建模与求解过程中的人工介入程度,加速技术创新和产业发展,产出世界级成果。page05华为高级副总裁华为云CEO深层次的数字化,是领先企业实现跨越式发展的必然选择。未来所有的基础设施和应用都应该是云化的,都将是云化的。企业数字化数字化转型成功的关键是要人工智能是深层次数字化的核心驱动力,数字化也为人工智能提供了最丰富的应用场景。经过60多年的发展,人们发现由数据驱动的人工智能高度依赖数据的完备度,在行业落地过程中会存在很多局限。因此学术界和产业界的资深学者、专家开始了对下一代人工智能的研究和探索。由于知识可以明显提升AI算法的鲁棒性和可解释性,被认为是推动人工智能走向2.0的关键参与要素。知识计算是华为在人工智能基础创新过程中着力发展的AI根技术。知识计算通过将知识加入到行业问题建模和求解的计算过程中,让模型具备更好的可解释性,使得AI与行业得以深度结合,真正融入进业务流程,解决核心业务问题,催生体验变革、效率提升以及模式创新,加速AI应用行业落地。page06《知识计算白皮书》对如何利用AI技术,实现机器将人类的知识转化为可计算模型的技术架构进行了系统性梳理。结合政务、交通、工业、医疗、金融等行业场景的最新实践,直观呈现了知识作为下一代人工智能发展关键要素为AI应用带来的效率、效果提升,为后续建立知识计算标准提供参考和价值启示。白皮书的技术架构中所涉及的技术,有一些已经实现,有一些还在探索,未来的数字世界一定是一个生态的世界,欢迎业界同仁共同努力,构筑面向知识与数据双轮驱动的下一代人工智能新生态。2021年华为在各领域的研发投入将超过1300亿人民币,华为云将华为研发出的领先技术通过云服务的方式提供给千行百业的客户、伙伴和开发者,让企业不必重复“造轮子”,降低研发成本,聚焦创新。华为前三十年重塑了世界的联接,未来三十年,我们将构建智能世界的云底座。基础设施即服务,让业务全球可达;技术即服务,让创新触手可及;经验即服务,让优秀得以复制;知识即服务,让决策可以被运算。深耕数字化,一切皆服务。page07/P/P11重塑企业竞争优势1.2行业渗透率低,人工智能行业落地面临诸多挑战1.3人工智能与知识的结合,为行业AI落地提供了新思路02/P27知识计算构建业务决策智能化引擎2.1知识模型化、求解自动化2.2知识计算技术框架:知识、模型、算子2.3知识计算框架应用典型场景page0803/P73知识计算赋予AI全新的能力,解决核心业务问题3.1能源知识计算,打造智慧化能源中枢3.2工业知识计算,促进智能化生产制造3.3交通知识计算,塑造交通治理新范式3.4政务知识计算,开启政务服务新模式3.5医疗知识计算,推动医疗产业再升级3.6金融知识计算,助力金融智能化转型04/P113把握机遇积极布局,共筑开放共赢的产业生态4.1聚焦知识与AI高效结合,推动人工智能向认知发展4.2完善知识计算体系的构建,突破知识表达局限4.3构建知识计算行业标准体系,引导产业健康发展重塑企业竞争优势page1.1深耕数字化,人工智能成为核心驱动力数字经济成为推动经济高质量发展的重要引擎数字经济GDP占比逐年提升数字经济作为一种新的经济形态,正成为推动经济发展、质量和效率变革的重要驱动力。近几年,我国数字经济在国民经济中的地位愈发突出。根据中国信通院《中国数字经济发展白皮书(2021)》数据显示,2005年至2020年期间,我国数字经济占GDP比重由14.2%提升至38.6%,数字经济增加值规模由2.6万亿元扩张到39.2万亿元。2020数字经济GDP占比图来源:中国数字经济发展白皮书,中国信息通信研究院,2021数字经济总体规模 (增加值口径,亿元,当年价)数字经济占GDP比重38.6%36.2%34.8%32.9%26.1%20.3%15.2%14.2%202020192018201720142014200820053920003584023129342717371616409489648092开发利用水平成为企业核心竞争力数字化浪潮前行过程中,人类社会产生的数据急剧增加,国际数据公司(IDC)对全球数据领域的最新统计显示,预计2020年全球将产生超过47ZB的数据,而到2035年,这一数字将达到2142ZB。在此期间,企业将积累大量文本、图像、声音、视频数据,这些数据来自企业自身、行业上下游,产业政策、国际形势等场景,企业需要根据自身需求,全面、深入地分析数据,挖掘数据价值。除此之外,信息通信技术使得人类知识更新的速度加快,面对信息的频繁更新,企业需要快速、及时地从数据中获取实时信息,这对企业处理数据的速度提出了更高的要求。pagepage人工智能赋能产业智能化转型,助力企业更加全面、快速、深入地分析数据一代人人工智能赋能产业智能化转型,助力企业更加全面、快速、深入地分析数据析,、专业分工更加精细、流程管理更加高效,让企业得以在智能化转型的竞争环境中生存发展。国家政策、技术发展、行业需求共同驱动人工智能加入产业数字化转型的发展进程今年3月,《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》提出,以人工智能为代表的新一代信息技术,将成为我国十四五期间推动经济高质量发展、建设创新型国家,实现新型工业化、信息化、城镇化和农业现代化的重要技术保障和核心驱动力之一。与此同时,伴随数据的长期积累,算法的持续析,、专业分工更加精细、流程管理更加高效,让企业得以在智能化转型的竞争环境中生存发展。国家政策、技术发展、行业需求共同驱动人工智能加入产业数字化转型的发展进程来源:2021-2022中国人工智能计算力发展评估报告,IDC,202来源:2021-2022中国人工智能计算力发展评估报告,IDC,2021仿真测试仿真测试 三维重建油⽥田智慧电⽹网智能调度智慧能源智慧楼宇/园区智慧电信智慧环境监测智慧物流智能制造智慧交通课堂智慧零售辅导能巡检智慧楼宇/园区智慧电信智慧环境监测智慧物流智能制造智慧交通课堂智慧零售辅导能巡检智能基站节能智慧电信营业厅智慧城市共安全智慧城市智服互动娱乐能投顾能推荐能客服内容审核起步期发展期成熟期1958AlphaGo诞生,击败世界围棋大师1994网络爬虫出现斯坦福大学发起机器阅读理解比赛SQuADIBM深蓝机器人击败国际象棋世界冠军1958AlphaGo诞生,击败世界围棋大师1994网络爬虫出现斯坦福大学发起机器阅读理解比赛SQuADIBM深蓝机器人击败国际象棋世界冠军pagepagpage数字化经济成长的阶段2016.32016.72017.322016.32016.72017.32017.7“十三五”国家技术创新规划-重点发展大数据驱动的类智能。“互联网+”人工智能三年行动实施方案“十三五”国家技术创新规划-重点发展大数据驱动的类智能。“互联网+”人工智能三年行动实施方案-到2018年创建人工智能基础资源和创新平台。新一代人工智能发展规划通国家战略性新兴产业发展规划-人工智能上升为国家战略层面。中华人民共和国国民经济和社会发展第十三个五年规划纲要-人工智能写入“十三五”规划。2021.3《中华人民共和国国民经济和社会发展第十四个五年规划2021.3《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》-以人工智能为代表的新一代信息技术,将成为我国十四五期间推动经济高质量发展、建设创新型国家,实现新型工业化、信息化、城镇化和农业现代化的重要技术保障和核心驱动力之一。2020.10国家新一代人工智能标准体系建设指南-加强人工智能领域标准化顶层设计,推动人工智能产业技术研发和标准制定,促进产业健康可持续发展。2019.8国家新一代人工智能开放创新平台建设工作指引-充分发挥人工智能行业领军企业、研究机构的引领示范作用,促进人工智能与实体经济的深度融合。2019.9国家新一代人工智能创新发展试验区建设工作指引-充分发政策法规等方面先行先试。促进新一代人工智能产业发展三年行动计划(2018-2020)-以新一代人工智能技术产业化和集成应用为重点,推动人工智能与实体经济深度融合。人工智能技术发展历史首个面向AI的编程语言LISP出现“人工智能”术语首次出现拥有1750亿参数的GPT-3“人工智能”术语首次出现特斯拉发布纯视觉自动驾驶解决方案FSDMIT特斯拉发布纯视觉自动驾驶解决方案FSDMIT人工智能实验室成立 2020通用 2020通用汽车推出首款工业机器人Unimate1964第一个聊天机器人ELIZA被发明1969首届国际人工智能联合会议(IJCAI)召开IBMWatson诞生,击败猜谜节目1969首届国际人工智能联合会议(IJCAI)召开20152011CMU为DEC设计专家系统XCON斯坦福大学设计了首辆自动驾驶汽车YanLecun斯坦福大学设计了首辆自动驾驶汽车1980李飞飞公布大规模图像数据集1980page1.2行业渗透率低,人工智能行业落地面临挑战AI作为通用目的技术,将在未来几十年深刻改变我们的生活和工作。麦肯锡全球研究院在2020年的人工智能全人工智能在汽车和装配行业更多用于制造相关的任务;在金融服务行业中,与风险相关的业务应用人工智能的比例远高其他行业;而在高科技和电信行业中,人工智能主要用于产品和服务开发,以及服务运营等业务场景。总体上,2020年AI在行业应用的渗透率较低,人工智能在不同行业的平均渗透率仅为12.8%。大量的行业案例与深入地渗透至各行各业。page2020年各行业和智能部门采用AI情况来源:2020年人工智能状况,麦肯锡,2020制造业产品和/或务开发务运营企业融资供应链8%7%9%29%2%8%和专业服务9%20%9%20%3%2%5%5%32%34%7%2%3%4%2%6%26%37%39%9%ApplyingCApplyingCngTTmCpage具体而言,人工智能的行业渗透率ρ和行业传统解决方案的落地成本(即CT→S),以及人工智能解决方案的落地成本(即CT→S’)相关,当人工智能解决方案落地成本相对传统解决方案成本越低,人工智能的行业渗透率才能得以提升,反之则会降低(即p∝)。通常,用AI解决行业问题通常分为三个阶段。01对行01对行业业务中的问题T进行建模(即T→Tm),需要利用恰当的模型Tm表达业务03将技术解决方案Sm变为行业解决方案S′,顺利应用到生产系统 (即Sm→S′),落地行业的生产活动中。对模型Tm求解(即Tm→Sm),寻求最优的方法解决该任务,形成解决方案Sm。人工智能解决方案落地成本是由上述三阶段的成本组成(即CT→S=CT→Tm+CTm→Sm+CSm→S′)。当前,人工智能的行业建模、求解与应用仍存在很多问题,导致各阶段都面临高成本的风险。lvingCTmSmρ∝TS其中CTS’=CTTm+CTmSm+CSmS’TS’CCpage20AI建模阶段在AI建模过程中,获取数据的质与量可能远达不到训练优质AI模型的要求,在交通行业中,视频业务断流、摄像头受到阳光照射等因素影响发生角度歪斜,导致数据中断或者解析车流信息错误。除此之外,复杂庞大的业务合到建模过程存在鸿沟。在医疗单细胞聚类问题上,能够降维的模型算法有很多,但由于生物数据的异质性和复杂性,直接套用聚类算法通常难以获得好的效果。因此在建模阶段,需要基于领域知识深入理解领域数据所承载的信息,对AI模型进行相应的改造,才能设计出契合行业问题的模型。AI求解阶段探为例,在其中的一个重要环节“测井”中,为了识别油气层,需要对电阻率、自然电位、声波等综合信息进行分析研究。同时,随着勘探开发力度的不断加大,勘探数据具有海量、多维、多尺度、多属性等复杂特点,需要基于大量的背景知识对数据进行分析推理,进而做出预测。基于过往的实践经验,由于缺乏相关的领域知识,单AI应用阶段由于当前人工智能算法针对性强,通常只能解决特定场景的问题,因此在应用阶段,模型迁移性存在较大挑战。需要为每一个地区训练相应的调控模型。另一方面由于模型可解释性较差,专业人员对模型预测结果持怀疑态度,通常需要对模型预测结果进行反推,试图得到其背后的原因,这对模型在业务场景中的应用造成了阻碍。另外,AI应用过程中所产生的数据难以得到充分利用,这些数据中往往蕴含着巨大的价值,有效挖掘数据将进一步优化行业场景中的AI建模和求解,提升AI模型精度。提升AI在行业规模化应用的的关键所在。1.3人工智能与知识的结合,为1.3人工智能与知识的结合,为行业AI落地提供了新思路基于这一特点,很多学者提出AI系统需要结合知识来解决复杂的问题。数据驱动的人工智能,第三代人工智能试图将人类对世界的认知转换为知识这一要素,参与到人工智能模型的计算中,帮助模型提升鲁棒性和可解释性。知识与人工智能的结合,为AI行业落地提供了新的思路,也为加速行业智能化指明了潜在的方向。这些知识以多种形态存在于各行各业,承载了诸如场景属性、业务流程、数据特征等信息,蕴含着宝贵的价值。将行业知识与AI有效的结合,可以解决AI行业应用过程中的诸多问题,帮助AI以更高效的方式落地。pagepage22在AI走向2.0的发展过程中,数据和知识是两个最重要的关键元素。处理大数据和处理多重知识,形成了AI发展的两类核心技术。作为一项我国原创、自主可控的技术,知识联邦致力于打造数据和知识安全的可信人工智能生态系统。——潘云鹤中国工程院院士page23第三代人工智能的发展路径是融合第一代的知识驱动和第二代的数人工智能,同时利用知识、数据、算法和算力等4个要素,建立新的可解释和鲁棒的AI理论与方法,发展安全、可信、可靠和可扩展的AI技术,这是发展AI的必经之路。——张钹中国科学院院士page24行业知识赋能AI建模每个行业都有独特的行业属性和业务特点,甚至涉及多学科的交叉综合应用。因此,AI建模阶段需要结合行业知解决不同场景下数据收集难、数据误差大等问题,帮助构建符合行业特性的高质量数据。与此同时,知识可以帮通常需要专家根据经验选择合适的AI模型和模型参数。行业知识帮助AI模型高效求解知识的融入让AI模型不再单纯基于大数据求解,一方面,知识可以弥补数据偏差造成的影响,帮助AI模型寻求更优解,另一方面,AI模型可以利用知识中所包含的约束、规则等信息,调整求解策略,得到更符合行业场景的AI解决方案。比如在交通流量调控中,基于运筹学的方法,可以将诸如最大周期和最小绿灯时间等规则、相较于经验性配时的差异程度等交通知识,以约束条件的形式整合至最优信控配时的求解过程中,帮助AI模型求解得到更佳的协调信控方案。行业知识保证AI应用持续、可靠在AI应用阶段,知识能够帮助识别模型运行过程中所产生的有效数据,通过对这些数据的挖掘与利用,可以赋能尤其在面向决策类问题时,AI可以从行业知识中寻找用于决策的关键支持点,提升模型所作出判断的可解释性,减轻行业人员对AI黑盒的顾虑,这对金融、医疗等行业尤为重要。除此之外,知识为AI在不同场景的迁移提供了可能,当新场景下往往尚未有大量标注数据,AI模型在适配相似度较高的新场景时,可以仅通过更换场景知识得到冷启动模型。由此可见,行业知识可以帮助克服当前行业AI的诸多问题,缩小人工智能与行业之间的鸿沟,在加速行业智能化转型过程中,行业知识可以赋予人工智能更大的潜力。知识计算构建业务决策智能化引擎page272.1知识模型化、求解自动化知识计算的理念知识计算的理念是让知识有效参与计算,克服AI解决行业问题过程中建模复杂、求解困难等问题,帮助企业利用AI快速构建场景智能化解决方案,降低AI落地成本,提升AI在千行百业的渗透率。知识计算是一种新的计算模式,利用AI技术实现机器将知识转化成可计算的模型。,知识计算将行业中各种形态的知识,以数学模型的方式,协同程中所涉及的方法和能力纳入知识计算框架当page28知识计算为行业创新带来无限可能各行业中的广泛渗透。过往经验表明,行业知识的有效利用能够降低企业使用AI解决业务问题的成本。然而,大多数行业的核心知识分布相对杂乱,比如以文字、图像等方式显性地存在企业文档、手册中,或者以经验、学识等方式隐性地存在于行业专家、资深员工的大脑中。知识呈现的方式不同,以及零散的分布,导致企业知识难以传承、利用。知识计算聚焦于对行业知识进行有效、充分的利用,将行业知识与AI技术有机结合,融会贯通杂乱的知识并使其参与计算,唤醒行业知识的生命力,发挥行业知识的力量。知识计算将行业长期积累的知识贯穿至解决行业问题面可以提升企业员工效率,有效释放专家的精力,另一方面也能够帮助企业降本增效,为企业高效生产、灵活组降低决策风险,提升企业管理水平。知识参与计算,将让知识在建模、求解和应用各阶段都发挥重要作用。首先,在AI解决行业问题的过程中,基于专家经验、行业研究成果构建的知识体系将指导业务场景数据的形成,以及AI模型的构建。其次,在求解过程,行业知识的引入将帮助AI模型更高效地求得更优解。最后在应用阶段,行业知识一方面能够提供决策依据,提升知识计算通过结合行业知识与AI技术,实现数据与知识双轮驱动,帮助AI进入企业核心生产系统,为行业智能化转型升级带来新的驱动力,也为行业创新带来无限可能。计算数据 (数据驱动)模型世界知识模态转换结构转换表征转换数据转换求解代数据转换修改异常样本检测数据去噪数据去重数清据洗数增据强本体构建数注据解统计模型模型聚合遍历算法模型融合图模型计算数据 (数据驱动)模型世界知识模态转换结构转换表征转换数据转换求解代数据转换修改异常样本检测数据去噪数据去重数清据洗数增据强本体构建数注据解统计模型模型聚合遍历算法模型融合图模型评价指标选择模型集成模型选择模型评价采样变分求解微梯度下降基于交互选择模型基于描述选择模型有限差分有限元法社群挖掘重要度分析法图表示学习算法单纯型算法内点算法梯度下降对知识进行建模和求解求解数学规划模型基于经验的模型参数化基于问题描述的模型参数化基于搜索的模型参数化模型参数化 禁忌寻优宏观-微观确定-随机离散-连续静态-动态用数学模型刻画知识人类在实践中认识客观世界(包括人类自身)的成果page29在人类发展的长河中,人们通过实践活动认知世界,人脑接收外界信息,经过加工处理转化沉淀为支配人们行为的知识,从而投入生产实践中。机器是如何利用知识进行计算呢?首先需要将知识表达为能够被机器所理解和处理的数学模型,其次针对特定的数学模型进行高效求解。这个知识计算的过程涉及多项技术,不仅局限于自然语言处理、知识图谱等认知层技术,而能够扩展至一套系统化的技术框本白皮书提出知识计算技术框架,用以指导知识计算在行业的落地。该技术框架由知识层、模型层、算子层构成,覆盖知识计算在助力行业智能化升级。page30复复杂问题的多重建模和求解计算地震解释电站巡检精准公交和公交调度机场机位调度基因组学分析药物研发临床诊断辅助精准招商知识层模型层算子层知识层模型层算子层page知知识是知识参与计算的底层基础,是人类在实践中认识客观世界(包括人类自知识、程序性知识以及元认知知识等形式呈现。行业生产活动所沉淀的知识可被归于其中,包括生产日志、手册、经验、流程等。例如,生产中的基本元素属于事实性知识、生产流程属于程序性知识、机理模型属于概念性知识。模型是知识参与计算的载体,模型是知识参与计算的载体,刻画行业知识并有效参与计算。由数学模型刻画的知识,可以通过数值计算、符号计算等方式来求解,是可以有效参与计算的例如知识图谱可以通过图模型来构建,石油勘探的测井环节中的伽马射线通量计算模型属于一种微分方程模型。算算子是知识参与计算的手段,是一种机器对知识进行建模和求解的操作。让知识参与建模和求解的过程中,机器进行的操作即为知识计算算子。算子可以规范化为两类:建模算子和求解算子。建模算子聚焦在将数据转换成可计算的模型,求解算子聚焦在利用AI技术对模型进行高效、精准求解。page32通过对知识计算框架中算子的使用,可形成搜索、推荐、预测、优化、正演、反演等行业应用。例如,知识可以提升预测准确率,实现更智能的行业应用:在政务“一网统管”中,构建工单多维度分析知识图谱,落地智能工单智能分拨、疑难工单识别、敏感事件预警应用;在交通调度场景中,落地实时路况分析、公交调度等应用。知识在正演、反演中同样起着重要作用,例如在能源行业,通过数据正演解决小样本问题,通过反演解决测井油气层识别、地震层位解释等问题,实现“提质增效”和“增储上产”。知识、模型、算子是构成知识计算框架的重要元素知识是知识计算的底层基础关于知识,目前还没有一个统一的定义。知识论是研究知识的哲学分支。●古希腊哲学家柏拉图(Plato)认为,知识是经过证实的真实信念。一条陈述能称得上是知识必须满足三个条件,它一定是被验证过的,正确的,而且是被人们相信的。●古希腊哲学家亚里士多德(Aristotle)将知识分为两大分支:对不可变事务的认识(称为理论)和对可变事务的认识。后者又可分为对所做之事的认识(称为实践)和对所造之物的认识(称为创造)。●英国物理化学家和哲学家迈克尔·波兰尼(MichaelPolanyi)认为人类的知识有两种:通常被描述为知识的,即以书面文字、图表和数学公式加以表述的,只是一种类型的知识(显性知识);而未被表述的知识,像我们在做某事的行动中所拥有的知识,是另一种知识(隐性知识)。本白皮书参考《中国大百科全书》对知识的定义:知识是人类认识的成果,它是在实践的基础上产生,又经过实践检验的对客观实际的反映。人们在日常生活、社会活动、科学研究、生产实践中获得对事物的认识,其中可靠的成分即为知识。page33根据不同的研究视角、研究目的以及对知识的不同认知程度,知识有不同的分类方式。哲学界对知识的分类较为抽象和概括,最常讨论的分类是事实型知识(know-that)和实践型知识(know-why)。经济合作与发展组织(OECD)把知识分为关于客观事实的知识(know-what)、自然规律和原理方面的知识 (know-why)、技术诀窍、技能和能力方面的知识(know-how)以及知道何人具有何种知识和能力的知识 (know-who)。美国当代心理学家本杰明·布鲁姆将知识分为事实性知识、概念性知识、程序性知识、元认知知识四类。在行业的历史发展过程中,行业生产活动沉淀的知识,通常以机理模型、生产流程、业务规则或领域概念等形式鲁姆(BenjaminBloom)提出的知识体系相对应。因此,在知识计算技术架构中,知识层采用本杰明·布鲁姆[1]。page34事实性知识事实性知识在行业内具体体现为 (1)领域术语:交通行业中的拥堵指数、自流流速度、二次排队率等,油气行业中的低阻油层、束缚水饱和度、 政务等领域积累的大量事件及关系数据等。数据结果数据EILog油气勘探开发知识图谱示例技师分析定修n技师分析定修n5000密度测井响应⽅方程全波形反演波动⽅方程page35概念性知识较为概括性、组织性的结构化知识。细节和元素之间的相互关系、功能。例如理论模型、先验规则等。概念性知识的示例主要包括 (1)先验规则:在交通信控场景,存在大量来自交通专家和交通实践者的先验规则,包括最大信控周期不能超过180秒,相位最小绿灯不宜小于25秒,相邻周期同相位变化不宜大于10秒等; (2)机理模型:在油气行业存在的大量的机理模型,例如描述测井曲线正演过程的MaxWell方程、波动方程,关于砂岩电阻率的定律阿尔奇(Archie)公式等。page36程序性知识关于如何做某事的一套程序或步骤。例如生产流程、处理流程等。程序性知识示例主要包括(1)生产流程;(2)处理流程。例如汽车维修场景中的工作流程、焦化行业的配煤流程、政务工单处理流程、知识图谱的构建流程等。汽车维修工作流程示例客客户描述故障现象焦化行业的配煤流程示例煤场备煤page37元认知知识在认知的过程里所获得的知识,也就是可用于控制认知过程的知识。01关于认知主体人的知识,例如“你认为你通过听的方式比读的方式学会的更多”、“你认为你的朋友比别人更加敏感”02关于认知任务的知识,例如“关于任务需求03关于认知策略的知识,例如”达成目标策略的知识”。[2]注:元认知知识难以通过数学模型进行刻画,不作为知识参与知识计算,故在此白皮书中不讨论元认知知识。page38模型是知识参与计算的载体数学模型是知识的重要载体,针对参照某种事物系统的特征或者数量依存关系,采用数学语言,概括地或者近似地表述的一种数学结构,通常是对一个系统简化后的描述。数学模型概率图模型概率分布模型数字规划模型线性规划模型型图模型图初等代数模型确定-随机静态-动态宏观-微观离散-连续统计模型确定性微观确定性微观page4page40知识计算技术框架基于不同的数学模型(主要是行业中重点涉及的数学模型),认为能够用数学模型来刻画的知识可以参与计算,例如事实性知识、概念性知识等,其中事实性知识可以通过图模型来表示,概念性知识可以通39行业专家通常使用数学模型来解释一个系统,研究不同组成部分的影响,对行为或者结果做出预测。数学模型可以从多个维度来分类,包括:确定性/概率性静态/动态离散/连续宏观/微观药物筛选确定性药物筛选确定性概念性知识概念性知识勘探测井确定性微观焦炭耐磨强度计算模型概念性知识配煤炼焦概念性知识交通调度确定性微观RDF程序性知识确定性微观属性图时空分析知识图谱事实性知识疫情传播分析确定性微观概率图模型概念性知识……概率性概念性知识、事实性知识缺陷检测概率性微观概率性微观概率性微观概念性知识、事实性知识page算子是知识参与计算的手段知识计算算子知识计算算子是一种机器对知识进行建模和求解的操作(Operator)。进行组合,构建解决行业问题所需的计算逻辑。知识计算框架将知识计算整个流程中涉及到的算子纳入到一个体系当中,规范化为两类:建模算子和求解算子。page42建模算子建模算子聚焦在将数据转换成可计算的模型,包括利用AI技术更好地从数据中萃取知识,以及更高效地利用知识建立数学模型。数数据知识求解算子求解算子聚焦在利用AI技术对模型进行高效、精准求解,即使用符号/数值方法确定模型中的。page43数据转换是将数据从一种格式或结构转换为另一种格式或结构的过程,包括模态转换 (ModalityTransformation)、结构转换(StructureTransformation)、表征转换(RepresentationTransformation)等。其中,模态转换是指不同模态之间的转数据转换换,例如通过语音识别(ASR)算子将语音转换成文本形式,通过OCR算子将图像转换成文本,通过图像描述(IC)算子将图像转换成文本等;结构转换是指在同一模态下不同结构之间的转换,例如通过命名实体识别(NER)算子识别文本中的命名实体、通过关系抽取(RE)算子抽取文本中实体间的关系等;典型的表征转换是特征工程(FeatureEngineering),即把原始数据转变成特征的过程,例如词向量(WE)模型和预训练模型(PLM)。转化后的特征可以很好地描述数据的分布及关系,从而数据转换的过程,是知识计算建模过程的一个重要步骤,包括缺失值处理(MissingValueCompletion)、异常样本检测(OutlierDetection)、数据去噪(DataDe-noising)、数据去重(Data数据清洗De-duplication)等。其中,缺失值处理处理算子会根据不同应用场景下缺失值可能包含的信息进行合理填充,例如直接删除、人工填写、使用常量填充、通过建模进行填充等;异常样本检测算子会对数据集中的异常样本进行检测识别,以便进行后续的以及训练机器学习模型来进行异常样本的检测识别;数据中的噪音会对模型的构建产生影响,而数据去噪算子对数据集中的噪音进行处理,从而获得更高质量的数据以便后续模型的数据清洗page44数据增强数据增强通过更多的等价数据进行数据集的扩展,是克服训练数据不足的有效手段之一,包括数据合成(DataSynthesis)、对现有数据的转换修改(DataModification)等。数据合成算子通过物理模型、映射关系等计算得到新的仿真数据;数据转换算子是图像处理领域对数据集进行扩充的常见操作。例如对给定数据集通过几何变换、翻转、颜色修改等方式扩充数据集,或者通数据增强数据注解数据注解是对文本、视频、图像等不同模态的数据进行标注的过程,主要包括本体构建(OntologyConstruction)、人机协同标注(Human-in-the-loopAnnotation)和自动标注(AutomaticAnnotation)三部分。传统的本体构建主要依赖领域专家人工定义类别、标签、属性或者关系等,其缺点是专家资源缺少、效率低、不全面等问题,当前学术界及工业界已开始探索结合领域知识及数据挖掘、机器学习等AI技术实现辅助人工进行本体构建方法,并在文本挖掘、预训练模型方面取得了一定的成果。人机协同标注是指结合专家经验知识,以人、机协同的方式进行人机交互标注,有效存在效率低、成本高、易出错的问题。随着AI技术的不断发展,将有可能通过高效的AI技术辅助实现海量数据的自动或者半自动方式标注。通过模型正演自动生成带标签的数据属于一种自动标注方法,通过人工标注与模型相结数据注解page45模型选择一般由人来完成。基于人的相关知识与经验,通过对问题的分析来选择相应的模型。但是随着自然语言处理技术的不断发展,情况发生了变化,现在机器也可以部分参与到模型选择这一过程。一方面,通过调查问卷或者对话机器人,模拟建模人模型选择员跟场景需求客户之间的访谈获取建模必要信息,机器可以自动选择合适的模型来完成建模。例如,通过调查问卷获取用户的分词偏好,机器自动根据用户需求生成一个合适的分词模型。另一方面,通过解析问题的自然语言描述,机器自动选择或者生成合适的建模模型。例如,通过解析数学应用题的题干描述,自动生成解题所需的代数方程。就目前的实际应用情况而言,模型选择还是主要由人来完成,机器参与的只是很少一部模型选择模型集成是通过集成多个模型的学习能力,使最终的结果能够“取长补短”的方法,主要包括模型聚合(Stacking)和模型融合(fusion)。其中模型聚合是指将多个训练好的模型组合在一起,每个模型有独立的输出,通过组合输出最终的结果,包括模型的串联、并联、混联等方法,许多机器学习竞赛(包括Kaggle等)中最优秀的解决方案都是采用了集成方法,将多个模型组合在一起以产生更强大的模型。模型融合是将多个模型融为一体进行训练,例如多种神经网络架构的组合(如CNN+LSTM),模型集成白盒机理模型融入神经网络层结构、激活函数、损失函数以及整数规划模型嵌入ML模型对某些变量进行预测等。一个典型的案例是物理神经网络(PINN)将物理模型与神经网络进行融合,通过损失函数让物理模型参与到神经网络的训练,从而约束神经网络的输出,以达到使用更少的数据获得更高的准确率。该方案在解决实际行业问题中发挥重要作用,例如焦炭质量预测和交通态估值(TrafficStateEstimation)。预训练(Pre-training)+微调(Fine-tuning)也是一种模型融合方式,并且在许多场景下取得了较好的效果。此外,模型蒸馏也是一种模型集成的方式,旨在把一个大模型或者多个模型学到的知识迁移到另一个轻量级单模型上,便于部署,提升模型的性能。page46模型参数化模型参数化是针对建立的模型完成参数/超参数设定的过程,包括基于经验、基于问题描述、基于搜索和基于优化等模型参数化方式。例如,针对已构建的行业模型,专家可基于行业经验直接进行参数设定,同时也可通过历史记录直接进行对于需要确定超参数的模型,通常会将行业知识以规则、约束等形式参与模型超模型的最模型参数化模型评价onDataGeneration于问题的评价指标(ProblembasedMetrics)选择进行自动化效果评估。其中,用于评价的数据包括利用正演生成的数据或者真实数据等,而真实数据包括历史数据和新数据,例如留出法(HoldOut)、交叉验证法(CrossValidation)、自助法(Bootstrapping)都是通过历史数据进行评价,AB测试则是在新数据上进行评价。用于评价的指标分为两类:(1)模型本身的评价,例如对分类任务的评价、对聚类任务的评价、对回归任务的评价等;(2)Task到Model的评价包括确定评价(例如煤的燃烧率、投资收益等)和不确定评价(例如满意度评价、公交调度等)模型评价结构转换Structureormation数据转换ormation结构转换Structureormation数据转换ormation数据清洗epage4page4847建模算子通法规执法[4]模态转换ormation户购物体验[6]中的灾害预防和应急响应[7]务[9]表征转换ormation异常样本检测异常样本检测2.聚类法3.回归法数据去噪page50page5049建模算子d.PCA去除异常值e.聚类算法检测异常点VMcoder数据清洗数据去重数据去重page52page52建模算子数据增强数据合成hesis数据转换修改Modification成新的数据[25]]本体构建结合专家经验知识、原始数据,构建类别、概念、属性、关系等标注体系数据注解Human-in-the-基于描述选择基于描述选择模型聚合king2.预训练(Pre-training)+微调(Fine-tuning)模型融合模型参数化基于经验的模型参数化calbased基于过往经验,设定模型参数page54page5453建模算子基于交互选择基于交互选择型模型选择模型集成page56page5655建模算子模型参数化基于问题描述的模型参数化基于搜索的模型参数化Searchbased1.随机搜索(RandomSearch)模拟⽣生物演化机制操作(如繁衍、变异、重组等)将模型参数化变为动态过程,通1.演化算法(EvolutionaryAlgorithm)模型评价评价指标选择根据问题的性质选择特定的评价指标来评价:page57求解算子求解代数方程代数方程的传统求解方法包括高斯消元法(GaussianEliminationMethod)、最小二乘法(LeastSquaresMethod)等。高斯消元法通过有限步的数值计算获得代数方程组的解;最小二乘法是一种迭代解法,往往是先假定一个关于求解变量的场分布,通过逐次迭代的方法得到所有变量的解。FacebookAI建立了第一个可以使用符号推理解决高级数学方程的AI系统。通过开发一种将复杂数学表达式表示为一种语言的新方法,将解决方案视为序列到序列的神经网络翻译问题,在求解复杂非线性方程组方面优于传统的计算系统。求解微分方程微分方程的解通常是一个函数表达式:y=f(x)(含一个或多个待定常数,由初始条件确定)。如果待求函数是一元函数,那么这样的微分方程称为常微分方程,如果是多元函数,就称为偏微分方程。常微分方程的典型解法包括常数变易法和待定系数法。偏微分方程的典型解法包括有限差分法(Finite-differenceMethod)和有限元法 (FiniteElementMethod)。络(PINN),用神经网络逼近方程解的方法得到了大量关注,一系列不同的PINN也被其他研究者开发出来,如守恒型(cPINN),变分型(vPINN)和分布型(dPINN),求解效率和精度已超传统解法。英伟达也在GTCModulus神经网络的偏微分方程求解以及AI和物理驱动的数字孪生构建,支持多GPU加速,可大幅提高求解效率。[65]求解数学规划数学规划包括线性规划、非线性规划、动态规划、组合优化和整数规划等,常用的解法包括单纯型法(SimplexAlgorithm)、内点算法(InteriorPointAlgorithm)、梯度下降(GradientDescent)、牛顿法(Newton‘sMethod)、分支定界法(BranchandBound)、模拟退火法(SimulatedAnnealing)等。用深度强化学习等方法求解复杂组合优化问题是近年来新兴的研究领域,相对于传统的局部搜索或者启发式搜索方法,该方法不需要进行迭代搜索,具有泛化能力强、求解速度快的优势。如近期华为发布的天筹AI求解器,用AI技术帮助求解器更准确、灵活地理解企业使用过程,将生产场景中的真实情况更简单映射到求解器中。page58GaussianEliminationLeastsquaresMethod…SolveDifferentialEquation有限差分Finite-differenceMethod有限元法求解数学规划模型单纯型算法内点算法…梯度下降禁忌寻优GradientDescentTabusearch求解图模型遍历算法重要度分析法BFS/DFSPageRank/K-core/K-truss/Prim社群挖掘Louvain/Max-clique…图表示学习算法GraphSage/GAT/TransE/TransR…求解统计模型梯度下降变分采样…page59求解图模型图模型是一类用图来对知识进行建模表示的技术方法,针对建模完成的图模型,典型的图模型求解方法包括:图遍历算法、社群挖掘算法、路径计算算法、重要度分析算法、网络流算法以及图表示学习算法。其中,图遍历典型算法包括BFS、DFS,社群挖掘典型算法包括Labelpropagation、Louvain、Max-clique,路径计算典型算法包括Dijkstra、Floyd-Warshall、A*、Bellman-Ford,重要度分析典型算法包括K-core、K-truss、Prim、Kruskal、gSpan,网络流典型算法包括Ford-Fulkerson、Edmonds-Karp、Dinitz,图表示学习典型算法包括Deepwalk、Node2vec、GCN、GraphSage、GAT、TransE、TransR。针对政企场景数据不完整现状,传统图(知识图谱)表示学习算法在知识补全任务上通常效果不理想,结合小样本学习技术(Few-shotlearning)的图(知识图谱)表示学习算法可以在一定程度上解决以上问题,该研究方向是当前业界研究的热点。求解统计模型统计模型是指以概率论为基础,采用数学统计方法建立的模型。主要针对的是有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系。深度神经网络也属于统计模型。典型的求解方法包括梯度下降(GradientDescent)、采样(Sampling)、变分(VariableInference)和EM算法等。其中,梯度下降算法包括随机梯度下降(SGD)、批量梯度下降(BGD)、分布式梯度下降(DistributedGD)、Adam、Adadelta等一系列算法,采样包括MonteCarlo采样、Gibbs采样、MonteCarloTreeSearch等,变分包括平均场近似(MeanFieldApproximation)、随机变分推断(StochasticVariationalInference)等算法。page602.3知识计算框架应用典型场景策自然灾害等应急监控信息,政府各部门要采取的应对措施和政策法律依据等;以及工业汽车制造等企业场景中,领域专家记录的经验案例、流程信息等。实现知识的有效关联并提供面向不同行业场景的知识化应用。知识图谱通常用来对事实性、程序性知识进行建模和求解,实现以上类型知识参与计算及应用。现阶段,知识图谱广泛应用于政务、金融、医疗、汽车、油气等主(1)医疗药物研发场景中,通过构建包含病毒、蛋白、药物等信息的知识图谱,以知识搜索、知识推荐以及关联预测等形式应用,能够辅助研发人员大幅缩短药物研发周期。(2)汽车营销及维修场景中,通过构建车型、车系、设备、元器件、维修流程等信息的知识图谱,以知识搜索、知识推荐及知识问答形式应用,能够极大提升营销客服效率及汽车维修效率。田、区块、油井、储层等信息的知识图谱,以油气藏搜索、油气层智能识别等形式应用,能够极大提升油气层解释分析的准确率,支撑油气勘探开发增储上产、降本增效。输入结构转换算子实体属性关系事件...输入结构转换算子实体属性关系事件...page在各行业知识图谱落地过程中,主要存在如下2个挑战:●各行业场景差异化较大,数据来源不同,如何高效构建面向行业场景的知识图谱是首要问题●面向行业场景应用需求,如何通过AI技术高效实现知识化应用 (1)本体构建算子在知识图谱领域,本体(Ontology)通常也称之为知识图谱的模式(Schema),是一种对知识图谱数据的模式约束。本体构建需要完成对领域范围内概念、实体、属性、关系、事件等元素的定义。传统本体构建方法主要依赖领域专家和AI专家协作,通过人工梳理领域知识、术语词典、专家经验等信息完成本体元素的定义。通过应用数据注解算子族中的本体构建算子,结合领域预训练语言模型、文本挖掘等AI技术,以智能化形式将领域概念、属性、关系等知识模式进行提取和归纳,实现本体构建效率的大幅提升。本体构建算子已经在行业知识图谱构建中有诸多实践。例如在药物研发场景中,基于生物医学预训练语言模型、语义相似度模型等技术,通过预定义少量概念、关系种子信息,可自动化挖掘获得领域概念、属性和关系,再通过领域专家及AI专家的协作优化,即可实现领域本体的高效构建。page62 (2)结构转换算子在构建知识图谱过程中,原始数据输入格式通常以结构化、半结构化、非结构化形式存在。基于已构建本体,知识抽取需要完成对领域知识的准确高效提取。通过数据转换算子族中的结构转换算子,实现从原始数据中抽取实体、属性、关系及事件等知识。例如在电子商务场景中,采用场景相关知识训练的NER(NamedEntityRecognition)模型,可以更加准确的从原始文本中识别品牌、产品、类型等关键实体及属性,再结合RE(RelationExtraction)模型,进一步抽取获得实体之间或实体属性之间的关系,完成电子商务领域实体、属性、关系知识抽取。在金融领域场景中,采用行业相关知识训练的EE(EventExtraction)模型,可以更加准确的从金融文本数据中抽取相关事件及要素信息,完成金融事件知识抽取。当前主流的结构转化算子普遍通过领域预训练语言模型、端到端实体关系联合抽取模型来进一步提升模型效果,针对各行业场景中领域标注数据不足、标注成本高等问题,基于小样本学习、领域迁移学习等技术的结构转换算子是当下及未来的研究热点。输输出ExtractionEventEventExtraction知识融合事实性知识程序性知识图模型业务应用知识图谱-求解遍历算法图表示学习算法知识融合事实性知识程序性知识图模型业务应用知识图谱-求解遍历算法图表示学习算法page63 (3)数据去重算子通过结构转换算子可以准确高效完成实体、关系等知识的抽取,考虑到抽取结果中存在的知识冗余问题,通常需要使用数据清洗算子族中的数据去重算子,实现抽取结果中重复实体、关系等知识的进一步清洗和去重,达到提升知识图谱质量的目的。例如在电子商务场景中,通过结构转换算子中NER模型和RE模型获得的品牌、产品等实体及关系结果,采用实体对齐、布隆过滤器以及分组排序等具体算法,实现电子商务知识抽取结果的有效去重,最终完成知识图谱的构建。通过以上算子的组合完成知识图谱构建,实现业务问题转化为AI可求解的问题,完成AI建模:Knowledge→G(vit,rijt)新图谱数据去重及知识融合示例page64通过组合图遍历、图表示学习等算子实现知识推荐应用知识图谱应用可以认为是对图模型-知识图谱求解的过程,通过组合图模型求解算子,可以快速实现面向领域场景知识应用的构建。例如在电子商务场景中,通过本体构建算子、结构转换算子和数据去重算子已完成领域知识图谱构建,针对商品推荐问题,采用图模型求解算子,通过组合图表示学习算子和图遍历算子,如使用TransE算法形成电子商务知识图谱中商品、用户等知识表征,结合图传播算法形成用户兴趣的扩散,实现面向不同用户的个性化商品推荐应用,较比传统推荐系统,该方法能够大幅提升推荐转化效果,是当前行业主流方案。[66]知识图谱知知识图谱本本体设计知识抽取知识推荐知识推荐page65当前知识图谱已广泛应用于各大行业场景,考虑到知识图谱在事件及其空间、时间上演化规律等动态知识建模能力的不足,事理图谱作为一种全新的图模型技术应运而生。通过数据转换算子族中结构转换算子,首先完成事件及要素的识别抽取,进一步使用该算子完成事件因果等关系的抽取,再采用数据清洗算子族中的数据去重算子实现事件去重和合并,最终完成事理图谱的构建。在应用方面,事理图谱能够揭示事件的发展逻辑及脉络,通常以事件搜索、事件演化推理等应用形式提供知识化服务。农产品涨价预期消费者和企业普遍认为通货膨胀将会加剧价上涨价失控下跌紧缩农产品涨价预期消费者和企业普遍认为通货膨胀将会加剧价上涨价失控下跌紧缩公司成本增加公司成本增加事件预测辅助决策事件预测辅助决策系统问答系统对话系统EventGraphpage66基于行业机理+AI构建集成模型,实现“白盒模型”和“黑盒模型”的互补机理模型,又称为白盒模型(White-boxModel),是根据行业生产过程的内部机制或者物质流的传递机理,基于能量平衡方程、动量平衡方程以及某些物性方程、化学反应定律等而获得对象或过程的数学模型,是一种概念性知识。这类模型存在于各行各业,例如油气探勘开发场景中描述测井曲线正演过程的MaxWell方程、地震偏移成像的波动方程,分子动力学中描述各个粒子之间的力和它们的势能的函数等,本白皮书称为行业机理。机理模型的优点是其参数具有非常明确的物理意义。以深度神经网络为代表的AI模型,在训练数据的基础上经过训练和拟合,形成自动化的决策模型。在数据充分并且分布合理的情况下,如果建模方法得当,AI模型通常具有很高的准确性。然而,AI模型是一种黑盒模型 (Black-boxModel),其内部工作机制却难以理解,也无法估计每个特征对模型预测结果的重要性,更不能理解不同特征之间的相互作用关系。在实际行业生产过程中,尽管机理模型(白盒模型)被大量应用于不同领域场景,然而机理模型也存在如下不足:01首先,万物过于复杂,人类掌握的规律是有限的,机达真实情况。例如,在某些场景下,机理模型的参数通常是在一定假设条件下或者通过启发式方法设定的,建模形成的机理模型并不完全准确,甚至建模过程是无法完成的。02其次,机理模型的求解速度通常较慢,例如在工业仿真中,为了找到最佳的机翼形状,常常针对不同的形状参数(长度,曲率,材料等)模拟机翼周围的气流,单次模拟可能需要数小时甚至数天才能完成。正演正演page67 (1)模型聚合算子通过应用模型集成类算子中的模型聚合算子,将机理模型和AI模型结合,可以将二者进行串联、并联以及混联,实现模型的精度以及泛化能力的大幅提升。应用模型聚合算子将机理模型和AI模型结合来提升模型的精度已有诸多实践。例如在城市供热场景,将机理模型与AI模型进行串联,利用机理模型来优化AI模型的输出,使输出结果满足特定场景下的物理约束,实现最优控制策略。在焦化配煤优化场景,将焦炭热强机理模型与AI模型以并联的形式进行聚合,可以提升模型的精度和泛化能力。在化工场景,对于工业加氢裂化装置,建立混联结构的聚合模型对产物分布进行预测,其中由一个AI模型确定机理模型的参数,形成AI+机理模型串联结构,由另一个AI模型对整体模型输出与装置测量值间的误差值进行修正,总体形成混联结构,可提高目标产物收率。AI模型模型聚合:并联示例 (2)数据合成算子业问题的一种新范式。其中正演(Forward)是指根据机理模型以及有关的已知条件,来生成观测数据的方法;反演(Inversion)是指根据已知观测数据,来预测模型中未知参数的方法,即处理相反的问题。page68应用机理模型正演生成仿真数据,应用AI模型反演求解,该范式一方面可以解决单纯应用机理模型存在的不足,另一方面也可以解决AI模型训练所需训练数据不足的问题。反反演为了找到最佳的机翼形状,常常针对不同的形状参数(长度,曲率,材料等)模拟机翼周围的气流,单次模拟可能需要数小时甚至数天才能完成。一种主流的解决方案就是基于工业仿真数据训练得到AI代理模型。基本思路是在变量的范围内抽取一定数量的样本点,正演仿真对应的响应值,根据样本点和响应值来构建相应的反演模型(AI代理模型)。然后根据多目标优化算法添加相应约束进行优化,得到所需的最优解。AI代理模型的优点在于计算结果与原仿真模型非常接近,但是求解计算量小,可以大幅度加速优化过程。参数化建模与仿真计算参数化建模与仿真计算AI建模与优化搜索图片来源:Ritter,Markus,andJohannesDillinger."Nonlinearnumericalflightdynamicsforthepredictionofmaneuverloads."Proceedings"IFASD2011"(2011).真实曲线AI模型正演模型真实曲线AI模型正演模型地层参数提升模型AI模型page69 (3)模型融合算子行数据正演往往存在模型不准确或参数不准确的问题。通过应用模型集成类算子中的模型融合算子,在正演过程中建立一个机理+AI的融合模型,是对基于纯机理模型进行数据正演的修正和增强,来解决模型不准确或参数不准确的问题。在油气勘探开发场景,为了解决单纯使用机理模型进行正演数据生成存在的模型不准确以及参数不准确的不足,通过一个AI模型(ParameterLearner)来学习正演模型(ForwardModeling)所需的参数,来解决参数不准确的问题;通过另一个AI模型(ModelImprover)来学习正演模型输出结果与真实数据之间的误差,进一步提升正演模型生成结果的质量。通过应用求解统计模型算子进行模型训练,最终获得该混合模型的最优解,进而正演生成高质量的仿真数据仿仿真曲线page70油气探勘开发需要对地下几千米深的地质情况进行准确判断,极为复杂,并且油气行业专业性强,带标签的训练数据少,数据标注成本高、主观性强。通过模型融合算子生成的带标签仿真数据可以帮助训练AI模型,来解决测井油气层识别、物性参数预测、岩性识别等业务问题。在药物研发场景,分子动力学模型通过描述各个粒子之间的力和势能的函数来模拟演化系统。由于多体系统的复杂性,当利用机理模型定义出的势能函数还不能完全满足精度要求时,应用模型聚合算子建立混合模型,通过观测到的实验数据建立AI模型,来反向修正势能函数中包含的一些经验参数项,从而使模型更加准确,可以实现更强的生物功能。ForForeachtimestep(6t):Foreachatom:Atomiattimet:Position:Velocity:Acceleration:Fi(t)=tvi(t)=_Force:PotentialEnergy:ai(t)=________=_______d2ri(t)Fi(t)dt2mipage733.1能源知识计算,打造智慧化能源中枢传统能源行业场景及问题随着我国经济的快速发展,对油气的需求不断攀升,中国石油行业肩负起保障国家能源安全的重要职责。据中国海关总署统计数据显示,2020年我国原油进口量是5.4亿吨,原油对外依存度达到73%。但石油的勘探开发仍然面临巨大压力:一方面,历经多年高强度勘探和高速开发,油气勘探难度越来越大,油气开发效益与成本难以控制。另一方面,虽然我国的油气含量相对丰富,但地质条件十分复杂,常规找油找气方法通常依赖专家经验对数千米以下的地下构造和油藏特征进行准确判断,这需要对大量信息的综合研究,并且流程复杂。例如,在石油勘探的重要环节“测井”中,地球物理学家需通过对电阻率、自然电位、声波等综合信息的处理与解释进行油气层识别。并且随着勘探开发力度的不断加大,勘探数据具有海量、多维、多尺度、多属性等特点,常规的找油找气方法存在流程复杂、周期长、成本高等挑战。page74随着国家信息化、智能化改革的进行,越来越多的企业正在经历数字化转型,AI技术越来越多地被用于解决行业在油气行业,探勘开发难题也迎来了全新的思路和方法。人们尝试借助AI技术实现智能测井解释、智能钻井等业务场景,得出更准确的模拟参数或推荐参数,有效提升油气勘探开发的效率和质量,降低成本,缓解我国石油勘探开发的压力。能源知识计算能源知识的重要性行有效融合。油气勘探开发的知识体系复杂庞大,需结合大量的行业知识将具体的业务问题转换为可计算计算建模提供带标签训练数据。此外,基于深度学习的知识计算系统普遍存在可解释性不足的问题,结合领域知识可以辅助模型解释。知识计算带来模式改变以测井为例,利用知识计算进行智能测井解释,通过智能建模实现测井油气层的智能识别,简化测井解释流程,有效提升油气勘探开发的效率和质量,降低成本。测井数据测井数据四性别关系研究参数模型流体性质标准测井解释结论知识模型模型选择、模型融合图表示学习算法梯度下降测井数据测井数据四性别关系研究参数模型流体性质标准测井解释结论知识模型模型选择、模型融合图表示学习算法梯度下降page75传统流传统流程工作量大周期长智能建模智能识别效率提升降低成本测测井数据智智能建模0123456789测测井解释结论知识计算带来效益增长例如国际石油公司沙特阿美运用知识计算等AI技术,使钻井时间普遍缩短5%,成本下降10%;通过部署井下机器人,实现操作成本减少60%。普华永道专家认为,到2025年,油气公司通过将知识计算等AI技术在勘探开发业务上应用,可节省1000亿~10000亿美元的资本和运营支出。据《展望》预测,到2050年,油气行业将有四分之一的增量和三分之一的成本削减是通过数字化实现的,油气公司将更多地通过信息化手段实现增储上产。page76能源知识计算成功案例案例一:中国石油测井油气层识别知识计算解决方案算力和场景五个关键因素进行全面设计,实现数据处理、机器学习、模型发布、推理应用全流程能力。以测井油气层识别问题为例,在建模阶段:首先使用数据转化算子从大量的测井资料、地质资料中抽取其蕴含的优化油井的建模。普普通专家承担资深专家的职责识别准确率达到测井解释专家水平识别评价时间缩短70%+知识模型识别准确率达到测井解释专家水平识别评价时间缩短70%+知识模型统计模型智能配煤梯度下降数据去噪、数据去重模型选择、模型融合page其次,模型集成(Modelensemble)从如下两个角度考虑测井数据的多属性、多尺度特征:01同一层位具有相似流体性质的储层,在测01同一层位具有相似流体性质的储层,在测井响应上表现出的特征更具相似性,利用循环神经网络(例如LSTM)可以学习到测井曲线纵向上(深度上)的关联特征;同一层位的邻井

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论