传媒行业专题研究:AIGC引领内容生产方式变革_第1页
传媒行业专题研究:AIGC引领内容生产方式变革_第2页
传媒行业专题研究:AIGC引领内容生产方式变革_第3页
传媒行业专题研究:AIGC引领内容生产方式变革_第4页
传媒行业专题研究:AIGC引领内容生产方式变革_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1告传媒华泰研究告传媒华泰研究ChatGPT引发热潮,科技巨头加码布局,AIGC迎来发展机遇AIGC即生成式AI,是自动化内容生成的技术合集。22年AIGC产品集中发布,从效率、质量、多样性等方面为内容生产带来变革。文本方面,ChatGPT引领热潮,通过引入RLHF机制,持续优化模型效果,能完成问答、诗歌创作、代码写作等,科技巨头亦加码布局交互式文本。图像方面,Diffusion取代GAN成为图像生成的主流模型,由文字到图像的跨模态生成成为重点探索方向。此外,视频/代码/游戏/3D亦有较广阔的空间。建议关注:昆仑万维、蓝色光标、风语筑、阅文集团、三人行,产业链相关AIGC引领内容生产方式变革增增持(维持)zhujun016731@+(86)1063211166wuxiaoyu@+(86)75523993324wangxingyun@+(86)75582492388研究员SACNo.S0570520040004SFCNo.BPX711研究员SACNo.S0570522100002联系人SACNo.S0570121100014传媒公司还包括:视觉中国、中文在线、值得买、美图公司等。技术助力AIGC发展,掀起全场景内容生产力革命AI技术逐渐实现从分析到创造的迭代,而生成算法、预训练模型、多模态技术则是驱动AIGC发展的关键,长期看大模型+多模态将成为趋势。从产业链上看,AIGC主要包括基础层(预训练模型)、中间层(垂直化、场景化、个性化的模型)和应用层(面向C端的AIGC应用),由于技术与投资环境差异,中外公司整体差距在3年左右。AIGC有望通过其强大的生成能力广泛服务于内容生产的各类场景和内容生产者,在内容行业的应用场景不断增加和拓展,从而引领全场景内容生产力革命。AIGC所应用的细分场前看文本、音频、图像领域发展较快。ChatGPT引领热潮,大厂加码布局交互式文本AI文本生成作为AIGC最早发展的技术,已在新闻报道、商业营销、客服机器人等领域广泛落地。22年11月30日,OpenAI推出的智能聊天工具ChatGPT引入RLHF机制,持续优化模型效果,不仅能作答问题,还能完成短文和诗歌创作、代码写作、数学和逻辑运算,推出仅2月平均日活超1,300万。科技巨头亦加码布局交互式文本,微软在23年1月追加投资OpenAI,并宣布整合OpenAI语言模型到Bing搜索引擎和Edge浏览器中;谷歌亦发布Bard与投资ChatGPT的竞品Anthropic来应对挑战;百度公布了大模型新项目文心一言。行业走势图传媒沪深300(%)2(5)(12)(18)(25)Feb-22Jun-22Oct-22Feb-23资料来源:Wind,华泰研究重点推荐股票名称股票代码(当地币种)投资评级昆仑万维300418CH24.88买入蓝色光标300058CH6.96买入风语筑603466CH17.68买入阅文集团772HK42.90买入三人行605168CH129.22买入资料来源:华泰研究预测图像领域预训练模型迭代升级,AI图像生成迎机遇AIGC图像包括文字生成图像、图像属性编辑、图像部分编辑与图像端到端生成,其中由文字到图像的跨模态生成成为重点探索方向。22年成为AI绘画元年,从技术上看,Diffusion逐渐取代GAN成为图像生成的主流模型,助推了AIGC图像的发展。2022年8月,《太空歌剧院》出圈引发AI图像生成的热潮;同月StabilityAI推出StableDiffusion模型,为后续图像模型的更迭打下基础;此外OpenAI、谷歌在图像模型上亦持续迭代;百度文心·一格支持中国风AI创作。据6pen,未来5年全球10-30%的图像有望由AI生成或辅助生成,AI图像领域潜力较大。音频&视频部分应用落地较快,代码/游戏/3D等仍待成熟AIGC通过提取信息生成音频,主要应用于TTS(Text-to-speech)场景和乐曲/歌曲生成;TTS技术已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等。AIGC视频生成可以降低视频制作时间,主要应用于视频自动编辑、视频自动生成和文字生成视频等,有望显著降低视频内容的制作门槛、大幅提升制作效率,但在视频全自动生成方面仍有较大提升空间。此外,AIGC在代码/游戏/3D等生产方面不断进步,包括:代码补全生成、游戏操作策略/角色逻辑/剧情生成、3D模型/3D角色制作/3D场景生成等,但生产质量及应用成熟度仍待提升。风险提示:AI技术发展不及预期,商业化存在不确定性,政策监管风险。技术助力AIGC发展,长期看大模型+多模态成趋势 3 生成算法、预训练模型、多模态技术成为AIGC发展的关键 4 AIGC颠覆传统生产模式,掀起全场景内容生产力革命 7AIGC从效率、质量、多样性为内容生产带来革命 7文本、音频和图像生成等落地相对较快,游戏等方向仍待成熟 8AIGC多场景快速落地,文本/图像关注度较高 10PT TTS歌曲生成 21视频:可实现视频自动编辑、视频自动生成和文字生成视频等 24其他:游戏/代码/3D生成等领域应用前景广阔 28 昆仑万维(300418CH,“买入”评级,目标价24.88元) 31蓝色光标(300058CH,“买入”评级,目标价6.96元) 32风语筑(603466CH,“买入”评级,目标价17.68元) 32阅文集团(772HK,买入,目标价:42.90港币) 32三人行(605168CH,“买入”评级,目标价129.22元) 33 分析式AI诈骗信息识别垃圾邮件检测预测外卖时间推荐感兴趣的视频分析式AI诈骗信息识别垃圾邮件检测预测外卖时间推荐感兴趣的视频AI技术逐渐实现从分析到创造的迭代。AI(ArtificialIntelligence)即人工智能,传统的AI技术被称为分析式AI(AnalyticalAI),偏向于分析数据并总结规律,同时将规律运用到其他用途,比如运用AI技术进行垃圾邮件检测、向用户推荐感兴趣的短视频等。但随着技术的迭代,AI已经不仅仅局限于分析已有事物,而是开始创造有意义、具备美感的东西,即完成感知世界到创造世界的变迁,这种新型的技术被称为生成式AI(GenerativeAI)。从定义上看,AIGC既是一种内容形态,也是一种内容生成的技术合集,即生成式AI。从狭义上看,AIGC(AIGeneratedContent)是继PGC(ProfessionalGeneratedContent)与UGC(UserGeneratedContent)之后的一种内容形式,即利用人工智能技术生成的内容。从广义上看,AIGC指的是自动化内容生成的技术合集,基于生成算法、训练数据、芯片算力,生成包括文本、音乐、图片、代码、视频等多样化内容。AIGCAIGC(生成式AI) 多模态技术代码等片音乐文本 多模态技术代码等片音乐文本生成算法生成算法视视频源:红杉资本、华泰研究AIGC起源于20世纪50年代,经过多年发展,在2022年AIGC产品集中发布,多款产品出圈,引发社会广泛关注。据中国信通院,AIGC起源于20世纪50年代,莱杰伦·希勒和伦纳德·艾萨克森完成历史上第一只由计算机创作的音乐作品《依利亚克组曲》,但受制于技术水平,截至1990年,AIGC均仅限于小范围实验。1990-2010年是AIGC的沉淀积累阶段,AIGC逐渐从实验向实用转变,但受限于算法瓶颈,效果仍有待提升。2010年以来,伴随着生成算法、预训练模型、多模态技术的迭代,AIGC快速发展,2022年多款产品出圈。2022年8月,StabiltyAI发布StableDiffusion模型,为后续AI绘图模型的发展奠定基础,由Midjourney绘制的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军,引发社会广泛关注。2022年11月OpenAI推出基于GPT-3.5与RLHF kI年的140亿美元提升到2023年1月的290亿美元。此外,科技巨头亦加码布局AIGC,如微软表示将自己的消费者和企业产品中部署OpenAI的模型,宣布将OpenAI语言模型整合到Bing引擎和Edge浏览器中;谷歌在ChatGPT发布后亦加快AI自研,2023年2月7日正式发布下一代AI对话系统Bard,此外谷歌还投资ChatGPT的竞品Anthropic;国内方面,据百度官网,2023年2月7日,百度公布了大模型新项目文心一言(ERNIEBot),据彭博社,百度计划在2023年3月将最初的版本将内嵌到搜索服务中。2022年11月30日推出的人工智能聊天工具ChatGPT2022年82022年11月30日推出的人工智能聊天工具ChatGPT2022年8月StabilityAI发布的StableDiffusion模型能1950年,艾伦·图灵提出著名的“图灵测试”,给出判定机器是否具有“智能”的试验方法1957年,第一支由计算机创作的弦乐四重奏《依利亚克组曲(llliacSuite)》完成1966年,世界第一款可人机对话的机器人“Eliza”问世80年代中期,IBM创造语音控制打字机Tangora2007年,世界第一部完全由人工智能创作的小说《1TheRoad》问世2012年,微软展示全自动同声传译系统,可将英文演讲者的内容自动翻译成中文语音2014年,lanJ.Goodfellow提出生成式对抗网络GAN2017年,微软“小冰”推出2014年,lanJ.Goodfellow提出生成式对抗网络GAN2017年,微软“小冰”推出世界首部100%由人工智能创作的诗集《阳光失了玻璃窗》2018年,英伟达发布StyleGAN模型可以自动生成高质量图片发布DVD-GAN2018年,英伟达发布StyleGAN模型可以自动生成高质量图片发布DVD-GAN模型用以生成连续视频2022年8月,由AI绘图工具Midjourney绘制的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军受限于科技水平,AIGC仅限于小范围实验AIGC从实验性向实用性转变,受限于算法瓶颈,无法直接进行内容生成(20世纪90年代中期至21世纪10年代中期)深度学习算法不断迭代,人工智能生成内容百花齐放,效果逐渐逼真直至人类难以分辨)迎来集中爆发,多款产品出圈资料来源:中国信息通信院、OpenAI官网、华泰研究从技术上看,生成算法、预训练模型、多模态技术是AIGC发展的关键。从流程上看,算法接收数据,进行运算并生成预训练模型,多模态技术则是将不同模型融合的关键。长期看大模型+多模态将成为趋势:#1生成算法持续优化AdversarialNetwork,生成对抗网络)成为最早的AI生成算法。随后Diffusion、Transformer、基于流的生成模型(Flow-basedmodels)、CLIP(ContrastiveLanguage-ImagePre-Training)等深度学习算法相继被推出,其中Diffusion逐渐代替GAN成为图像生成的主流模型,Transformer的推出为预训练模型奠定了基础,CLIP则广泛应用在多模态技术中。模型提出时间模型描述变分自动编码(VariationalAutoencoders,VAE)2014基于变分下界约束得到的Encoder-Decoder模型对。生成对抗网络(GAN)2014基于对抗的Generator-Discriminator模型对。基于流的生成模型(Flowbasedmodels)2015学习一个非线性双射转换(bijectivetransformation),其将训练数据映射到另一个空间,在该空间上分布是可以因子化的,整个模型架构依靠直接最大化log-likelihood来完成。扩散模型(DiffusionModel)2015扩散模型有两个过程,分别为扩散过程和逆扩散过程。在前向扩散阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声还原为原始图像的过程。经过训练,该模型可以应用这些去噪方法,从随机输入中合成新的“干净”数据。Transformer模型2017一种基于自注意力机制的神经网络模型,最初用来完成不同语言之间的文本翻译任务,主体包含Encoder和Decoder部分,分别负责对源语言文本进行编码和将编码信息转换为目标语言文本。神经辐射场(NeuralRadianceField,NeRF)2020它提出了一种从一组输入图像中优化连续5D神经辐射场的表示(任何连续位置的体积密度和视角相关颜色)的方法,要解决的问题就是给定一些拍摄的图,如何生成新的视角下的图。CLIP(ContrastiveLanguage-ImagePre-Training)模型20211、进行自然语言理解和计算机视觉分析;2、使用已经标记好的“文字-图像"训练数据。一方面对文字进行模型训练。一方面对另一个模型的训练,不断调整两个模型的内部参数,使得模型分别输出的文字特征和图像特征值并确认匹配。资料来源:腾讯研究院、华泰研究#2预训练模型持续完善2015年以前,小模型一度被认为是行业发展的方向,但这些小模型更偏向处理分析性任Transformer算法的概念,而Transformer能够有效提取长序列特征,具备较高的计算效率和可扩展性,大大降低训练时间。2018年谷歌发布基于Transformer的NLP(NaturalLanguageProcessing,自然语言处理)预处理模型BERT,标志着人工智能进入预训练模型时代。从流程上看,预训练模型采用两阶段学习法,即首先在大量的通用数据上训练并具备基础能力,再结合多样的垂直行业和场景对预训练模型进行微调,从而有效提升开发效率。随着参数规模的扩大,预训练模型在语言理解,图像识别等领域迅速取得突破,所需的计算量也急剧增长。据红杉资本,2015-2020年,用于模型训练的计算量增加了6个数量级。据腾讯研究院,按照类型分类,预训练模型包括:1)NLP(自然语言处理)模型,使得人与计算机能够用自然语言有效通信,包括OpenAI的GPT系列,Facebook的M2M-100;2)CV模型(ComputerVision,计算机视觉),运用计算机及相关设备对生物视觉进行模拟,比如微软的Florence;3)多模态预训练模型,包含图像、文字、视频等多种形式,如谷歌的Image、StabilityAI的StableDuffusion等。企业预训练模型应用参数量领域领域谷歌BERTLaMDAPaLMImagenParti语言理解与生成对话系统语言理解与生成、推理、代码生成语言理解与图像生成语言理解与图像生成4810亿5400亿110亿200亿NLPNLPNLP多模态多模态微软FlorenceTuring-NLG视觉识别语言理解、生成6.4亿170亿CVCVNLPFacebookOPT-175BM语言模型100种语言互译1750亿150亿NLPNLPDeepMindGatoGopherAlphaCode多面手的智能体语言理解与生成代码生成亿2800亿414亿多多模态NLPNLPOpenAlGPT3CLIP&DALL-ECodexChatGPT语言理解与生成、推理等图像生成、跨模态检索代码生成语言理解与生成、推理等1750亿120亿120亿NLP多模态NLPNLPStabilityAlStableDiffusion语言理解与图像生成多多模态英伟达Megatron-TuringNLG语言理解与生成、推理5300亿NLP资料来源:腾讯研究院、华泰研究#3多模态技术快速发展多模态技术(MultimodalTechnology)即将图像、语音、视频、文字等多模态融合的机器学习技术,而CLIP(ContrastiveLanguage–ImagePre-training)的推出成为跨模态应用生成的重要节点。CLIP在2021年由OpenAI开源推出,能够将文字和图像进行关联且关联特征丰富,后续“CLIP+其他模型”成为跨模态生成领域的较通用的做法,如DiscoDiffusion便是将CLIP与Diffusion模型进行关联,用户输入文字指令便能够生成相关的图片。在多模态技术的加持下,预训练模型已经从早期单一的NLP、CV向多模态、跨模态的方向发展。从产业链结构来看,AIGC主要包括基础层、中间层和应用层,中外差距在3年左右。由于技术与投资环境差异,AIGC在我国大多作为公司的部分业务进行开发,独立的初创公司数量较少,导致AIGC实际的场景开发较国外仍有差距。据量子位,中外公司的整体差距在3年左右,底层技术是核心原因。#1基础层基础层即预训练模型,构成了AIGC的基础。随着预训练模型参数的增加,预训练所需要的数据量同样快速提升,带来较高的成本投入。据中国信通院与京东探索研究院发布的《人工智能生成内容白皮书2022》,模型参数量已从最初的千万级发展到了千亿级别,训练代价也从数十天增长到几十万天(按在单张V100GPU计算)。据北京智源人工智能研究院,2020年OpenAI发布的NLP模型GPT-3的参数量约1,750亿,训练数据量达45TB,模型训练成本近1,200万美元。因此该领域的参与者主要是科技巨头与头部的研究机构,如OpenAI、谷歌、微软、Meta、百度等。#2中间层中间层即垂直化、场景化、个性化的模型。在预训练模型的基础上,能够快速生成垂直化的小模型,实现流水线式的开发,降低开发成本,提升效率。如StableDiffusion开源后多个绘画模型基于StableDiffusion开发,二次元绘画领域包括知名的NovelAI,而昆仑万维的天工巧绘SkyPaint模型则采用全球第一款多语言StableDiffusion分支模型,兼容StableDiffusion。据腾讯研究院,随着大模型+多模态加速成长为通用性技术平台,模型即服务(Model-as-a-Service,MaaS)逐渐实现,通过API授权有望助力AIGC变现。#3应用层应用层即面向C端的AIGC应用。从模态上看,应用层包括图像、音频、文本、视频等,其中图像领域代表产品包括MidJourney、DreamStudio等;音频包括DeepMusic等;文本包括ChatGPT、Sudowrite等;视频包括Runway等。从形式上看,应用层包括App、网页、小程序、聊天机器人等,将C端用户与模型联通,已经逐渐渗透到生活中的各个领域,如MidJourney搭载在聊天软件Discord中推出,ChatGPT则支持网页直接登录,国内的如昆仑万维的天工巧绘SkyPaint能够通过微信小程序登录,满足用户的多样化需求。资料来源:腾讯研究院、华泰研究AIGC从效率、质量、多样性为内容生产带来革命AIGC技术的突破性进展引发内容生产方式变革,内容生产由PGC(专业制作)和UGC (用户创作)时代逐渐步入AIGC时代。AIGC顺应了内容行业发展的内在需求,一方面内容消费量增加,急需降低生产门槛,提升生产效率;另一方面用户端表达意愿明显上升,消费者对内容形态要求更高,内容生成个性化和开放化趋势明显。资料来源:《AIGC发展趋势报告2023》、华泰研究AIGC通过其强大的生成能力广泛服务于内容生产的各类场景和内容生产者,在内容行业的应用场景不断增加和拓展,将在内容生产中产生变革性影响。具体来看主要有以下三点:1)自动内容生成,提升内容生产效率,降低内容生产门槛和内容制作成本。当前大量文本、图像、音频、视频等内容都可以通过AIGC技术自动生成,高效的智能创作工具可以辅助艺术、影视、广告、游戏、编程等创意行业从业者提升日常内容生产效率。此外,自动内容生成可以降低内容生产门槛和内容制作成本,例如,借助AI编曲软件可以自动生成编曲,而人为创作大概需要7-10年的经验积累。2)提升内容质量,增加内容多样性。AIGC生成的内容可能比普通的人类创建的内容质量更高,大量数据学习积累的知识可以产生更准确和信息更丰富的内容,谷歌的Imagen生成的AI绘画作品效果已经接近中等画师水平。而且AIGC可以帮助企业和专业人士创建更多样化、更有趣的内容,VQGAN可以生成抽象绘画作品,不咕剪辑Cooclip内置丰富的贴纸、音频、经典“梗”素材等,可以增加视频本身的玩法与乐趣。3)助力内容创新,实现个性化内容生成。AIGC将内容创作中的创意和实现分离,替代创作者的可重复劳动,可以帮助有经验的创作者捕捉灵感,创新互动形式,助力内容创新。例如AICG在设计初期生成大量草图可以帮助美术创作者生成更多创作灵感。根据个人用户的喜好生成个性化内容,也有利于多种创意落地。AIGC发展中仍面临法律、安全、伦理和环境等问题。首先,AIGC引发了新型版权侵权风险,因版权争议,国外艺术作品平台ArtStation上的画师们掀起了抵制AIGC生成图像的活动。其次,AIGC滥用容易引发信息内容安全、内生安全、诈骗违法犯罪行为等安全隐患,诈骗团队利用AIGC换脸伪造埃隆·马斯克的视频,半年诈骗价值超过2亿人民币的数字货币。再次,算法歧视等伦理问题依然存在,人工智能大规模替代人类劳动引发争议。最后,AIGC模型训练消耗大量算力,碳排放量巨大,对环境保护造成压力。细分场景众多,文本、音频、图像领域发展较快。基于模态,我们认为目前AIGC下游落地场景有文本、音频、图像、视频、游戏、代码、3D生成等。较之国外,我国AIGC行业仍处于刚起步阶段,体系化发展等仍待完善。资料来源:红杉中国、腾讯研究院、量子位、Microsoft、OpenAI、rctai、、华泰研究文本生成:AIGC目前可以较好地完成新闻播报等结构化写作、推荐相关内容、帮助润色等非结构化内容,同时在虚拟男/女友、心理咨询等闲聊机器人中应用较为广泛。剧情续写、营销文本等非结构化写作与文本交互游戏等应用尚未实现规模化应用,未来或可实现文本生成的终稿达到人类平均水平甚至专业水平。图像生成:随着算法模型的不断迭代,AI作画水平不断提高。在图像编辑工具上,去除水印、提高分辨率、特点滤镜等已较广泛应用。根据随机或按照特点属性生成画作等的创意图像生成,与根据指定要求生成营销类海报、模特图等的功能性图像生成发展接近成熟。当前图像生成水平与专职艺术家、设计师和摄影师的产品设计作品存在一定差距。音频生成:发展较为成熟,消费与企业级的应用正在铺开。AIGC目前在语音克隆、生成虚拟人的特定歌声/播报等的文本生成特定语言、包含作曲与编曲的乐曲/歌曲生成上得到广泛应用,的有倒映有声、Deepmusic、网易-有灵智能创作平台等。AI降噪去除压缩和采样中的噪音仍需改善,AI作曲不再机械化与人类创作音乐水平相仿,在未来值得期待。视频生成:AIGC目前对于删除特定主体、生成特效、跟踪剪辑等的视频属性编辑已较广泛应用,视频换脸等的视频部分剪辑预计不久将规模化应用,对特定片段进行检测与合成的视频自动剪辑发展仍不完善。当前,全自动生成长时间的视频作品还不能实现,距离依个人梦想定制电影和剧集还较为遥远。其他(游戏/代码/3D):代码补全生成来替代程序员重复性劳动的发展较为成熟,大量应用已落地。游戏中游戏操作策略生成和NPC逻辑及剧情生成尚需进一步完善,3D生成尚处于早期阶段,3D模型、3D角色制作和3D场景尚未实现规模化应用。3D、游戏、代码自动生成更加智能将成为未来的增长方向。AIGC的商业模式同样处于持续探索的阶段,由按量收费等传统方式向SaaS订阅模式等应用场景更灵活的方式拓展。AIGC让AI公司为更多中小型企业甚至个人提供服务,可规模化地降本增效,为AI行业带来一种全新的可能性和商业模式。1)按量收费:AI技术传统应用模式主要以API接口对外开放,以实际使用量/训练量计算收费,如OpenAI的GPT3语言模型服务以每千tokens定价(OpenAI使用的字符计算单位,一千tokens约等于750个单词),Ada/Babbage/Curie/Davinci四种模型的能力和产出速度不同,单价也有所不同,分别为$0.0004/0.0005/0.0020/0.0200每千tokens。图像生成方面,DALL`E模型同样按次收费,不同尺寸的图像收费不同,生成一张256x256/512x512/1024x1024像素的图片,单次收费$0.016/0.018/0.020。2)SaaS模式:AIGC为B端及C端用户提供了会员SaaS收费的模式,降低了传统AI公司的客户服务规模化的难度。据OpenAI官网,2023年OpenAI推出付费版本的ChatGPTPlus,起价为每月20美元,提供更快的响应速度,以及新功能和更新的有限使用权。美国AIGC公司Jasper主打AI生成文案服务,以类SaaS服务收费,2021年成立当年营收达4,500万美元,以其Starter模式为例,基础收费是24美元/月,可以使用不超过2万字;最高332美元/月,可以使用32万字。3)其他:通过降本增效来增利、定制化服务付费、个性化产品销售等。市场积极探索其他场景商业化:在广告营销、影视、音乐、游戏、艺术品等领域AIGC有望继续拓展更多样化的商业化形式。蓝色光标推出的“销博特”发布AIGC“创策图文”营销套件,该套件的定制版服务将销博特营销能力服务部署为企业自有云服务,并根据企业个性化需求进行二次开发,构建企业内部营销创意基础设施平台,为企业提供专属营销策划和创意内容。AIGC的商业模式同样处于持续探索的阶段,由按量收费等传统方式向SaaS订阅模式等应用场景更灵活的方式拓展。AIGC让AI公司为更多中小型企业甚至个人提供服务,可规模化地降本增效,为AI行业带来一种全新的可能性和商业模式。AIGC多场景快速落地,文本/图像关注度较高据量子位,AI文本生成分为交互式与非交互式。非交互式包括结构化写作,非结构化写作和辅助性写作,其中结构化写作指基于数据或规范格式,在特定情况下生成的文本,如新闻、简讯等;非结构化写作以创作型文本生成为主,具备更高的开放度。作为AIGC最早发展的技术,AI文本生成已经在新闻报道、商业营销、客服机器人等领域广泛落地。2022年11月30日,OpenAI推出的智能聊天工具ChatGPT引入RLHF机制,降低训练成本且效果优化,不仅能够对问题作出回答,还能完成短文和诗歌创作、代码写作、数学和逻辑运算等任务,据Similarweb,ChatGPT推出仅2月平均日活超1,300万,引发社会广泛关注。科技巨头亦加码布局交互式文本,微软在2023年1月追加投资OpenAI,未来还计划将ChatGPT整合到旗下的搜索引擎Bing中;谷歌通过内部研发与投资ChatGPT的竞品Anthropic来应对挑战,23年2月6日公布了与ChatGPT类似的对话服务Bard;据彭博社,百度计划将ChatGPT类似程序嵌入搜索服务中。大类小类公司家应用/模型介绍非交互式结构化写作非结构化写作辅助性写作澜舟科技腾讯百度字节AutomatedInsightsNarrativeSciencePhraseePersado北京彩彻区明科技谷歌中文在线Jasper智搜信息赅推智能北京万卷在线谷歌Sudowrite海外海外海外海外海外海外海外海外contentnote智能文案DreamwriterAI助理XiaomingbotWordSmithQuillPhraseeScorePersado彩云小梦DramatronAI文字创作功能JasperGilso写作机器人Get写作写作猫WordcraftSudowrite主要针对营销文案的智能化写作腾讯财经开发的一款自动写作新闻软件基于百度文心大模型,可产出不同风格的文章标题、内容段落一款新闻写作机器人,该机器人在里约奥运会上,共撰写了457篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道。已经被美联社等机构使用,帮助报道大学橄榄球赛事、公司财报等新闻将数据转化为自然语言,并凸显最重要的洞见解决电子邮件营销优化的问题,一键生成数百万种符合品牌要求的内容生成电子邮件、网页和其他营销活动等的文案人工智能小说续写APP,已入驻喜马拉雅一款AI剧本写作模型,能够自动产生人物、位置、情节的描述并生成对话已在17K小说上线,作者在使用该功能时,通过针对不同的描写场景填写关键词和辅助短语,即可生成对应的文字内容描写为作品使用支持26种语言,可实现剽窃检测、速写、长篇文档编辑等内容创作AI辅助工具,提供热点写作、提纲写作、汽车写作等类型写作用AI加速写作,以人机协作的方式提升写作效率,快速创作AI智能写作内容辅助写作工具基于LaMDA模型,能够根据现有文本产生新想法或者帮助创作者重写已有的支持头脑风暴、想出新角色、帮助详细描述、重写等交互式闲聊机器人文本交互游戏OpenAI谷歌百度Latitude海外海外海外ChatGPTBard文心一言AIDungeon人工智能聊天机器人,可完成撰写邮件、视频脚本、文案、翻译、代码等任务基于谷歌的LaMDA模型,能够利用网络上的信息提供最新的、高质量的回答预计2023年3月嵌入百度搜索引擎利用了GPT-2模型,根据上下文和用户输入生成文本的文字冒险游戏资料来源:各公司官网、量子位、华泰研究#1交互式文本在交互式文本当中,最近热度较高的ChatGPT是代表性应用,展现出较强的智能水平。ChatGPT是OpenAI在2022年11月30日推出的人工智能聊天工具,其不仅能够模仿人类的风格作出问题回答,还能完成短文和诗歌创作、代码写作、数学和逻辑运算等任务。据腾讯研究院,ChatGPT目前可以驾驭各种风格和文体,能够做到回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求等。ChatGPT的内容输出质量、内容覆盖维度,已经可以直面“搜索引擎”与“问答社区”。据CNBC,ChatGPT通过了Google3级工程师的编码面试,据NBCNews,沃顿商学院教授ChristianTerwiesch发现ChatGPT能够以B-到B的成绩通过该校MBA核心课程运营管理的期末考试,展现出较强的智能水平。资料来源:OpenAI官网、华泰研究ChatGPT的出现迅速引起广泛关注,仅推出2月平均日活超1,300万,成为一款现象级的产品。ChatGPT用户数在5天内突破了100万,据Similarweb,2023年1月每天平均有1,300万独立访客使用ChatGPT,超12月的2倍,而这距离ChatGPT的推出仅2个月。ChatGPT强大的性能引发了社会的广泛关注,特斯拉CEO马斯克在Twitter上表示“许多人已经陷入了ChatGPT的疯狂循环中”,“我们离强大到危险的AI不远了”;2023年2月,微软创始人比尔盖茨接受Forbes采访时表示“AI将成为2023年最热门的话题,ChatGPT这种人工智能技术出现的意义不亚于互联网和PC的诞生”。ChatGPT引入RLHF机制,通过引入人类反馈,持续优化模型效果。据OpenAI官网,ChatGPT的模型在GPT-3.5的基础上引入了RLHF(ReinforcementLearningfromHumanFeedback,人类反馈强化学习)机制,这一模式增强了人类对于模型输出结果的调整,对结果进行更具理解性的排序,并提升训练效率,加速模型收敛。具体来看,ChatGPT的训练分为:1)第一阶段:监督调优:在数据集中随机抽取问题,由标注人员给出高质量回答,并用标注好的回答微调GPT-3.5模型,获得SFT (SupervisedFine-Tuning)模型;2)第二阶段:训练奖励模型:在数据集中随机抽取问题,标注人员对于每个问题的不同回答给出排名顺序,并用排序结果训练奖励模型;3)第三阶段:近端策略优化:将奖励模型用于改进SFT模型。第一阶段仅训练1次,通过持续迭代第二和第三阶段即可生成高质量的ChatGPT模型。GPTGPT-1GPT-2GPT-3ChatGPT发布时间2018年6月2019年2月2020年5月2022年11月1.17亿1.17亿参数量/约5GB40G/约5GB40G/45TB资料来源:机器之心、华泰研究资料来源:OpenAI官网、华泰研究ChatGPT再获微软投资,合作持续加深,未来将集成至Bing搜索引擎与Edge浏览器中。据路透社,OpenAI在2019年获得微软10亿美元的投资,2021年微软对OpenAI追加了投资。据微软官网,微软在2023年1月表示,作为两家公司合作的第三阶段,微软将加大对supercomputingsystems的投资以支持OpenAI的发展。此外微软未来会把自己的消费者和企业产品中部署OpenAI的模型,并为客户引入基于OpenAI技术的体验,将OpenAI的技术构建到GitHubCopilot和MicrosoftDesigner等,同时微软仍然为OpenAI的独家云提供商。从具体的落地层面看,2023年1月微软CEO萨提亚·纳德拉表示微软旗下的Azure云服务即将整合ChatGPT技术,2023年2月,微软旗下的Teams推出嵌入ChatGPT的高级服务,同时微软宣布将OpenAI的语言模型整合到Bing搜索引擎和Edge浏览器中。据Theinformation,截至2023年1月,OpenAI估值达290亿美元。ChatGPT在商业化路径上持续探索,推出付费版本ChatGPTPlus。OpenAI的CEOSamAltman在Twitter上表示,ChatGPT平均一次聊天成本在个位数美分,除了API外,公司正在探索更多的商业化变现模式,而ChatGPTPlus便是其中之一。据OpenAI官网,2023年OpenAI推出付费版本的ChatGPTPlus,起价为每月20美元,目前只对美国的用户开放。据OpenAI官网,ChatGPTPlus即使在高峰时段也可以访问,有更快的响应,可以优先使用新功能和改进。资料来源:OpenAI官网、华泰研究资料来源:Twitter、华泰研究谷歌通过内部研发与投资应对ChatGPT或带来的颠覆性挑战。据Insider,2022年12月,谷歌为ChatGPT带来的威胁发布了“红色警报”,着手进行紧急应对。应对措施方面,谷歌一方面加快内部研发,据谷歌官网,美国时间2023年2月6日,谷歌发布了与ChatGPT类似的对话服务Bard,目前Bard向测试人员开放,未来几周将持续向公众开放该服务。Bard基于谷歌的LaMDA模型(LanguageModelforDialogueApplications,用于对话场景的语言模型),能够利用网络上的信息提供最新的、高质量的回答。此外,据TheIndependent,谷歌或将在2023年通过子公司DeepMind推出聊天机器人Sparrow,可通过谷歌搜索引用特定的信息源,准确性更强。谷歌也在通过投资持续布局相关领域。据金融时报,2023年2月,谷歌投资AIGC初创公司Anthropic超3亿美元,获得了约10%股份。据Anthropic官网,谷歌已经与Anthroic签署了一份大型云计算合同,Anthropic从谷歌云购买计算资源,谷歌提供AI模型算力。Anthropic在2021年由前OpenAI研究副总裁DarioAmodei建立,核心产品是与ChatGPT类似的聊天机器人Claude。资料来源:Twitter、华泰研究资料来源:谷歌官网、华泰研究国内大厂对于ChatGPT的发展持乐观态度,百度将集成文心一言至搜索引擎。腾讯研究院在2023年1月发布《AIGC趋势报告2023》,对于ChatGPT的发展持乐观态度,指出AIGC有望作为数据与内容的强大生产引擎,升级甚至重塑内容工具,申请的“人机对话方法、装置、设备及计算机可读存储介质”专利可实现人机顺畅沟通;京东集团副总裁何晓冬表示京东会不断结合ChatGPT的方法和技术点,融入到产品服务中推动人工智能的产业落地;据百度官网,2023年2月7日,百度公布了大模型新项目文心一言(ERNIEBot),据彭博社,百度计划在2023年3月将最初的版本将内嵌到搜索服务中;阿里巴巴达摩院申请了“人机对话及预训练语言模型训练方法、系统及电子设备”的专利,积极布#2非交互式文本结构化写作已经在新闻写作、公司财报、客服类聊天问答等场景广泛应用。国外方面,代表性的垂直公司AutomatedInsights成立于2007年,旗下的Wordsmith是一个自然语言AutomatedInsights已经在新闻写作中具有较广泛的应用,下游的客户包括雅虎、美联社等主流媒体。国内方面,小冰公司、腾讯、百度、字节、澜舟科技等公司均有布局。澜舟科技成立于2021年,主要产品是基于“孟子轻量化预训练模型”打造的一系列SaaS功能引擎,被广泛应用于包括搜索、生成、翻译、对话等领域。字节推出的Xiaomingbot是新闻写作机器人,该机器人在里约奥运会上,共撰写了457篇关于羽毛球、乒乓球、网球的消息简讯和赛事报道。整体来看,目前结构化写作已具备较成熟的应用,长期来看,NarrativeScience创始人预测到2030年90%以上的新闻将有AI写作完成。资料来源:AutomatedInsights官网、华泰研究资料来源:澜舟科技官网、华泰研究非结构化写作开放度和技术要求更高,主要运用在营销和剧情写作领域。据量子位,非结构化写作主要运用在剧情写作、营销文本等领域,开放度和自由度更高,对于生成技术亦有更高的要求,而目前长篇文字在内部逻辑上仍然有较明显的问题,暂不适合直接使用,预计未来的4-5年或取得一定的突破。国外方面,代表性的公司包括谷歌、Anyword、Pencil、Copy.ai、Jasper等,其中Jasper成立于2021年,基于GPT-3训练模型,通过AI技术帮助企业完成社交媒体、广告营销、电子邮件等多种内容,2022年10月,Jasper宣布获得1.25亿美元的A轮融资,估值达15亿美元;谷歌的AI剧本写作模型Dramatron则能够自动产生人物、位置、情节的描述并生成对话。国内代表性公司为中文在线、彩云小梦等,在彩云小梦App中创作页面输入一段文字,便能够生成三条不同的故事走向,用户可以点击选择继续或者让彩云小梦重新续写,从而让故事走向更加符合用户的设定。中文在线的AI文字创作功能已在17K小说上线,作者在使用该功能时,通过针对不同的描写场景填写关键词和辅助短语,即可生成对应的文字内容描写为作品使用。资料来源:Jasper官网、华泰研究资料来源:AppStore、华泰研究辅助性写作落地场景广泛,主要运用在资讯和文章写作等场景。据量子位,除端到端的文本创作外,辅助性写作是国内目前供给及落地最为广泛的场景,辅助性写作主要是基于素材爬取的协助作用,如定向采集信息素材、文本素材预处理、自动聚类去重等提供相关素材。国外代表性的公司为Sudowrite,其辅助性写作工具支持头脑风暴、想出新角色、帮助详细描述、重写等;谷歌发布的Wordcraft基于LaMDA模型,能够根据现有的文本产生新想法或者帮助创作者重写已有的句子。国内方面,代表性的公司包括写作猫、Gilso写作机器人、Get写作等,其中智搜信息的Gilso写作机器人拥有资讯写作、文章校对、文章改写、提纲写作、营销写作等功能,曾为中国南方电网、经济日报等提供服务。资料来源:智搜信息官网、华泰研究资料来源:Sudowrite官网、华泰研究据量子位,AIGC图像包括文字生成图像、图像属性编辑、图像部分编辑与图像端到端生成,其中由文字到图像的跨模态生成成为重点探索方向。从底层技术上看,Diffusion逐渐取代GAN成为图像生成的主流模型,助推了AIGC图像的发展。2022年8月,由Midjourney生成的《太空歌剧院》出圈,引发AI图像生成的热潮;2022年8月,StabilityAI推出StableDiffusion模型,成为AI图像生成的里程碑,为后续图像模型的更迭打下基础。此外,OpenAI、谷歌在图像模型上亦持续迭代;百度文心·一格则支持中国风AI创作。据6pen,未来5年全球10-30%的图像有望由AI生成或辅助生成,AI图像领域展现出较大的潜力。分类公司家应用/模型介绍文字生成图像MidJourneyLab百度StabilityAIOpenAI谷歌海外海外海外海外MidJourney文心一格StableDiffusionLLEImagen一款搭载在Discord上的聊天机器人,玩家@机器人并输入相关的提示词(Prompts)即可在1分钟以内生成4张图片基于ERNIE-ViLG2.0,目前支持国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成该模型的运行速度快、消费资源及内容较少,使用消费级显卡即可迅速生成高质量的图像,且该模型完全免费开源,所有的代码均在GitHub上公开根据文本描述生成图像,较前代图像质量提升了3倍;能够在更细的颗粒度上实现文本到图像的转化,能够根据自然语言进行P图,同时会反馈阴影、纹理等元素的变化;生成速度极大提升从效果上看,Imagen在写实场景中表现更加优秀图像属性编辑AlexeyMoiseenkov团队谷歌美图公司海外海外PrismaRawNeRF美图AI开放平台、美图秀秀照片编辑器,在全球拥有1.2亿用户及500款样式库,借助Prisma的AI自动生成框架,可将照片转化为艺术品能够将夜晚照片降噪,此外能将2D照片合成3D效果并调节焦点专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域,接入的客户包括欧莱雅、兰蔻、宝洁等图像部分编辑英伟达Metaphysic.ai万兴科技Deepswap.ai海外海外海外CycleGANMetaphysic万兴爱画APPDeepfake自动将一类图片替换为另一类图片,如支持将图内的斑马和马、苹果和橘子等内容进行互换能够调节照片的情绪、年龄和微笑支持AI修改局部画面,支持通过文本修改,如输入珍珠项链,可在图片中添加支持AI换脸图像端到端生成阿里巴巴蓝色光标谷歌ArtbreederBotRosebudAIVanceAI海外海外海外海外阿里鹿班销博特ChimeraPainterArtbreederRosebud.aiVansPortrait设计水平已经非常接近普通设计师,平均1秒钟就能完成8000张海报设计通过结合AI、统计算法和多维数据库,一键自动化生成策划案、消费者洞察、营销创意等内容使用机器学习,可以把随手画的粗略草图生成怪物图像支持有机组合多张图像生成新图像支持生成虚拟的模特面部,用于品牌广告和娱乐在5秒内将图片变成绘画、素描或动画资料来源:各公司官网、量子位、华泰研究早期AIGC图像主要基于GAN模型,但生成效果欠佳。GAN模型主要由生成器 (Generator)和判别器(Discriminator)两部分组成,生成器负责模拟出与真实训练样本类似的假数据,并将假数据混入原始数据交由判别器区分,两个模型相互博弈,直到生成器的假数据能够以假乱真。早期的AIGC图像主要基于GAN模型生产,但是GAN存在训练难以收敛、模型坍塌、梯度消失等问题,造成训练结果冗余、图像生成质量差。资料来源:CSDN、华泰研究Diffusion模型逐渐取代GAN成为主流模型,推动图像生成技术的发展。Diffussion受热力学模型启发,通过增加高斯噪声破坏训练数据,然后通过反转噪声来恢复学习的数据,经过训练的模型便能够应用去噪方法来生成干净的数据。Diffussion相对于GAN具有更灵活的模型框架和精确的对数似然,所需数据更少,但图像生成效果较更佳,目前逐渐取代GAN成为新一代图像生成的主流模型。资料来源:量子位、GitHub、华泰研究#1文字生成图像由Midjourney生成的《太空歌剧院》出圈,引发社会广泛讨论。Midjourney是一款搭载在Discord上的聊天机器人,玩家只需要@机器人并输入相关的提示词(Prompts)即可在1分钟以内生成4张图片。凭借着极低的上手门槛和Discord社区加持,截至2023年2月4日,Discord数据显示Midjourney在Discord约有980万成员。2022年8月,由Midjourney生成的《太空歌剧院》在美国科罗拉多州艺术博览会上获得“数字艺术”类别的冠军,使得AI绘画引发了广泛的关注,围绕AI能够替代艺术创作的讨论热度较高。资料来源:Discord、华泰研究资料来源:TheInformation、华泰研究StableDiffusion模型成为AI图像领域的里程碑,Stability估值达10亿美元。2022年8月,StabilityAI推出StableDiffusion模型,随着算法和模型的持续优化,StableDiffusion的运行速度快、消费资源及内容较少,使用消费级显卡即可迅速生成高质量的图像,且该模型完全免费开源,所有的代码均在GitHub上公开,因此也为后续整个图像模型的更迭打下基础。据TechCrunch,截至2022年10月,已有超20万开发者下载和获得StableDiffusion的授权,各渠道的累计日活已经超过1,000万;基于StableDiffusion,面向消费者的AI智能绘图软件DreamStudio用户数超150万,已生成1.7亿张图片。2022年10月,StabiltyAI宣布获得Coatue、LightspeedVenturePartners和O'ShaughnessyVenturesLLC兽行业。资料来源:CSDN、华泰研究OpenAIDALLE效率均有提升。2021年1月OpenAI发布模型DALL·E,能够根据文本描述生成图像,2022年4月,OpenAI公布了DALL·E2研发进展。据量子位,从原理上看,DALL·E2是CLIP与Diffusion模型的结合,其中CLIP将文本嵌入转变为图像嵌入,而图像嵌入将通过调节扩散(DiffusionDecoder)生成最终的图像。DALL·E2与前一代相比图像质量提升了3倍,DALL·E2生成图像画质为1024×1024,DALL·E画质为256×256,且生成的速度更快。此外DALL·E2能够在更细的颗粒度上实现文本到图像的转化,能够根据自然语言进行P图,同时会反馈阴影、纹理等元素的变化。ModelResolutionInterenceTimeStableDiffusion1.4512×512ModelResolutionInterenceTimeStableDiffusion1.4512×512256×256Imagen256×256Imagen1024×1024useB256×256useB512×512注:基于TPUv4芯片资料来源:GoogleResearch、Dataconomy、华泰研究资料来源:OpenAI官网、华泰研究谷歌的Imagen在写实场景表现优秀,Muse图像生成效率更高。2022年5月,Google公布了自研的Imagen模型。据量子位,从技术上看,该模型并未采用CLIP+GAN或CLIP+Diffusion的常规做法,语言模型采用谷歌的T5-XXL,并仅负责编码文本特征,图像生成由一系列Diffusion模型构成;从效果上看,Imagen在写实场景中表现更加优秀。2023年1月,Google发布了从文本生成图像的Transformer模型Muse,与Imagen和DALL·E2等Diffusion模型相比,Muse由于采用离散标记且需要更少的采样迭代,生成效率显著提升,据GoogleResearch与Dataconomy,在TPUv4芯片上,Muse生成512x512分辨率的图像仅需1.3秒,较StableDiffusion1.4的3.7秒更快。资料来源:量子位、华泰研究百度推出国产基础模型ERNIE-ViLG2.0,文心·一格支持中国风AI创作。伴随AI绘图的火热,国内也出现了众多的AI作图产品,但这些产品大多基于DALL·E2或StableDiffusion等海外大模型,百度在2022年10月发布的ERNIE-ViLG2.0是国内首个在基础模型方向取得突破的产品。据百度AI官网,从技术上看,ERNIE-ViLG2.0通过引入视觉知识和语言知识,提升模型跨模态语义理解能力与可控生成能力;在扩散降噪过程中,通过混合专家网络建模,增强模型建模能力,提升图像的生成质量;此外百度构建了近2亿的高质量中文图文数据对比,具备强大的中文语义理解能力,助力中国风元素构建。从应用上看,ERNIE-ViLG2.0可以用于工业设计、动漫设计、游戏制作、摄影艺术等场景,通过简单描述,在几十秒内生成设计图,提升效率、降低门槛。基于ERNIE-ViLG2.0,百度也推出了AI艺术与创意辅助平台文心·一格,目前支持国风、油画、水彩、水粉、动漫、写实等十余种不同风格高清画作的生成。资料来源:百度AI官网、华泰研究#2图像属性编辑据量子位,AI图像属性编辑包括去水印、自动调整光影、设置滤镜、修改颜色纹理、复刻/修改图像风格、提升分辨率等,类似于低门槛的PS(Photoshop)。在该领域布局的初创公司较多,并且谷歌、Adobe等大厂亦有涉及。国外方面,以Prisma为例,作为一款照片编辑器,在全球拥有1.2亿用户以及500款样式库,借助Prisma的AI自动生成框架,用户无需投入精力即可将照片转化为艺术品;谷歌的RawNeRF技术能够将夜晚照片降噪,此外能将2D照片合成3D效果并调节焦点;国内的代表产品为美图公司,旗下的美图AI开放平台专注于人脸技术、人体技术、图像识别、图像处理、图像生成等核心领域,为客户提供经市场验证的专业AI算法服务和解决方案,目前接入的客户包括欧莱雅、兰蔻、宝洁等,助力图像属性处理;面向C端的美图秀秀则通过医美级去皱、面部丰盈、一键更换刘海等增值功能收费。资料来源:AppStore、华泰研究资料来源:美图秀秀官网、华泰研究20资料来源:美图AI开放平台官网、华泰研究#3图像部分编辑据量子位,图像部分编辑包括部分更改图像部分构成与修改面部特征。英伟达的CycleGAN能够自动将一类图片替换为另一类图片,如支持将图内的斑马和马、苹果和橘子等内容进行互换。修改面部特征方面,据量子位,Metaphysics支持调节照片的情绪、年龄和微笑,Metaphysics还是电影《Here》的唯一制定AI视觉特效供应商。国内方面,万兴科技推出的万兴爱画App,支持AI修改局部画面,支持通过文本修改,如输入珍珠项链,可在图片中添加。资料来源:英伟达、华泰研究资料来源:Metaphysics官网、华泰研究#4图像端到端生成据量子位,AI图像端到端生成包括草图生成完整图像、有机组合多张图像生成新图像、根据指定属性生成目标图像等,按照场景划分,包括创意图像生成和功能型图像生成,其中创意图像多为NFT产品,功能性图像包括营销海报、用户头像等。国外方面,谷歌推出的ChimeraPainter可以将粗略草图生成3D怪物图像,垂直类公司包括VanceAI、DeepdreamGenerator、Rosebud.ai等,其中VanceAI旗下的VansPortrait,可在5秒内将图片变成绘画、素描或动画。国内的代表产品包括阿里鹿班、诗云科技、蓝色光标等,其中阿里鹿班支持海报、LOGO等设计,据阿里技术,阿里鹿班平均1秒钟就能完成双11设计约4亿张banner海报。蓝色光标的销博特通过结合人工智能、统计算法和多维数据库,一键自动化生成策划案、消费者洞察、营销创意等内容。21资料来源:ChimeraPainter官网、华泰研究技术官网、华泰研究AIGC通过提取信息生成音频,主要应用于TTS(Text-to-speech)场景和乐曲/歌曲生成。其中,TTS技术已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等,覆盖新闻、电子书、虚拟IP、短视频配音等多个领域,代表公司有倒映有声、DeepMind、喜马拉雅、百度等。通过AIGC可以简化乐曲/歌曲生成的流程,降低音乐创作的门槛,可应用于流行歌曲、乐曲、有声书的内容创作,以及视频、游戏、影视等领域的配乐创作,大大降低音乐版权的采购成本,代表公司有AmperMusic、DeepMusic、腾讯、网易等。应用环节代表公司应用案例TTS(Text-to-speech)场景倒映有声DeepMind喜马拉雅百度独家研发的无人驱动数字分身可以实现内容播报与交互功能输出,覆盖新闻资讯播报、有声读物制作、自媒体有声化、虚拟IP声音定制、短视频配音、金融领域数字人服务、文旅领域互动、游戏娱乐聊天等多种场景。出了用于生成原始音频波形的深层神经网络模型“WaveNet”,并在一年的时间内将原始模型的效率提高了1000倍。高保真(24kHZ)、高分辨率(16bit)和快速生成声波的WaveNet已经在GoogleAssistant被正式商用。运用TTS技术喜马拉雅重现单田芳声音版本的《毛氏三兄弟》和历史类作品,“单田芳声音重现”账号已经上线6部专辑作品。百度语音合成团队基于《智能交通》一书20万字文本,使用李彦宏约1小时音频素材,通过AIGC技术生成了《智能交通》有声书,这套有声书共86集,每集时长10-20分钟,并于2022年4月23日在喜马拉雅上线。乐曲/歌曲生成AmperMusicDeepMusic腾讯2019年推出首个人工智能作曲平台AmperScoreTM,可以根据项目的独特性创作出符合项风格、长度和结构的定制音乐。开发了针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI生成歌词的LYRICA、AI作曲软件LAZYCOMPOSER,从作词、作曲、编曲、演唱、混音等方面全方位降低音乐创作及制作门槛。QQ音乐成为AI音乐公司Ampermusic的API合作伙伴,腾讯AILab开发AI识图作曲技术并推出AI虚拟偶像“艾灵”,可通过用户提供的关键词自动生成歌词并演唱。2022年1月网易推出首个人工智能音乐创作平台网易天音,主要实现编曲环节(顺便解决了混音环节)的自动资料来源:各平台官网、华泰研究#1TTS场景:广泛应用于客服硬件机器人、有声读物制作、语音播报等TTS(Text-to-speech)技术为文字内容有声化提供规模化能力,在AIGC领域下技术已相当成熟,广泛应用于客服及硬件机器人、有声读物制作、语音播报等。TTS技术是一种文字转语音技术,可以从文本中获取足够的信息用于语音合成。基于深度学习的端到端语音合成模式正在逐步替代传统的拼接及参数法,可以通过丰富文本信息(如文本的深层情感、深层语义了解等)更好的表现其中的抑扬顿挫,以及基于用户较少的个性化数据得到整体的复制能力,代表模型包括WaveNet、DeepVoice及Tacotron等。22TTS技术覆盖新闻、电子书、虚拟IP、短视频配音等多个领域。以倒映有声为例,公司致力于打造AIGC神经渲染引擎,率先布局AI数字分身IP生态,并通过数字分身IP的人工智能来自主生成内容。其独家研发的无人驱动数字分身可以实现内容播报与交互功能输出,覆盖新闻资讯播报、有声读物制作、自媒体有声化、虚拟IP声音定制、短视频配音、金融领域数字人服务、文旅领域互动、游戏娱乐聊天等多种场景,帮助提升内容制作产能超200%,节省90%的制作成本。资料来源:倒映有声官网、华泰研究资料来源:倒映有声官网、华泰研究语音克隆对于电子书、动画、电影、以及虚拟人行业等有重要意义。语音克隆是本质上属于指定了目标语音(如特定发言人)的TTS,该技术目前被应用于虚拟歌手演唱、自动配音等。喜马拉雅运用TTS技术在电子书、新闻等领域实现了较广的应用,能够高效地将新闻、书籍和文章中的大量文字信息转为音频,大幅提升了音频的生产效率。运用TTS技术喜马拉雅重现单田芳声音版本的《毛氏三兄弟》和历史类作品,“单田芳声音重现”账号已经上线6部专辑作品。百度语音合成团队使用李彦宏约1小时音频素材,通过AIGC技术生成了《智能交通》有声书。podcast.ai通过乔布斯的传记和收集网络上关于他的所有录音,利用Play.ht的语言模型大量训练生成JoeRogan采访乔布斯的播客内容。资料来源:喜马拉雅官网、华泰研究资料来源:podcast.ai官网、华泰研究#2乐曲/歌曲生成:已推出AI音乐创作平台和作曲软件AIGC可以简化乐曲/歌曲生成的流程,降低音乐创作的门槛。AIGC在词曲创作中的功能可被逐步拆解为作词(NLP中的文本创作/续写)、作曲、编曲、人声录制和整体混音。AIGC能通过强大的数字处理能力兼顾歌曲从制作到演唱的全流程,实现化繁为简,在短时间内完成音乐作品创作。目前,AIGC已经支持基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。23通过AI作曲功能,创作者可以得到AI创作的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论