版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
正在你身边证券研究报告|传媒行业|2023年9月12日传媒团队.行业深度报告正在你身边我们认为亿级数据量将是3D出现涌现能力的一个重要突破节点。1)首个千万级数据集出现:7月11日发布的Objaverse-XL数据集包含1020万3D资产,主要“2020-2021年”。23正在你身边四、文生3D成本测算:迭代次数万级以上3)一个3D资产生成算力成本约5元左右。假设未来迭代速度变快2倍,生成一个3D资产算力花费约2.6元左右,相4正在你身边五、投资建议:5正在你身边一、文生2D复盘:“千万级数据和亿级数据”是关键四、文生3D成本测算:迭代次数万级以上正在你身边1.12D模型数据量变大,涌现能力出现 型规模超过一个临界值时,效果会马上提升。创造,其在手写体字符识别领域创造性引入卷积神经网络,是CNN的发展起点,通过观训练的结果,随着模型参数的增加,测试精度显示出不可预测的大幅增长;而在2020年-2021年版本发布;2020年-2021年版本发布;大模型时代:2022年春-2022年秋关“promptengineering”括Imagen、爆发:2022年秋-2023年春2.0版本发布开拓:2023年春至今章1.22D发展重要节点:2022年春-2022年秋 开端:2009-2020年世世1.2.1扩散模型领先于GAN、自回归 2020年,《Denoising2020年,《DenoisingDiffusionProbabilisticModels》AdversarialNetworks》2016年,《ConditionalImageGenerationwithPixelCNNDecoders》3%3%3%3%5%6%42%6%31% 1998年CMU/VASCFaces337个人超过750,000张图像1998年FERETFaces自1199个不同个体的14,126张图像1998年MNISTdigits70,000手写数字图像1999年CuRRETTextures5,000+纹理图像2001年MiddleburySterco几十对立体匹配图像2003年CalTech1019,146张图像,256个类别2004年KTHhumanaction2,391个人类动作视频2006年ESP1000场景图像2006年MSRC30个人执行12类动作行为2007年PASCAL20类共9963张图片2007年LotusHILL500,000个图像(或视频帧)2007年CalTech25630,607张图像,257个类别2008年LabelMe数万张图像及标注2008年TinyImages79,300,000张小型32*32像素的彩色图像2009年300万图像,后包含1500万图像1.2.2多个重量级算法诞生于ImageNet数据集 0030000250002000015000100005000015.3%13.5%239916.7%3.6%2012年2013年2014年2015年2016年2017年基准年均被引用次数(次)测试错误率18.0%16.0%14.0%12.0%10.0%8.0%6.0%4.0%2.0%0.0%1.2.3LAION:破亿数据集出现,模型落地离不开亿级数据 WIT模型StableDiffusionStabilityAlLAION-5B的一个子集DALL-E2OpenAl使用CLIP数据和DALL-E数据(共计650M图像)进行训练MidjourneyMidjourney开源数据ImagenGoogle内部数据集(460M图像-文本对以及Laion数据集(400M图像文本对)正在你身边23D发展研究框架 OpenUSDOpenUSD3D数据表现形3D数据表现形3D数据文件格3D数据文件格数据集规模问题进一步解决数据集规模变大3D生成领域3D生成领域3D生成模型质量更好3D模型生成结果质量问题进一步解决 的世界没有一致性,目前已有的3D数据集表示方法包括点云、网络、体素、多视角图片等,不同显式表示显式表示显式表示显式表示隐式表示隐式表示隐式表示模型示例Voxel概念上类似于二维--像素,就是将像素坐标映射到使用MLP模拟函数,输入物体3D空间坐标,输出对应的几何信2.1.2通用格式解决模型互导问题,USD简化3D文件访问 的硬件配置才能正常浏览,存储占用较大且文件打开速√√√√√√√√√√√√√√√√√√√三角面片优点轻量级、支持复杂的3D数据,包含材质和动画,可嵌入式,可扩展性好简单易读,广泛支持,适用于交换模型数据支持动画、材质、骨骼等,可嵌入额外数据极简格式,适用于机械设于转换广泛支持,能够存储材质和纹理信息用于特效制作、动画制作、虚拟现实等,支持大规模场景,高性能渲染缺点适合一些开放场景不支持动画、不适用于复杂场景,闭源格式,不适合一些开放场景不支持材质、纹理、动画等高级信息,不能表达复杂几何结构不支持现代3D图形特性,不适合高精度渲染学习曲线较陡,不太适合初学者,某些特性需要高级的计算机图形技能适用场景专门为影视和游戏而开发出现较早,几乎所有知名的3D软件都支持电影界及视频游戏开发最常用的文件格式3D打印、工程应用等专为互联网Web而设计支持跨平台、高性能渲染、可进行移动端访问读写接入接入•2.1.3USD统一3D表示标准,OpenUSD联盟降低USD使用门槛 可以在不同的工具间进行内容创作和交换,但2.2.1首个千万级数据集出现,3D发展来到2D的“2020-2021年” bjaverse-XL通过对互联网上3D对象的类源进行爬虫获取,实例涵盖生活、虚GitHubThingiverseSketchfabPolycama2.2.2数据集越大,新视角图片更优,3D生成效果更好 数据进行训练,3D质量有显著的改进。PixelNeRF随着数据集量级变大,图像质量评估指标PSNR(PeakSignal越大表明失真越少)变大,表明新生成的视角图像质量越好,有利于提高后续三维重2.2.33D资产建模流程长,免费实例不足 1、寻找示例计数字化为静看起来像真6、检查2、粗略布局3、细节说明4、纹理过程5、渲染过程2.2.43D生成质量变好,模型产物补充3D数据集内容 3D模型训练效果依赖于3D数据集,但目前的数据集量级无法激发出模型的涌现能力,对生成的AI+3D资产进 人工修改后的3D数据正在你身边3.13D生成产业方向-文生3D是最终需求 在生成质量、速度、落地程度方面,扫描得3D、视频生3D已经较为成熟,但主要受能获得广泛关注;图生3D在特定场景下正逐步落地。相比于 扫描得3D 视频生3D 文生3D 扫描得3D 视频生3D 文生3D从易到难使用扫描仪、激光雷达等利用3D扫描技术,结合数字三维重建等使用扫描仪、激光雷达等利用3D扫描技术,结合数字三维重建等3.1.1扫描得3D:成熟落地,手机即可实现 ),左上表情右表情下3.1.2视频生3D:成熟落地,具备动态实时建模能力 相比于扫描,图生3D只需要数十张甚至数张真实场景图片即可完成建模。从目前阶段来看,图生3D模型的入是一组二维图像和相应的摄像机参数(包括相机位置和方向),输出Kaedim3D即可识别出图中物体的3D形态,并用可导入几乎所有主流软件的格型生成工具PIFuHD可以配合其他2D图像生成软件生成3D模型,但模型并不3.1.4文生3D:学界以科技巨头紧密发力领域 应用端能够支持文生3D的平台很少(如3dfy.ai、Tafi、MasterpieceStudio平台),具有时间长,复杂模商Tafi利用专业美术师支持的原创角色平台“Genesis”庞大的3D数据集,宣布可以从文本创建3成数十亿个3D角色变体。生成的结果可导出到各种DCC工具,将高质量角色输出到流行的游戏引些 生成3D模型指令:“aDSLRphoto生成3D模型指令:“aDSLRphotoofapencockonasurfboard”I 模型图像训练模型3D生成模型使用VSD和DMTet进行优化的3.2.3NeRF在3D建模领域具有统治地位 NeRF的研究目的是合成同一场景不同视角下的图像。根据给定一个场景的若干张图片,推理时输入不同视角2020年ECCV会议上的最佳论文《NeRF:RepresentingScenesasNeuralRadianceFieldsforView0 5、Apple:苹果致力于打造“3D-AR”生态的软硬件体系化,其中头显研发已经有七年,且公司不3.3.1大厂的3D生成探索-英伟达:挖掘芯片的3D应用领域 2022年9月英伟达发布GET3D模型3D内容编辑、文生3D模型概述:过程分为几何分支和纹理分支两部分,前者可输文本提示为3D图像添加特定的风格2022年11月发布Magic3D模型文生3D模型概述:两阶段,低分辨率优化(3D重建模应用场景:产生的3D模型可以应用于虚拟现实、数字双胞胎或者3.3.1大厂的3D生成探索-英伟达:挖掘芯片的3D应用领域 视频转3D2023年8月发布Neuralangelo模型源代码视频转3D模型概述:将多分辨率3D哈希网格的表示能力与神经表面渲染应用场景:产生的3D模型可以应用于虚拟现实、数字双胞胎或者3.3.2大厂的3D生成探索-谷歌:首批文生3D的实现者 谷歌谷歌2022年10月发布DreamFusion模型具备能力:可以在任意角度、任意光照条件、任意三维环境中模型概述:使用预训练2D扩散模型生成二维图像,通过梯度下降法优化神经辐射场NeRF模型应用场景:产生的3D模型可以应用于虚拟现实、数字双胞胎或者机器人技术等领域。2022年9月谷歌“LOLNeRF”研究结果模型概述:使用预测的二维landmarks将数据集中的图像大致应用场景:可以通过从汽车、人类等对象集合中提取特征来学习3D结构脸和猫。每个感兴趣的对象只需要一张图像,不需要对同一个对象进行两次训练3.3.3大厂的3D生成探索-Meta:推进元宇宙的实现 ),应用场景:是第一个基于文本描述生成3D动态场景的方法,可2022年10月展示全身编码器化身CodecAva模型概述:基于已经训练过的Priormodel根据新的输入图像 方式渲染或导入下游3D应用模型概述:文本对图像模型+图像对三维模型。图像对三维模体。有了额外的网格转换模型,并且更光滑以后,系统也可以找到进入游戏和动画开发工作流的切入点3.3.5大厂的3D生成探索-Apple:打造“3D-AR”生态的软硬件体系化正在你身边AppleApple件方面,推出文件格式USDZ,渲染平台应用场景:用更加简便地方式创造和编辑现实转化的00“USDZ”的文件格式强0景布AR应用的开发,提供可以识别平面以及跟踪设备移动情图WWDC2017大会WWDC2018大会WWDC2019大会WWDC正在你身边4.12D生成需迭代约20-50次 5步迭代,花费2.41秒,速度:2.1次迭4.23D资产算力-生成时间约3-4小时/个 采用3D模型Zero123,单场景3D资产生成需要迭代30000次左右,在RTX3090显卡(24GB)上运行约3.3-4.2小时。根据我们实机测试的结果,在Zero123算法下,设定迭代30000次时生成的3D成品相对可行。文生图模型的每秒迭代数单场景不同迭代次数下所需GPU(3090)小时数14.67.424.24.92.52.83.34.432.32.82.02.42.842.12.42.8<40美元<180美元<650美元>650美元4.33D资产算力-生成成
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 光伏组件设备安全培训课件
- 流行病学考试试题及答案
- 口腔助理考试修复题及答案
- 先进自造技术
- 值班安全培训班课件
- 企划专员培训课件
- 法学概论试题库及答案
- 法律常识题库及答案
- 小学五年级语文上册非连续性文本信息提取训练题组课件
- 小学五年级语文上册第一单元万物有灵单元导入课件
- 防造假管理制度
- T-CNFIA 208-2024 花胶干鱼鳔标准
- 编辑出版学概论全套课件
- 光缆线路维护服务协议书范本
- 动物咬伤急救医学课程课件
- 世界地图矢量图和各国国旗 world map and flags
- 探放水设计方案及技术措施
- 巨量千川营销师(初级)认证考试题(附答案)
- 《土木工程专业英语 第2版》 课件 Unit5 Composite Construction;Unit6 Introduction to Foundation Analysis and Design
- 行政案例分析-终结性考核-国开(SC)-参考资料
- 北京市海淀区2023-2024学年四年级上学期语文期末试卷(含答案)
评论
0/150
提交评论