人工智能-OpenAI发布GPT-4o谷歌改进Gemini模型

上传人：策*** IP属地：山西上传时间：2024-05-24 格式：DOCX 页数：36 大小：899.04KB 积分：19.9 举报 版权申诉

已阅读5页，还剩31页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2022/12/122023/1/122023/2/122023/3/122023/4/122023/5/122023/6/122023/7/122023/8/122023/9/122023/10/122023/11/12证券研究报告·行业动态2022/12/122023/1/122023/2/122023/3/122023/4/122023/5/122023/6/122023/7/122023/8/122023/9/122023/10/122023/11/12证券研究报告·行业动态核心观点当地时间5月14日，OpenAI发布了新旗舰模型GPT-4o，统一了声音、文本和视觉。这种多模态处理能力使GPT-4o在理解和生成内容方面更为全面和自然，极大地提升了人机交互的流畅性和增五倍，在数学推理、多模态、交互功能取得显著突破。谷歌I/O开发者大会发布多款AI产品，包括效率更高的Gemini1.5Pro和成本效益显著的Gemini1.51.5Flash模型。谷歌还展示了其在AI的深度布局，推出Astra项目、TrilliumTPU、NotebookLM、Gemini系列，及Imagen3、MusicAISandbox、Veo等生成模型和网络安全产品，并宣布推广大模型至安卓系统的计划。产业要闻【OpenAI发布旗舰大模型GPT-4o】【谷歌在I/O大会上宣布对Gemini进行升级】产业标的：GPU：英伟达、超威半导体、海光信息等；FPGA：安路科技-U等；SoC：高通、全志科技等；计算机视觉：商汤-W、格灵深瞳-U等；自动驾驶：德赛西威、中科创达、均胜电子、光庭信息；智慧交通：千方科技、万集科技；AI+工业：中控技术、华大九天、广立微、概伦电子等。风险提示：北美经济衰退预期逐步增强，宏观环境存在较大的不响相关公司的正常生产和交付，公司出货不及预期；公司生产和交付延期，导致收入及增速不及预期；信息化和数字化方面的需求和资本开支不及预期；市场竞争加剧，导致毛利率快速下滑；主要原材料价格上涨，导致毛利率不及预期；汇率波动影响外向型企业的汇兑收益与毛利率；人工智能技术进步不及预期；汽车与工业智能化进展不及预期。发布日期：2024年05月22日市场表现42%32%22%-8% 计算机上证指数相关研究报告人工智能一、行业变化 11.1OpenAI发布新旗舰模型GPT-4o 11.2Google举办2024年I/O开发者大会，更新Gemini等产品 3二、产业标的 6三、行情回顾 6四、产业要闻 9芯片 9大模型智能驾驶其他五、重要公告六、风险提示 1 1 1 1 2 2 2 2 3 3 4 4 4 4 5 5 5 5 6 7 7 7 人工智能1一、行业变化2024年5月14日凌晨1点，随着OpenAI新旗舰模型GPT-4o正式发布，我们正式迎来了原生多模态交互的新时代。ChatGPT4o不仅提升了AI技术的质量、速度和成本效益，更推动了AI的开放性和行业变革。资料来源：OpenAI，中信建投资料来源：OpenAI，中信建投GPT-4o在性能和功能方面都有显著提升。性能方面，与之前的GPT-4Turbo型号相比，GPT-4o的速度提高了2倍，使用成本降低了50%，速率限制提高了5倍。GPT-4o在数学推理能力上也有显著提升，其MMLU评分达到了88.7分，是目前为止综合大模型中的最高得分。资料来源：OpenAI，中信建投资料来源：OpenAI，中信建投功能方面，GPT-4o中的O代表omni，因为它统一了声音、文本和视觉，具备了更高级的多模态输入和输出能力。这种多模态处理能力使GPT-4o在理解和生成内容方面更为全面和自然，极大地提升了人机交互的流畅性和自然度。这与GPT-4形成了鲜明对比：除图像生成和文本到语音转录等例外情况，GPT-4仍主要支持输入文本交互。人工智能2资料来源：OpenAI，中信建投资料来源：OpenAI，中信建投GPT-4o相比GPT4交互功能进一步丰富。1）GPT–4o承诺与多种音调和声音进行实时语音交互，以获得更像人类的体验。①多样化语音。GPT–4o支持在回应中添加戏剧性、机器人声音、自编歌曲。②更强的连贯性：可以在任何时候打断。③几乎无延迟：通过端到端的单个神经网络训练，ChatGPT4o简化了处理流程。它对音频输入的响应时间平均为320毫秒，远短于过去2—3秒的延迟。2）GPT–4o支持视频交互。可用于实时数学辅导。3）GPT–4o支持辅助编程。4）GPT–4o支持回答有关照片和屏幕截图的问题，可用于辅助统计图表描述。5）GPT–4o支持同声传译，并掌握50种不同的语言。6）GPT–4o支持分析用户的面部表情，以评论这个人可能正在经历的情绪。7）GPT-4o支持创建具有可读文本的图像。文字可以以创造性的方式排列，如资料来源：OpenAI，中信建投资料来源：OpenAI，中信建投GPT-4o时代ChatGPT的可用性增强。1）桌面应用程序启动。ChatGPT推出网页版之外的专用Mac应用程序，具有键盘快捷键和屏幕截图支持，目前仅限于Plus用户。Windows应用程序应该会在2024年底推出。2）通过OpenAI提供的API接口，开发人员可以批量调用GPT-4o用于搭建AI应用程序。3）GPT-4o免费向每个ChatGPT用户开放。Plus和Team订阅者使用限额是免费用户的5倍。此外，新的语音功能最初只针对Plus用户，而且在6月底之前的某个时候还处于早期alpha状态。4）OpenAI放开限制，用户无需注册即可使用人工智能3ChatGPT。总的来说，ChatGPT4o是OpenAI在人工智能领域的一次重大突破。它以其强大的多模态交互能力、精确的文本生成功能以及广泛的应用场景，展示了人工智能技术的巨大潜力。随着这款产品的不断优化和升级，我们有理由相信，未来的AI助理将更加智能、更加人性化，为我们的生活带来更多的便利和乐趣。1.2Google举办2024年I/O5月14日，谷歌2024年I/O开发者大会拉开帷幕。今年的主题完全围绕人工智能展开。Google共发布了资料来源：Google，中信建投资料来源：Google，中信建投大会上，谷歌宣布诞生一年的Gemini实现能力跃升。Gemini1.5Pro通过GoogleAIStudio和VertexAI的等待列表向开发人员提供200万个tokens。轻量级模型Gemini1.5Flash速度更快，成本低至0.35美元100万Tokens。Google还发布了以下项目：1）Astra，结合了Gemini与摄像头，能够理解和解读周围的世界，响应复杂环境，可用于智能眼镜。2）硬件方面发布了第六代TPU：TrilliumTPU，相比TPUv5e，每块芯片的峰值计算性能提高了4.7倍，效提高了67%以上。3）NotebookLM：谷歌展示了它以篮球为例修改物理课程，辅助定制个性化学习的能力。4）GeminiNano：谷歌展示了一段视频，只要用摄像头扫过书架，标题就可以被记录在数据库中，并自动匹配作者等信息。5）GeminiAdvanced：可以理解1500页的pdf文件。6）GeminiLive：使用视频与人工智能4资料来源：Google，中信建投资料来源：Google，中信建投Google还推出文生图新模型Imagen3、音乐创作大模型MusicAISandbox、视频生成模型Veo。其中Veo能生成高质量的1080p视频，适用于电影和视觉风格。截至本周，ImageFX和MusicFX已经通过Labs在100多个国家推出。资料来源：Google，中信建投资料来源：Google，中信建投Google搜索定制了新的Gemini模型，将Gemini的先进功能（包括多步骤推理、规划和多模态）与一流的搜索系统结合在一起。搜索实验室的AIOverviews很快就会提供多步推理功能，用于搜索英语问题。可以处理的例子包括“到波士顿最好的瑜伽或普拉提工作室，并显示他们的介绍信息和从比肯山出发的步行时间”，支持一步到位。“多步推理”功能可以找到有关某个主题的多层信息。谷歌以计划旅行为例，展示了在地图上搜索如何帮助找到酒店和设置交通路线，帮助制定旅行的膳食计划，支持人工修改其中一部分计划，后续计划也会相人工智能5资料来源：Google，中信建投资料来源：Google，中信建投谷歌还将人工智能注入其办公工具套件工作场所。Gemini1.5Pro现在可以通过WorkspaceLabs在Gmail、Docs、Drive、Slides和Sheets的侧边面板上使用。可以使用Gmail的侧边面板来总结电子邮件，除了摘要之外，Gmail的移动应用程序很快将使用Gemini实现另外两个新功能：上下文智能回复和Gmail问答。GooglePhotos中有一项名为AskPhotos的新实验功能，它可以让你更容易地查找特定的记忆或回忆相册中包含的信息，或创建最近旅行的亮点图库。资料来源：Google，中信建投资料来源：Google，中信建投谷歌表示，年内能够在本地运行的多模态GeminiNano模型将登陆Pixel手机。CircletoSearch能在系统层面跨APP流畅运作。Android15还引入了新功能，如私人空间和诈骗保护。谷歌展示了一个名为Chip的“AI办事项列表，并跟进任务。在便利开发者方面，Google推出了PaliGemma：视觉语言开放模型，针对视觉问答和图像字幕优化。FirebaseGenkit测试版发布，便于构建生成式AI体验。IDX新的集成开发体验全栈多平台应用程序，现已开放试用。Gemini模型可以帮助开发者在AndroidStudio、IDX、Firebase、Colab、VSCode、Cloud和Intellj中提高工作效率。GeminiAPI现在支持并行函数调用和视频帧提取。下个月即将推出的GeminiAPI中的新上下文缓存特性，能够以更低的成本缓存频繁使用的上下文文件，从而简化大型提示的工作流程。人工智能6最后，Google在网络安全和隐私保护方面也做出了新的努力。加强redteaming，主动测试自己系统的弱点，并试图突破。为防止生成内容被用于不当目的，Google推出了SynthID这一无形水印技术，并计划在今年夏天将其作为开源工具发布。GPU：英伟达、超威半导体、海光信息等；FPGA：安路科技-U等；SoC：高通、瑞芯微、晶晨股份、全志科技等；计算机视觉：商汤-W、格灵深瞳-U等；自动驾驶：德赛西威、中科创达、均胜电子、光庭信息；智慧交通：千方科技、万集科技；AI+工业：中控技术、华大九天、广立微、概伦电子等。三、行情回顾图表19：中证人工智能指数、上证指数、沪深300指5%0%资料来源：Wind，中信建投人工智能77.49%)、科沃斯(-5.87%)、瑞芯微(-5.65%)、昆仑万维(-5.02寒武纪-U 资料来源：Wind，中信建投图表22：重点公司股票涨跌详情（数据采用wind一致预期）资料来源：Wind，中信建投重点公司股票涨跌详情重点公司股票涨跌详情归母净利润PE区间行情股票代月初至今码NVDA.O超威半导体GPU海光信息安路科技)寒武纪-U)129.高通(QUALCOMM)4-全志科技1.8%-瑞芯微5.6%-晶晨股份0.2%汽车摄像联创电子头汽车摄像舜宇光学科技头单位亿美元亿美元亿元亿元公司名称英伟达(NVIDIA)6.0%12.0%2382.HK6)年初至今亿美元QCOM.O002036603893-40.8%300458688107688041688099-29.5%-36.1%688256-12.7%亿元亿元亿元亿元亿元亿元行业本周2024E2024E-3.0%28.0%201.4532.6521.6-2.5%82.6%233.6-4.3%23.2%213.7282.9-9.1%-4.9%-6.4%-7.5%-5.6%170.3311.3AMD.O100.7135.9154.711.1%202220232023202220.080.50.8%9.2%4.3%43.843.799.649.597.585.282.557.921.54.6%8.3%33.628.8%23.82.1%ASIC32.233.972.377.272.865.16.5%11.0FPGA12.617.21.3%1.3%13.21.6%16.716.71.5%5.00.28.03.07.37.3SoCSoCSoCGPUGPUSoC1.31.7--人工智能8--603501韦尔股份毫米波雷亿元9.95.628.7122.1217.542.14.0%4.0%2.1%2.1%-2.8%-2.8%300691联合光电达毫米波雷亿元74.9%0.5%---9.0%-9.0%-35.6%-35.6%603197保隆科技达亿元41.623.517.61.4%1.4%--2.5%-2.5%-29.2%-29.2%688048长光华芯激光雷达亿元1.20.854.878.70.8%0.8%-7.2%-7.2%-43.1%-43.1%300620光库科技激光雷达亿元89.5176.999.3 0.6% --8.6%-8.6%-7.8%-7.8%603297永新光学激光雷达亿元28.433.725.34.2%4.2%-1.5%-1.5%-26.9%-26.9%002273水晶光电激光雷达亿元5.86.08.036.434.926.44.4%2.9%12.2%002222福晶科技激光雷达亿元49.353.445.30.8%-5.2%-14.2%688127蓝特光学激光雷达亿元1.01.82.980.643.026.3 5.0% --7.0%-7.0%-21.9%-21.9%688787海天瑞声数据服务亿元0.30.3127.9)125.62.3%2.3%-2.4%2.4%-5.8%-5.8%002230科大讯飞语音处理计算机视亿元5.6178.2152.1113.61.3%1.3%-2.2%-2.2%-4.9%-4.9%002415海康威视觉亿元4141.1166.524.522.318.91.6%1.6%0.3%0.3%-4.3%-4.3%0020.H商汤-W计算机视亿元--19.7%19.7%25.9%25.9%K觉计算机视4)4.8%4.8%-688207格灵深瞳觉计算机视亿元0.3102.9)0.4%0.4%--4.7%-4.7%-39.6%-39.6%688003天准科技觉亿元43.030.424.25.3%5.3%--3.1%-3.1%-7.5%-7.5%002920德赛西威Tier1亿元11.815.521.150.438.628.31.2%1.2%--13.5%-13.5%-15.3%-15.3%002906华阳集团Tier1亿元39.532.423.74.0%4.0%--5.5%-5.5%-16.3%-16.3%688326经纬恒润-WTier1亿元64.90.2%0.2%--8.2%-8.2%-49.4%-49.4%600699均胜电子Tier1亿元3.910.814.660.121.916.33.2%3.2%-2.4%-2.4%-4.2%-4.2%0285.H比亚迪电子Tier1亿元18.640.451.241.018.814.92.1%2.1%31.2%31.2%-4.6%-4.6%K--300496中科创达汽车软件亿元28.146.331.90.9%0.9%--5.2%-5.2%-42.0%-42.0%301221光庭信息汽车软件亿元0.30.4107.5)79.92.3%2.3%-8.6%-8.6%-38.1%-38.1%人工智能9--688088虹软科技汽车软件亿元221.6144.890.63.7%3.7%-3.7%-3.7%-20.3%-20.3%002405四维图新汽车软件亿元)0.4%0.4%---8.0%-8.0%-22.9%-22.9%300353东土科技汽车软件亿元252.719.661.00.1%0.1%--4.6%-4.6%-16.8%-16.8%002373千方科技智慧交通亿元)5.46.526.722.32.1%2.1%-6.5%-6.5%-18.2%-18.2%300552万集科技智慧交通亿元)0.4)148.20.3%0.3%-8.3%-8.3%-15.4%-15.4%688777中控技术智慧工业亿元8.011.013.245.933.227.6 0.4% --2.9%-2.9%2.1%2.1%000682东方电子智慧工业亿元34.527.921.91.6%1.6%-8.9%8.9%42.2%42.2%301269华大九天智慧工业亿元1.92.01.6228.2210.9258.34.2%4.2%-3.8%3.8%-23.3%-23.3%301095广立微智慧工业亿元81.477.343.34.2%4.2%--2.2%-2.2%-32.1%-32.1%688206概伦电子智慧工业亿元0.4137.0))1.3%1.3%-11.8%-11.8%-38.0%-38.0%资料来源：Wind，中信建投四、产业要闻【日本熊本县准备提供“全面支持”，以吸引台积电建第三座芯片工厂】5月13日消息，日本熊本县新任知事木村敬当地时间5月11日接受采访称，他准备确保提供全面支持，以吸引台积电在该县建设其在日本的第三座芯片工厂。木村敬表示，他已提议今夏访问台积电总部商讨建新厂事宜。台积电在日本的首家工厂已在2月开业，预计今年晚些时候开始量产，第二工厂则定于年底前开建。这两座工厂均获得日本政府补助。（界面新闻）【谷歌发布第六代TPU芯片Trillium】5月15日消息，谷歌当地时间5月14日在其年度I/O开发者大会上发布第六代TPU芯片Trillium，与上一代TPUv5e相比，计算性能提高了4.7倍。（界面新闻）【消息称英伟达将携手联发科进军掌机市场，打造基于ARM架构的芯片】5月15日消息，关于英伟达和联发科合作的消息最近浮出水面，据悉双方将共同研发用于人工智能领域的ARM架构系统芯片(SoC)，但另一位爆料者让这一消息变得更加令人兴奋，消息称英伟达或将进军掌机领域，并为此打造基于ARM架构的SoC。爆料者XpeaGPU称，英伟达对掌机表现出浓厚兴趣。他透露，联发科正在研发下一代游戏掌机SoC，并将集成英伟达的GPU技术。（IT之家）人工智能【Rapidus携手RISC-V设计企业Esperanto，开发低功耗数据中心AI芯片】5月16日消息，日本先进晶圆代工企业Rapidus昨日同美国RISC-V架构芯片设计企业Esperanto签署谅解备忘录，双方将合作开发面向数据中心领域的低功耗AI芯片。Esperanto是一家大规模并行、高性能、高能效计算解决方案设计企业，曾推出过一款名为的ET-SOC-1的RISC-V架构众核AI/HPC加速芯片。该芯片采用台积电7nm制程，包含1088个64位ET-Minion节能顺序核心和4个用于操作系统的ET-Maxion高性能乱序核心。ET-SOC-1芯片还包括160MB的片上SRAM缓存。媒体此前曾报道，Rapidus已于今年二月同另一家RISC-VAI芯片设计企业Tenstorrent达成2nmAI加速器合作协议。Rapidus社长小池淳义在昨日的记者会上强调，与Esperanto的合作建立在与前次协议不同的领域上，瞄准的是日益迫切的电力问题：根据国际能源署的报告，在生成式AI和其他因素的驱动下，全球数据中心的电力需求在2026年可能达到1000TWh，与日本全国的用电量相当。Rapidus与Esperanto的合作将结合双方在先进制程和节能芯片设计方面的优势，开发出符合AI时代的低功耗数据中心算【印度软件公司Zoho据悉拟投资7亿美元进军芯片制造领域】5月16日消息，知情人士称，印度软件公司Zoho计划投资7亿美元进军芯片制造领域，并寻求联邦政府的激励措施。据悉，Zoho考虑生产化合物半导体。印度电子信息技术部负责推动印度芯片计划的小组正审查该提案。Zoho成立于1996年，目前总部位于印度泰米尔纳德邦，为150个国家的企业提供软件和相关服务。（界面新闻）【消息称微软下周将面向Azure用户开放自研AI芯片Cobalt100】5月17日消息，据外媒TechCrunch报道，微软有望会在下周举行的Build技术大会上公布多项云端软硬件技术，同时还将向Azure用户开放自研AI芯片Cobalt100的使用权限。参考此前报道，微软在2023年11月的Ignite大会上正式公布了自研芯片计划，相关芯片主要包含用于Azure云端通用型计算任务的Arm架构芯片“MicrosoftAzureCobalt100”，以及专为AI打造的MicrosoftAzureMaia100AI加速芯片。微软当时重点强调了“Cobalt100”芯片，这是一款128核心的64位AI处理器，号称针对通用工作负载进行了优化，具有“低功耗”和“高效能”特点，据称芯片性能比Azure使用的“前几代Arm芯片提升了40%”。外媒同时表示，微软高管ScottGuthrie已在Build大会前的分析师简报会议中重点夸耀了“Cobalt100”芯片，声称Cobalt就是“微软版”亚马逊Graviton芯片，该公司计划在下周的Build大会中以“预览版”的方式让Azure客户试用Cobalt100芯片。除了Cobalt100外，微软还将在下周公布基于AMDMI300XGPU的Azure服务，这款GPU据称是AzureOpenAI服务中“最具成本效益的硬件”。此外，微软还将介绍一款“实时智能分析系统”，这是一款实时性数据分析系统，允许用户将大量数据导入到平台上进行即时分析。该系统将原生支持Kafka、亚马逊AWSKinesis和GoogleCloud等数据分析平【美初创公司Ampere与高通达成合作，新芯片将于明年推出】5月17日消息，当地时间5月16日，美国初创公司AmpereComputing表示，它将与高通公司合作推出一款新型芯片，旨在降低人工智能芯片的运行能耗。Ampere公司由英特尔前总裁ReneeJames创立，主打Arm架构服务器通用芯片，专注于制造比英特尔和AMD更节能的芯片。Ampere表示，新芯片将于明年推出，采用台积电3纳米制造工艺。双方表示，它们已将各自芯片集成到一台数据中心服务器。（界面新闻）【OpenAI发布旗舰大模型GPT-4o：免费试用价格五折速度提高一倍】5月14日消息，5月14日凌晨，人工智能OpenAI发布了最新旗舰大模型GPT-4o。这款全能AI不仅免费可用，而且具备横跨听图片、看图片、说图片的多项能力，为用户带来如视频电话般丝滑流畅的交流体验。OpenAI表示，GPT-4o不仅在功能上有所突破，更令人惊喜的是，它将向所有用户免费开放，包括之前仅为ChatGPTPlus会员提供的功能。此外，GPT-4o的新语音模式将在接下来的几周内首先对会员用户开放试用。据悉，GPT-4o（“o”代表“omni”）凭借其Omni(全能)之名，展现了其惊人的实力。无论是文本、音频还是图像，GPT-4o都能轻松处理，并生成相应的输出。更为令人震撼的是，它能在极短的时间内对音频输入做出反应，其速度之快几乎与人类对话中的反应一致。OpenAI的首席执行官SamAltman表示，GPT-4o是一个"原生多模态"模型，它在文本、视觉和音频方面进行了端到端的训练，所有输入和输出都由同一个神经网络处理。GPT-4o的强大不仅体现在其全面的能力上，更在于其高效的API服务。为了让更多用户能够轻松使用GPT-4o，OpenAI提供了价格打五折、速度提高一倍、单位时间调用次数增加五倍的API服务。这无疑将极大推动GPT-4o在各行各业的应用和发展。最后，OpenAI还宣布将推出ChatGPT桌面版应用程序，首先向Plus用户推出macOS应用，未来计划推出Windows版本。（站长之家）【智谱AI上线大模型开放平台】5月13日消息，智谱AI上线大模型开放平台，该平台是一个集成了GLM系列大模型的平台。这些大模型包括企业版GLM-4/4V、个人版GLM-3Turbo、文本描述创作图像的CogView-3、角色定制模型CharacterGLM、中文向量模型Embedding-2和代码模型CodeGeeX等。这些模型都是由智谱AI自主研发，安全可控。在上，用户可以找到完整的商业化套件，提供开箱即用的AI应用开发资源，丰富的模型产品和竞争力价格，以及便捷的开发体验。新注册用户可以获得额度从500万tokens提升至2500万tokens。个人版GLM-3Turbo是平台上最受欢迎的模型产品，具有快速的速度和高推理能力。调用价格也降低至1元/百万tokens，适用于知识量、推理能力和创造力要求高的场景。此外，即将推出GLM-3TurboBatch批处理API，价格为1元/200万tokens。企业版GLM-4/GLM-4V部署着最先进的大模型，提供了强大的问答和文本生成能力。GLM-4V实现了视觉语言特征的深度融合，支持各种图像理解任务。在评测体系中，GLM-4在语义理解等方面的能力表现优异。已经聚集了数十万的企业和开发者，用户数量持续增长。平台提供多种功能，包括官方开发的调用工具和开箱即用的AI应用开发资源。每个人都能在上找到满足自己需求的大模型。（站长之家）【腾讯混元文生图大模型宣布开源：中文原生DiT架构】5月14日消息，本日，腾讯旗下引人注目的混元文生图大模型（混元DiT）宣布全面开源，这一重要举措标志着人工智能领域的又一里程碑。该模型已在HuggingFace和Github平台上发布，包含完整的模型权重、推理代码和算法，面向全球的企业与个人开发者免费开放商用。腾讯混元文生图大模型的负责人卢清林表示，混元DiT的开源具有双重价值。首先，作为业内首个中文原生DiT架构，它填补了开源社区的空白，为中文领域的多模态视觉生成提供了强有力的支持。其次，混元DiT的开源是全面开放的，与现网版本完全一致，保证了开发者和用户能够获取到最先进、最实用的技术。此次开源的混元DiT采用了与Sora同样的关键技术DiT架构，不仅支持256字中文理解，还能够作为视频等多模态视觉生成的基础。为了实现这一功能，腾讯团队精心设计了Transformer结构、文本编码器和位置编码，并构建了完整的数据管道，用于持续更新和评估数据，为模型的优化迭代提供了有力支持。值得一提的是，混元DiT还通过训练多模态大语言模型来优化图像的文本描述，实现了细粒度的文本理解。这使得用户能够与之进行多轮对话，根据上下文生成并完善图像，为创意设计和内容创作提供了无限可能。腾讯混元文生图大模型的全面开源，无疑将为全球的开发者和用户带来更为广阔的创新空间和应用前景。我们期待这一技术的进一步发展和应用，为人工智能领域带来更多的惊喜和突破。（站长之家）【谷歌在I/O大会上宣布对Gemini进行升级】5月15日消息，谷歌在I/O大会上宣布对Gemini进行升级。据悉，全新升级后的谷歌Gemini已经展现出较强的理解、推理、创作和实时互动能力，实现了对OpenAI多模态模型的全面超越。谷歌本次大会还推出了Gemini系列模型中的最新成员Gemini1.5Flash。谷歌表示，人工智能1.5Flash是通过API提供的速度最快的Gemini模型，在具备突破性的长文本能力的情况下，针对大规模地处理高容量、高频次任务进行了优化，部署起来更具性价比。1.5Flash在总结摘要、聊天应用、图像和视频字幕生成以及从长文档和表格中提取数据等方面表现出色，能够一次性分析1500页的文档或超过30000行的代码库。这是因为谷歌利用1.5Pro对该模型进行了被称作蒸馏”（distillation）的训练，将较大模型中最核心的知识和技能迁移到了更小、更高效的模型中。谷歌表示，1.5Flash将于在AIStudio和VertexAI中提供。另外，谷歌还称希望Gemini凭借其多模态、长上下文和智能体，使谷歌不断接近最【MiniMax推出人生搭子「海螺AI」已接入自研多模态大模型】5月15日消息，MiniMax公司推出了一款人生搭子产品，名为「海螺AI」，也可以称为“小海螺”。这款产品可以帮助学生、职场新人、自由工作者、创作者等各类人群，作为一个外挂大脑和人生搭子，帮助化解信息过载和高速运转带来的压力。产品背后接入了MiniMax自研的多模态大模型，让小海螺具备智能高效的特点，支持处理长篇内容，同时也是一个有温度的产品，能够理解情感并耐心倾听用户。用户可以通过访问官网或在手机应用商店搜索「海螺AI」来使用小海螺，支持多种交互方式，包括文字输入、上传文件、语音交流等。产品已经被各种用户群体使用，从备考学生到大厂运营人员，呈现出各种不同的使用方式。小海螺会24*7在线解决用户工作和生活中的问题，同时也希望能陪【字节跳动正式发布自研豆包大模型系列，覆盖九大模型】5月15日消息，在5月15日举办的2024春季火山引擎FORCE原动力大会上，字节跳动重磅推出了其自研的“豆包大模型”系列。这款大模型家族涵盖了豆包通用模型Pro、liti，以及豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型、豆包·FunctionCall模型等九大模型，全面展现了字节跳动在人工智能领域的深厚积累和创新能力。据悉，豆包大模型已经在字节跳动内部50多个业务和场景中得到了广泛应用，证明了其强大的实用性和广泛的适用性。如今，随着字节跳动正式对外开启豆包大模型的服务，这一创新成果将有机会为更多行业和场景提供强大的AI支持，助力各行业的智能化升级和发展。作为字节跳动自研的大模型，豆包大模型不仅体现了字节跳动在人工智能领域的深厚技术积累，也展示了其对于未来AI发展的深刻洞察和战略布局。随着豆包大模型的广泛应用和不断迭代，我们有理由相信，字节跳动将在人工智能领域继续引领创新潮流，为行业【思维链被推翻！纽约大学新研究：大模型推理步骤或可省略】5月15日消息，纽约大学的最新研究对当前流行的思维链（Chain-of-Thought，CoT）技术提出了挑战，该技术原本被认为能够提升大模型的推理能力。研究显示，使用省略号代替具体的推理步骤，模型的推理结果并没有显著差异，这意味着增加计算量而非推理步骤本身可能是提升性能的关键。研究表明，使用重复的省略号作为填充token可以达到与CoT相似的效果。尽管填充token方法有效，但它并没有突破Transformer的计算复杂度上限，且需要特定的训练过程。这项研究为AI领域带来了新的视角，提示我们在设计和使用大型语言模型时，需要更深入地理解其工作原理和性能提升的真正来源。同时，也引发了关于AI安全性和未来发展的进一步思考。（站长之家）【百度：文心大模型日均处理Tokens文本达2490亿】5月15日消息，当日，百度发布公告表示，文心大模型日均处理Tokens文本已达2490亿。百度认为，使用大模型不应该只看价格，更要看综合效果，只有让AI应用效果更好、响应速度更快、分发渠道更广，才能让人们切实感受AI为社会生产带来的便利。近日，国内外多家厂商相继发布大模型最新进展和相关应用，百度表示，闭源大模型公有云”已经成为全球AI市场的主流趋势，能够实现比开源大模型性能更好、成本更低的综合效果，并以此促进AI应用生态繁荣。据了解，去年10月，百度发布文心大模型4.0，这是迄今最强的文心大模型，理解、生成、逻辑和记忆能力全面增强。在Create2024百度AI开发者大会上，百度创始人李彦宏透露，与一年前相比，文心大模型的算法训练效率已大幅提升人工智能至原有的5.1倍，每周的训练有效率高达98.8%。同时，其推理性能也实现了惊人的105倍增长，而推理成本却【字节与荣耀、小米、OPPO、vivo等共同宣布：成立智能终端大模型联盟】5月15日消息，在今天的字节跳动2024春季火山引擎Force原动力大会上，火山引擎携手OPPO、vivo、荣耀、小米、三星、华硕等，共同宣布成立了智能终端大模型联盟。联盟的成立旨在推动大模型技术在智能终端设备上的应用，通过整合各方资源，共同探索AI技术的更多可能性。目前OPPO的小布助手、荣耀的智慧办公智能助手、小米的小爱同学”，以及华硕笔记本电脑的豆叮AI助手等，都已接入火山引擎的大模型服务。在大会上，字节跳动还正式宣布其豆包大模型开启对外服务，并公布了极具竞争力的定价策略。火山引擎总裁谭待表示，豆包主力模型在企业市场的定价仅为0.0008元/千Tokens，这一价格比行业平均水平低99.3%，大大降低了企业使用大模型的成本。豆包大模型家族包括多种不同类型的模型，如豆包通用模型Pro、豆包通用模型Lite、豆包角色扮演模型等，这些模型已接入抖音、番茄小说、飞书、巨量引擎等50余个业务。（站长之家）【小米AI大模型MiLM通过备案将应用于手机、汽车产品中】5月16日消息小米公司宣布，小米大语言模型MiLM正式通过大模型备案，小米大模型将逐步应用于小米汽车、手机、智能家居等产品中。5月15日，北京市生成式人工智能服务新增已备案信息正式公布。此次19家企业新增备案，包括了北京小米科技有限责任公司“小米”、腾讯云计算（北京）有限责任公司“行业大模型”等名列其中。据悉，去年8月，小米发布了大规模预训练语言模型MiLM-6B，参数规模为64亿。在C-Eval和CMMLU上均取得同尺寸最好的效果。（站长之家）【零跑国际合资公司正式成立9月起于欧洲9国开始电动汽车销售】5月14日消息，StellantisN.V.和浙江零跑科技股份有限公司今日宣布:两家公司已通过关于成立“LeapmotorInternationalB.V.”的所有必要性审批，由Stellantis集团主导的零跑国际正式组建完成，该合资公司由Stellantis集团和零跑汽车分别持股51%和49%。零跑国际总部位于荷兰阿姆斯特丹，由来自Stellantis集团中国区管理团队的忻天舒先生担任零跑国际CEO，其领导的合资公司管理团队目前正筹备C10和T03两款电动车型在欧洲的成功推出。与此同时，零跑国际也计划自2024年第四季度起，将上述车型投放于印度和亚太（不含大中华区）、中东和非洲以及南美市场。（站长之家）【小鹏汽车：XNGP城区智驾已完成100%无图化】5月14日，小鹏汽车宣布，XNGP城区智驾正式进入无图时代。上海城区可用里程扩展至2.23倍，广州2.15倍，深圳2.18倍，佛山1.31倍，这几个城市的城区智驾也开启无图。山东省城区智驾里程新扩增超过30000公里，江西省新扩增超过11000公里。（界面新闻）【沃尔沃集团与戴姆勒卡车计划成立合资企业，开发软件定义汽车平台】沃尔沃集团与戴姆勒卡车5月17日宣布达成初步协议，将成立一家合资公司，开发通用软件定义汽车平台和专用卡车操作系统。合资公司总部将设在瑞典哥德堡，会作为独立实体运营，由沃尔沃集团与戴姆勒卡车各自持股50%。预计双方年内将签署最人工智能【本田汽车和IBM签署谅解备忘录，将合作研发芯片、软件等下一代半导体技术】5月16日消息，本田汽车公司日前宣布和IBM签署谅解备忘录，共同研发以“软件定义汽车（SDV）”的下一代半导体和软件技术。本田

人人文库> 全部分类> 应用文书 > 研究报告

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能-OpenAI发布GPT-4o谷歌改进Gemini模型

文档简介

温馨提示

最新文档

评论

相关文档