2023中国大模型行研能力评测报告-2024.02

上传人：5*** IP属地：广东上传时间：2024-05-15 格式：PPT 页数：53 大小：4.44MB 积分：15 举报 版权申诉

已阅读5页，还剩48页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2023年中国大模型行研能力评测AI变革行业创新发展2023

China

Large

Language

Model

Industry

Research

Evaluation2023年中国大規模モデル産業研究能力評価报告提供的任何内容（包括但不限于数据、文字、图表、图像等）均系头豹研究院独有的高度机密性文件（在报告中另行标明出处者除外）。未经头豹研究院事先书面许可，任何人不得以任何方式擅自复制、再造、传播、出版、引用、改编、汇编本报告内容，若有违反上述约定的行为发生，头豹研究院保留采取法律措施、追究相关人员责任的权利。头豹研究院开展的所有商业活动均使用“头豹研究院”或“头豹”的商号、商标，头豹研究院无任何前述名称之外的其他分支机构，也未授权或聘用其他任何第三方代表头豹研究院开展商业活动。1头豹研究院弗若斯特沙利文咨询（中国）大模型评测

2023/12中国：人工智能系列摘要n大模型是自然语言处理领域中深度学习技术的高级应用。通过对海量文本数据进行深度训练，能够吸收和提炼出丰富的语言学知识和语义内涵。这种大模型通常参数规模庞大，动辄数十亿甚至数百亿，从而具备理解和生成自然语言的能力，与人类沟通几乎无障碍。它的应用场景广泛，包括但不限于机器翻译、智能问答、文本摘要等多个领域。从技术发展的视角来看，语言模型的演进历程颇具启发性。起初，基于深度神经网络进行训练；随后，业界逐渐采用预训练结合微调的模式来提升性能；而如今，最先进的范式已经转向预训练结合提示训练，这无疑标志着模拟人类思维交流方面的又一重大突破。这一发展轨迹不仅凸显了技术的迅速迭代，更揭示了自然语言处理领域巨大的探索空间和创新潜力n大模型能够显著增强研究报告的编写效率，通过采纳精细化的询问策略，分析师在研究过程中能够实现效率优化。此外，这一模型还能够提供全面的文本编辑支持，包括校正、查重、以及文风润色等功能，从而确保分析师提交的工作成果达到更高的质量标准n大模型技术潮流兴起催生中国大模型百花齐放。沙利文与头豹研究院联手对12个大模型进行综合评估，以深入梳理中国大模型在行研领域的应用表现，为各界提供清晰深入的视角，以应对预训练大模型引发的人工智能浪潮当前，自然语言处理技术中的预训练大模型正在全球范围内引领一场前所未有的人工智能革命。自ChatGPT推出以来，仅在中国地区，涌现出超过80个不同的预训练语言大模型。这些模型的参与者涵盖了中国顶尖的学术研究机构和领先的互联网科技企业，均希望能在这场技术浪潮中抢占先机。值得一提的是，过去一年里，中国学术和产业界也取得了显著进展，商汤的“商量”、百度的“文心一言”等大模型持续迭代，推动了中国大模型产业的快速发展。沙利文与头豹研究院合作，基于数字行研解决方案的研究和实践经验，凭借百人分析师团队的匿名投票机制，筛选出12个大模型进行综合评估。这一评估旨在全面了解并梳理中国大模型在行研领域的应用表现。通过这份专业分析，各界能获取到清晰、深入的视角，以更好地理解和应对由预训练大模型引发的人工智能浪潮。400-072-5588大模型评测

2023/12中国：人工智能系列内容目录研究目标1大模型行研能力评测背景及方法n

研究目的05页基于数字行研解决方案的研究和实践基础，头豹研究院联合沙利文凭借百人分析师团队匿名投票机制，筛选了12个大模型，进行了多维度的综合评估，旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现。•••••••••行研背景概述传统行研发展痛点数字行研革新大模型赋能行研评测大模型参与者评测方法与指标报告撰写能力n

研究目标行研基础能力••••了解中国大模型在行研领域的应用价值探析中国大模型在行研领域的综合表现梳理中国大模型的参与者现状行业理解能力2大模型行研能力评测结果

15页评估中国大模型行研领域的发展潜力•••••••••••••评测结果总榜n

本报告的关键问题报告撰写能力总榜报告撰写能力综合表现报告撰写高阶难度模块表现报告撰写低阶难度模块表现报告撰写能力分布•••••参与者发展现状：中国大模型的参与者有哪些？在行研领域的发展现状如何？行研应用表现：中国大模型在行业研究领域的实际应用表现如何？行研基础能力总榜报告撰写能力：中国大模型在撰写行业研究报告方面的表现能力如何？行研基础能力综合表现行研基础能力细分模块行研撰写能力分布模型基础能力：中国大模型逻辑推理能力、类比迁移能力等基础能力表现如何？行业理解能力：目前中国大模型在不同行业下的理解能力以及表现如何？行业理解能力总榜行业理解能力综合表现行业理解能力细分行业400-072-55883大模型评测

2023/12中国：人工智能系列名词解释uuu预训练语言大模型：预训练语言大模型是一种先进的人工智能技术，它通过在大规模文本数据上进行预先训练，学习语言的复杂模式，从而能够理解、生成和处理自然语言。数字行研：数字化行业研究解决方案通过集成精准信息溯源系统和标准化写作工具，降低了行研门槛，提高撰写效率，并简化了质量控制流程，从而革新了行业研究的范式。8-D方法论：沙利文联合头豹企业研究所采纳的8-D方法论包括八个核心模块，包含定义、分类、发展历程、特征、产业链、市场规模、政策和竞争格局，构成了一套全面而系统的研究方法。类比迁移：指在机器学习中用于训练的数据，这些数据没有提供明确的标签或答案。逻辑推理：类比迁移是指从一个领域或情境中提取概念、原则或模式，并应用到另一个不同的领域或情境。在内容评判中，评估模型在不同概念、情境之间建立联系的能力，以及这些联系的适当性和创造性。uuu语境转换：语境转换是指根据不同的交流环境或对象调整信息表达方式。在内容评判中，评估信息是否适应特定的受众、文化背景或沟通场合，以及是否能有效地调整语气、风格和内容以满足不同场景下的写作需求。uuu意图理解：意图理解是指识别和理解用户或作者想要传达的目的和动机。在内容评判中，评估信息是否有效地传达了其预期的消息或意图，以及模型是否能清楚地识别这些意图。文本生成：文本生成是指创建连贯、相关和有意义的文本内容。在评判内容时，评估文本的清晰度、连贯性、原创性以及语言的正确性和表达能力。知识储备：知识储备是指个体或系统所掌握的信息、事实、概念和理论的总和。在内容评判中，知识储备体现在信息的准确性、深度和广度，以及模型能否正确并有效地使用相关知识。400-072-55884大模型评测

2023/12中国：人工智能系列Chapter

1大模型行研能力评测背景及方法q

本次大模型行研能力测试覆盖1,800+题目，由20人资深研究分析师团队经过严格的双盲评测流程，围绕研究报告撰写能力，模型基础能力以及行业综合理解能力进行综合评测q

评测方法通过双盲机制最大程度保证公允性，每名测试人员会随机分配N个模型进行答案搜集，彼此在答案搜集期间互相禁止分享信息，以保持在答案评测阶段的公允性；在评测阶段，每个问题相对应的12个模型答案顺序会随机打乱，保证评测人员对答案不存在任何偏见q

本次大模型行研能力评测分为三个核心模块，分别为报告撰写能力、模型基础能力以及行业理解能力。报告撰写为本次评测的核心能力，基础能力以及行业理解能力为衍生能力，顾赋予40%/30%/30%的评分权重q

本次大模型行业研究能力评测截止于11月30日，所选模型基于目前开放可用的范围。本次评测未涵盖企业尚未开放的大模型，评测结果仅反映当前公开可用模型的数据400-072-55885大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测——行研背景概述•

行业研究通过分析特定行业的定义、竞争格局、市场规模等关键方面，产出深刻洞察和观点。方法论涵盖从宏观的产业层到微观的产品层的分析，对企业战略、政策制定和金融决策等产生显著影响行研背景概述行研价值链价值企业规划政务服务金融决策教育培训新闻传媒…体现行业定义行业分类市场规模发展历程政策分析行业特征竞争格局研究路径产业链分析互联网泛娱乐金融医疗农林牧渔教育采矿制造旅游零售千行百业房地产…n行业研究通过详尽方法论输出价值观点，对企业策略、金融决策等领域的价值显著行业研究是深入探讨分析特定行业的发展现状和市场动态的全面过程，包含行业定义、分类、竞争格局、市场容量等关键维度。分析师通过分析，生成具有深度的洞察和价值观点，对企业战略规划、政策制定、金融投资决策和教育培训等多个领域产生重要影响。外部维度经济

环境内部维度行研范围产业链分析政策法律发展历程发展特征

市场规模

竞争格局产业层行业层产品层重要程度高重要程度低n行业研究涵盖从宏观的产业层到微观的产品层，各层级决定着相应的研究方法，研究方法论囊括外部宏观因素和内部微观细节的全面分析在行业研究中，产业层、行业层和产品层各自代表宏观经济的不同层次：产业层包含具相似特征的行业群体，行业层着重于特定行业的市场和企业情况，而产品层深入到具体产品或服务的设计、功能和市场定位。研究方法论根据这些层级的宏观到微观差异而有所不同，外部维度考虑政策、经济、环境等因素，而内部维度则包括发展历史、产业链分析等更细致的方面。来源：沙利文、头豹研究院400-072-55886大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测——传统行研发展痛点•

从基础数据收集到深度分析输出，传统行业研究的流程面临着工具革新滞后、团队知识难以传承、信息溯源复杂性以及研报质量控制的重大挑战，共同影响行业研究的产出效率和创新能力，限制了其发展潜力传统行研发展痛点调研分析产出二手数据分析制图统计局数据、文献、网页、垂直媒体、招股书、第三方研报、专业数据库……产业链、竞争格局研究成果建模行业规模与预测模型传统工具Excel研究报告、演讲稿、招股书行业章节、视频…….一手数据行业专家访谈、消费者调研（问卷，圆桌）、自行监测数据……撰写行业定义、特征、分类、历史、政策、行研发展痛点1生产工具停滞2团队知识难以复用行业人员流动性较大，新人成长周期较长，分析师掌握的经验和知识复用性差3溯源难考证4质量把控难度高质控人员缺乏专业撰写技能，而专业分析师则通常无暇进行广泛质控面对海量信息和时间成本，信息来源难以考证，信息合规无法全面保障PPT和Word仍是生产核心工具，20年来没有更新新的行研生产工具n传统行业研究在工具更新、知识复用、信息溯源和质量控制方面面临显著挑战，影响其效率和准确性传统行业研究的产出流程包括三个步骤：首先是基础调研，聚焦于一手和二手行业数据的收集；其次是数据加工，涉及整理逻辑、验证数据真实性，并对关键信息进行可视化处理；最后是产出结果，确保全文逻辑一致、可视化清晰并且观点合理。在实际操作中，行业研究面临多个挑战：1）工具更新停滞，自互联网兴起以来，行研主要依赖网络检索和办公软件，近20年未见显著革新；2）团队知识难以复用，由于高人员流动性和新成员培养周期长，分析师的经验和知识传承困难；3）信息溯源和合规性考量复杂，在应对海量信息和时间成本压力下，信息来源和合规性难以全面保障；4）质量控制难度高，质控人员缺乏专业撰写技能，同时专业分析师缺乏时间进行广泛质控，导致质量监控极为困难。这些核心挑战共同影响着行研的产出效率和创新，阻碍行研进一步发展。来源：沙利文、头豹研究院400-072-55887大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测——数字行研革新•

数字行研解决方案，结合标准化工具和先进的大模型技术，有效克服了传统行业研究的核心制约因素，显著提升研究的精度和效率，并引领行业研究进入一个效率更高和质量更优的新产出范式数字行研革新（以头豹脑力擎为例）数字行研全面赋能开信息调研综合分析结果呈现协同创作词条AI生成辅助分析师接入智能技术工具提效开源AI续写Web3.0协同可信智能高效数字身份头豹写作系统“脑力擎”赋能头豹研报产出提质增效AIGC文本创作AI改写AI赋能AI检索创作沉淀，数据资产化体系化培训工具智能研报生成AI审核标准n数字化行研解决方案通过标准化工具和大模型技术，解决了行业研究的核心难题，提高了研究质量和效率，为行业分析带来了高效、精准的新范式数字化行研解决方案为行业研究带来范式革新。该系统通过引入一系列标准化工具，如精准的信息溯源系统和写作规范，极大降低了行业研究的门槛，提升了撰写效率，并简化了质量控制流程。此外，数字行研基于大模型的强大底层支持，为分析师提供AI辅助工具，包括专家访谈、智能检索、查重、校对和改写功能，有效减少信息检索的难度，提升文本的准确性和撰写效率，同时加速分析师的专业成长。数字行研解决方案不仅解决了传统行业研究中的关键痛点，如信息溯源困难、严峻的质控挑战、知识低复用率和工具更新滞后，还借助大模型技术推动行业研究质量和分析师成长速度，引领行业研究向更高效、精准的新范式转变。来源：沙利文、头豹研究院400-072-55888大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测——大模型赋能行研•

大模型在数字行业研究中扮演核心角色，其功能特性极大提升了研究的效率和质量。本研究聚焦于挖掘中国大模型在行业研究中的实际应用和优势，了解大模型当前的能力边界，以推动行研领域的创新与变革大模型赋能行研AI专家访谈AI文字校对通过利用AI大模型进行行业专家访谈，分析师可以迅速掌握行业的核心信息和精确的定义、分类，从而将初期行业研究阶段的时间缩短30%利用大模型的改写、续写和查重功能，可以显著减少错别字、病句和重复内容，从而提升文本质量和可读性，同时减少分析师在文本检查上的时间投入，降低超过70%大模型行研赋能AI内容生成AI资料检索通过使用大模型的文字生成功能，结合恰当的提问问题，让大模型帮助产出结构化内容，提高研报的产出效率50%运用大模型的互联网检索访问功能，结合精准的提问策略，帮助分析师定位关键信息，从而提升资料搜索效率超60%n大模型在数字行业研究中扮演核心角色，其功能特性极大提升了研究的效率和质量。本研究主要聚焦于中国大模型在行业研究中的实际应用和优势，知晓大模型的能力边界，旨在推动行研领域的创新与变革作为数字行研的关键支撑，大模型通过其创作、生成、改写和检索等核心功能，全方位推动行业研究向前发展。首先，大模型扮演第三方AI专家角色，协助分析师在研究初期进行框架搭建和内容创作，有效减轻案头工作负担。其次，通过与分析师的有效互动，大模型助力生成结构化内容和洞察，显著提高基础内容的产出效率。进一步，它通过减少文本错误和重复内容，优化校对流程，提升产出质量。最后，大模型能够快速处理海量数据，提供实时信息检索，增强分析师在有限时间内获取全面信息的能力。鉴于此，深入了解中国大模型行业的发展态势和技术创新对引领数字行业研究新范式至关重要。本研究的目标是全面评价中国领先的大模型技术，深入分析其在行业研究领域的实际应用和优势，全面审视大模型对行业研究发展的影响，以促进数字行业研究的创新和变革。来源：沙利文、头豹研究院400-072-55889大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测——评测大模型参与者•

基于数字行研解决方案的研究和实践基础，沙利文联合头豹研究院依托百人分析师团队对12个大模型进行行研辅助能力的综合评估，旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现大模型行研能力评测参与者商量大模型参选者榜单3.5本次对大模型的行业研究能力进行评测的时间定于11月15日至11月30日，评选的模型基于目前市场上开放且可用的版本。评测结果将仅反映在评测时段内公开可获取的模型数据。在此次评测中，GPT模型选用的公测版本为3.5版本，文心一言模型也采用其3.5公测版本进行评估。n自ChatGPT推出后，中国在预训练大模型领域实现了显著进步，涉及顶尖学术机构和科技企业，沙利文联合头豹研究院对12个大模型进行综合评估，以全面了解中国大模型在行研领域的发展与应用当前，基于自然语言处理技术的预训练大模型已在全球范围内掀起了有史以来最大的人工智能浪潮。自ChatGPT推出以来，仅中国地区就出现了超过80个不同的预训练语言大模型，参与者覆盖中国顶尖的学术研究机构以及互联网科技企业，旨在此番浪潮中拔得先机。过去一年中，中国学术与产业界也取得了实质性的突破，来自商汤的商量、百度的文心一言等前沿大模型不断升级，带动中国大模型产业的发展。基于数字行研解决方案的研究和实践基础，沙利文联合头豹研究院凭借百人分析师团队匿名投票机制，筛选了12个大模型，进行了多维度的综合评估，旨在全面了解并系统梳理中国大模型参与者在行研领域的应用表现。来源：沙利文、头豹研究院400-072-558810大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测——评测方法与指标•

本次大模型行研能力测试覆盖1,800+题目，由20人资深研究分析师团队经过严格的双盲评测流程，围绕研究报告撰写能力，模型基础能力以及行业综合理解能力进行综合评测大模型行研能力评测方法A.报告撰写能力问题B.行研基础能力问题C.行业理解能力问题••••••••行业定义行业分类行业特征发展历程产业链分析市场规模政策分析竞争格局••••••逻辑推理类比迁移文本生成意图理解知识储备语境转换••••••••金融业医疗业制造业互联网科技业零售业教育业运输业….12个大模型n本次测试覆盖三大板块，1,800+道题目，由20人资深研究分析师团队经过严格的双盲评测流程得出，最大程度保证公允性本次大模型能力测试围绕三大核心板块展开评测：分别是研究报告撰写能力，模型基础能力以及行业综合理解能力。通过模型在三大核心板块的表现力最终得出评测结果。其中，报告撰写覆盖8篇不同主体报告撰写，涵盖128道问题，分析师长期跟踪报告问题累积超1,500道题；模型能力覆盖6大文本产出核心能力，涵盖54道问题；行业理解覆盖14大核心行业，每个行业涉及12个问题，总计1,168题。三大维度合计1,800道题目。分析师团队由头豹研究院各团队资深分析师组成，且均具备超过8个月的大模型使用经历。评测方法通过双盲机制最大程度保证公允性，每名测试人员会随机分配N个模型进行答案搜集，彼此在答案搜集期间互相禁止分享信息，以保持在答案评测阶段的公允性；在评测阶段，每个问题相对应的12个模型答案顺序会随机打乱，保证评测人员对答案不存在任何偏见。来源：沙利文、头豹研究院400-072-558811大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测——报告撰写能力•

沙利文及头豹行企研究的8-D方法论，是一种全面系统的研究方法，包含了八大关键模块，用于对行业进行深入分析。在这一框架下，百名分析师研磨提炼一套高效的8D模块提问方法，以对模型能力进行评测大模型报告撰写能力行业研究报告撰写逻辑权重占比行业定义10.0%行业分类10.0%对特定行业的基本性质概述，涵盖主要活动、服务或产品根据某些共同特征将不同的行业进行分组的过程，理解行业结构行业特征17.5%发展历程10.0%区分一个特定行业与其他行业的独特属性和条件，囊括多个维度描述行业从诞生到当前状态所经历的各个阶段和重要转折点产业链分析

17.5%市场规模15.0%从原材料采购到最终产品销售的整个流程进行完整分析审视在给定时间内的总销售额或总市场价值，反映经济影响力和潜力政策分析5.0%竞争格局15%对影响特定行业的政府政策、法规和指导原则的评估描述行业内各企业间的竞争状态，包括市场份额分布和竞争动态变化概念引入八大维度分析法+归纳总结行业定义产业链分析概述类模块分析类模块44明确主体行业分类行业特征政策分析市场规模趋势研判理清边界观点输出发展历程竞争格局n百名分析师经过八个月实践研磨提炼8D模块的提示问题，以测试12大模型的报告撰写能力沙利文联合头豹企业研究所采纳的8-D方法论包括八个核心模块，构成了一套全面而系统的研究方法，专用于行业的深入分析。结合详实的数据和精准的分析，此方法能够提炼出深刻的观点和结论，显著提升行业研究内容的清晰度和数据的丰富性。在该方法论的指导下，百名分析师历经八个月的密集工作及多次优化，精制而成一套高效的8D模块化大模型提示问题法。这套精练的提问技巧已转化为评估工具，旨在通过对十二个主要模型的针对性提问，检验并评估模型报告撰写的效能。来源：沙利文、头豹研究院400-072-558812大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测——行研基础能力•

从AI辅助文本创作角度出发，结合文字生成基础核心能力，归总出对于行业研究报告撰写角度最核心的六大能力维度，包括逻辑推理、文本生成、类比迁移、语境转换、意图理解以及知识储备大模型行研基础能力逻辑推理文本生成基于已知信息通过推理得出结论内容生成连贯、清晰、正确且具备时效性类比迁移语境转换从A领域到B领域转移概念或原则在不同交流环境调整信息的表达方式模型基础能力意图理解知识储备明晰提问者目的和深层意图模型在特定领域掌握的信息集合n从AI辅助文本创作角度出发，结合大模型基础核心能力，归总出对于行业研究报告撰写角度最重要的六大能力维度逻辑推理：逻辑推理是指从已知信息出发，通过推论规则得出结论的过程。在内容评判中，关注信息组织、连接和推导的方式，以及结论是否合理、一致，且基于事实。类比迁移：类比迁移是指从一个领域或情境中提取概念、原则或模式，并应用到另一个不同的领域或情境。在内容评判中，评估模型在不同概念、情境之间建立联系的能力，以及这些联系的适当性和创造性。文本生成：文本生成是指创建连贯、相关和有意义的文本内容。在评判内容时，评估文本的清晰度、连贯性、原创性以及语言的正确性和表达能力。意图理解：意图理解是指识别和理解用户或作者想要传达的目的和动机。在内容评判中，评估信息是否有效地传达了其预期的消息或意图，以及模型是否能清楚地识别这些意图。知识储备：知识储备是指个体或系统所掌握的信息、事实、概念和理论的总和。在内容评判中，知识储备体现在信息的准确性、深度和广度，以及模型能否正确并有效地使用相关知识。语境转换：语境转换是指根据不同的交流环境或对象调整信息表达方式。在内容评判中，评估信息是否适应特定的受众、文化背景或沟通场合，以及是否能有效地调整语气、风格和内容以满足不同场景下的写作需求。来源：沙利文、头豹研究院400-072-558813大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测——行业理解能力•

头豹研究院成立至今汇集超5,000+行企报告，覆盖超14个大类行业以及上千个细分小类行业。本次评测汇集百余名各资深行业分析师，结合自身领域认知，对模型在14大行业的理解和产出能力进行评估大模型行业理解能力14大行业金融业互联网科技房地产业证券/保险/基金云计算/大数据/人住宅开发/商业地产/工智能物业管理医疗业零售业农林牧渔医院服务/医疗器械/生物技术超市/专卖店/电子商务农作物种植/畜牧业/水产养殖/林业制造业教育业采矿业汽车制造/消费品制造/工业设备K-12教育/高等教育/职业培训煤炭开采/金属矿开采能源业咨询服务业旅游业石油与天然气/可再生能源管理咨询/人力资源咨询/IT咨询酒店/景点/旅行社等运输业泛娱乐业货运物流/客运交通/航空运输/铁路运输等电影/电视/音乐/电子竞技等n头豹研究院成立至今汇集超5,000+行企报告，覆盖超14个大类行业以及上千个细分小类行业。本次评测汇集头豹研究院百余名各资深行业分析师，结合自身特定领域认知与经验，对模型在14大行业的理解和产出能力进行评估沙利文联合头豹研究院成立至今，平台共积累超12万+注册用户，5,000+行业企业研究报告积累，覆盖14个大类行业，以及上千个细分小类行业。沙利文联合头豹的精英分析师团队以及各项研究成果广泛受到金融、制造、互联网科技等各个行业领域的用户认可。当前，头豹已发展成为中国最大的行企研究平台之一，拥有行业覆盖程度广、报告库数量多、报告撰写效率高、行业知识精准度高四大优势。在本次大模型评测中，头豹研究院联合其上海、南京和深圳分院，汇聚了跨越多个行业领域的百余名分析师，利用自身对竞争格局、发展趋势、制约因素、以及行业壁垒等关键知识领域的深厚理解，并结合丰富的行业报告撰写经验，向模型提出了针对14个主要行业的细致问题。通过对模型在各特定行业细分领域的纵向评估和全行业范围的横向比较，最终确定了12大模型在行业理解和内容产出方面的深度与能力。来源：沙利文、头豹研究院400-072-558814大模型评测

2023/12中国：人工智能系列Chapter

2大模型行研能力评测结果q

商汤科技——商汤商量q

百度——文心一言3.5q

OpenAI——GPT3.5q

阿里云——通义千问q

昆仑万维——天工q

百川智能——百川q

科大讯飞——讯飞星火q

腾讯云——腾讯混元q

智谱AI——智谱清言q

武汉人工智能研究院——紫东太初q

名之梦——MiniMaxq

中科闻歌——雅意400-072-558815大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——评测结果•

资深分析师团队根据三大维度，总计1,800+道题目，对十二大市场主流大模型进行评估测试。评测结果显示，商汤商量、文心一言3.5、GPT3.5、讯飞星火以及腾讯混元处在第一梯队，综合实力强劲中国大模型行研能力综合评测结果排模型名称企业机构

八大模块得分

排名

模型能力得分

排名

行业能力得分

排名

总得分名GPT3.5OpenAI商汤商量百度7.588.278.088.107.587.447.587.387.347.26517.928.177.837.336.756.586.586.426.336.67217.016.556.786.276.506.726.326.356.336.09147.297.737.487.257.066.926.906.816.766.741商汤商量2

文心一言3.53323456789讯飞星火腾讯混元智谱清言天工科大讯飞腾讯2410565智谱AI昆仑万维百川773479百川897通义千问Minimax阿里云名之梦910681111武汉人工智能研究院10

紫东太初11

雅意7.33106.08116.4166.686.54中科闻歌7.23126.08115.9912国产大模型行研能力综合评测结果第一梯队第二梯队第三梯队商汤商量

文心一言

讯飞星火混元智谱天工行研基础能力百川通义千问

Minimax

紫东太初

中科闻歌报告撰写能力行业理解能力备注：评测的时间于11月15日至11月30日，评选的模型基于目前市场上开放且可用的版本。在此次评测中，GPT和文心一言均选用3.5公测版本进行评测。来源：沙利文、头豹研究院400-072-558816大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——报告撰写能力•

模型在报告撰写能力板块的表现中，商汤商量、讯飞星火以及文心一言3.5占据前三甲。其余模型的表现各有千秋，例如紫东在行业特征的归纳总结能力较强，Minimax则在发展历程和产业链分析细分维度表现优秀大模型报告撰写能力评测结果行业特征发展历程产业链市场规模政策分析竞争格局排名模型名称总得分定义分类12商汤商量讯飞星火文心一言3.5天工8.278.108.087.587.587.587.447.387.347.337.267.23345GPT3.56腾讯混元智谱清言百川789通义千问紫东太初Minimax雅意101112得分高得分低报告撰写能力由模型在定义、分类、行业特征、发展历程、产业链、市场规模、政策分析以及竞争格局8D模块的表现综合评定而成n模型在报告撰写评测的表现中，商量、讯飞星火、以及文心一言3.5是表现TOP3的模型，其中商汤商量在8D模块均表现强劲，讯飞星火在高难度撰写板块展现一定实力根据大模型报告撰写能力综合热力矩阵图可以看出商汤商量是综合能力最强的模型，且在各个板块的表现稳定处在前列位置。讯飞星火虽在发展历程失分较为严重，但在市场规模、政策分析以及竞争格局的高难度撰写板块中表现强劲。来源：沙利文、头豹研究院400-072-558817大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——报告撰写能力表现•

在报告撰写评测中，不同平台表现存在显著差异。例如，商量凭借其稳定性和在关键模块的领先优势显著。而GPT3.5和百川因信息库更新不足及答案完整性与准确性问题，在高权重模块中失分较多大模型报告撰写能力评测结果7.56.55.54.5产业链商汤商量定义发展历程讯飞星火分类竞争格局

市场规模文心一言特征天工政策分析GPT3.5(参考模型）腾讯混元紫东太初智谱百川通义千问Minimax中科闻歌n在报告撰写评测中，各平台表现各异，其中商量整体表现稳定且领先，而GPT3.5和百川因信息更新和答案完整性问题而在某些关键模块中失分较多在报告撰写能力评测中，商量的整体表现稳定，在8D模块中均超过均分，领先于其他。文心一言3.5和星火表现出波动，例如讯飞在发展历程和竞争格局低于均分，但在分类任务中表现最佳。天工在发展历程、市场规模和定义方面表现优秀，但在产业链方面略显不足。GPT3.5在竞争格局和市场规模中失分较多，主要因为其信息库较旧，无法提供有效价值信息，影响了其在报告撰写的综合表现。智谱清言和通义千问的综合表现稳定，在8D各模块中与均分相近，其中智谱清言在政策分析方面表现优异，通义千问在特征环节表现突出。百川的表现波动较大，尤其是在政策模块由于无法给出答案，导致失分严重，影响了整体均分。紫东太初和雅意的表现相似，除在特征和政策分析模块外，其他分值走势几乎一致。Minimax在8D模块中五项略高于均分，但在产业链和竞争格局这两个高权重模块中失分严重。来源：沙利文、头豹研究院400-072-558818大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——高阶难度模块表现•

产业链分析是8D模块中最具挑战性和权重最高的部分，考验大模型在行业定义、信息检索和价值挖掘方面的能力，其中商汤商量、文心一言3.5和讯飞星火凭借出色的知识储备和逻辑推理表现优异大模型产业链分析能力评测结果产业链分析产业链均值：5.80n产业链分析作为8D模块中最具挑战性且权重最高的部分，考验着大模型在定义行业、信息检索和价值挖掘方面的综合能力，其中商汤商量、文心一言3.5和讯飞星火因其优秀的知识储备和逻辑推理能力在这一模块中表现突出产业链分析是高阶难度撰写模块之一，权重在评测分数中占到了17.5%，是8D模块中评测得分权重最大的模块。其复杂性源于需要大模型在三个关键维度进行深入的信息处理：首先是对特定行业产业链的上中下游及其参与者的精确界定；其次是在确认主体后，筛选出与各环节相关的关键信息；最后是对收集到的信息进行深度加工，探索产业链的价值流向和影响力，以提炼出对该行业宏观层面的关键见解。这一系列步骤要求模型具备高度的信息检索和逻辑归纳能力，且随着过程的深入，难度逐渐增大。大模型在产业链分析表现均分为5.8分，是8D模块的第二低分，侧面反映了其内容产出的难度。其中，商汤商量、文心一言3.5、百川、雅意、讯飞星火以及GPT3.5是表现优异的模型，综合表现高于均分。商汤商量、文心一言3.5以及讯飞星火得益于其优秀的知识储备能力以及逻辑推理归纳能力，在这一模块表现优秀。来源：沙利文、头豹研究院400-072-558819大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——高阶难度模块表现•

市场规模分析作为8D模块中难度较高和权重第二的模块，要求精确界定市场规模的测算标准和预测市场变化。在此模块中，讯飞星火和天工因其在市场规模测算及未来变化推演方面的表现而尤其突出大模型市场规模能力评测结果市场规模市场规模均值：6.32n市场规模分析作为8D模块中难度较高且权重第二的模块，主要挑战在于确定行业市场规模的测算标准和界限，以及分析和预测市场规模的过去和未来变化。其中，讯飞星火和天工在市场规模测算和未来变化推演方面表现突出市场规模是高阶难度撰写模块之一，权重在评测分数中占到了15%，是8D模块中评测得分权重第二高的模块之一。市场规模测算是在给定时间内的总销售额或总市场价值，其价值意义是反映经济影响力和潜力。这一模块的挑战主要包括两个方面：首先是定义特定行业的市场规模测算标准，比如选择营收端还是成本端，并明确市场规模的界限，以确保测算结果的实际意义；其次是对过去五年及未来五年市场规模的变化进行原因分析和预测，这既考验大模型的信息整合能力，也考验其未来趋势的预判能力。正因为这些要求，市场规模分析被认为是高难度撰写模块之一。大模型在市场规模分析表现均分为6.32分，是8D模块的第五低分。在市场规模模块，商汤商量、文心一言3.5、Minimax、智谱清言、讯飞星火以及GPT3.5是表现优异的模型，综合表现高于均分。讯飞星火和天工在市场规模测算口径制定以及未来变化推演能力强，因此表现优异。来源：沙利文、头豹研究院400-072-558820大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——高阶难度模块表现•

竞争格局分析是8D模块中最具挑战性的部分之一，主要考验模型在精准筛选行业关键参与者和推演市场竞争态势的能力。在该模块中，商汤商量和讯飞星火因其在企业筛选和未来变化推演上的强大能力而表现杰出大模型竞争格局能力评测结果竞争格局竞争格局均值：5.74n竞争格局分析作为8D模块中最具挑战性的模块之一，主要考验模型在精准筛选行业关键参与者和推演市场竞争态势的能力。在这一模块中，商汤商量和讯飞星火因其在企业筛选和未来变化推演上的强大能力而表现杰出竞争格局是高阶难度撰写模块之一，权重在评测分数中占到了15%，是8D模块中评测得分权重第二高的模块之一。竞争格局分析旨在阐述行业内企业间的竞争状况，涉及市场份额分布和竞争动态的变化，旨在揭示市场的当前竞争态势，以便企业进行战略调整。其挑战在于准确筛选行业参与者，并归纳推演市场竞争态势的形成原因及未来趋势。首先，识别行业中的关键竞争者是一个复杂的任务，需要从众多企业中精准挑选出既正确又具有强大竞争力的企业。其次，确定企业后，模型必须分析当前竞争情况的成因并预测其未来变化。这两个环节都对模型的归纳和推演能力提出了高要求，使得竞争格局成为高难度撰写模块之一。大模型在竞争格局分析的表现均分为5.74分，是8D细分模块的最低分。在竞争格局模块，商汤商量、文心一言3.5、Minimax、智谱清言、雅意、腾讯混元、讯飞星火以及GPT3.5均表现出色，综合表现高于均分。商汤商量和讯飞星火在企业筛选以及未来变化推演能力较强，在竞争格局表现杰出。来源：沙利文、头豹研究院400-072-558821大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——高阶难度模块表现•

行业特征分析是8D模块中的高难度部分，挑战在于处理海量数据并提炼深刻、独创的见解。在这一模块中，大模型整体的表现差异不大，其中通义千问因其简洁性、丰富论据及深度独创性，在此模块中表现优异大模型行业特征能力评测结果行业特征行业特征均值：6.27n行业特征分析作为8D模块中的一个高难度撰写部分，主要挑战在于综合处理海量数据、提炼具有深度的代表性见解以及展现独创性。其中通义千问因其简洁性、丰富论据及深度独创性，在此模块中表现优异行业特征是高阶难度撰写模块之一，权重在评测分数中占到了17.5%，是8D模块中评测得分权重最高的模块之一。行业特征分析旨在区分一个特定行业与其他行业的独特属性和条件，价值在于披露行业独有的价值信息以供投资管理决策。行业特征的核心难度在于信息量的维度，不同于其它模块，行业特征的提示问题缺少明确指向性，需要大模型根据特定行业的海量数据资料去总结归纳最符合当下行业的实际特征。行业特征的质量取决于两点，一点是深度，也就是该行业特征是否对特定行业有足够的代表性。另一点是独创性，也就是对特定行业是否有独到的见解，而非泛泛而谈。由于行业特征的问题较为宽泛且模型需要筛选的信息量极大，因此撰写难度极高。大模型在竞争格局分析的表现均分为6.27分，从结果看是8D模块中表现较好的模块。在行业特征模块，多个模型综合表现高于均分，其中通义千问的回答简洁性强，论据丰富且具有一定深度与独创性，因此在特征模块表现优异。来源：沙利文、头豹研究院400-072-558822大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——低阶难度模块表现•

行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低，重点聚集在信息搜集的准确度。在低难度撰写模块中，12大模型没有显著的差距，但部分模型由于在特定模块中无法回答，因此失分严重大模型报告撰写能力低阶难度模块评测结果行业定义行业分类定义均值：6.48分类均值：6.93发展历程政策分析发展历程均值：6.52政策分析均值：6.12n模型在低难度报告撰写模块的表现中，商汤商量和讯飞星火表现最为优秀，在四个模块的评测得分均显著高于均分行业定义、行业分类、发展历程以及政策分析在行研撰写中难度较低，这四大模块重点落在信息搜集的准确度，对归纳推理的整体要求较低，更多考察模型的知识库丰富性以及把握信息准确性的能力。在低难度撰写模块中，12大模型整体的表现较为平均，模型之间没有显著的差距。但部分模型在发展历程和政策分析模块中无法给出明确的答案，从而导致失分情况严重，对最终均分影响较大。来源：沙利文、头豹研究院400-072-558823大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——报告撰写能力分布•

商汤商量、科大讯飞星火以及文心一言3.5是模型报告撰写能力排名前三甲。在报告撰写的细分模块中，行业定义和分类的平均得分较高，撰写难度相对较低。产业链、竞争格局和市场规模得分较低，撰写难度大大模型报告撰写能力分布商汤商量：商量科大讯飞：讯飞星火产业链分析产业链分析政策分析行业定义政策分析行业定义行业特征发展历程行业特征发展历程市场规模行业分类市场规模行业分类竞争格局竞争格局百度：文心一言3.5昆仑万维：天工产业链分析产业链分析政策分析行业定义政策分析行业定义行业特征发展历程行业特征发展历程市场规模行业分类市场规模行业分类竞争格局竞争格局腾讯：混元OpenAI:GPT3.5产业链分析产业链分析政策分析行业定义政策分析行业定义行业特征发展历程行业特征发展历程市场规模行业分类市场规模行业分类竞争格局竞争格局来源：沙利文、头豹研究院400-072-558824大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——报告撰写能力分布•

商汤商量、科大讯飞星火以及文心一言3.5是模型报告撰写能力排名前三甲。在报告撰写的细分模块中，行业定义和分类的平均得分较高，撰写难度相对较低。产业链、竞争格局和市场规模得分较低，撰写难度大大模型报告撰写能力分布智谱AI：清言百川：百川产业链分析产业链分析政策分析行业定义政策分析行业定义行业特征发展历程行业特征发展历程市场规模行业分类市场规模行业分类竞争格局竞争格局阿里云：通义千问武汉人工智能研究院：紫东太初产业链分析产业链分析政策分析行业定义政策分析行业定义行业特征发展历程行业特征发展历程市场规模行业分类市场规模行业分类竞争格局竞争格局中科闻歌：雅义名之梦：MiniMax产业链分析产业链分析政策分析行业定义政策分析行业定义行业特征发展历程行业特征发展历程市场规模行业分类市场规模行业分类竞争格局竞争格局来源：沙利文、头豹研究院400-072-558825大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——行研基础能力•模型在行研基础能力的表现差异显著，商汤商量、GPT3.5以及文心一言3.5占据前三甲，整体领先幅度较大。排名靠后的模型虽然综合评分较低，但在细分模块仍有优异表现，例如智谱清言和百川在意图理解能力高于均分大模型行研基础能力评测结果排名模型名称总得分类比迁移

逻辑推理

文字生成

意图理解

语境转换

知识储备12商汤商量GPT3.58.177.927.837.336.756.676.586.586.426.336.176.083文心一言3.5讯飞星火腾讯混元Minimax天工45677智谱清言百川91011通义千问紫东太初雅意12得分高得分低模型基础能力由模型在类比迁移、逻辑推理、文字生成、意图理解、语境转换、知识储备六大问题经过基础题库测试与报告撰写的分析师评测综合评定而成n模型在基础能力评测的表现中，商汤商量、GPT3.5、以及文心一言3.5占据前三甲根据大模型基础能力综合热力矩阵图可以看出表现TOP3的模型分别为商汤商量、GPT3.5以及文心一言3.5。其中，商汤商量在语境转换和知识储备板块排名第一，讯飞星火则在逻辑推理和文字生成部分达到第一。值得关注的其它模型中，排名第8的智谱清言在意图理解的能力最强。而天工在长文本生成和生成速度方便较为优秀。来源：沙利文、头豹研究院400-072-558826大模型评测

2023/12中国：人工智能系列中国大模型行研能力评测分析——行研基础能力表现•

在行研基础能力评测中，GPT3.5、商汤商量和文心一言3.5稳定领先，展现出各自在逻辑推理、文字生成和意图理解的强项，而其他模型如天工、智谱清言等表现波动，模型底层能力还有待改善大模型行研基础能力评测结果12.011.010.09.08.07.06.05.04.03.02.0类比迁移逻辑推理文字生成意图理解语境转换知识储备商汤商量天工GPT3.5文心一言百川讯飞星火通义千问腾讯混元紫东太初Minimax智谱清言中科闻歌n模型在行研基础能力评测维度中，商汤商量、GPT3.5、以及文心一言3.5表现稳定性强，在单一模块能力各有领先在行研基础能力评测中，商汤商量、GPT3.5和文心一言3.5三大领先模型发挥最为稳定。其中，GPT3.5在逻辑推理能力上排名领先，商汤商量在文字生成和语境转换方面表现良好，而文心一言3.5则在意图理解方面领先于其他模型；天工、智谱清言和百川的表现高度波动，如智谱清言在文字生成方面接近满分，但在意图理解和逻辑推理上远低于均分。这种高波动性表明这些模型在实际使用中可能影响行研任务的整体效果。讯飞星火、腾讯混元以及Minimax在行研基础能力的表现较为平稳，但存在一定波动性。例如，Minimax虽在类比迁移和知识储备方面展示了其强大的实力，但在文字生成表现伐善，排名垫底。通义千问、紫东太初和雅意整体表现较弱，在逻辑推理和意图理解等高维模块能力上较弱，但这也反映出它们在模型参数量和微调方面与领先模型存在差距。来源：沙利文、头豹研究院400-072-558827大模型评测