计算机行业“科创”系列报告:海天瑞声服务人工智能技术发展的数据需求_第1页
计算机行业“科创”系列报告:海天瑞声服务人工智能技术发展的数据需求_第2页
计算机行业“科创”系列报告:海天瑞声服务人工智能技术发展的数据需求_第3页
计算机行业“科创”系列报告:海天瑞声服务人工智能技术发展的数据需求_第4页
计算机行业“科创”系列报告:海天瑞声服务人工智能技术发展的数据需求_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、目录索引一、投资要点5二、人工智能发展,需要丰富的可用数据61、数据系人工智能产业链的重要一环62、人工智能呈现快速发展,数据投资占比或将达 10%73、行业发展初期,国内成熟竞争者有限,进入者众多8三、海天瑞声:人工智能数据资源服务商101、成立于 2005 年,专注人工智能数据102、定制化数据服务,为 AI 算法公司提供数据支持103、公司财务情况154、募集资金用途17四、可比公司估值表20图表索引图 1:人工智能技术架构示意6图 2:数据系人工智能产业链的重要一环7图 3:训练数据量与医疗图像模型准确关系7图 4:全球人工智能市场规模8图 5:海天瑞声股权结构图10图 6:海天瑞声主

2、要产品及服务在智能语音领域的应用情况13图 7:海天瑞声主要产品及服务在计算机视觉领域的应用情况14图 8:海天瑞声主要产品及服务在自然语言领域的应用情况14图 9:营业收入及其增速15图 10:归母净利润及其增速15图 11:分产品线过去三年毛利率变化16表 1:海天瑞声与Appen 主要指标对比9表 2:分产品线过去三年营业收入情况11表 3:数据资源定制服务内容11表 4:数据库产品示例12表 5:公司各业务的盈利模式与定价模式12表 6:期间费用变化16表 7:研发投入及人员16表 8:应预收账款金额及增速17表 9:2018 年公司来自前五大客户的收入占比(单位:万元)17表 10:

3、公司募集资金主要安排18表 11:可比公司估值表20一、 投资要点1、人工智能快速发展,技术进步需要更多可用数据以训练模型经过多年的发展,人工智能在深度学习、海量数据和高性能计算的支撑下,现已进入产业化应用初期。近年来基于深度学习的智能语音、计算机视觉、自然语言处理等技术开始向各个应用领域渗透,全球人工智能产业规模快速增长。数据量决定了人工智能模型的准确度。根据Appen公司(海天瑞声招股说明书(申报稿)提到的主要竞争对手)2018 年年报presentation材料提到,整个人工智能市场规模到2025年将达到1690-1910 亿美元(资料来源:Appen presentation引用All

4、ied Market Research);其中,对于数据的投资将达到整个投资额的10%(资料来源:Appen presentation引用McKinsey Global Institute),也即170亿美元-190亿美元,具有广阔的成长空间。2、各大互联网公司组建数据标注部门,第三方数据公司百花齐放京东(京东众智)、百度(百度众测)、腾讯、阿里(阿里数据标注)都已经拥有自己的标注平台和工具。主要的第三方数据公司包括Appen(澳大利亚上市)、慧听科技、标贝科技以及海天瑞声。业务能力体现在支持的数据库种类、方言语种数量(主要是语音领域)等。3、海天瑞声,覆盖语音、视觉等领域的数据服务;阿里巴巴

5、、腾讯的互联网公司为主要客户。公司成立于2005年,致力于为人工智能全产业链中的企业及科研机构提供专业的工程化数据资源产品和服务。公司业务涵盖智能语音、计算机视觉、自然语言等AI核心领域,全面服务于人机交互、智能家居、智慧城市等多种创新应用场景。当前公司已经拥有超过 500 个自主知识产权可授权使用数据库,并向下游客户提供了累计2,000余个定制数据资源库及相关服务。这些产品和服务可支持超过130 余个语种和方言。4、公司本次拟发行数量1000万股,占发行后总股本的比例不低于25%。发行股份募集资金拟投向“天籁”自主研发产品扩建项目、一体化技术支撑平台建设项目、研发中心建设项目、业务管理平台建

6、设项目、补充流动资金。风险提示:研发能力与核心技术失密的风险;规模拓张与新业务拓展风险;市场竞争加剧风险;数据安全相关风险;采购成本上升风险。二、 人工智能发展,需要丰富的可用数据1、数据系人工智能产业链的重要一环人工智能技术从架构上分为基础层、技术层和应用层。基础层主要为人工智能技术提供计算能力以及数据输入;技术层包括算法和其他人工智能技术,主要在基础层上开发算法模型,并通过数据训练和机器学习建模开发面向不同应用领域的技术,如智能语 音、计算机视觉和自然语言处理等;图1:人工智能技术架构示意应行业应用用层产品应用平台及服务技术层基础层智能语音深度学习算法计算服务器CPU基础应用技术智能语音智

7、能语音其他软件框架训练推断数据集深度神经网络模型编译器基础硬件移动终端设备GPUASICFPGA其他数据来源:海天瑞声招股说明书(申报稿)、应用层将人工智能技术与应用场景结合起来,实现商业化落地。其中数据是人工智能技术发展、应用的核心。图 2:数据系人工智能产业链的重要一环提出算力需求训练算法算力算法提供算法所需算力通用结论搜集加工数据提出需求应用软件应用下游应用领域数据来源:数据量决定了人工智能模型的准确度。以医疗图像识别为例,根据罗兰贝格人工智能白皮书引用哈佛大学医学院数据,当数据量分别为5G、100G时,识别的平均准确性由8.01%,提升至95.67%。图 3:训练数据量与医疗图像模型准

8、确关系数据来源:哈佛大学医学院、中国人工智能学会、罗兰贝格、2、人工智能呈现快速发展,数据投资占比或将达 10%经过多年的发展,人工智能在深度学习、海量数据和高性能计算的支撑下,现已进入产业化应用初期。近年来基于深度学习的智能语音、计算机视觉、自然语言处理等技术开始向各个应用领域渗透,全球人工智能产业规模快速增长。为抢占人工智能高地,谷歌、微软、阿里巴巴、百度、腾讯、IBM、Facebook 等国际知名企业均持续增加在人工智能领域的资本投入。美国、中国、英国、德国、日本等国家也分别出台人工智能相关支持政策及国家战略规划,为整个产业的发展创造良好的政策环境。2017 年,全球人工智能产业规模达到

9、 2,307 亿元,预计 2020 年全球人工智能市场规模将达 6,800 亿元。图 4:全球人工智能市场规模800070006000500040003000200010000全球人工智能市场规模(亿元)201520162017201820192020数据来源:海天瑞声招股说明书(申报稿)、中国产业信息网、当前,我国正在成为世界人工智能领域的新增长极。截至到 2018 年 6 月,全球人工智能企业总数达到 4,925 家,中国(不含港澳台)人工智能企业总数为1,011 家,仅次于美国。2017 年中国人工智能行业投融资总额高达 277.1 亿美元,融资事件 369 笔,融资总额占全球融资总额的

10、 70%,融资笔数占比达31%。根据清华大学中国人工智能发展报告 2018数据,预计在 2018 年,我国人工智能市场整体规模将达到 415.50 亿元,增速将达到 75%。根据Appen公司(海天瑞声招股说明书(申报稿)提到的主要竞争对手) 2018年年报presentation材料提到,整个人工智能市场规模到2025年将达到1690- 1910亿美元(资料来源:Appen presentation引用Allied Market Research); 其中,对于数据的投资将达到整个投资额的10%(资料来源:Appen presentation引用McKinsey Global Institu

11、te),也即170亿美元-190亿美元,具有广阔的成长空间。3、行业发展初期,国内成熟竞争者有限,进入者众多根据公司招股说明书(申报稿),公司当前主要竞争对手包括Appen、慧听科技、标贝科技。其中慧听科技、标贝科技均为非上市公司,关键业务数据及财务指标均未披露。Appen 成立于 1996 年,面向机器学习和人工智能开发高质量人工标注数据集,已于 2015 年 1 月 7 日于澳大利亚证券交易所上市。AppenAppen Limited,1996 年成立于澳大利亚,是面向机器学习和人工智能开发高质量人工标注数据集的提供商,已于 2015 年 1 月 7 日于澳大利亚证券交易所上市。Appen

12、 在捕捉并丰富语音、文字,图像和视频等各种数据类型上积累多年经验,与全球技术、汽车和电子商务公司,以及政府部门建立了合作,帮助他们开发、增强和利用依赖自然语言和机器学习的产品。慧听科技北京慧听科技有限公司成立于 2011 年,公司业务包括语音识别、语音合成、语音评测、语言文本类、多媒体类等多领域数据制作,以及语音合成、语音识别、输入法系统的研发等。公司提供服务涵盖语音数据库制作、音乐数据制作标注、语音质量评测等。标贝科技标贝(北京)科技有限公司成立于 2016 年,总部位于北京。主要提供智能语音交互相关服务,包括语音合成整体解决方案,以及语音合成、语音识别、图像识别等人工智能数据服务。由于慧听

13、科技、标贝科技均暂未上市,无数据披露。2018 年度/截至 2018 年末,海天瑞声与 Appen 部分关键指标比较如下:表 1:海天瑞声与Appen主要指标对比海天瑞声Appen非财务指标数据库种类语音、计算机视觉、自然语言语音、计算机视觉、自然语言语种/方言130 余个180 个员工数量127 人513 人主要客户大型科技公司,如阿里巴巴、腾讯、百度、微软、三星等;人工智能企业,如科大讯 飞、商汤科技、云知声、海康威视等;科研机构,如中国科学院、清华大学等微软等大型科技公司、汽车厂商及政府 财务指标营业收入1.93 亿元人民币3.64 亿澳元净利润6714 万元人民币4173 万澳元净利率

14、34.85%11.45%数据来源:海天瑞声招股说明书(申报稿)、除了招股说明书(申报稿)中提到的公司外,各大互联网巨头都组建了类似的数据标注部门,京东(京东众智)、百度(百度众测)、腾讯、阿里(阿里数据标注)都已经拥有自己的标注平台和工具。三、 海天瑞声:人工智能数据资源服务商1、成立于 2005 年,专注人工智能数据公司成立于2005年,致力于为人工智能全产业链中的企业及科研机构提供专业的工程化数据资源产品和服务。公司业务涵盖智能语音、计算机视觉、自然语言等AI核心领域,全面服务于人机交互、智能家居、智慧城市等多种创新应用场景。图 5:海天瑞声股权结构图数据来源:海天瑞声招股说明书(申报稿)

15、、2、定制化数据服务,为 AI 算法公司提供数据支持公司主要从事人工智能数据资源产品和相关服务研发与销售。主要产品及服务具体划分为数据资源定制服务、数据库产品和数据资源相关的应用服务。产品与服务隶属于人工智能产业链的基础层,是自主研发人工智能技术的企业与机构必需的基础生产要素,其数量多寡和质量高低将会直接影响到人工智能产业链内企业的研发周期、产品性能和可扩展性。其主要产品按收入划分来看,数据资源定制服务收入占比最高,2018年达到64.2%。表 2:分产品线过去三年营业收入情况2018 年度2017 年度2016 年度产品类别金额(万元)比例金额(万元)比例金额(万元)比例数据资源定制服务12

16、,369.5564.20%6,297.2352.89%4,471.8953.09%数据库产品6,601.6734.27%5,489.3146.10%3,826.7745.43%数据资源相关的应用服务294.551.53%120.551.01%114.761.36%总计19,265.77100.00%11,907.09100.00%8,413.42100.00%数据来源:海天瑞声招股说明书(申报稿)、数据资源定制服务数据资源定制服务是指根据客户对人工智能算法模型开发、训练、拓展及优化等过程所需数据资源的个性化需求,为客户量体裁衣地提供定制化数据资源的设计及开发服务,对客户提供的数据进行处理,终形

17、成符合客户需求的定制化数资源。在该种业务类型下,公司为客户提供数据资源定制服务,客户享有终形成的定制化数据资源的知识产权。表 3:数据资源定制服务内容序号应用领域内容简介用途1智能语音领域根据客户相关要求,针对特定的应用领 域,进行定制化的语音识别数据库、语音合成数 据库、词典资源数据库、文本资源数据库、图像 资源数据库和视频资源数据库等的设计及开发; 或对客户提供的数据资源进行处理,终形成符 合客户需求的数据资源产品。用以训练、开发、拓展算法模型,并应用到相应的人工智能领域。2计算机视觉领域3自然语言领域数据来源:海天瑞声招股说明书(申报稿)、数据库产品公司根据对人工智能算法模型应用领域、行

18、业发展趋势、市场需求等的评估和研判,设计并开发多种数据库产品,开发完成后授权给客户使用。在该种业务类型下,海天瑞声开发数据库产品,并拥有数据库产品的知识产权。表 4:数据库产品示例序号应用领域产品示例内容简介用途智能语音1语音识别数据库根据对人工智能算法模型应用领域、行业发展趋势、市场需求等的评估和研判,设计开领域计算机视2觉领域自然语言3领域语音合成数据库图像资源数据库视频资源数据库文本资源数据库词典资源数据库发的由不同内容和结构的智能语音、计算机视觉、自然语言等领域的数据资源组成的通用型数据库产品,海天瑞声拥有自主知识产权。一般情况下,公司的一个数据库 产品所提供的数据资源即可满 足一般规

19、模的智能语音应用系 统上线所需要的算法模型训练数据。用以训练、开发、拓展算法模型,并最终应用到相应人工智能领域数据来源:海天瑞声招股说明书(申报稿)、数据资源相关的应用服务公司为下游客户提供有效的数据资源相关的应用服务,协助客户实现人工智能算法模型的识别率提升、语言种类拓展和垂直应用领域拓展等,助力人工智能技术及应用的设计、开发和领域拓展。上述产品和服务的主要盈利模式以服务费、数据库授权使用费为主,具体盈利模式、收费模式按照产品划分:表 5:公司各业务的盈利模式与定价模式数据资源定制服务数据库产品数据资源相关的应用服务为客户量体裁衣地提供定制化数据集的设计及开发服务,对为下游客户提供数据资源相

20、关客户提供的数据资源进行数据设计和开发拥有自主知识产权的应用服务,协助客户实现人盈利模式处理,终形成满足客户人工智能算法模型训练、开发、拓展及的数据库产品,通过销售数据库产品的使用授权许可,获取工智能算法模型的识别率提升、语言种类拓展和垂直应用优化等需求的定制化数据资让渡资产使用权收入领域拓展等,并获取技术服务源,通过提供上述数据资源定收入。制服务获取服务收入。定价策略一般采用成本导向定价法,即公司根据客户的具体定价策略一般采用需求导向定服务需求预估项目成本,在预价模式,公司会结合前述数据采取成本导向定价法,定价策定价模式估成本的基础上参考公司指导库产品的开发成本,并结合销略与数据资源定制服务

21、基本相毛利率水平进行报价,并在综售时数据库产品的市场需求情同。合考虑市场环境的基础上与客况、应用情况制定不同的价格。户进行协商对定价进行调整。数据来源:海天瑞声招股说明书(申报稿)、主要产品及服务覆盖了智能语音、计算机视觉及自然语言处理等各领域,广泛应用于人工智能算法模型的开发、训练、拓展、优化等环节。在各个应用领域的情况如下:智能语音领域在智能语音领域,产品及服务主要包括智能语音领域相关人工智能数据资源的设计、开发、采集、处理等,覆盖语音识别、语音合成等领域。图 6:海天瑞声主要产品及服务在智能语音领域的应用情况数据来源:海天瑞声招股说明书(申报稿)、计算机视觉领域在计算机视觉领域,产品及服

22、务主要包括图像资源、视频资源等计算机视觉领域相关人工智能数据资源的设计、开发、采集、处理等。图 7:海天瑞声主要产品及服务在计算机视觉领域的应用情况数据来源:海天瑞声招股说明书(申报稿)、自然语言领域在自然语言处理领域,产品及服务主要包括自然语言领域相关人工智能数据资源的设计、开发、处理等。图 8:海天瑞声主要产品及服务在自然语言领域的应用情况数据来源:海天瑞声招股说明书(申报稿)、经过多年的积累,海天瑞声拥有超过 500 个自主知识产权可授权使用数据库,并向下游客户提供了累计2,000余个定制数据资源库及相关服务。这些产品和服务可支持超过 130 余个语种和方言,可覆盖生活交流、客服、家居、

23、办公、行车、普通环境、噪声等多种特定场景中的语言现象和视觉呈现,构建成全球领先 的、独具特色的人工智能训练资源集合,已应用于智能助理、智慧交通、智能搜 索、智能家居、自动驾驶等 16 类应用领域,赋能人工智能技术与实体经济的深度融合。3、公司财务情况成长性分析公司2018年实现营业收入1.93亿元,同比增长62%;实现归母净利润6714万元,同比增长97%。图 9:营业收入及其增速图 10:归母净利润及其增速25020015010050020162017201870%8062%41%60%7050%6040%504030%3020%2010%100%0201620172018250%232%9

24、7%200%150%100%50%0%营业总收入(百万元)同比增速归母净利润(百万元)同比增速数据来源:海天瑞声招股说明书(申报稿)、数据来源:海天瑞声招股说明书(申报稿)、毛利率分析公司2016年-2018年综合毛利率水平分别为68.06%、72.26%和64.77%,其中数据库产品所发生的支出在当期全部计入研发费用,无相应的营业成本,毛利率为100%,数据资源相关的应用服务由于收入和毛利规模较小,对公司综合毛利率水平不构成实质性影响,因此公司综合毛利率主要取决于数据资源定制服务的毛利率水平以及公司主营业务收入的结构性变动。图 11:分产品线过去三年毛利率变化100%90%80%70%60%

25、50%40%30% 100.00%100.00%100.00%79.27%68.06%82.90%72.26%78.70%64.77%40.44%47.87%45.64%201620172018综合毛利率数据资源定制服务数据库产品数据资源相关的应用服务数据来源:海天瑞声招股说明书(申报稿)、费用率公司2016年-2018年期间费用合计金额分别为4,441.01万元、5,132.92万元和5,902.38万元,占营业收入的比例分别为52.73%、43.11%和30.64%,呈现逐年下降趋势,主要是由于管理费用率和研发费用率逐年降低所致。2018 年度2017 年度2016 年度费用类别表 6:期

26、间费用变化金额(万元)费用率金额(万元)费用率金额(万元)费用率销售费用8744.54%7416.23%4245.04%管理费用218111.32%186615.67%186822.18%研发费用273514.19%252821.23%217525.82%财务费用1130.59%-3-0.02%-26-0.31%数据来源:海天瑞声招股说明书(申报稿)、研发投入公司研发费用自2016年来逐年增长。2016年-2018年以来研发费用占比分别为25.8%、21.2%及14.2%。表 7:研发投入及人员费用类别2018 年2017 年2016 年研发投入金额(万元)2,734.532,527.992,

27、174.92占收入的比例14.19%21.23%25.82%人员数量31-数据来源:海天瑞声招股说明书(申报稿)、应收账款与预收款变化公司报告期各期的应收账款期后回款情况良好,不存在较大的坏账风险。公司预收款项均为预收产品及服务款。公司部分客户存在预付一定比例项目定金的情 形。公司预收款项余额随着收入规模的增长而同步有所增加,销售政策未发生重大变化。表 8:应预收账款金额及增速2018 年度2017 年度2016 年度类别金额(万元)增速金额(万元)增速金额(万元)增速应收账款293916.81%251649.41%1684-预收账款340852.42%2236154.96%877-数据来源:

28、海天瑞声招股说明书(申报稿)、前五大客户情况报告期内各年,公司前五名客户较为稳定,主要为人工智能产业链上的各类知名机构。2016年、2017年及 2018年,公司向前五名客户合计销售额占当期营业收入比重分别为47.40%、51.22%及59.06%,向单个客户的销售比例均不超过当期营业收入总额的50%,不存在对单一客户的依赖。表 9:2018年公司来自前五大客户的收入占比(单位:万元)序号客户名称销售额占比1阿里巴巴5179.0726.88%2三星2436.8112.65%3腾讯1574.168.17%4微软1299.736.75%5百度888.294.61%前五大客户销售额合计11378.0

29、659.06%数据来源:海天瑞声公司招股说明书(申报稿)、4、募集资金用途公司本次拟发行数量1000万股,占发行后总股本的比例不低于25%。发行股份募集资金拟投向“天籁”自主研发产品扩建项目、一体化技术支撑平台建设项目、研发中心建设项目、业务管理平台建设项目、补充流动资金。表 10:公司募集资金主要安排序号项目名称项目投资总额(百万元)使用募集资金投入金额(百万元1“天籁”自主研发产品扩建项目2192192一体化技术支撑平台建设项目2102103研发中心建设项目1621624业务管理平台建设项目33335补充流动资金100100合计725725数据来源:海天瑞声招股说明书(申报稿)、“天籁”自

30、主研发产品扩建项目本项目是公司顺应人工智能应用领域的不断拓展,为了提高数据库产品的储备量,满足行业内越来越多的新技术、新产品和应用在开发阶段的实时数据需求而规划的。本项目将在原有500多个数据库的基础上,进一步拓展公司数据库的种类和覆盖领域,包括更大规模、更多类型、更多环境、不同情感、不同场景的数据库。本项目共计划新开发137个数据库,其中68个语音数据库、19个计算机视觉数据库和50个词典数据库。新开发数据库的应用领域将涉及语音助手、智能家居、智能驾 驶、智慧城市、智能硬件和数字娱乐等人工智能应用广泛、发展广阔的行业。为了更好地完成建设内容,本项目将在人力、设备和场地方面进行投资。公司将购置

31、写字楼,建设专业的语音识别录音室、语音合成录音室和计算机视觉处理工作室,解决公司之前专业数据库开发场地及设备紧张的 问题。此外,公司将扩大数据库产品开发团队,在开发能力上给予充分保障。一体化技术支撑平台建设项目海天瑞声致力于为人工智能产业链中的各类主体提供专业化的数据库产品、数据资源定制服务和数据资源相关的应用服务,涉及到各类主体人工智能算法研究、产品开发、应用拓展等各个环节。为进一步提升数据资源开发能力、开发效率,保障数据资源质量,加强数据资源的安全性,拓展服务的延伸性,本项目拟在公司现有数据资源研发平台和工具的基础上,通过扩大研发团队,投入先进的开发设备和软件,建设测试实验室,升级数据处理

32、工具及平台,重构一体化技术支撑平台,为公司的数据资源服务业务拓展提供支持。研发中心建设项目本项目拟聚焦于语音识别、声纹识别、语种识别、 语音合成、自然语言处理、计算机视觉识别、计算机视觉分割与处理 7 个方向的前沿技术,针对公司语音识别数据与服务、语音合成数据与服务、自然语言处理技术服务、计算机视觉数据与服务4 个业务方向,完善公司产品从研发到服务于客户整个流程中的技术应用,保证未来公司的持续竞争力。业务管理平台建设项目公司向客户提供的各项数据资源产品和服务,均是以项目维度进行管理,项目管理水平的高低直接决定了开发产品和提供服务的效果和效率。本项目拟投入技术开发团队和相应的软硬件设备,升级现有的业务管理平台,通过信息化的手段,对项目管理的流程进行优化和固化,从而提升公司的项目管理能力,并完善业务流程中的各项环节,提升总体业务管理效率。同时,本项目将在平台中着重开发知识库管理模块,以期加强公司的知识复用能力。平台建成后,将大大提升公司业

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论