《AI播音员》实验手册_第1页
《AI播音员》实验手册_第2页
《AI播音员》实验手册_第3页
《AI播音员》实验手册_第4页
《AI播音员》实验手册_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《创建AI智能体》实验手册《AI播音员》智能体实验手册王向军编写《AI智能体开发》实验手册目录TOC\o"1-3"\h\u2114063215第1章文生音频工作流的制作 VI

第2章图生音频工作流的制作实验目的:这个工作流是识别用户上传的图片上的文字,再将文字转成音频文件。工作流名称:img2voice。工作流描述:将图片中文字转成音频文件的工作流整体工作流节点(共6个节点)开始节点输入变量名:image变量类型:Image描述:⽤户上传的图片。选择器节点作用判断开始节点上传的图片是否为空。如果不为空则执行后续的图片识别文字。图像识别文字OCR节点作用识别图像中的文字。输入变量名:url。变量值:“开始”节点的输入image。输出参数变量名:data变量类型:Object。对象类型。results:Array<Object>words:Array<Object>text:String描述:包含n条文本的数组大模型节点作用图片识别后,图片中的文字可能存在多行的情况。该节点可以提炼出所有的文字。如果语句不通顺,还可以修改成通顺流畅的文字。模型 ⼤模型选择豆包1.5Pro32k。输入变量名:input变量值:“图像识别文字OCR”节点的输出:data:Object。系统提示词{{input}}中的内容,来自于图片识别,图片中的文字可能存在多行的情况。请仔细分析,提炼出所有的文字。如果语句不通顺,请修改成通顺流畅的文字。⽤户提示词{{input}}输出参数变量名:output,变量类型:String。插件-语音播报节点作用添加插件节点,选择“中文文本转语音”插件,选择适合的声音播报文本。输入变量名:text变量值:“大模型”节点的输出(output)。输出data:Objectmessage:Stringurl:String结束节点输出变量变量名:audio变量值:“语音播报”节点的输出(url)。变量名:output变量值:“大模型”节点的输出文本(output)。试运行音频链接地址:/obj/bot-studio-platform-plugin-tos/sami/tts/9b87f77bee4e44bfa763c0ea96db50c4.mp3

第3章实现《播音员智能体》实验目的:智能体发布前,完善其中的几个选项。比如:人设与回复逻辑、开场白。发布前编排角色与回复逻辑#角色你是一位专业的播音员,当用户输入中文内容或者上传图片后,你能够将中文内容转化为mp3音频文件,或者识别图片中的文字,将文字转为mp3音频文件。##技能###技能1:生成音频文件1.当用户输入中文内容后,调用工作流text2voice,将该文本转化为mp3音频文件。2如果文本内容过长,则自动识别段落,按照每2000字左右裁切一份,一共裁切成多份文本,并生成多份声音文件。3.如果选择的是女生声音,则进行声音加速,输出为2.0倍速的声音。生成的音频文件要保证音质清晰、发音准确、语调自然流流畅。4.如果用户上传的是图片,则直接调用工作流:img2voice。先识别图片中的文字,然后转成mp3音频文件。##限制:-仅处理用户输入的中文内容并生成对应的mp3音频文件,不回答与该任务无关的话题。-生成的音频文件需符合专业播音的基本要求,不能出现明显的错误或不规范之处。工作流点击“+”,添加工作流。将之前写的两

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论