版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第6章人工智能技术应用本章系统介绍了人工智能技术在各领域的应用现状与发展趋势,重点围绕大模型在文本、图像、视频、语音和AI编程等方面的核心技术、典型工具及实操方法展开讲解。通过具体案例与任务实践,展示了AI如何赋能内容创作、教育教学、职业发展与个人效率提升,强调技术应用与理论理解的深度融合,旨在帮助读者掌握智能工具的使用方法,提升在数字化时代的综合竞争力。《计算机应用基础(WPS版)》配套资源6.1文本生成技术与应用6.1.1AI写作新时代随着数字化时代的蓬勃发展,文字不仅仅是知识的传播者,连接着历史与未来,更具有跨越时代的力量。生成式人工智能(AIGC)技术正是这种力量的最新体现,它正在悄然改变着我们的文字创作方式。想象这样一个场景:校园宣传部的李老师正在为即将到来的学术讲座准备通知。传统方式下,他需要反复斟酌字句,调整格式。而现在,他只需向AI描述基本要素——"下周三下午三点,图书馆报告厅,王教授主讲人工智能发展史",AI就能迅速生成一篇措辞得体的通知初稿。更神奇的是,这个智能助手能够根据需求变换文风,时而正式严谨,时而轻松活泼。这些智能工具已从最初生硬刻板的文字生成器,逐渐成长为能够模仿人类表达方式的"数字写手"。它们就像一位隐形的文字搭档,随时准备将我们零散的想法转化为流畅的文字。AIGC技术能够根据简单指令生成新闻稿、小说、报告甚至学术论文,大幅提升工作效率,同时激发创作灵感。6.1文本生成技术与应用6.1.2文本生成技术概述AIGC文本生成的核心技术原理主要包括:1.自然语言处理(NLP):使机器能够处理、理解和生成类似人类的文本。2.深度学习:尤其是神经网络(RNN、LSTM)在文本生成中起关键作用。3.预测算法建模:GPT系列模型:采用Transformer架构,通过大规模文本数据预测生成高质量文本。BERT:主要用于理解任务,为文本生成提供有价值的语义理解。Transformer架构:通过自注意力机制捕捉序列数据的长程依赖关系。4.大规模数据训练:模型通过大量文本数据学习语言的结构和规律。5.微调(fine-tuning):在特定领域数据上进行再训练,使其更适合具体应用。AIGC文本生成的核心技术原理不仅为AI写作提供了理论基础,更催生了一系列功能强大的大语言模型。这些模型各具特色,在实际应用中展现出不同的优势与特点。理解这些模型的差异,将帮助我们在不同场景中选择最合适的工具,充分发挥AI写作的潜力。6.1文本生成技术与应用国内外主流大模型对比表地区模型名称代表模型主要特点国内DeepSeekDeepSeek-V3等混合专家架构、低成本高性能、数学编程强、开源、支持本地部署通义千问(Qwen)Qwen系列多语言支持、多模态能力、部分模型开源、适合跨语言与图文任务文心一言Ernie系列知识增强、多模态融合、百度生态深度集成、产业落地广泛KimiKimi系列超长文本处理、多轮对话理解强、轻量部署、适用于教育和问答6.1文本生成技术与应用国内外主流大模型对比表地区模型名称代表模型主要特点国外ChatGPTGPT-4、GPT-4o等多模态(文本图像语音)、强推理创作能力、多样模型系列(o1/o3/o4)、通用性强GeminiGemini系列多模态融合、Google搜索深度整合、知识库丰富、适合信息检索与生成GrokGrok-1、Grok-3开源、X平台集成、社交媒体优化、多模态处理、强调用户互动6.1文本生成技术与应用6.1.3资讯类文本生成任务一:新闻稿生成——DeepSeek任务要求:新闻稿需包含时间、地点、人物、事件、意义五要素,采用倒金字塔结构,标题简明、导语精炼。要求突出科研价值,引用领导讲话,保持客观立场,字数控制在400字左右。操作时需设计精准提示词,使用规范书面语,并对生成内容进行必要优化,确保信息准确可靠。通过实践掌握AI辅助新闻写作的核心要领。接下来以DeepSeek生成新闻稿为例,讲解资讯类文本生成和注意事项。6.1文本生成技术与应用任务一:新闻稿生成——DeepSeek步骤1:打开浏览器搜索DeepSeek官网(可以选择验证码登录或者微信扫码登录)6.1文本生成技术与应用任务一:新闻稿生成——DeepSeek登录后进来这个界面就可以向DeepSeek进行提问了。6.1文本生成技术与应用任务一:新闻稿生成——DeepSeek步骤2:输入提示词。写AI资讯提示词需注意:1)说清类型(新闻/分析/科普);2)明确5W1H(时间地点人物事件);3)定好结构(分几段、重点占比);4)设定风格(专业/通俗)和字数;5)标明必含内容(数据/案例)和禁忌(不涉敏感)。例如:撰写一篇校园新闻稿“[校园新闻编辑][撰写一篇关于人工智能实验室揭牌仪式的新闻稿]包含以下要素:-时间:2024年6月10日9:30-地点:科技楼3层智能实验室-出席领导:副校长张伟教授、计算机学院院长李明-特色环节:实验室设备演示、科研团队介绍要求:用正式书面语报道,重点说明科研意义,引用副校长原话,字数400左右”6.1文本生成技术与应用任务一:新闻稿生成——DeepSeek输出结果:6.1文本生成技术与应用任务二:宣传类文本生成——DeepSeek任务要求:使用DeepSeek设计校园剧社招新宣传语,突出专业指导、免费课程和舞台实践三大亮点。要求风格青春活泼,可带幽默感,每条20字以内,生成5种版本。操作时需优化提示词,确保语言简洁生动,最终成果符合校园文化特色。通过实践掌握AI创意写作的核心技巧。6.1文本生成技术与应用任务二:宣传类文本生成——DeepSeek步骤一:输入提示词。撰写宣传类文本提示词需注意:1)明确宣传目的(招新/推广/转化);2)突出核心卖点(3-5个社团优势);3)包含行动号召(如"立即报名");4)设定情感基调(活力/专业/有趣);5)注明格式要求(字数、重点标注、禁用词汇)。保持文案吸引力与真实性平衡。例如:给校园剧社团招新写一个宣传语。“活动:校园剧社招新;亮点:专业导演指导、免费表演课程、舞台体验;风格:青春活力+微幽默,字数不超20字。生成5条。”
输出结果:6.1文本生成技术与应用任务二:宣传类文本生成——DeepSeek可以再追加优化提示词:“在宣传语里加上一些表情符号。”输出优化后结果:6.1文本生成技术与应用任务一:使用讯飞智文生成PPT任务需求:使用讯飞智文完成《人工智能发展现状》主题PPT制作,需上传PDF/Word格式的原始资料,系统自动生成内容大纲后,选择"科技蓝"等专业模板进行美化排版。要求PPT包含清晰的内容结构、专业的数据图表和统一的视觉风格,最终输出标准.pptx格式文件。重点考察内容组织能力和模板适配性。6.1.4
PPT与可视化文稿生成6.1文本生成技术与应用任务一:使用讯飞智文生成PPT步骤1:登录讯飞智文官网(可以选择微信扫码登录、密码登录或者手机号登录)6.1文本生成技术与应用任务一:使用讯飞智文生成PPT步骤2:上传文本文件(支持上传PDF、Word等主流文档格式,作为PPT生成的原始资料来源。)上传一份关于“人工智能的历史回顾和发展现状”的PDF报告,生成一套“人工智能的历史回顾和发展现状”PPT。
6.1文本生成技术与应用任务一:使用讯飞智文生成PPT步骤3:系统将自动提取文档中的结构信息,生成PPT的主标题、章节标题和逻辑大纲。
6.1文本生成技术与应用任务一:使用讯飞智文生成PPT步骤4:适配应用场景用户可选择不同风格的模板(如商务、教学、科技等),系统自动匹配配图、图标、排版样式并生成PPT文件。操作示例:
选择“科技蓝”模板,自动完成排版与配图。6.1文本生成技术与应用任务一:使用讯飞智文生成PPT步骤5:选择模板并美化后下载PPT,点击右上角的“下载”即可保存当前生成的PPT,如果想替换模板点击“模板”即可选择新的模板样式替换,在PPT正下方也可以加演讲者备注。6.1文本生成技术与应用任务二:
使用DeepSeek+Kimi组合生成演示文稿任务要求:本次任务要求使用DeepSeek生成《AI如何成为你的学习搭子?》PPT大纲,需包含引言、四大应用场景模块(笔记/论文/语言/规划)、实战指南和未来展望等完整结构,每个模块需列出3-4个具体应用案例和工具推荐。大纲生成后,需通过Kimi进行智能排版,选择适合教育场景的模板自动生成PPT,最终输出标准格式的演示文稿。操作中需注意保持内容逻辑性、工具实用性和视觉美观度的平衡。6.1文本生成技术与应用任务二:
使用DeepSeek+Kimi组合生成演示文稿步骤1:使用DeepSeek生成PPT大纲和框架。“小明的PPT主题是《AI如何成为你的学习搭子?》,请帮小明设计一个逻辑清晰、实用性强的目录提纲,涵盖AI工具在学习中的具体应用场景(如笔记、论文、语言学习等),并体现大学生需求。要求分模块展示,结构完整,结尾可加入未来展望或注意事项。”输出结果:6.1文本生成技术与应用任务二:
使用DeepSeek+Kimi组合生成演示文稿步骤2:使用Kimi自动美化选择模板并生成PPT登录Kimi官网(可以微信扫码登录或者手机号登录)。6.1文本生成技术与应用任务二:
使用DeepSeek+Kimi组合生成演示文稿点击界面左上角的“Kimi+”,选择“新手PPT助手”。6.1文本生成技术与应用任务二:
使用DeepSeek+Kimi组合生成演示文稿步骤3:将DeepSeek输出的PPT提纲给Kimi的新PPT助手。选择要生成的PPT模板。6.1文本生成技术与应用任务二:
使用DeepSeek+Kimi组合生成演示文稿步骤4:一键导出并下载PPTKimi支持一键导出操作,可将最终结果下载为PPT文件,便于课堂展示或工作汇报。操作示例:
如果对生成的PPT不需要手动编辑的话就点击“下载”按钮,即可下载整理好的完整PPT文件。6.1文本生成技术与应用任务三:使用iSlide生成PPT任务要求:使用iSlide制作《拖延症克星》主题PPT,需包含:1)拖延症三大成因分析(心理、环境、习惯);2)5种实用解决方案(附工具推荐);3)可视化数据呈现。要求采用学术风格模板,内容科学严谨、方案切实可行,整体简洁专业。注意优化内容结构和视觉呈现,确保信息清晰易懂。6.1文本生成技术与应用任务三:使用iSlide生成PPT步骤1:进入iSlide官网https://www.islide.cc(点击下载或点击在线体验)。6.1文本生成技术与应用任务三:使用iSlide生成PPT在对话框里面输入想要的PPT主题或者是一段内容也可以选择导入文档。6.1文本生成技术与应用任务三:使用iSlide生成PPT步骤2:输入提示词“小明想生成一份主题是:《拖延症克星:大学生如何告别低效?》
(分析拖延原因实用解决方案)的PPT”6.1文本生成技术与应用任务四:使用DeepSeek生成思维导图任务要求:使用DeepSeek生成"大学生时间管理"思维导图框架,要求包含课程、考试、社团、健康、工具5个核心模块,每个模块需提供2-3个具体管理策略(如课程三三制、体测倒计时计划等)。通过Xmind将Markdown框架转换为可视化导图,优化布局样式后导出为可分享格式。最终成果需逻辑清晰、策略实用,重点突出大一学生的特殊需求,并保持专业简洁的视觉呈现。6.1文本生成技术与应用任务四:使用DeepSeek生成思维导图步骤1:使用DeepSeek生成Markdown格式内容,输入提示词:“小明是一个大一学生
想制定一个“大学生时间管理”,他现在需要做一个思维导图
请你提供Markdown格式思维导图框架”6.1文本生成技术与应用任务四:使用DeepSeek生成思维导图步骤2:导入Xmind渲染出思维脑图将DeepSeek生成的Markdown内容导入Xmind(点击左上角三个杠→点文件→点击导入→Markdown形式),Xmind会根据Markdown内容的层级关系,自动构建节点和子节点,形成直观的思维路径。6.1文本生成技术与应用任务四:使用DeepSeek生成思维导图步骤3:调整与美化思维导图根据需要,可以在Xmind中调整节点的样式和布局,进一步美化思维导图。可以改变节点的颜色、形状,或增加图标等元素,使思维导图更加直观易懂。6.1文本生成技术与应用任务四:使用DeepSeek生成思维导图步骤4:导出思维导图完成思维导图的编辑后,可以将其导出为多种格式(如PNG、PDF等),以便于分享或进一步使用。6.1文本生成技术与应用任务五:使用DeepSeek生成mermaid甘特图任务需求:使用DeepSeek生成20周大学生活甘特图,需包含学习、考试、科研、社团、生活五类任务,按周划分时间轴并标注关键节点(如考试、竞赛日期)。要求用不同颜色区分任务类型,明确标记任务间的依赖关系,最终输出符合Mermaid语法规范的甘特图。6.1文本生成技术与应用任务五:使用DeepSeek生成mermaid甘特图步骤1:输入提示词“请帮小明生成一个大学生时间规划的甘特图,时间范围是2025年9月1日到2026年1月20日(共20周),包含学习、考试、科研、社团和个人生活五大类任务。具体要求如下:1.学习与考试:数据结构课程(第1-16周)、微观经济学(第1-16周)、英语六级备考(第3-14周)、期末复习(第13-16周)。2.科研/实习:实验室项目(第4-15周)、暑期实习报告(第1-2周)。3.社团竞赛:学生会竞选(第2-4周)、数学建模竞赛(第7-8周)。4.个人生活:健身计划(第1-20周)、寒假旅行规划(第12-16周)。格式要求:-用Mermaid语法绘制甘特图,标注关键节点(如考试、竞赛)。-按周划分时间轴,不同类别用颜色区分。-标记依赖关系(如科研项目需在实习报告完成后开始)。”6.1文本生成技术与应用任务五:使用DeepSeek生成mermaid甘特图输出结果:6.1文本生成技术与应用任务六:使用DeepSeek生成流程图任务需求:使用DeepSeek生成大学生选课流程图,需完整包含登录系统、查看课程、冲突检测、提交申请等7个核心步骤。要求采用横向布局,用蓝色标注系统操作、绿色标注学生操作,菱形节点表示判断分支,虚线框标注可选步骤。需体现选课失败后的补选循环逻辑,并添加学分限制等关键提示信息。最终输出符合Mermaid语法规范的流程图。6.1文本生成技术与应用任务六:使用DeepSeek生成流程图步骤1:输入提示词。“需求:
设计一个横向的Mermaid流程图,描述大学生选课流程,要求如下:流程步骤(按顺序):学生登录教务系统查看可选课程列表检查课程时间是否冲突(判断节点)(可选)咨询学长/导师建议提交选课申请系统确认选课成功或失败(判断节点)若失败,进入补选/调剂流程(循环回课程列表)样式规范:6.1文本生成技术与应用任务六:使用DeepSeek生成流程图使用flowchartLR(横向布局)系统操作(蓝色):课程列表、冲突检测、选课确认、补选逻辑学生操作(绿色):登录、咨询、提交申请判断节点(菱形):标注“是/否”分支可选步骤(虚线边框):咨询建议警告标注(黄色):选课截止时间、学分限制、先到先得交互逻辑:时间冲突?→
是
→
咨询建议
→
提交申请→
否
→
直接提交申请选课成功
→
结束;失败
→
补选
→
返回课程列表”6.1文本生成技术与应用6.1.5任务协同与文档处理任务一:总结《人工智能回顾和发展》的主要内容任务需求:PDF提取关键信息总结这份文件的主要内容,并提炼出3个要点。步骤1:打开聊天框,点击上传附件6.2图像生成技术与应用6.2.1应用场景(1)教育领域的魔法画师在教育的神奇领域里,图像生成技术扮演着一位魔法画师的角色。它能够在教室的黑板上,以惊人的速度和精确度,绘制出古代的战场或未来的太空站。学生们仿佛被赋予了穿越时空的能力,亲眼目睹历史的重大时刻或探索未知的宇宙奥秘,学习过程因此变得生动而有趣。6.2图像生成技术与应用(2)游戏开发的超级助手
在游戏开发的奇幻世界中,图像生成技术就像是开发者的超级助手。它能够轻松地创造出丰富多彩的角色和场景,让游戏设计变得生动有趣。无论是神秘的中世纪城堡,还是遥远的外星星球,图像生成技术都能迅速将这些想象变为现实。6.2图像生成技术与应用(3)广告和设计的创意伙伴
图像生成技术是广告和网页设计中的创意利器。它快速生成吸引眼球的图像,让广告更生动,网页更美观。无论是制作产品海报还是网页横幅,这项技术都能即刻提供创意灵感。6.2图像生成技术与应用6.2.2国内图像生成工具介绍1、通用型工具工具名称特点适用场景文心一格(百度)文生图,多风格生成(写实、插画、国风),支持中文描述,适合电商商业设计、艺术创作通义万相(阿里)文生图,阿里多模态模型驱动,支持图像、视频生成,风格多样电商、社交媒体内容盗梦师(Minimax)文生图,小程序/网页端操作简单,生成速度快,风格偏卡通或写实快速创意、个人娱乐
6penArt文生图,支持中英文,可选StableDiffusion等底层模型,生成效果稳定专业创作、版权商用
TIAMAT支持文生图+图生图,以高质量图像和独特风格著称,需排队使用艺术创作、概念设计即梦AI支持文生图+图生图,多种风格,操作简单,适合新手,生成效果多样快速创意、个人娱乐豆包AI文生图,全能、智能、抖音深度融合。职场办公、教育学习6.2图像生成技术与应用2、垂直领域工具工具名称特点适用场景画宇宙文生图,专注国风生成,支持水墨、工笔画等传统风格传统文化、教育素材丹青丸文生图,二次元生成能力强,支持局部重绘和细节优化动漫、游戏角色设计
Liblib.AI文生图,国内StableDiffusion生态平台,提供大量开源模型和插件专业级AI绘画、定制化万兴爱画支持文生图+图生图,内置电商模板(商品海报、LOGO等)电商、营销物料6.2图像生成技术与应用6.2.3图像生成技术应用实例实践1:豆包文生图创作流程,学习如何使用豆包平台创作一幅“窗边的阅读时光”图像。1.打开豆包平台步骤:在浏览器中打开豆包平台网址/chat/create-image6.2图像生成技术与应用2.需求分析步骤1:登录成功后,进入平台的主界面。步骤2:确定图片主题“窗边的阅读时光”。3.提示词设计步骤1:在主界面找到“图像生成”功能模块。步骤2:在提示词输入框中,输入设计提示词:“一个安静的图书馆学习场景,阳光透过大窗户洒在木质书桌上,桌上摆放着一本打开的书、一支钢笔和一副眼镜,一个学生正在专注地阅读,背景是满墙的书架”。6.2图像生成技术与应用4.风格选择与参数设置步骤1:在提示词输入框下方,选择适合的风格,这里选的是“卡通”。步骤2:设置生成参数,选择想要的图片比例:1:1、2:3、4:3、9:16、16:9,这里图片比例选的是1:1。6.2图像生成技术与应用5.生成图片步骤:确认所有设置无误后,点击“发送”按钮;等待系统生成图片。6.特点用户友好:豆包平台以其简洁直观的用户界面著称,适合初学者和专业人士。多功能性:支持多种风格的图像生成,包括卡通、写实等。灵活性:用户可以根据需要选择不同的图像比例和风格。6.2图像生成技术与应用实践2:通义万相文生图创作流程1.访问通义万相平台步骤1:在浏览器中打开通义万相平台网址(/wanxiang/)步骤2:注册/登录通义万相6.2图像生成技术与应用2.需求分析与提示词设计步骤1:登录成功后,进入平台的主界面。步骤2:确定图片主题“AI在医疗诊断中的应用”,使用“智能扩写”写提示词,然后“使用扩写结果”。6.2图像生成技术与应用3.风格选择与参数设置
步骤1:选择“创意模板”包含:“组图”和“风格”。6.2图像生成技术与应用3.风格选择与参数设置
步骤2:选择生成图片的比例,比例设有:1:1、16:9、9:16、4:3、3:4。这里选择1:1。步骤3:开启“灵感模式”。灵感模式:增加创意灵感,提升画面丰富度与表现力,可能会与输入提示词有差异。4.图片生成步骤:点击“生成画作”。6.2图像生成技术与应用4.图片生成最终生成的图片,生成的图片可以进行下载、收藏等操作。5.特点多模态模型驱动:由阿里云提供,支持图像和视频生成,风格多样。创意模板:提供多种创意模板和风格选择,如可爱涂鸦、国风水墨等。灵感模式:增加创意灵感,提升画面丰富度与表现力。6.2图像生成技术与应用实践3:即梦AI生成海报1.打开即梦AI平台步骤:在浏览器中打开即梦AI平台网址/ai-tool/home。6.2图像生成技术与应用2.需求分析步骤:登录成功后,进入平台的主界面;确定海报主题“学校运动会”。3.提示词设计步骤1:在主界面点击“图片生成”功能。步骤2:在提示词输入框中,输入设计提示词:“运动会动态海报设计起跑器上的短跑选手飞扬的接力棒特写篮球扣剪影逆光效果看台飘扬各院系旗帜操场天空云朵组成"拼搏"字样色块碰撞背景"挑战极限超越自我"霓虹灯字体仰视视角放射状构图丙烯颜料笔触质感”。6.2图像生成技术与应用4.模型选择与参数设置步骤1:在提示词输入框下方,选择生图模型,本实例选用图片3.0。步骤2:设置生成参数,选择适合图片的比例:21:9、16:9、3:2、4:3、1:1、3:4、2:3、9:16。本实例选用图片比例为2:3。版本特点描述适用场景图片3.0具有影视质感,文字更准确,支持原生2560×1440分辨率输出,细节接近影视级,优化中文排版和字体设计,支持中英文混合排版和自然语言指令输入需要高清、影视级画面的场景图片2.1出图稳定,适合生成文字海报,适合精准控图的场景商业海报、IP设计图片2.0Pro极具想象力,擅长写真摄影,适合创意类需求如插画和概念图创意插画、概念设计图片2.0文字遵循度高,支持图片参考能力,适合需要文字和图片参考的场景需要文字和图片参考的场景图片XLPro
支持图片基础控制,适合需要对图片进行基础控制的场景基础图片控制的场景图片清晰度分为标清和高清6.2图像生成技术与应用5.生成海报步骤:确认所有设置无误后,点击“立即生成”按钮;等待系统生成海报。6.特点高清输出:支持生成高达1360像素的高清图像和动态视频内容。首尾帧控制:具有创新性的首尾帧控制功能,适合需要精确控制图像内容的用户。中文语义理解:优化中文排版和字体设计,适合中文内容的创作。
6.3视频生成技术与应用6.3.1技术发展脉络自OpenAI的Sora模型发布以来,文本转视频的AI技术引起全球关注。Sora模型能根据文本提示生成一分钟的高清视频,虽然在复杂场景模拟上有所限制,但它开启了视频创作的新篇章。
国内迅速跟进,推出了即梦AI、可灵AI等软件,基于扩散模型和Transformer架构,将文本转化为视频。即梦AI的时空补丁技术简化了计算过程,可灵AI则优化了视频连贯性。
在图生视频方面,国内软件同样出色,如3D-GAN和时空扩散模型让静态图像动起来,腾讯的Follow-Your-Click技术和MagicTime模型则让视频更逼真、有创意。随着技术发展,这些工具将在视频创作、虚拟现实等领域发挥更大作用,为数字内容创新带来新动力。6.3视频生成技术与应用6.3.2视频生成技术概述1、文生视频想象一下,你对着电脑念出一段话,比如“一只小狗在草地上追逐蝴蝶”,然后屏幕上就出现了这段场景的视频,是不是很神奇?这就是文生视频的魔法!它就像一个懂你心思的“读心术士”,把你的文字描述变成生动的画面。关键在于,它不仅要把画面“画”出来,还得让画面动起来,就像真的一样自然流畅。比如,小狗的奔跑动作要连贯,蝴蝶的飞舞要轻盈,这样才能让人看得入迷,仿佛置身于那个场景之中。2、图生视频再想想,你有一张静态的照片,比如一幅美丽的风景画。图生视频技术就像是给这张照片施了魔法,让画中的元素都“活”了起来。原本静止的树木开始摇曳,小溪的水流开始潺潺流动,甚至天空中的云朵也开始飘动。重点在于,这些动作要看起来自然,不能让人觉得生硬或者突兀。就好像你真的站在那个风景里,看到的一切都在自然地发生一样。6.3视频生成技术与应用6.3.3主流工具介绍1、商业化平台工具名称核心技术特色能力即梦AI多模态扩散模型支持图文混合输入,内置7类生成模板可灵AI3D时空注意力机制3分钟1080P视频生成,动态场景扩展能力突出腾讯混元130亿参数DiT架构支持中英文输入,物理引擎增强运动真实性通义万相运镜公式+形变公式提供智能提示词改写,支持4K/60帧输出海螺AI多模态大语言模型提供从文本、图像到视频的一站式创作解决方案ViduAI采用深度学习的视频生成技术多样化风格、用户友好界面、智能编辑6.3视频生成技术与应用
如表格所示,这些商业化平台均采用了收费制度,以提供不同级别的服务体验。以即梦AI为例,其会员制度与非会员制度在功能和体验上存在显著差异,具体表现在以下几个方面:功能/服务非会员体验会员体验视频生成生成速度较慢,每个视频约需5分钟生成速度更快,每个视频约需3分钟,提升创作效率视频下载下载的视频带有水印,影响美观和使用场景可下载无水印视频,满足高质量输出需求无水印保存通过分享到抖音保存无水印视频,操作繁琐支持直接无水印保存视频,操作更便捷积分制度每月2400积分,可生成120个视频,适合轻度使用者提供更多积分和权益,适合频繁使用者或需要更高画质、无水印视频的场景6.3视频生成技术与应用2、开源项目HunyuanVideo:腾讯开源的最大视频生成模型(130亿参数),支持图像-视频联合训练。Open-Sora:北大团队基于DiT架构的轻量化方案,可在消费级GPU运行。AnimateAnyon:阿里框架实现角色动作精准控制,保持身份一致性。6.3视频生成技术与应用6.3.4视频生成技术应用实例实践1:即梦AI文生视频创作流程1.登录即梦AI平台步骤:在浏览器中打开即梦AI平台网址/ai-tool/home。6.3视频生成技术与应用2.输入创意描述步骤:登录成功后,点击平台首页的“视频生成”功能。在页面中的提示词输入文本内容或者是使用DeepSeek-R1进行优化文本内容,字数控制在800字以内,并且确保文本内容清晰、准确,符合创作需求。本次实例的主题是“午后的数学时光”,提示词为:“镜头缓缓推进,一间安静明亮的教室映入眼帘。午后的阳光透过半掩的窗帘,在课桌上洒下斑驳的光影。教室里摆放着整齐的桌椅,每张桌子上都堆满了厚厚的高等数学课本和练习册。镜头聚焦在靠窗的位置,一个女同学正坐在那里,神情专注地埋头于一道复杂的数学题。她面前摊开的笔记本上,密密麻麻地写满了各种公式和推导过程,铅笔在纸上飞速划动,发出轻微的“沙沙”声。她的眉头微微蹙起,似乎遇到了难题,但眼神中却透露出坚定和不屈。偶尔,她会停下笔,用手托着下巴,陷入深深的思考,仿佛在脑海中构建着一个又一个数学模型。阳光洒在他的头发上,闪烁着柔和的光泽,为这个努力奋斗的瞬间增添了一份温暖与美好。周围的一切都仿佛静止了,只剩下他与数学题之间的这场无声的较量。”6.3视频生成技术与应用6.3视频生成技术与应用3.设置视频生成参数步骤1:在提示词输入框下方设置视频生成的参数,如“视频模型”、“生成时长”、“视频比例”等。步骤2:选择适合的视频生成模型,本次选用“视频3.0”,并设置生成时长(5s)和视频比例(16:9)。选择生成时长以及视频比例:生成时长:5s、10s(开会员可延长视频时间)视频比例:21:9、16:9、4:3、1:1、3:4、9:166.3视频生成技术与应用4.生成并下载视频步骤1:设置完视频的参数、运镜控制和过滤不希望呈现的内容后,点击生成视频。系统开始利用大模型将文本自动转换为视频,处理时间取决于文本长度和系统负载。步骤2:视频生成完成后,点击“下载”按钮,免费下载带水印的视频或开通会员获取不带水印的视频。6.3视频生成技术与应用实践2:图生视频创作流程(学生编程视频制作)1.登录即梦AI平台步骤:在浏览器中打开即梦AI平台网址/ai-tool/home。2.输入图片描述,设置图片生成参数步骤1:点击图片生成。步骤2:在提示词输入框中输入想要生成的图片描述,如“现代编程教室全景,五名学生专注操作笔记本电脑,屏幕显示彩色代码界面,教室背景有透明电子白板和LED灯带,冷色调蓝光营造科技氛围,赛博朋克风格光影处理,8K超清细节。”。步骤3:在提示词输入框下方设置图片生成的“模型”和“比例”参数。6.3视频生成技术与应用3.生成图片步骤:点击“立即生成”按钮;平台会自动生成4张图片;选中喜欢的图片进行“下载”。6.3视频生成技术与应用4.使用图片生成视频步骤1:点击喜欢的图片,选择“生成视频”按钮。步骤2:平台进入“视频生成”功能界面,自动添加选中的图片作为视频素材。5.添加图片描述步骤:在已添加的图片输入图片描述,“制作一个充满活力的视频,展示一群充满热情的学生在一个现代科技教室里学习编程。教室内部装饰着蓝色霓虹灯,营造出一种创新和激励的氛围。学生们坐在整齐排列的白色桌子旁,专注地使用笔记本电脑,屏幕上显示着各种编程代码和图表。教室前方的大屏幕上展示着更多的编程示例和学习材料,强调了这个环境的互动性和教育性。视频应该捕捉到学生们的团队合作精神、学习的热情以及他们对编程知识的渴望。背景音乐应该是轻快而富有节奏感的,以增强视频的活力和现代感。整个视频旨在展现一个积极向上的学习环境,鼓励观众对科技和编程产生兴趣。”6.3视频生成技术与应用6.设置视频生成参数:与文生视频类似步骤1:设置“视频模型”和“基础设置”,这里设置“生成时长”为“5s”,“视频比例”参数自动匹配。步骤2:点击“生成视频”按钮,提交平台生成视频。7.生成视频并为视频添加配乐步骤:视频生成完成后,点击“AI音效”按钮。8.下载或发布视频步骤:确认配乐后,点击“下载”按钮,免费下载视频;如果需要不带水印的视频,可开通会员获取;也可以点击“发布”按钮发布视频。6.3视频生成技术与应用实践3:图生视频创作流程(用首尾帧两张图片生成视频)1.登录ViduAI平台步骤1:在浏览器中打开ViduAI平台网址/create/。步骤2:完成登录/注册。6.3视频生成技术与应用2.上传图片以及相应的描述,设置图片生成参数步骤1:上传首尾帧图片以及描述。步骤2:设置参数包括选择模型,这里选择ViduQ1模型、时长(目前只有5秒)、清晰度(目前只有1080p)、运动幅度,这里选择自动、风格偏好,这里选择创意、数量,这里设置为1以及错峰模式,这里没有开启。6.3视频生成技术与应用3.生成视频步骤:点击“创作”,生成视频。4.完整视频6.4语音生成技术与应用数字化浪潮下,声音正以前所未有的方式融入生活,成为信息传递与情感交流的重要载体。无论是听书、语音助手还是各类音频节目,人们对听觉体验的需求日益增长,声音创作迎来新的机遇。传统的语音录制常面临成本高、流程繁、效果难控等挑战,而AI语音生成技术能快速将文字转化为自然流畅、富有情感的语音。借助这项技术,创作者无需纠结于配音、设备和后期,只需输入文字脚本即可生成高质量声音,从而更专注于内容创意与表达。从语音合成原理到深度学习应用,学习AI语音技术不仅能提升声音作品的感染力与独特性,更为创作者打开了声音艺术的新世界。无论专业或业余,这项技术都将成为探索声音无限可能的钥匙,助力每个人在声音的天地里自由创作、展现魅力。6.4.1让机器开口说话6.4语音生成技术与应用1、什么是音频生成技术?(概述)音频生成技术是声音界的“魔法师”,能瞬间让文字“开口说话”,帮音乐家把灵感变成旋律,还能给电影、游戏“添油加醋”。总之,它就是个高效的“声音制造机”,随时按需输出音频,还是个性化的“万能小能手”!(1)文字生成音频文字生成音频,是把文字变成语音的技术。输入文字,就能输出自然流畅的语音,语调、语速、音色还能随心定制。(2)音频生成音频音频生成音频是用技术让声音“魔法变身”,输入一段音频,AI就能克隆、混音,甚至创造全新音效与旋律,让声音创意无限延伸!6.4.2大模型语音生成的基本原理与典型应用6.4语音生成技术与应用2、音频生成技术能做什么?(应用场景)(1)音乐创作领域的AI音乐生成在音乐创作中,AI音乐生成技术就像灵感缪斯。音乐人输入和弦或旋律片段,AI基于大数据迅速生成变奏、建议甚至伴奏。对新手,它是填补技巧短板的导师;对专业人士,它是打破瓶颈、加速创作的利器。6.4语音生成技术与应用(2)语音合成在有声读物中的应用语音合成技术在有声读物领域表现出色,像一位不知疲倦的“朗读大师”。它能将文字瞬间“念”出,语调随情节起伏自动调整,时而舒缓、时而激昂,让听众身临其境。它还能智能切换语速,模拟多种音色,使故事“活”起来。读者可在做家务、开车或休息时用耳朵“阅读”,实现“听书”自由,为知识传播插上“有声”翅膀。6.4语音生成技术与应用(3)数字人数字人是利用数字技术创建的虚拟人类形象,具备逼真外貌、语音和行为,能模拟真人交流互动,可应用于教育、医疗、娱乐、金融等多个领域,为人们提供多样化服务。6.4语音生成技术与应用实践1:魔法有言生成数字人1.打开魔法有言平台步骤:在浏览器中打开魔法有言平台网址:6.4.3语音生成技术应用实例6.4语音生成技术与应用2.选择横屏或竖屏步骤1:在主界面找到“AI创作·”功能模块。步骤2:进入”AI创作”后选择横屏或竖屏。6.4语音生成技术与应用3.场景、人物、音色的选择步骤1:点击上方场景选择相应场景。步骤2:点击上方人物选择合适人物。步骤3:点击上方音色选择适合音色。6.4语音生成技术与应用4.输入脚本生成视频步骤:在下方输入脚本或选择上传脚本或选择脚本库中脚本或选择AI帮我写生成脚本,后点击3D生成视频。5.特点丰富的数字人资源,提供上千个高质量超写实3D数字人角色,满足多种行业需求;高度可定制化的数字人,支持用户自定义角色,编辑修改形象,定制音色等;强大的AIGC技术,集成全栈AIGC技术,可自动生成包含声音、表情、口型、动作等要素的3D虚拟人视频,高效便捷。6.4语音生成技术与应用实践2:腾讯音乐启明星创作音乐1.访问腾讯音乐启明星平台步骤1:在浏览器中打开腾讯音乐启明星平台网址/步骤2:注册/登录腾讯音乐启明星。6.4语音生成技术与应用2.风格选择与参数设置步骤1:登录成功后,进入平台的主界面。选择AI作曲点击进入步骤2:输入音乐关键词/语句、选择音乐时长6.4语音生成技术与应用3.音乐生成最终生成的音乐4.特点创作辅助能力强,提供AI作词作曲、音乐分离、智能曲谱等功能,提升创作效率;高效宣推服务,通过PDM歌曲评分等助力歌曲推广;版权保护完善,利用AI盗歌检测和音频水印防盗功能维护创作者权益。
6.4语音生成技术与应用实践3:利用魔音工坊生成商品描述音频1.打开魔音工坊平台
步骤:在浏览器中打开魔音工坊I平台网址/。6.4语音生成技术与应用2.需求分析小吴是某家大型超市的负责人,她发现顾客在购买商品时,经常会向销售人员询问商品的详细信息、使用方法或特殊优惠。为了优化顾客的购物体验,同时减少销售人员的工作压力,她准备为每一种商品分别制作商品的描述音频,让顾客扫描二维码便可轻松获取相关商品信息。但由于商品种类较多,单靠人力是无法完成如此庞大的音频制作任务的,所以小吴准备借助AIGC工具来快速、高效地生成大量个性化且高质量的商品描述音频。6.4语音生成技术与应用3.思路设计6.4语音生成技术与应用4.操作实现步骤1:在“豆包”中生成商品信息描述步骤2:在“魔音工坊”中检查敏感信息6.4语音生成技术与应用4.操作实现步骤3:选择配音师步骤4:添加配乐6.5辅助编程技术与应用AI辅助编程如同开发者的智能搭档,能将自然语言描述快速转化为代码,并实时提供提示与纠错。这使开发者从繁琐的编写与调试中解放,更专注于逻辑与创新,显著提升开发效率。其核心功能覆盖代码生成优化、智能调试、自动文档生成与规范检查等环节。无论是精简冗余代码、快速定位错误,还是保持团队代码风格统一,AI都能提供可靠支持,让开发流程更顺畅、协作更高效。当前主流工具如GitHubCopilot、豆包MarsCode、CodeGeeX等,已在快速开发、行业应用、跨语言转换等场景中展现出实用价值。随着技术演进,AI辅助编程将持续降低开发门槛与成本,推动软件开发向更智能、更便捷的未来迈进。6.5.1辅助编程技术概述6.5辅助编程技术与应用1、代码自动补全与生成
现代AI模型能够根据开发者输入的部分代码或自然语言描述,自动补全后续代码片段,甚至一次性生成完整的函数或模块。这大幅提升了编码效率,减少了重复性劳动。借助这些智能工具,初学者也能快速实现复杂的编程功能,缩短学习曲线。对于企业开发团队来说,AI的自动生成能力还能提升项目开发的整体进度与交付效率。2、智能错误检测与修复AI可以在开发过程中实时识别代码中的潜在错误、漏洞和不规范写法,并给出修改建议或自动修复方案,帮助开发者降低Bug率,提高代码质量。相比传统人工检测,AI能够覆盖更多边角案例,发现那些容易被忽视的问题。这样不仅提升了代码的安全性,还为项目上线后的维护和升级带来便利。6.5.2应用场景6.5辅助编程技术与应用3、自然语言到代码的转换利用AI模型,开发者可以直接用自然语言描述功能需求,AI自动生成相应的代码。例如,输入“写一个二分查找算法”,AI就能输出完整实现。这一能力大大降低了非专业人士参与编程的门槛,推动了“人人可编程”时代的到来。同时,复杂项目中的需求沟通也变得更加高效,减少了开发过程中的信息误差。4、代码文档与注释自动生成AI能够基于代码内容,自动生成详尽的函数说明、使用文档、注释等,减轻了开发者的文档编写压力,提升代码的可读性和可维护性。随着项目规模扩大,手动撰写和维护文档变得繁琐,AI自动化工具极大减轻了这一负担。优质的自动文档还能帮助新成员快速理解项目结构,实现高效协作。5、智能搜索与技术问答在学习或开发过程中,AI可以帮助开发者高效检索技术文档、代码示例、开发规范等信息。通过自然语言提问,AI还能提供精准的解答和参考资料,甚至推荐相关解决方案。这种基于语义理解的检索方式比传统关键词搜索更智能,更贴合开发者实际需求。它不仅节省了查找资料的时间,也提高了解决问题的成功率。6.5辅助编程技术与应用1、网页型AI编程工具(浏览器直接使用,免安装)6.5.3主流工具介绍工具名称核心技术典型功能数据支撑适用场景豆包MarsCod中文大模型(豆包Pro)+业务逻辑解析引擎支持中文需求转Java/Python代码,自动生成SpringBoot微服务架构、数据库操作代码企业级代码生成准确率85%+金融系统核心业务开发、电商后台快速搭建腾讯云CodeLab轻量化云端IDE+多模态交互引擎在线编写Python/JS代码,AI辅助生成数据分析脚本、前端组件,支持团队实时协作日均创建项目超10万个教学实训、原型验证、远程团队敏捷开发ReplitAI基于GPT-4的代码生成模型+浏览器编译环境支持50+编程语言,AI生成游戏脚本、Web应用,自动修复语法错误全球超3000万学生使用编程教学、黑客马拉松、移动端应急开发CodePenAI前端专项大模型+实时渲染引擎输入“生成响应式导航栏”自动输出HTML/CSS/JS代码,支持Tailwind集成前端开发者使用率占比42%(2024调研)网页设计稿转代码、UI组件库快速搭建GlitchAI低代码渲染引擎+自然语言处理模型拖放式生成React/Vue应用,AI补全API调用逻辑,一键部署云端平均项目创建时间<5分钟创业团队MVP开发、零代码需求快速落地6.5辅助编程技术与应用2、插件型AI编程工具(集成IDE,深度适配开发工作流)工具名称IDE兼容性核心能力场景案例效率提升数据GitHubCopilotVSCode/JetBrains/VS全系列多语言代码补全(Python/Java/C++),函数级代码生成,支持Git提交信息生成某开源团队用其生成60%数据处理代码基础编码效率提升70%+通义灵码VSCode/IDEA/Eclipse企业级代码生成(支持多文件协同修改),内置AlibabaCloud生态适配(如MaxCompute)某银行核心系统开发节省400人/天工作量复杂业务逻辑代码生成效率提升80%CodeGeeXVSCode/IDEA/SublimeText跨语言代码转换(Python↔Java),自定义模型训练(如金融风控规则引擎)某跨境电商团队用其完成技术栈迁移多语言开发效率提升90%PyCharmAIJetBrainsPyCharm专用Python代码智能补全,自动生成Pandas数据分析流程、Django视图函数数据科学家平均编码时间减少35%Python数据分析、科学计算项目KiteAIVSCode/Atom/SublimeText实时代码搜索与补全,支持1200+Python库文档智能提示某AI实验室用其快速定位算法库接口库函数查询效率提升60%6.5辅助编程技术与应用3、专用型AI编程工具(独立客户端,对话式编程)工具名称交互模式AI能力深度技术
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026八大英文面试题及答案
- 2026安阳科技局面试题及答案
- 4-7.项目四 人工智能+文化娱乐:电影影评情感分析-任务三 模型训练与模型评估
- 固井工岗前操作知识考核试卷含答案
- 房地产行业专题研究-REITs系列报告之一:一文尽览公募REITs基础通识与资产图谱
- 林草种苗工安全素养评优考核试卷含答案
- 电子商务平台2026年商家入驻合同
- 采购员安全宣教测试考核试卷含答案
- 整经工安全操作评优考核试卷含答案
- 薄膜加热器件制造工安全实操考核试卷含答案
- T/CSPSTC 68-2021地铁盾构隧道结构修复加固技术规程
- 烟草证办理协议书
- SLS快速成型技术
- 2025数据中心液冷散热技术及应用
- 加油站紧急疏散预案(6篇)
- 《公路桥梁体外预应力加固技术规程》
- 辽宁省沈阳市联合体2023-2024学年高二下学期7月期末考试数学
- 汽车使用性能与检测(第三版)全套课件
- 三年级语文下册期末测试卷含答案
- 2024年全国电力安全生产与应急管理知识竞赛考试题库
- MOOC 电路基础-西北工业大学 中国大学慕课答案
评论
0/150
提交评论