人工智能技术入门到创新

上传人：1*** IP属地：上海上传时间：2026-05-15 格式：PPTX 页数：99 大小：32.50MB 积分：0 举报 版权申诉

已阅读5页，还剩94页未读，继续免费阅读

人工智能技术入门到创新.pptx 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

人工智能技术入门到应用创新关于作者关昊，人工智能与商业模式创新实践者，"进化思维"课程体系创始人。兼任复旦管院MBA讲师、上海财大MBA兼职教授等职，主讲《人工智能下的商业模式创新》《系统学习方法论》等课程。著有《进化密码》（复旦大学出版社），长期为金融、制造、政务、教育等领域企业提供AI落地咨询。系统主体主体联系数据信息知识思维并列递进因果相关格局顿悟主动进化竞争环境空间时间能源物质信息第一层理解思考步骤准则对外部供给需求方法商业社会观察角度需求八大特征商业模式思考流程观察需求的方法满足需求的要点需求点痛点痒点点、线、面三种竞争壁垒商业模式价值创造商业模式价值判定匠心精神互联网精神组织创新精神定义问题混沌思维创新设计思维数据思维解决问题商业谈判全流程解析忍受问题常态共存坚持放弃生死对内部第二层理解认知系统构建原则知行合一学习的过程有效学习非社会学习社会学习学习的客体学习的主体正向反馈刻意练习学习的意义焦虑感脆弱感对抗自我认知系统塑造创新不是从无到有是已有元素的重新组合问题为什么AI短视频公司中出现了一个新的职业：抽卡师4、用大模型做Agent创业盈利3、用大模型在企业内部创新2、用大模型结合手工提高工作效率1、用大模型搜索和获得信息人工智能使用的四个层面类别主流底层是否纯Transformer备注（典型做法）

1.决策/规划MuZero、AlphaStarNoMuZero用ResNet+MCTS；AlphaStar用LSTM+Transformer混合

2.机器人控制RT-2、PaLM-EYes视觉编码器ViT+语言-动作解码器Transformer

3.时间序列预测TimesFM、ChronosYes纯Transformer解码器，类似GPT

4.多智能体SmallvilleYes纯LLM（GPT-3.5/4）驱动

5.数据库/表格TableGPTYes在LLM上加表格专用tokenizer

6.医疗临床Med-PaLMMYesViT+PaLM多模态Transformer

7.自动驾驶世界模型LINGO-1Yes视觉Transformer+自回归语言head

8.网络安全SecurityCopilotYes直接调用GPT-49.EDA/芯片AlphaChipNoCNN+图神经网络+RL

10.教育诊断KhanmigoYesGPT-4微调

11.气候预测Pangu-WeatherNo3DCNN+SwinTransformer混合

12.法律HarveyAIYes

GPT-4+法律私有语料微调

13.金融量化DocLLMYesTransformer+金融专用embedding

14.图神经网络GNN-LLMHybrid图卷积层+Transformer解码器

15.生物序列ESM-2Yes纯Transformer，类似BERT2023年以后的新晋“大模型”八成以上都把Transformer当成核心骨架；剩下20%仍沿用CNN、GNN、Diffusion、NeRF、Mamba等其他路线，或把Transformer与其他结构杂交AIGCArtificialIntelligenceGeneratedContent大模型生态参数开源/闭源数据SFTRAGRLHF数据量与数据质量模型性能与调优能力全量数据与大模型场景做文章和报告：gemini3100万文记忆

编程：claude4.5opus

教育和多模态：chatgpt4o/4.5

kimi：OCR功能比较强，多模态

小米：便宜好用

豆包：情绪价值满满排名模型厂商输入价($/1M)输出价($/1M)相对小米Ultra输出价倍率上下文最大容量1OpenAIo1‑proOpenAI1506001000.00倍200Ktokens2ChatGPTGPT‑5.5（最新旗舰）OpenAI53050.00倍1,000Ktokens3ClaudeOpus4.7/4.6Anthropic52541.67倍1,000Ktokens4Gemini3.1UltraGoogle31525.00倍1,000Ktokens5Kimi商用旗舰月之暗面0.40.81.33倍256Ktokens6小米大模型Ultra小米0.30.61.00倍（基准）1,000KtokensToken经济比Excel表格Word(PDF)图片Ppt音频视频知识信息化程序语言人工智能搜索改变了知识的获取渠道人工智能工具进行文字（代码）的理解和写作人工智能工具可以进行表格的理解和分析人工智能工具可以进行PPT和图片的初级理解人工智能工具可以进行音乐的创作人工智能工具可以进行视频的创作（比较初级）文章图片画帧文字视频像素TokenFrame（帧）Pixel（像素）人工智能工具的第一步都是将人类的信息方式进行数字化Embedding音频采样点/频谱Sample（采样点）Thecatsatonamat,Thecatsatonamat,gazingThecatsatonamat,gazingcuriouslyThecatsatonamat,gazingcuriouslyatThecatsatonamat,gazingcuriouslyattheThecatsatonamat,gazingcuriouslyatthebustlingThecatsatonamat,gazingcuriouslyatthebustlingworld…大语言模型(LargeLanguageModel–LLM)的基本任务，是尝试预测语言序列中的下一个单词。并通过迭代，输出一段文字本质是概率温度Temperature（0-2）值越小，文本更稳定，没有创意幻觉hallucination你问他啥，他都能回答，必须有效限定为了让LLM能够识别所有的语言，所有的语言都被算法转化成了token编码，这是一个语言数字化的过程大语言模型Token（标记）的概念在OpenAI发布的GPT-3模型中，最大的版本是175亿参数的模型，而每个token会被映射为一个高维向量。对于维度的具体数值，GPT-3常用的设置是将词汇表中的每个token映射到一个768维的向量中去，但也有版本将token映射到更大维度的向量中，比如GPT-3中较大的模型版本可能会使用更高的维度，如1280、2048、3072甚至更高。什么是大语言模型维度Parameters的概念现阶段所有的大模型底层技术都是一个被称为Transformers的深度学习模型它构建了一个类似于人类大脑结构的电子脑Transformer的文字注意力机制数字化文字维度化TokenParameters长距离依赖关系TransformersLLM原型把文字变为数据把数据变为距离把距离变为概率人工智能应用的方法就是限定输出的概率从而让输出的计算内容落入实践使用的范畴，从而避免大模型的幻觉

大模型存在泛化性和专业性的矛盾（MOE构架）

Prompt（提示词）：在对话窗口提供给大模型更多的文字和数据

Rag（增强检索）：提供给大模型专业场景知识（上传文档和数据）

SFT(微调）：改变大模型内部的计算概率

你的提问会严重影响LLM的输出结果因此产生了一门新的学科，如何通过精心设计、优化输入信息来引导人工智能生成高质量、准确、有针对性的回答这门学科叫提示工程学科输入信息都是自然语言（英文、中文等），按照一定的格式（便于LLM识别），从而控制LLM的输出效果这个方面的知识都是建立在GPT这类开源LLM的互动经验上，并没有严格的学科建制，因为是自然语言的界面也导致了入门研究的门槛极具降低，在中国目前所有的使用者都是在GPT的迭代上重新研究和试错用LLM+拆分法+后退法+多选一写长篇科幻小说Prompt1：我希望你接下来扮演一个世界级的天才科幻作家大师，请用深刻的思想与浓厚关怀写作你的作品，你善于使用所有功能够让作品变得更好的做法，来完善你的杰作。接下来请与我共同创作一篇科幻小说。请先列出写作一篇科幻小说需要的准备都有哪些。(后退法）可以使用表格的形式。Prompt2：现在，作为这位世界级的天才科幻作家师，请你设定一个故事背景（拆分法，通过后退法得到的启示）-我希望小说能够探讨在强人工智能时代中，人类与人工智能的关系。-小说要有深刻的洞察与思考，体现深厚的哲学思考与人文关怀Prompt3：接下来，作为一个世界级的天才科幻作家大师，假设你是阿莫夫，请你为这本小说拟定一个提纲-规划好章节，合理分配篇幅，确保故事节奏紧凑，引人入胜。-目录标题与目录结构要符合小说的特点，要有故事性。Prompt4：作为一个世界级的天才科幻作家大师，请设计五种阿特拉与智者相遇的方式-设计情节跌宕起伏，富有戏剧性的精彩相遇方式，吸引读者的注意-有要创造性–有故事性Prompt5:(开始生产内容）作为世界级的天才科幻作家大师，请写一篇绘声绘色的侧写描述阿特拉与智者的第一次相遇中“意外事故”的部分相遇过程###致命危机：阿特拉在一次意外事故中生命垂危，智者在关键时刻出现并挽救了他的生命。###-生动性，有科学性，有风采的语言-使用各种科学方法来丰满人物形象–详细的环境与细节描写，具体的口字表达-合理但是有创造性的故事情节，跌宕起伏的，富有戏剧性的精彩相遇方式“思考链”（ChainofThought，简称CoT）是一种重要的概念，尤其是在自然语言处理（NLP）和大型语言模型（LLMs）中。指的是模型在生成答案时所经历的逐步推理过程，类似于人类在解决问题时的思维路径。通过显式地展示思考过程，模型不仅能够提供最终答案，还能解释其背后的逻辑。慢思考：DeepseekR1

Chatgpto1快思考：DeepseekV3

Chatgpt4o人工智能工具有“深度思考”的开关1、免费的智能工具为什么限定一次输出数量

2、每次新的任务都要打开一个新窗口

3、为什么AI工具对话有“联网搜索”的功能

4、过于复杂的任务可能无法一次完成怎么处理

5、音乐、图片、文本和编程工具已经成熟，视频工具也正在成熟数字化文字像素维度化TokenParameters长距离依赖关系TransformersLLM原型指令微调人工反馈强化学习泛化性专业性长文本技术算力成为了新的石油大语言模型LLM技术图解数字化文字像素维度化TokenParameters长距离依赖关系TransformersLLM原型数字化文字像素维度化TokenParameters长距离依赖关系TransformersLLM原型数字化文字图像声音维度化TokenParameters长距离依赖关系TransformersLLM原型数字化文字像素维度化TokenParameters长距离依赖关系TransformersLLM原型数字化文字图像音频维度化TokenParameters长距离依赖关系TransformersLLM原型数字化文字像素维度化TokenParameters长距离依赖关系TransformersLLM原型数字化文字像素维度化TokenParameters长距离依赖关系TransformersLLM原型数字化文字图像声音维度化TokenParameters长距离依赖关系TransformersLLM原型MoE架构:MixofExperts（GPT4）多模态大模型（google的Geminiultra）MLLMsMultimodalLargeLanguageModels（单模型参数调整）图像显示了一个妊娠囊位于子宫腔外，通常在输卵管内，如箭头所示。异位妊娠存在输卵管破裂和内出血的重大风险，使这种情况成为一种产科紧急情况，需要立即进行医疗或外科干预。多模态大语言模型（MultimodalLLMs）是人工智能领域的一个重要发展方向，它们能够处理和理解多种类型的数据模态，如文本、图像、音频和视频。与传统的单模态语言模型（如GPT-3）相比，多模态模型能够同时处理多种数据类型，从而提供更丰富、更全面的输出。多模态LLMs的关键特点多模态输入和输出：多模态LLMs可以接受多种类型的输入（如文本、图像、音频、视频），并生成相应的输出。跨模态理解：这些模型通过将不同模态的数据嵌入到统一的特征空间中，实现跨模态的理解和生成。更丰富的应用场景：多模态模型能够应用于更复杂的任务，例如图像描述生成、视觉问答、多模态对话等数据源DateSource提取与清理向量存储选择基础模型Query提示工程Prompt知识库答案反馈用户打分SFT大模型微调参数集RAG优点：连贯性强：能够生成或理解长篇幅的内容，保持逻辑和语义的连贯性。适合复杂任务：适合处理需要深入理解背景信息的任务，比如长篇阅读理解或复杂的文章生成。缺点：对话限制：只在当前上下文有效。资源消耗大：处理长文本需要更多的计算资源和内存，因为模型需要同时处理大量信息。上下文限制：即使是强大的模型，也可能因为上下文长度限制而丢失一些细节信息。适用场景：写作助手：生成长篇博客、报告或故事。阅读理解：处理长篇阅读理解任务，比如学术论文或小说。对话系统：在需要长篇回答的场景中，比如解释复杂的概念。Prompt（提示词）BRA提示词模型Background背景Role角色Action/Task任务变体：BRTR（Background+Role+Task+Requirement）Constraint/Requirement约束/要求变体：BROCR（Background+Role+Objective+Constraint+Result）优点：准确性高：只要找到的，都能回答出来。灵活性高：可以随时更新知识库中的内容，让模型获取最新的信息。扩展性强：不需要重新训练模型，只需要更新知识库，就能让模型回答新的问题。缺点：依赖检索：如果知识库中的信息不准确或不完整，模型的回答也会受影响。实时性要求高：需要快速检索和整合知识库中的信息，对性能有一定要求。适用场景：智能客服：快速查找解决方案，回答用户的问题。问答系统：结合知识库回答复杂的、需要背景知识的问题。研究辅助：帮助研究人员快速查找相关文献或数据。Rag（增强检索）“你知道的很多事，你永远说不出来，也永远传不出去——但它们仍然决定了你会怎么做。”哈耶克优点：性能提升：显著提升模型在特定任务或领域的表现。定制化强：可以根据需求调整模型的行为，比如改变回答风格或优化任务性能。缺点：训练成本高：微调需要一定的计算资源，尤其是GPU。需要标注数据：需要准备特定领域的标注数据，这可能需要时间和精力。时效性差：补充数据需要重新训练。适用场景：专业领域：如医疗、法律、金融等，让模型理解专业术语和逻辑。特定任务：如文本分类、情感分析等，优化模型的性能。风格定制：让模型生成符合某种风格的内容，比如幽默、正式或古风。SFT(微调）JSONL格式的训练数据{"instruction":"根据上下文回答问题","input":"模型类型：Copilot、API、网页版；Copilot是嵌入IDE的插件式AI助手","output":"Copilot是深度嵌入IDE软件中的AI插件，可实时辅助代码补全、调试，区别于独立网页版和程序调用的API版。"}人工智能使用第一层：网页版即用即走优点：免费能够完成一些基本工作缺点：上下文记忆不足无法和工作适配稍微复杂的工作就要手工操作没有数据安全思考和建议：XiaomiMiMoStudiochatgpt/gemini即时信息搜索：豆包chatgpt论文综述和写作：秘塔gemini-canvas网页小程序：COZE图片生成：豆包seedream4.5image2/banana2Ppt制作：豆包kimi 音乐制作：海绵音乐-免费创作你的AI音乐

gemini-Lyria视频制作：豆包seedance2.0选择模型的考虑条件：模型的能力：text、image、audio、video、file/context/R-V/参数量/VPN电话号码验证/模型的形式：网页版/API/Copilot;code/codex（Openai）模型的经济比：opus/sonnet/Haiku;input/缓存/output的费用人工智能使用第二层：IDE（集成开发环境）专项任务优点：免费/收费能够管理记忆数据安全有所保障缺点：工具和调用的规则撰写比较专业对新手并不友好Md格式Mermaid格式Csv格式数据清洗Pdf音频（时间戳）视频（时间戳）WordMarkItDown：微软开源的全能转换器Snapany：主流的内容平台视频和音频下载Marker：学术PDF转换专家RapidOCR：轻量级图片文字提取（OCR）飞书妙记/格镜：音频提炼有时间戳的文本姓名,数学,语文,英语张三,90,85,88李四,78,92,76王五,88,80,95姓名,科目,成绩张三,数学,90张三,语文,85张三,英语,88李四,数学,78李四,语文,92李四,英语,76王五,数学,88王五,语文,80王五,英语,95Unpivot逆透视AI工具Excel表格Word(PDF)图片Ppt音频视频加工处理LLM决策专业知识库商业场景细分避免幻觉提示词PromptRAG租用·训练·本地化数据隐私SFT+开源模型编程组合工具准确率达到生产使用Agent封装Dify·Coze工作流

影刀·模拟仿真点击

虚拟机技术MinusAPI应用程序编程接口

MCP（模型上下文协议）

手机+增强设备+仿真人SAP+ERPCopilotOLLma+CherryStudioOpenroute·火山方舟AI原生编辑器／IDECursorKiroTrae克服幻觉/search下载大模型安装ollama软件使用命令行控制建立API接口根据电脑显卡的情况选择合适的参数版本使用界面非常不友好第二步：需要安装友好的使用界面OpenWebUI一个开源的网页版用户界面，为本地大语言模型提供图形化界面CherryStudio一个支持多模型服务的桌面客户端，支持Windows、macOS和LinuxChatboxAI支持Android、iOSAnythingLLMDifyChatALLLibreChat推荐有用户管理等功能这个需要一点电脑基础安装哦推荐下载安装就好

和安装游戏一样可以使用本地专属大模型啦第三步：根据公司业务做数据清洗获得知识库在使用界面软件中“知识库”上传RAG技术公司专属牛马应用如果电脑不好怎么办租个云服务器上别人装好的大模型火山引擎（头条）百度智能云华为云阿里云腾讯云推荐注册账号实名认证点击开通生成密钥和API接入使用界面按照流量计费开始送一些流量便宜量大几十元用好久人工智能大模型本地化操作指南第一步：如何获得大模型典型场景下，单次交互的TOKEN消耗在150-1300之间输出生成的计算成本和资源消耗显著高于输入处理1分钱可以问2-3次Context的管理成为一个新的难点Agents/claudes：负责执行具体任务（如分析论文、写代码、回答问题等）Index/Log：记录任务的索引和日志，方便回溯特点：任务完成后，信息流向终止。下一次对话和这一次之间没有认知上的累积关系。比如你让AI帮你分析一篇论文，分析完了，这次交互就结束了。如何通过TRAE实现GEO自动化工作GEO=GenerativeEngineOptimization生成式引擎优化/大模型搜索优化SEO=SearchEngineOptimization搜索引擎优化2023年3月

-Claude1

发布2023年7月

-Claude2

发布2023年11月

-Claude2.1

发布2024年6月

-Claude3.5Sonnet

2024年10月

-Claude3.5Haiku

发布2025年5月22日

-Claude4家族发布ClaudeOpus4：最强推理模型，混合推理模式（即时+扩展思考ClaudeSonnet4：平衡性能与成本，支持扩展思考与工具使用，改进记忆管理2025年8月

-ClaudeOpus4.1

发布9月：ClaudeSonnet4.5发布，匹配Opus4.1能力，价格更低10月：ClaudeHaiku4.5发布，最快最经济，达到Sonnet4.590%的编程性能11月24日：ClaudeOpus4.5发布，SWE-bench得分80.9%，价格较4.1降低67%斜杠命令（SlashCommands）是以/为前缀的快捷指令，用于在聊天、AI助手、编辑器等工具中，直接触发特定功能，无需自然语言描述或点击菜单。1.会话与上下文管理/clear：清空对话/compact：压缩上下文（省Token）/rewind：回滚到上一步/memory：编辑长期记忆2.项目与文件/init：初始化项目/diff：查看文件修改/search：代码搜索/test：生成测试3.模型与设置/model：切换模型（Opus/Sonnet）/status：查看会话状态/cost：查看费用/settings：调整配置4.代码与审查/fix：修复代码/explain：解释代码/review：代码审查/simplify：重构优化5.隐藏高级功能（泄露曝光）/dream：后台深度思考/kairos：启动自主代理/undercover：匿名提交代码/autodebug：全自动调试ClaudeCode工具系统文件系统工具代码执行工具Git工具项目管理工具网络/API工具搜索工具调试工具上下文/记忆工具多模态工具（未上线）高级Agent工具网络请求（fetch_url）

代码搜索（code_search）

项目内全局搜索

语义搜索（semantic_search）

符号/函数搜索

用写网页的技术，写命令行里的界面spawn_agent：创建子AI

assign_task：分配任务

parallel_execute：并行执行

collect_results：收集结果

2026年3月31日，Anthropic公司的AI编程助手ClaudeCode(v2.1.88)

因发布失误前端/客户端应用代码，不包含Claude大模型的权重、训练数据或用户隐私信息所有执行的底层逻辑：Read、Write、Execute、Connect不要过多通过工作流的干涉人工智能的能力，但是要严格的限制他的底层工作逻辑短期记忆：Context你现在正在想的东西Write——写内容、写文件、写配置

Execute——执行命令、运行程序、调用接口

Read——读文件、读信息、读环境

Connect——连外部系统、连数据库、连其他服务、连人

AI的TAOR循环人类的PDCA循环Think（想）→我要干嘛Act（做）→用Read/Write/Execute/Connect去执行Observe（看）→结果对不对Repeat（再来）→不对就改，对就继续NPM=前端插件商店Git=代码存档与协作

Docker=程序打包运行

Write→改代码，用Git保存

Read→看Git代码

Execute→用npm安装依赖、用Docker启动项目

Connect→连Git仓库、连服务器部署

长期记忆:Memery六层Memory=你的大脑知识库、经验、习惯ManagedPolicy（组织级策略）：企业或团队层面的统一规范ProjectCLAUDE.md（项目配置）：当前项目的特定指令和上下文UserPreferences（用户偏好）：个人层面的习惯和偏好设置Auto-Memory（自动学习模式）：Agent从历史交互中学到的用户模式Session（会话上下文）：当前会话的临时信息Sub-AgentMemory（子Agent记忆）：各子Agent独立维护的专项记忆Memery是从你的对话、任务、操作里AI自己自动萃取、提炼、总结出来的。不是你手动存的，是它“偷偷”帮你总结的。记忆是索引，不是存储。能重新推导的，绝不存储Memery加载有严格的顺序：逻辑非常像人类社会的规则：公司制度>项目规范>个人习惯>经验>当前对话>临时任务数据+框架+模型=AI应用数据+框架+模型=AI应用模型的能力模型的形式模型的经济比SKILLAGENT√Skill（技能——"能做什么"）定义：一个离散的、模块化的能力单元，完成一件特定的事。比如"读取PDF"、"搜索网页"、"生成图表"、"翻译文本"本质：它是一个工具，有明确的输入和输出，被调用时执行，执行完就结束。它不决定"为什么要做这件事"，也不决定"下一步该做什么"Agent（代理——"谁来做这件事"）定义：一个具备规划和决策能力的实体，它知道任务的目标，能拆解任务，并选择调用哪些skill、以什么顺序来完成本质：它是一个执行者，拥有自主性。你告诉它"帮我分析这篇论文"，它自己决定先用skill读取PDF，再用skill提取要点，再用skill生成摘要特点：具备目标理解能力能进行任务规划和多步推理能根据中间结果动态调整策略一句话区分Skill是工具，Agent是使用工具的人。一把锤子是skill，决定"先钉这根钉子再钉那根"的是agent人工智能使用第三层：CLAW数字员工优点：收费能够应对复杂工作流程缺点：对新手极度不友好

AI的“大脑循环系统”，让AI会思考、会决策、会用工具、会完成任务。1.维护对话历史（记忆）记住你说过什么记住AI自己说过什么记住工具返回了什么把所有内容拼成完整上下文2.决策：下一步该干嘛？3.调用工具，并处理结果4.控制思考深度，防止无限循环缺信息→调用工具→拿到结果→再判断信息够→直接回答超过步数→强制结束重复转圈→强制停止绝不瞎编适合：90%的知识性、办公室类工作写代码写文档、写方案、写简历做表格、做数据分析做设计、写文案做账、做报表做法律、合同、咨询做运营、策划、活动做研究、查资料、写报告做翻译、整理信息这些工作本质都是：目标→缺信息→找信息→整合→输出PI-monoSOP1.pi-ai（@mariozechner/pi-ai）核心是统一LLM调用层，封装OpenAI、Anthropic、Google等20+厂商API，抹平接口差异。提供类型安全、流式响应、统一配置，上层无需关心底层模型差异。是整个架构的地基，所有Agent与UI都依赖它获取模型能力。2.pi-agent-core（@mariozechner/pi-agent-core）作为Agent运行时引擎，实现状态机、工具调用循环、会话与上下文管理。内置工具注册/调度、事件流、扩展机制，是智能体的“大脑”核心。依赖pi-ai，向上为coding-agent、mom等提供统一的Agent执行能力。3.pi-coding-agent（@mariozechner/pi-coding-agent）是交互式编码CLI入口，封装pi-ai+pi-agent-core，提供代码生成/解释/优化。内置文件读写、编辑、执行四大核心工具，适配开发者日常编码流。依赖pi-tui做终端界面，是用户最常用的直接入口。4.pi-tui（@mariozechner/pi-tui）是终端UI组件库，基于差分渲染，高效构建命令行界面。提供文本、按钮、面板、滚动等组件，支持主题与键盘交互。被pi-coding-agent依赖，负责CLI的可视化渲染与交互响应。5.pi-web-ui（@mariozechner/pi-web-ui）是Web聊天UI组件库，提供AI对话界面、消息流、输入框等组件。基于现代前端框架，可快速集成到Web应用，对接pi-agent-core。与pi-tui平行，为Agent提供浏览器端的可视化交互入口。6.pi-mom（@mariozechner/pi-mom）是SlackBot集成包，将Slack消息转发给pi-coding-agent处理。实现消息接收、上下文绑定、结果回传，打通Slack与编码Agent。依赖pi-coding-agent，是面向团队协作的IM集成层。7.pi-pods（@mariozechner/pi-pods）是vLLM部署管理CLI，用于在GPUPod上快速部署与管理本地模型服务。提供启动、停止、扩缩容、监控等命令，简化大模型服务运维。与pi-ai配合，支持本地模型+云端模型的混合调用架构。SKILL封装pi-coding-agent

装编码技能skill的容器负责在命令行里画出好看的交互界面终端CLI界面pi-tui（@mariozechner/pi-tui）网页端交互界面pi-web-uiSlack就是国外版的企业微信/飞书/钉钉pi-mom（@mariozechner/pi-mom）一键启动/关掉本地大模型服务pi-pods（@mariozechner/pi-podsKimi高级会员199/月firecrawl网络爬虫19刀/月nanobananaapi35元/月（100张图）minimax音频30元/月（能生成30分钟的音频）seeddance-2视频120元/月（能生成2分钟的视频）云服务器弹力服务器ECS4核8G160/月（能开4个龙虾实例）oss10/月数据库4650/一年，100G的容量含API15000/年不含API6000/一年龙虾开源软件人工智能APIKIMI2.5Claude4.5opus安装在本地电脑安装在云服务器一个服务器数据库一个服务器跑龙虾一个服务器装skill和agent使用界面后台管理界面Oss对象存储服务带宽大费用便宜爬虫数据库APIERP+SAP接口ORC本地文档音频人工智能API视频人工智能APIWordexcelBaoyu操作小红书PPT封面图知识漫画文章配图专业信息图Cursor开发@telegram@飞书、微信、丁丁数据对话使用满足生产需求封装新Skill工作流操作习惯输出格式其他更复杂工作使用该skill的时候调用操作skill文件核心禁止清单类型类比SOUL.md行为/内容禁止（直接面向AI输出）员工的“高压线”AGENTS.md权限/工具禁止（底层运行规则）系统的“安全策略”USER.md无需写禁止项，只填客观信息仅做背景，无约束长期记忆：MEMORY.md

每日笔记：memory/YYYY-MM-DD.md定时任务（Cron）心跳适合"隔一会儿检查一次"的任务。但有些事情需要精确的时间，比如：每天早上8:00发晨间简报每周一上午9:00发周报每月1号检查服务器账单这时候用Cron定时任务。心跳间隔在OpenClaw配置中设置：openclawconfigure--sectiongateway在向导中可以调整心跳间隔，或者直接编辑配置文件中的

erval

字段。常用设置：15m

—比较频繁，适合工作日白天30m

—默认值，平衡效率和成本1h

—比较节省，适合非工作时间排名Skill名称核心功能一句话用途1GogGoogleWorkspaceCLI（Gmail+Calendar+Drive+Docs+Sheets）一句话操作邮件、日历、文档、表格，办公自动化首选2Summarize内容摘要（网页/PDF/视频/音频/图片）快速提炼长文、视频、播客核心信息3Self-Improving-Agent自我进化、错误复盘、持续优化让AI越用越聪明，自动从失败中学习4TavilySearchAI优化联网搜索（无广告、结构化结果）给AI装上“联网眼睛”，查实时信息5NotionNotion笔记管理、读写、同步自动管理Notion知识库、写笔记、归档6ObsidianObsidianMarkdown笔记、双链管理维护本地知识图谱，自动关联笔记7NanoPDFPDF编辑、提取、合并、转换一句话处理PDF：改内容、拆页、转文本8APIGateway统一API集成、调用、鉴权一键对接各类第三方API，简化开发9AgentBrowser无头浏览器（Playwright）、点击/填表/截图模拟真人操作网页，自动化数据采集10FindSkills自动搜索/推荐/安装ClawHubSkill问“有没有做X的技能”，它帮你找并安装11GitHubGitHub仓库/PR/Issue/Commit管理自动提交、合并PR、管理Issues12CodeInterpreterPython代码执行、数据分析、可视化让AI写代码、跑脚本、做数据处理13SkillVetterSkill安全扫描、防恶意代码安装前自动检查风险，保障系统安全14CronScheduler定时任务、自动化调度让AI定时执行任务（如每日邮件汇总）15DailyDigest个性化日报/周报生成结合日历、任务、邮件生成智能简报16Weather天气查询、预报、通勤提醒一句话查天气、出行建议17TodoTracker待办事项管理、提醒、进度追踪自动记录、提醒、完成待办18HumanizeAIText去AI化、让文本更像真人写的消除AI写作痕迹，提升自然度19DiagramGenerator一句话生成流程图/架构图/甘特图自动生成可视化图表，无需手动绘制20GitOpsGit操作、分支管理、冲突解决安全执行Git命令，自动化版本控制国外clawskill排名前201.skill-vetter（安全必装）核心：安装前自动扫描恶意代码、权限风险用途：保障系统安全，防止恶意技能安装：clawhubinstallskill-vetter2.tavily-search（联网搜索）核心：AI优化联网搜索，结构化结果、无广告用途：查实时新闻、政策、价格、行业数据安装：clawhubinstalltavily-search3.agent-browser（浏览器自动化）核心：无头浏览器（Playwright），模拟点击、填表、截图、数据抓取用途：自动登录、爬取网页、填写表单、监控页面安装：clawhubinstallagent-browser4.find-skills（技能推荐）核心：自动搜索、匹配、安装所需技能用途：问“有没有做XX的技能”，它帮你找并安装安装：clawhubinstallfind-skills5.cron-scheduler（定时任务）核心：定时执行任务、自动化调度用途：每日邮件汇总、定时监控、自动备份安装：clawhubinstallcron-scheduler6.proactive-agent-1-2-4（主动代理）核心：让AI从“被动响应”变“主动提醒/执行”用途：项目进度提醒、数据异常告警、定时汇报安装：clawhubinstallproactive-agent-1-2-47.nano-pdf（PDF处理）核心：PDF编辑、提取、合并、拆分、转文本/表格用途：一句话处理PDF：改内容、拆页、提取表格安装：clawhubinstallnano-pdf8.web-scraping-toolkit（网页抓取）核心：动态网页抓取、数据提取、格式转换（CSV/Excel/Markdown）用途：爬取研报、电商数据、行业网站、生成报表安装：clawhubinstallweb-scraping-toolkit9.code-interpreter（代码执行）核心：Python代码执行、数据分析、可视化、脚本运行用途：写代码、跑脚本、做数据处理、生成图表安装：clawhubinstallcode-interpreter10.file-manager（文件管理）核心：本地/云端文件读写、重命名、移动、压缩、搜索用途：自动整理文件、批量处理、备份、查找安装：clawhubinstallfile-manager国内clawskill排名前2011.email（邮件管理）核心：支持国内主流邮箱（QQ、163、126、企业邮箱）用途：收发邮件、批量处理、自动回复、邮件汇总安装：clawhubinstallemail12.wechat-article-writer（公众号写作）核心：公众号文章生成、排版、配图、发布用途：自动写公众号、排版、生成封面、一键发布安装：clawhubinstallwechat-article-writer13.baoyu-skills（自媒体工具包）核心：自媒体创作、剪辑、发布、数据分析用途：短视频脚本、文案、封面、发布、数据监控安装：clawhubinstallbaoyu-skills14.openai-whisper（语音转文字）核心：本地语音识别，无需APIKey用途：会议录音转写、视频字幕、播客整理安装：clawhubinstallopenai-whisper15.summarize（内容摘要）核心：网页/PDF/视频/音频/图片内容提炼用途：快速读长文、看视频、听播客，抓核心安装：clawhubinstallsummarize16.weather（天气查询）核心：国内城市实时天气、预报、通勤提醒用途：一句话查天气、出行建议、预警安装：clawhubinstallweather17.todo-tracker（待办管理）核心：待办事项记录、提醒、进度追踪、优先级排序用途：自动记待办、定时提醒、完成统计安装：clawhubinstalltodo-tracker18.daily-digest（日报生成）核心：结合邮件、日历、任务生成个性化日报/周报用途：自动汇总工作、生成汇报、节省时间安装：clawhubinstalldaily-digest19.self-improving-agent（自我进化）核心：错误复盘、经验总结、持续优化用途：让AI越用越聪明，自动从失败中学习安装：clawhubinstallself-improving-agent20.diagram-generator（图表生成）核心：一句话生成流程图、架构图、甘特图、思维导图用途：自动画图表，无需手动绘制安装：clawhubinstalldiagram-generator数据+框架+模型=AI应用模型的能力模型的形式模型的经济比SKILLAGENTPromptengineerContextengineerHarnessengineer数字员工链”与“环”的区分：开放的“链”（具体开展任务）Agents/claudes：负责执行具体任务（如分析论文、写代码、回答问题等）Index/Log：记录任务的索引和日志，方便回溯特点：任务完成后，信息流向终止。下一次对话和这一次之间没有认知上的累积关系。比如你让AI帮你分析一篇论文，分析完了，这次交互就结束了。“环”的系统（交互沉淀认知）User：用户的基础事实信息，包括职业、所在城市、兴趣爱好、教育背景、身份角色等本质：回答的是"你是一个什么样的人"——是客观的、描述性的、相对静态的基础画像更新频率：偶尔更新，当用户的基础状态发生变化时（比如换了城市、转了行业、发展了新的爱好）Soul：最深层的价值取向、世界观、人生目标、底层信念、目标函数、主体性所在本质：回答的是"你是什么样的人"更新频率：极少数情况下才更新，因为它是你最本质、最稳定的内核Rules/Theschema：记忆的写入和调用提供结构，具体的任务工作流程、任务边界Skill/mcp:在完成工作的时候需要“通过什么手段来完成”——是能力执行层，去调用其他成熟的工作模组Mermory：AI对"你这个人"的持续刻画。每次对话中，系统会观察是否有新的想法、观点产生，判断是否与之前的认知有冲突或是否更本质需要替换，然后持续更新。本质：记录的是你积累下来的认知痕迹——你的偏好、经历、观点、知识结构等知识治理的三个主要概念Karpathy知识治理（认知系统）原子知识卡片（认知主体）Wiki知识库图谱（主体联系）知识治理的工作出现关sir的认识进化方法论Obsidian用于蒸馏知识的修改理解AI的使用的产生规则根据业务的需求确定提炼知识体系的结构层次设计原子知识卡片的层次和使用结构根据业务流程进行知识治理后的尝试生成知识治理提炼的规则Md格式Mermaid格式Csv格式常见使用界面WorkBuddy（各种龙虾体）飞书丁丁数据清洗Pdf音频（时间戳）视频（时间戳）WordAgents.mdClaude.md用于控制知识清洗的规则和记录格式和方法可视化人工检查错误使用index.md结构化目录、标题、链接、分类、清单方便查找、关联、复用、查阅log.md新增、修改、删除、整理、AI调用的时间流水账Rule.md用于根据业务流程和使用场景决定知识库的使用决策和逻辑Style.md输出的情感结构和文本特征IDE工具进行知识治理的提炼RawsourcesTHEWikiTheschema大模型工具根据业务需求选用token经济比最高的数字员工数字员工制造流程MarkItDown：微软开源的全能转换器Snapany：主流的内容平台视频和音频下载Marker：学术PDF转换专家RapidOCR：轻量级图片文字提取（OCR）飞书妙记/格镜：音频提炼有时间戳的文本obsidian使用的基本元素1、文档属性2、[[]]链接和反向链接3、插件市场Pkmer4、ctrl+p常见操作ctrl+o快速检索5、白板6、关系图谱7、标签8、布局数字员工1擅长干某一类工作，场景单一数字员工3数字员工2数字员工N组织结构业务流程sop工作切片分类更复杂工作的Theschema人工智能企业飞书妙搭丁丁宜搭非技术人员，想快速落地企业流程需要复杂的AI推理+知识库+数据合规Coze拖拽式编程快速验证轻量场景比如客服、营销机器人有技术团队需要对接内部系统、做深度定制LangFlowDify低代码编程⊇图形化编程⊇拖拽式编程越来越简单

第一步：判断你的业务是「AIFirst」还是「SAASFirst」AIFirst场景内容生成类文案、短视频脚本、海报文案、小说、PPT大纲、简历、软文、直播智能问答/知识库企业智能客服、行业问答机器人、政务咨询、私域AI导购数据分析&智能决策经营数据智能复盘、用户行为归因、投流智能优化、风控智能研判创意&设计类AI绘图、AI建模、AI配音、AI剪辑、AI数字人直播/出镜语言&办公智能实时翻译、论文降重润色、代码生成/排错、会议纪要智能整理行业专属智能研判法律AI文书、医疗初筛诊断、教育AI批改作业、公考/教培自动化智能执行AI自动回复、AI自动复盘、AI智能排班、AI智能选品SAASFirst场景企业流程管理OA、审批流、考勤、人事HR、行政办公系统客户经营管理CRM客户管理、销售线索跟进、客户档案、公海客户管理进销存&供应链仓库管理、订单管理、采购、库存对账、分销体系项目&团队协同项目管理、任务派发、工时统计、团队协作、文档协同财务财税类记账、对账、发票管理、费用报销、薪酬核算门店/线下实体管理收银系统、会员管理、门店进销存、后厨管理、预约到店教育培训标准化排课、学员档案、课时统计、教务管理、招生台账电商商家后台商品上架、订单处理、物流对接、店铺台账、分销分佣管生第二步：分工协作，AI与SaaS各司其职✅AI聚焦优势场景：发挥“创造性”与“理解能力”客户投诉处理快速理解用户意图，自动生成高质量的回复模板，大幅减少人工耗时。销售方案定制基于历史数据与客户需求，快速分析并生成个性化的方案框架，辅助销售。营销内容创作遵循品牌规范，批量生成社交媒体、邮件等营销文案初稿，提升内容产出效率。🛡️SaaS守住核心优势：确保“稳定性”与“合规性”财务报表处理基于精准的底层数据，自动计算并生成报表，确保数据100%准确，无偏差。库存与供应链管理毫秒级实时数据同步，高并发稳定响应，保障业务流程的连续性与准确性。系统权限与合规控制严格遵循企业规则与行业法规，执行无差别的权限管理，确保数据安全与合规。💡关键结论：让AI做它擅长的“生成与理解”，让SaaS守住它擅长的“精准与稳定”，不强行互相替代，实现1+1>2的协同效应。第三步：让AI成为SaaS的「调度中枢」核心逻辑：AI不是取代系统，而是连接系统客户下单流程示例：1.AI识别订单信息→调用库存SaaS查询库存2.自动生成发货指令→同步至仓储管理系统3.调用财务SaaS实时更新订单财务状态4.触发CRM系统，自动向客户发送确认短信企业AI转型失败的3个坑有模型，没数据：大模型无业务数据支撑，仅能提供通用建议，无法落地业务价值。有数据，没框架：海量数据缺乏业务流程串联，AI不知道在哪个环节介入，无法形成合力。有数据有框架，模型能力不足：面对复杂的业务推理逻辑，AI能力不够，直接导致流程中断“卡壳”。最终公式：AI生成定制化智能系统+AI调度原生SaaS=企业业务的高效自动化第一个要素：数据数据是AI理解业务的基础AI的所有能力，本质上都建立在它“见过”什么样的数据之上。就像人类的认知离不开学习和经验，高质量、结构化的数据是AI训练和理解业务逻辑的“燃料”。但问题是：传统企业沉淀的大量数据，AI真的能用吗？难题一：数据列名不清晰，缺乏标准例如数据表中的列名写着“T&C&D&M”，这对内部员工可能有特定含义，但AI无法理解此类非标准缩写，导致无法准确解析字段含义。难题二：数据孤岛，系统割裂销售数据在CRM系统、财务数据在ERP系统、客户反馈散落于邮件、市场活动数据存于Excel，AI无法实时有效地获取、打通并整合这些分散的数据。数据治理的深层难题难题三：数据Unpivot•公司很多数据是以Pivot报表形式呈现的，比如“各区域×各产品×各季度”的销售汇总表，这是我们习惯查看的形式。•核心痛点：Pivot汇总数据并不适合直接入库与分析。AI模型真正需要的是最原始的明细数据，而非经过聚合的结果。•后果：若直接将汇总表喂给AI，模型只能看到表面结果，无法洞察数据背后的业务逻辑与细节，难以产出有价值的深度分析。难题四：数据立方体构建•数据异构性：销售、库存、客户等核心数据往往分散在不同的业务系统中，维度定义与统计口径各不相同，无法直接打通。•整合挑战：如何将这些异构数据在时间、空间、业务对象等维度上实现精准对齐，是企业面临的专业门槛。•最终目标：构建一个符合业务逻辑、维度统一的数据立方体，让AI能从全局视角理解业务，挖掘跨系统、跨维度的深层价值。所以，数据这层的核心不是“有没有数据”，而是“数据治理得好不好”。数据越丰富、治理越规范，AI理解业务的深度就越深，创造的价值就越大。第二个要素：应用框架应用框架的定义与挑战•应用框架是AI执行任务的“骨架”，它决定了AI能不能稳定、可靠地完成一个具体的业务任务。•挑战：框架本身也处于高速迭代中，没有“一劳永逸”的方案，企业需要保持对技术演进的敏感度。框架演进图(Evolution)2025·OpenClaw/HermesAgent→自主执行+知识沉淀+安全可控（闭环治理）2024·Agent智能体模式→具备自主规划与执行能力，但缺乏治理体系2024·MCP模型上下文协议→打通外部系统连接，但需人工配置与调试2023·GPTStore/插件机制→能调用单一功能插件，但能力分散，无法协同2022·ChatGPT→仅支持自然语言交互，无实际执行

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

人工智能技术入门到创新

文档简介

温馨提示

最新文档

评论

人工智能技术入门到创新

文档简介

温馨提示

最新文档

评论

相关文档