版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Xinference:大模型时代的分布式推理平台秦续业未来速度CEOLLM
推理概述AttentionisAllYou
NeedGPT
架构EmbeddingDecoderSampling简化成三个步骤LLM
推理概述EmbeddingDecoderSamplingToken
Embedding将
token
id
转成词向量PositionalEmbedding将位置信息加到编码中LLM
推理概述EmbeddingDecoderSampling计算量最大的一个步骤,主要是
attentionLLM
推理概述EmbeddingDecoderSamplingLLM
推理概述EmbeddingDecoderSamplingGreedy
searchBeam
search…Top-KTop-PLLM
优化技术Optimizations:KVCacheLLM
优化技术Optimizations:PagedAttentionLLM
优化技术Optimizations:Continuous
BatchingLLM
优化技术Optimizations:Speculative
DecodingLLM
推理后端高吞吐最好兼容性工作在端侧LLM
模型下载LLM
推理LLM
推理生产部署
个人部署
PromptTemplatesModelCachingUtilsModel
ManagementRESTful
APIResourceManagementThird-partyIntegrationMonitoringXinferenceisallyour
need多模型:汇集约80种开源模型,如GLM4、百川、Llama3、qwen2,还可以自由扩展自定义模型多硬件:支持
NVIDIA、Intel
多种硬件平台,按需选择高性能:使用多
backend
和投机采样等优化技术,大幅提升吞吐量,降低推理延迟低门槛:模型即服务,支持本地/云端部署等多种部署模式,降低开发和运维成本;支持从modelscope、huggingface
或
OpenCSG
下载模型Xinferenceisallyour
needXinferenceisallyour
needDify中唯一一个支持所有特性的模型供应商模型√√√√√DashboardPython
ClientRESTful
APIResponseOpenAI
SDK第三方集成(langchain、llama_index、Dify、FastGPT、chatchat…)模型和资源管理XinferenceserverApplicationsAPIrequestWebUIrequestrequestGPUGPUGPUCPUllamaResource
Poolllamachatglmgte-largechatglmvllmtensorRT-llmScalabilityScaleUp单机多卡(1张3090
与2张3090的数据对比),线性增长,throughput
随着卡的增加而线性增长,
latency
随着卡的增加线性降低ScalabilityScaleOut多机多卡(一台
A10G
显卡机器与两台A10G
显卡机器),throughput
随着机器的增加而线性增长,
latency
随着机器的增加线性降低。Xinference企业版案例1,NVIDIA
和昇腾混合部署某券商Xinference
提供了异构调度能力,将各种类型硬件纳管Xinference屏蔽了底层硬件的差异用户无需感知硬件不同,GPUvs.NPU透明的优化技术,对
NVIDIA
和昇腾使用不同的优化技术各种常见AI开发工具直接对接LangchainDify难点和优势NVIDIA
拥有了相对完备的生态,国产适配有相当大的难度Xinference对底层算子进行了适配,利用continuous
batching,整体吞吐提升3倍。得益于Xinference
底层的Xoscar
异构算力调度,用户对
NVIDIA还是国产芯片是透明的用户可以更加专注在业务侧案例
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026-2032年中国红外热辐射治疗仪行业市场运行格局及发展潜力研判报告
- 基于激光雷达的无人驾驶车辆避障算法研究
- 2025 网络基础的网络视频监控的实时性与存储课件
- 安徽省安庆市桐城市部分学校2025-2026学年九年级下学期开学考试化学试卷(含答案)
- 2026兴业银行天津分行招聘备考题库及答案详解【基础+提升】
- 2026春季中国工商银行江苏省分行校园招聘460人备考题库附完整答案详解【必刷】
- 依法合规业务运营承诺书5篇
- 2026四川九州光电子技术有限公司招聘采购岗2人备考题库附参考答案详解【a卷】
- 2026浙江宁波市余姚市自然资源和规划局招聘编外人员1人备考题库附完整答案详解(夺冠)
- 2026中国科大基本建设处劳务派遣岗位招聘4人备考题库附答案详解【完整版】
- 网络准入管理办法
- 《临床护理实践指南(2024版)》
- 电子厂考试题目及答案
- 某河道防洪堤坝建设项目可行性研究报告
- 访问控制安全管理制度
- 工程EPC总承包项目成本管控方案
- 电容储能螺柱焊机说明书
- 《Unit 1 Nice boys and girls》(教学设计)-2024-2025学年人教版PEP(一起)(2024)英语一年级下册
- 神经外科手术患者家属的照护指南
- 《质量、环境和职业健康安全管理体系程序文件》
- 一般情况皮肤淋巴结及头颈部检查课件
评论
0/150
提交评论