资源详情

LLM 推理优化与部署实战|01-vLLM推理实战 x

LLM 推理优化与部署实战

01-vLLM推理实战 .docx 2.7MB

02-量化实战-高级 .docx 4.4MB

1-1 课程内容介绍持续更新‖免费提供CunworknoteS.mp4 7.2MB

1-10 LLM推理基础-章节总结 .mp4 23.8MB

1-11 LLM性能指标-内容介绍 .mp4 6.9MB

1-12 LLM性能指标-推理评估指标全景图公重号CunWorkNotes.mp4 12.9MB

1-13 LLM性能指标-首词生成时间持续更新‖免费提供CunworknoteS.mp4 10.9MB

1-14 LLM性能指标-每词生成时间公重号CunWorkNotes.mp4 5.5MB

1-15 LLM性能指标-端到端的请求时间公重号CunWorkNotes.mp4 8.6MB

1-16 LLM性能指标-系统吞吐量TPS公重号CunWorkNotes.mp4 14.5MB

1-17 LLM性能指标-业务指标SLO .mp4 23.7MB

1-18 LLM性能指标-评测过程与评测工具不易整理‖请关注CunWorkNoteS.mp4 31.6MB

1-19 LLM性能指标-章节总结 .mp4 15.5MB

1-2 LLM推理基础-预填充与解码阶段 .mp4 39.9MB

1-20 模型压缩-内容介绍 .mp4 14.3MB

1-21 模型压缩-压缩策略-量化-剪枝-蒸馏 .mp4 21.5MB

1-22 模型压缩-模型量化-参数存储空间的组成 .mp4 17.3MB

1-23 模型压缩-模型量化前后使用的方法AWQ与GPTQ .mp4 21.4MB

1-24 模型压缩-AWQ针对PPL的实验结果持续更新‖免费提供CunworknoteS.mp4 21.4MB

1-25 模型压缩-AWQ量化过程与实现-持续更新‖免费提供CunworknoteS.mp4 47.2MB

1-26 模型压缩-GPTQ量化过程以及优化IO策略公重号CunWorkNotes.mp4 43.6MB

1-27 模型压缩-GPTQ量化工具与实践 .mp4 8.1MB

1-28 模型压缩-剪枝分类和过程详解 .mp4 30.1MB

1-29 模型压缩-模型蒸馏分类和应用场景 .mp4 28.4MB

1-3 LLM推理基础-推理阶段与KVCache的关系 .mp4 19.1MB

1-30 模型压缩-章节总结 .mp4 29.3MB

1-31 运行时加速方案-内容介绍 .mp4 11.9MB

1-32 运行时加速方案-多头注意力机制原理与弊端 .mp4 23.6MB

1-33 运行时加速方案-多头注意力计算过程与分析整理不易‖记得关注CunWorKNotes.mp4 14.8MB

1-34 运行时加速方案-MQA与GQA机制以及性能比较持续更新‖免费提供CunworknoteS.mp4 20.9MB

1-35 运行时加速方案-GPU运算与数据传输分析公重号CunWorkNotes.mp4 26.3MB

1-36 运行时加速方案-FlashAttention切块和算子 .mp4 23.9MB

1-37 运行时加速方案-PagedAttention原理解析资源精选‖更多关注CunworkNotes.mp4 44.9MB

1-38 运行时加速方案-持续批处理原理解析 .mp4 38.6MB

1-39 运行时加速方案-核心推理框架选型 .mp4 21.1MB

1-4 LLM推理基础-生成KVCache过程推演不易整理‖请关注CunWorkNoteS.mp4 33.1MB

1-40 运行时加速方案-章节总结不易整理‖请关注CunWorkNoteS.mp4 23.1MB

1-41 推理部署实战指导与总结整理不易‖记得关注CunWorKNotes.mp4 22.6MB

1-5 LLM推理基础-为何需要对KVCache优化整理不易‖记得关注CunWorKNotes.mp4 16.7MB

1-6 LLM推理基础-如何估算模型占用内存整理不易‖记得关注CunWorKNotes.mp4 29.8MB

1-7 LLM推理基础-GPU内部运算原理与推理机制的关系资源精选‖更多关注CunworkNotes.mp4 48.5MB

1-8 LLM推理基础-列举LLM存储介质以及如何搬运参数 .tle 17.9MB

1-9 LLM推理基础-优化思路-参数量化-运行时加速-IO优化 .mp4 11.7MB

2-1 vLLM产品介绍 .mp4 28.3MB

2-2 vLLM分布式推理 .mp4 35.8MB

2-3 显卡驱动安装与配置 .mp4 39.5MB

2-4 Docker进行vLLM模型安装与部署优质资源‖关注cunWorkNotes 解锁.mp4 28.1MB

2-5 测试vLLM部署的大模型 .mp4 33.9MB

2-6 vLLM分布式部署思路优质资源‖关注cunWorkNotes 解锁.mp4 39.7MB

2-7 系统构建网络配置和框架安装持续更新‖免费提供CunworknoteS.mp4 48.5MB

2-8 Head和Worker节点配置创建推理集群 .mp4 37.1MB

2-9 测试vLLM分布式部署 .mp4 43.5MB

3-1 量化实战-量化目的与结果介绍 .mp4 46.2MB

3-10 介绍EvalScope与Perf命令组成 .mp4 49.8MB

3-11 使用EvalScope评测量化模型持续更新‖免费提供CunworknoteS.mp4 52.3MB

3-12 介绍LLMCompressor量化工具优质资源‖关注cunWorkNotes 解锁.mp4 36.5MB

3-13 安装LLMCompressor .mp4 16.5MB

3-14 使用LLMCompressor对GPTQ-AWQ-NV整理不易‖记得关注CunWorKNotes.tle 51.4MB

3-15 针对两种量化工具比较四种量化结果 .mp4 43.1MB

3-16 量化实战-课程总结公重号CunWorkNotes.tle 16.8MB

3-2 量化实战-思路与实战步骤讲解整理不易‖记得关注CunWorKNotes.mp4 25.1MB

3-3 量化实战-了解硬件架构量化工具 .mp4 19.3MB

3-4 量化实战-安装WSL与Conda整理不易‖记得关注CunWorKNotes.mp4 32.4MB

3-5 TensorRT模型优化器安装与配置 .mp4 61.4MB

3-6 NVFP4量化格式整理不易‖记得关注CunWorKNotes.mp4 35.2MB

3-7 模型量化脚本解析与校准数据集 .mp4 49.0MB

3-8 模型量化以及结果查看 .mp4 24.9MB

3-9 测试量化之后模型查看返回结果 .mp4 34.3MB

tle格式播放器说明 .txt 0.0MB

《LLM推理优化与部署实战》课件 .pptx 13.2MB

文件大小:1.8GB时间:2026-03-10举报资源

提取密码dkmx 点击复制

网盘链接有效，可以访问

前往百度网盘下载打赏支持

使用说明

《LLM 推理优化与部署实战|01-vLLM推理实战 x》来源于网盘资源爬虫采集。盘搜搜不复制、传播、储存任何网盘资源，也不提供资源下载服务，链接会跳转至百度网盘，资源的安全性与有效性请您自行辨别。

资源详情

LLM 推理优化与部署实战|01-vLLM推理实战 x

推荐资源

使用说明