推理 - 叶斌兵

LLM 推理优化（Batching、Cache、Speculative Decoding 与验证）

总结大模型推理的性能优化方法，包括批处理、缓存与推测解码，并提供可验证的压测与观测路径。

性能优化 2026年02月13日 0 点赞 0 评论 14 浏览

KServe 模型部署与弹性推理实践（2025）

KServe 模型部署与弹性推理实践（2025）一、部署与接口InferenceService：统一模型入口与协议（REST/gRPC）。模型格式：支持 ONNX/TensorFlow/PMML 等多格式。二、弹性与发布Autoscaling：按 QPS/并发与延迟指标伸缩副本。Canary：按权重

数据科学与AI 2026年02月12日 0 点赞 0 评论 9 浏览

KServe 模型推理服务（Autoscaling、Canary 与性能验证）

基于 KServe 构建模型推理服务，配置自动伸缩与金丝雀发布，并通过压测与观测验证性能与稳定性。

性能优化 2026年02月12日 0 点赞 0 评论 14 浏览

KServe 推理服务自动伸缩与 GPU 调度治理（2025）

KServe 推理服务自动伸缩与 GPU 调度治理（2025）一、架构与部署模型服务：`InferenceService` 定义接口与路由；支持 REST/gRPC。资源：为 `GPU` 设置 requests/limits 与节点选择器；隔离不同模型的资源。存储：模型拉取与缓存策略，减少启动时延。

数据科学与AI 2026年02月12日 0 点赞 0 评论 12 浏览

GraphRAG：图结构增强检索与关系推理

以图结构作为知识组织与检索基础，结合语义检索与关系推理提升长链路问题的答案质量与可解释性。

API网关 2026年02月20日 0 点赞 0 评论 15 浏览

AI 推理服务的可伸缩架构与成本优化

总结 AI 推理服务的吞吐与时延优化手段，覆盖并发批处理、模型并行与量化，以及自动扩缩与成本治理策略。

制造与装配 2026年02月20日 0 点赞 0 评论 18 浏览

推理

首页

推理

列表

默认

浏览次数

发布日期

LLM 推理优化（Batching、Cache、Speculative Decoding 与验证）

KServe 模型部署与弹性推理实践（2025）

KServe 模型推理服务（Autoscaling、Canary 与性能验证）

KServe 推理服务自动伸缩与 GPU 调度治理（2025）

GraphRAG：图结构增强检索与关系推理

AI 推理服务的可伸缩架构与成本优化

推理 首页 推理

列表 默认 浏览次数 发布日期

LLM 推理优化（Batching、Cache、Speculative Decoding 与验证）

KServe 模型部署与弹性推理实践（2025）

KServe 模型推理服务（Autoscaling、Canary 与性能验证）

KServe 推理服务自动伸缩与 GPU 调度治理（2025）

GraphRAG：图结构增强检索与关系推理

AI 推理服务的可伸缩架构与成本优化

推理

首页

推理

列表

默认

浏览次数

发布日期