数据科学与AI

LLM 函数调用与工具编排实践(2025)

LLM 函数调用与工具编排实践(2025)函数调用与工具编排让模型与系统协作,提升可控性与可复现性。一、接口与模式JSON Schema:定义函数参数与返回,校验输入输出。安全边界:限制可调用能力与资源,遵循最小权限。二、计划与执行计划执行:将多步任务拆分为计划与步骤,控制顺序与依赖。观察与回路:记

LangChain 代理与工具编排多步计划实践(2025)

LangChain 代理与工具编排多步计划实践(2025)一、接口与安全工具接口:以 JSON Schema 定义参数与返回。最小权限:限制可调用能力与速率与超时。二、计划与执行多步计划:拆分任务为子目标与序列化步骤。观察与反思:在每步记录观察并调整策略。三、观测与审计日志与回放:保留输入/输出与调

KServe 模型部署与弹性推理实践(2025)

KServe 模型部署与弹性推理实践(2025)一、部署与接口InferenceService:统一模型入口与协议(REST/gRPC)。模型格式:支持 ONNX/TensorFlow/PMML 等多格式。二、弹性与发布Autoscaling:按 QPS/并发与延迟指标伸缩副本。Canary:按权重

KServe 推理服务自动伸缩与 GPU 调度治理(2025)

KServe 推理服务自动伸缩与 GPU 调度治理(2025)一、架构与部署模型服务:`InferenceService` 定义接口与路由;支持 REST/gRPC。资源:为 `GPU` 设置 requests/limits 与节点选择器;隔离不同模型的资源。存储:模型拉取与缓存策略,减少启动时延。