---
title: LLM 服务端流式传输与断点续传(SSE/WebSocket、分片与验证)
date: 2025-11-26
keywords:
- LLM
- SSE
- WebSocket
- 流式响应
- 断点续传
description: 使用SSE或WebSocket提供LLM流式输出,并通过分片与游标实现断点续传与重试安全,给出服务端与客户端实现与验证方法。
categories:
- 文章资讯
- 编程技术
---
概述
LLM输出通常较长,流式传输可提升交互体验。结合分片标记与游标状态可在网络中断后实现续传与幂等重试,提升鲁棒性与用户体验。
关键实践与参数
- 传输协议: SSE用于单向文本流,WebSocket用于双向控制
- 分片标记: 为每段输出标记
seq与cursor - 断点续传: 客户端携带
cursor请求续传 - 重试安全: 基于请求ID去重,幂等生成并缓存片段
- 观测: 记录流会话时长、片段数量与重试次数
示例/配置/实现
// Node.js SSE 服务端
import express from 'express'
const app = express()
app.get('/stream', (req, res) => {
res.setHeader('Content-Type', 'text/event-stream')
res.setHeader('Cache-Control', 'no-cache')
const cursor = Number(req.query.cursor || 0)
const chunks = ['Hello', ' ', 'world', '!']
for (let i = cursor; i < chunks.length; i++) {
res.write(`event: chunk\n`)
res.write(`data: ${JSON.stringify({ seq: i, text: chunks[i] })}\n\n`)
}
res.end()
})
app.listen(8080)
// 浏览器 SSE 客户端
let cursor = 0
function start() {
const es = new EventSource(`/stream?cursor=${cursor}`)
es.addEventListener('chunk', (e) => {
const { seq, text } = JSON.parse(e.data)
cursor = seq + 1
document.body.innerText += text
})
es.onerror = () => { es.close(); setTimeout(start, 1000) }
}
start()
// WebSocket 双向控制(续传请求)
const ws = new WebSocket('wss://example.com/llm')
ws.onopen = () => { ws.send(JSON.stringify({ type: 'resume', cursor: 2 })) }
ws.onmessage = (e) => { const m = JSON.parse(e.data); /* append m.text */ }
验证
- 中断恢复: 断网后重连携带
cursor,从下一片段继续 - 幂等与去重: 重试同一请求ID不重复生成与返回片段
- 延迟与体验: 记录首片段延迟与整体拼接耗时
- 兼容性: SSE与WebSocket在不同网络环境下均可工作
注意事项
- 流式接口需限速与断路保护
- 存储与缓存片段需设置生命周期
- 对超长输出进行分页与终止控制
- 结合鉴权与账单策略管理会话

发表评论 取消回复