---

title: LLM 服务端流式传输与断点续传(SSE/WebSocket、分片与验证)

date: 2025-11-26

keywords:

  • LLM
  • SSE
  • WebSocket
  • 流式响应
  • 断点续传

description: 使用SSE或WebSocket提供LLM流式输出,并通过分片与游标实现断点续传与重试安全,给出服务端与客户端实现与验证方法。

categories:

  • 文章资讯
  • 编程技术

---

概述

LLM输出通常较长,流式传输可提升交互体验。结合分片标记与游标状态可在网络中断后实现续传与幂等重试,提升鲁棒性与用户体验。

关键实践与参数

  • 传输协议: SSE用于单向文本流,WebSocket用于双向控制
  • 分片标记: 为每段输出标记 seqcursor
  • 断点续传: 客户端携带 cursor 请求续传
  • 重试安全: 基于请求ID去重,幂等生成并缓存片段
  • 观测: 记录流会话时长、片段数量与重试次数

示例/配置/实现

// Node.js SSE 服务端
import express from 'express'
const app = express()
app.get('/stream', (req, res) => {
  res.setHeader('Content-Type', 'text/event-stream')
  res.setHeader('Cache-Control', 'no-cache')
  const cursor = Number(req.query.cursor || 0)
  const chunks = ['Hello', ' ', 'world', '!']
  for (let i = cursor; i < chunks.length; i++) {
    res.write(`event: chunk\n`)
    res.write(`data: ${JSON.stringify({ seq: i, text: chunks[i] })}\n\n`)
  }
  res.end()
})
app.listen(8080)
// 浏览器 SSE 客户端
let cursor = 0
function start() {
  const es = new EventSource(`/stream?cursor=${cursor}`)
  es.addEventListener('chunk', (e) => {
    const { seq, text } = JSON.parse(e.data)
    cursor = seq + 1
    document.body.innerText += text
  })
  es.onerror = () => { es.close(); setTimeout(start, 1000) }
}
start()
// WebSocket 双向控制(续传请求)
const ws = new WebSocket('wss://example.com/llm')
ws.onopen = () => { ws.send(JSON.stringify({ type: 'resume', cursor: 2 })) }
ws.onmessage = (e) => { const m = JSON.parse(e.data); /* append m.text */ }

验证

  • 中断恢复: 断网后重连携带 cursor,从下一片段继续
  • 幂等与去重: 重试同一请求ID不重复生成与返回片段
  • 延迟与体验: 记录首片段延迟与整体拼接耗时
  • 兼容性: SSE与WebSocket在不同网络环境下均可工作

注意事项

  • 流式接口需限速与断路保护
  • 存储与缓存片段需设置生命周期
  • 对超长输出进行分页与终止控制
  • 结合鉴权与账单策略管理会话

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部