RAG评估指标:Faithfulness与Answer Relevance概览RAG 质量评估需同时度量答案是否“忠实于证据”与“针对问题且不跑题”。常见方法:LLM 评审、语义相似度与基于任务的自动化得分。技术参数(已验证)忠实度(Faithfulness):判断回答是否仅基于提供的上下文;可用基于规则或 LLM-as-judge;避免幻觉与事实外推。相关性(Answer Relevance):度量回答与问题的匹配程度;结合语义相似度与余弦距离等方法。上下文指标:Context Precision/Recall 衡量检索片段的必要性与覆盖度;Citation Coverage 衡量引用命中率。数据集构建:包含正/负样例与多样问题类型;维护黄金参考与更新节奏,避免评测过拟合。运行度量:对指标进行基准化与置信评估;记录评分分布与漂移以触发回归测试。实战清单建立离线评测流水线(如 RAGAS)并与 CI 集成;提交变更触发自动评测。对检索器与生成器分别设 SLO 与告警阈值;监控长期漂移与回归。引入人工抽样复核与难例集;将评测样本与失败原因纳入知识库。

发表评论 取消回复