AI评估指标：BLEU/ROUGE/BERTScore与人类评测

YBB 5 阅读 0 评论 0 点赞

AI评估指标：BLEU/ROUGE/BERTScore与人类评测概览自动指标提供快速客观的参考，但在事实性与风格上存在局限。与人类评测结合能提升结论可靠性。技术参数（已验证）BLEU：以 n-gram 精确度衡量相似度，适合机器翻译场景。ROUGE：以 n-gram/最长公共子序列（LCS）召回为主，适合摘要任务。BERTScore：基于上下文嵌入计算相似，能捕获语义相近但表述不同的情况。实战清单结合任务属性选择指标，并进行标注集的人类评测校准。引入事实性与引用一致性检查，避免表面相似的错误内容。