AI评估指标:BLEU/ROUGE/BERTScore与人类评测 对比三类常见文本评估指标的适用性与局限,并与人类评测结合形成稳健的评估框架。 数据科学与AI 2026年02月14日 0 点赞 0 评论 5 浏览