Text Output BLEU Rouge LMM as a Judge ChatArena BLEU 기계번역 품질 평가를 위해 많이 평가되는 메트릭 번역 텍스트와 인간 번역 사이 유사성을 기반으로측정 n-gram 오버랩을 계산해서 점수 산출 정답과 유사한 단어가 나와야 점수가 높게 나오기 때문에, 맥락에 따라 다른 단어가 사용이 되면 점수가 높게, 같은 맥락의 새로운 단어를 사용하면 점수가 낮게 나오는 문제점 Rouge 자동요약 품질 평가를 위해 많이 사용되는 메트릭 생성 요약과 인간 요약 사이 유사성을 기반으로 측정 BLEU와 비슷한 문제점 BLEU-Rouge 한계 문맥적 상황과 언어적 뉘앙스를 충분히 반영 못한 언어별 문화적 배경에 대한 깊은 이해 없이 평가 어려움 동일한 의미를 다르게 표현한 것에 대한 ..