모델평가 2

모델 평가 방법(Text Output)

Text Output BLEU Rouge LMM as a Judge ChatArena BLEU 기계번역 품질 평가를 위해 많이 평가되는 메트릭 번역 텍스트와 인간 번역 사이 유사성을 기반으로측정 n-gram 오버랩을 계산해서 점수 산출 정답과 유사한 단어가 나와야 점수가 높게 나오기 때문에, 맥락에 따라 다른 단어가 사용이 되면 점수가 높게, 같은 맥락의 새로운 단어를 사용하면 점수가 낮게 나오는 문제점 Rouge 자동요약 품질 평가를 위해 많이 사용되는 메트릭 생성 요약과 인간 요약 사이 유사성을 기반으로 측정 BLEU와 비슷한 문제점 BLEU-Rouge 한계 문맥적 상황과 언어적 뉘앙스를 충분히 반영 못한 언어별 문화적 배경에 대한 깊은 이해 없이 평가 어려움 동일한 의미를 다르게 표현한 것에 대한 ..

모델 평가 방법(Numeric Output)

Metric 메트릭이란 데이터셋에 대해 모델의 성능을 평가하는 지표 Numeric Output Cost, Error Accuracy Precision Recall Cost, Error Metric 손실함수(Loss function) 실제 y 값에 비해 가정한 모델 hθ​ 의 y^​(=hθ​(x))(추정값)이 얼마나 잘 예측했는지 판단하는 함수. 비용함수(Cost Function) 머신러닝 알고리즘에서 최적화는 비용함수의 값이 가장 작아지는 최적의 파라미터를 찾는 과정. 이를 달성하기 위해서, 경사하강법(Gradient Descent) 기반의 방식이 가장 기본이 되는 알고리즘이다. 출처 비용함수(Cost Function), 손실함수(Loss function), 목적함수(Objective Function) ..