내용

글번호 1062
작성자 허진경
작성일 2021-06-22 13:20:36
제목 주요 성능 지표
내용 아래 내용은 모델의 평가를 위한 평가 방법들에 대한 설명입니다. 참고하시기 바랍니다. ● Loss Function(손실함수) : 예측한 값과 실제 값과의 차이를 계산하는 함수를 의미합니다. 정확도가 얼마나 잘 예측했는지를 나타낸다면 손실은 얼마나 틀렸는지를 나타내는 수치입니다. ● Accuracy(정확도) : 정확하게 예측한 것이 전체 중 몇 %인지를 나타내는 수치입니다. ● Precision(정밀도) : 두 개의 클래스 A, B를 예측해야 할 경우 Precision은 A에 대한 Precision과 B에 대한 Precision 두 수치가 있습니다. A의 Precision은 A라고 분류/예측했는데 실제 A일 확률을 의미합니다. ● Recall(재현률) Precision처럼 각 클래스별로 수치가 존재하며, A의 Recall은 실제 A인 것 중에서 A로 예측한 것들의 비율입니다. ● F-Beta : F-score, F1-score라고 부르기도 합니다. 이것은 Precision과 Recall 둘 다 중요한 평가 수치로 사용하기 위해서 두 값의 조화평균을 이용합니다. beta값이 2이면 Recall을 더 중요하게 생각하며, beta값이 0.5이면 Precision을 더 중요하게 생각합니다. 그러나 보통은 beta값을 1을 사용합니다. beta값이 1일 경우가 F1-score입니다. ● PR-Curve : Precision과 Recall의 변화를 그래프로 그린 것입니다. ● ROC(Receiver Operating Characteristic) : ROC 커브는 두 이진 분류 모델을 비교하기 위한 그래프입니다. 그래프의 x축은 FPR(False Positive Rate)을 나타내고 y축은 TPR(True Positive Rate)를 나타냅니다. 이 그래프의 아래 면적(AUC)을 이용해서 모델을 비교 평가합니다. ● AUC(Area Under Curve) : 두 이진 분류 모델을 비교/평가할 때 사용합니다. ROC커브의 아래 면적을 의미하며 가장 큰 값은 1입니다. ● BBox(Bounding Box) : 객체를 완전하게 둘러싼 가장 작은 사각형입니다. ● IoU(Intersection over Union) : 객체의 실제 BBox와 예측한 BBox를 합한 면적이 분모가 되고 두 BBox의 교집합이 분자가 되도록 계산한 값입니다. 보통 IoU가 0.5이상일 경우 객체를 올바르게 찾았음을 의미합니다. ● Confidence(신뢰도) : 다중 분류 문제의 경우 해당 클래스로 분류될 신뢰도를 의미합니다. 신뢰도가 높을수록 해당 클래스일 확률이 높습니다. ● MAE(Mean Absolute Error) : 실제 값과 예측한 값의 차이를 절댓값을 취한 후 평균을 계산한 값입니다. ● MSE(Mean Squared Error) : 실제 값과 예측한 값의 차이를 제곱한 후 평균을 계산한 값입니다. ● Hit-Rete : 통계학에서는 sensitivity로 사용됩니다. Recall(재현률)과 같습니다. 보통 Hit-Rate는 긍정과 부정의 분류 문제에서 긍정의 Recall을 의미합니다. ● IS(Inception Score) : 인공신경망 생성 모델(GAN)에서 사용합니다. 생성된 영상의 품질과 다양성(diversity)을 이용해 평가합니다. ● FID(Frechet Inception Score) : 인공신경망 생성 모델(GAN)에서 사용합니다. 생성된 영상의 품질을 평가하는데 사용합니다. ● M-SSIM(Multi Structural SIMilarity) : 영상의 품질을 평가할 때 사용합니다. ● PCP : Percentage of Correct Parts의 약어로 사용되면 Human Pose Estimation에 사용되며, 올바르게 예측한 골격의 비율을 의미합니다. Probabilistically Checkable Proof의 약어로 사용되면 확률적으로 검사할 수 있는 증명을 할 수 있는 판정 문제들의 복잡도 종류입니다. 이 PCP 증명은 계산 복잡도 이론에서 중요한 역할을 합니다. ● PCK(Percentage of Correct 3D Keypoints-3D PCK) : 3D PCK는 2차원 자세 추정에 이용되는 지표를 3차원으로 확장한 것으로, 관절 점의 추정 좌표와 정답 좌표의 거리가 설정한 임계 값보다 작은 경우 그 관절 점의 추정을 올바른 것으로 추정이 제대로 된 비율을 그 평가 값으로 합니다. ● PDJ(Percent of Detected) : 탐지된 비율을 의미합니다. ● MPJPE(Mean Per Joint Position Error)​ : 모든 관절의 추정 좌표와 정답 좌표의 거리(단위: mm)를 평균하여 산출되는 지표입다. 이것이 작을 수록 정확도가 좋다고 말할 수 있습니다. ● BLEU(Bilingual Evaluation Understudy) : 기계 번역 결과와 사람이 직접 번역한 결과가 얼마나 유사한지 비교하여 번역에 대한 성능을 측정하는 방법입니다. 자연어처리에서 자주 사용되는 기본적인 평가 방법으로 n-gram(1~4)을 통해 순서쌍들이 얼마나 겹치는지에 대한 측정을 통해 생성한 캡션이 실제 참조 캡션의 유사도를 측정하는 방법입니다. 문법구조, 유의어들에 대한 고려가 부족하기 때문에 한계가 뜨렷한 방법이지만 여전히 많이 사용되는 방법입니다. ● METEOR(Metric for Evaluation of Translation with Explicit ORdering) : 기계 번역 출력의 평가를 위한 메트릭입니다. 이 메트릭은 유니그램 정밀도 및 재현율의 조화평균을 기반으로하며 정밀도 보다 재현율이 더 높습니다. 또한 표준 정확한 단어 일치와 함께 형태소 분석 및 동의어 일치와 같은 다른 메트릭에서 찾을 수 없는 여러 기능이 있습니다. 이 메트릭은 더 많이 사용되는 BLEU에서 발견된 일부 문제를 수정하도록 설계되었습니다. 또한 문장 또는 세그먼트 수준에서 인간의 판단과 좋은 상관관계를 생성합니다. 이것은 BLEU가 말뭉치 수준에서 상관관계를 찾는다는 점에서 BLEU 메트릭과 다릅니다. ● ROUGE(Recall-Oriented Understudy for Gisting Evaluation) : 텍스트 요약 모델의 성능 평가 지표입니다. ROUGE는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표이며, 모델이 생성한 요약본 혹은 번역본을 사람이 미리 만들어 놓은 참조본과 대조해 성능 점수를 계산합니다. ● CIDEr(Consensus-based Image Description Evaluation) : 참조캡션과의 매칭을 이용하는 방법 중 최신의 것으로 이미지 캡셔닝의 평가를 위해 제안된 것입니다. ● SPICE : CIDEr이 문장의 직간접적 매칭 방식이 아닌 이미지에 대한 묘사가 아닌 단순한 n-gram의 겹침이 주가 된다는 문제점을 지적하며 참조캡션과 생성 캡션의 파싱된 scene graph간의 F-score를 측정한 수치입니다.