[Mahout] Recall And Precision

IRStats의 메서드 중 getRecall이라는 메서드가 반환하는 값의 의미를 찾기 위해 wiki를  찾아보니

패턴 인식과 정보 검색에서 다루는 precision과 recall의 차이점을 알고 이해할 필요가 있다.

w1(긍정[positive])과 w2(부정[negative])에 속한 데이터를 분류기(검색)에 넣고 돌린 결과 값에 대한 정의는 다음가 같다.

tp (true positive) correct result
-> w1을 w1으로 올바르게 분류한 샘플을 참 긍정

fp (false posivite) unexpected result
-> w2를 w1으로 틀리게 분류한 샘플을 거짓 긍정

fn (false negative) missing result
-> w1을 w2로 틀리게 분류한 샘플을 거짓 부정

tn (true negative) correct absence of result
-> w2를 w2로 옳게 분류한 샘플을 참 부정

\text{Precision}=\frac{tp}{tp+fp} \,
-> 올바른 값이 얼마나 나왔냐?
예를 들어 검색 결과가 모두 올바른 값으로 주장하고 있으며 검색 결과 내에서 찾고자 하는 데이터가 얼마나 나왔는가? 이때 정확도라고 표현할 수 있다.(검색은 오직 참값만을 찾는 분류기)

\text{Recall}=\frac{tp}{tp+fn} \,
-> 재현률, 즉 기계학습에서 얼마만큼 분류를 잘 해내었는지에 대한 테스트로
w1에 대한 데이터 셋을 주고 검색을 돌린다면
검색 결과 셋에 포함된 것을 true positive, 검색결과에 제외된 셋을 false negative(즉 w1에 포함되어야 하는 데이터 셋임에도 불구하고 검색에서 제외되었기 때문에)이라 하고
검색결과(tp)를 전체 데이터 셋(w1)로 나눈 비율을 재현률이라 한다.

패턴인식 2장에 보았던 재현률과 정확도를 의미하는 것으로 조각났던 기억의 퍼즐들이 하나씩 맞춰지는 느낌이다.

광고

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중