[Lucene] Analyzer 소스코드 분석

Lucene 3.6을 기준으로 공부 하였다.
상단 주석 설명 내용을 기준으로 보면
Analyzer 클래스는 Abstract class로 text를 분석할 TockenStream을 만든다.
이건은 text로부터 index term을 추출하기 위한 정책(방법이나 전략)을 표현하기도 한다.
reader는 문자 stream을 가공되지 않은 token 형태로 나눈다.
TokenFilter는 Tokenizer의 output에 적용된다.
CollectionKeyAnalyzer를 예를 들면 다음과 같은 형태이다.

public TokenStream tokenStream(String fieldName, Reader reader) {
TokenStream result = new KeywordTokenizer(reader);
result = new CollationKeyFilter(result, collator);
return result;
}

여러가지 형태의 Analyzer를 이용하여 동사, 명사, phrase 들을 분석하고 추출하여 term을 만들 수 있다.

광고

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중