Analyzer Character Filters HTML Strip Char Filter Mapping

Slides: 1

Analyzer Character Filters HTML Strip Char Filter Mapping Char Filter Pattern Replace Char Filter Tokenizers Standard Tokenizer Letter Tokenizer Lowercase Tokenizer Whitespace Tokenizer UAX URL Email Tokenizer Classic Tokenizer Thai Tokenizer NGram Tokenizer Edge NGram Tokenizer Keyword Tokenizer Pattern Tokenizer Path Hierarchy Tokenizer [정의] • Tokenizers 1개에 0개 이상의 Filter와 결합되어 Analyzer가 되다. • Analyzer 는 위와 같이 3단계로 실행된다. [제약사항] • Character Filters 는 선언한 순서로 실행된다. • Token Filters 는 선언한 순서로 실행된다. [처리 프로세스] 1. Character Filters 처리 결과 Token정보를 Tokenizers 에 전달한다. 2. Tokenizers 처리 결과 Token Filters에 전달한다. 3. Token Filters 처리 결과 ES에 색인한다. Token Filters Standard Token Filter ASCII Folding Token Filter Flatten Graph Token Filter Length Token Filter Lowercase Token Filter Uppercase Token Filter NGram Token Filter Edge NGram Token Filter Porter Stem Token Filter Shingle Token Filter Stop Token Filter Word Delimiter Graph Token Filter Stemmer Override Token Filter Keyword Marker Token Filter Keyword Repeat Token Filter KStem Token Filter Snowball Token Filter Phonetic Token Filter Synonym Graph Token Filter Compound Word Token Filters Reverse Token Filter Elision Token Filter Truncate Token Filter Unique Token Filter Pattern Capture Token Filter Pattern Replace Token Filter Trim Token Filter Limit Token Count Token Filter Hunspell Token Filter Common Grams Token Filter Normalization Token Filter CJK Width Token Filter CJK Bigram Token Filter Delimited Payload Token Filter Keep Words Token Filter Keep Types Token Filter Classic Token Filter Apostrophe Token Filter Decimal Digit Token Filter Fingerprint Token Filter Minhash Token Filter