AbstractBufferedCharFilter |
|
BasicNGramTokenizer |
非推奨
|
BasicNGramTokenizerFactory |
非推奨
|
ICUTransliterateTokenFilter |
|
ICUTransliterateTokenFilterFactory |
|
JaBuzzPhraseTokenizer |
アルファベット、漢字およびカタカナからなる指定された文字長以上の長さの単語を「専門用語」とみなしてトークンを抽出する。
|
JaBuzzPhraseTokenizerFactory |
|
JaReadingFilter |
別途作成した読み辞書を使用して漢字トークンをよみがなに変換する。
|
JaReadingFilterFactory |
|
JaReadingInjectionFilter |
|
JaReadingInjectionFilterFactory |
|
JaReadingSynonymFilter |
別途作成した読み辞書を使用して漢字トークンをよみがなシノニムに展開する。
|
JaReadingSynonymFilterFactory |
|
JaStringTypeFilter |
トークン文字列の「タイプ」(ひらがな、カタカナ、漢字、アルファベット)を基準にフィルタリングする。
|
JaStringTypeFilterFactory |
|
JaSuggestFilter |
日本語サジェスト用のフィルター。
|
JaSuggestFilterFactory |
|
JavaNormalizerCharFilter |
|
JavaNormalizerCharFilterFactory |
|
Kanji1GramTokenizer |
|
Kanji1GramTokenizerFactory |
|
KanjiNumberCharFilter |
"四十七"などの漢数字を"47"という算用数字(アラビア数字)に正規化する。
|
KanjiNumberCharFilterFactory |
|
KatakanaStemCharFilter |
|
KatakanaStemCharFilterFactory |
|
KnownWordsTokenizer |
FST 上に作成された辞書に掲載されているキーワードだけをトークナイズする。
|
KnownWordsTokenizerFactory |
|
NakaguroCharFilter |
外来語に使われる中黒(全角 U+30FB, 半角 U+FF65)の有無を正規化し、相互にヒットするようにする。
|
NakaguroCharFilterFactory |
|
NGramKatakanaStemFilter |
|
NGramKatakanaStemFilterFactory |
|
NGramSynonymTokenizer |
|
NGramSynonymTokenizerFactory |
|
OdorijiCharFilter |
「時々」と「時時」など、漢字/ひらがな/カタカナ文字の繰り返し記号を使用するいわゆる
「 踊り字」のサポート。
|
OdorijiCharFilterFactory |
|
POSAsMappedBytePayloadTokenFilter |
|
POSAsMappedBytePayloadTokenFilterFactory |
|
ProlongedSoundMarkCharFilter |
全角カタカナまたはひらがなのうしろの下表の文字を長音記号(U+30FC "KATAKANA-HIRAGANA PROLONGED SOUND MARK")に正規化する CharFilter 。
|
ProlongedSoundMarkCharFilterFactory |
|
SingleTokenFilter |
複数のトークンを一つにつなげる。
|
SingleTokenFilterFactory |
|
SupportTestFilterFactory |
記号"/"と","を使って表現されたトークンの位置増分とオフセットを指示に従い設定する。
|
TypeAsMappedBytePayloadTokenFilter |
|
TypeAsMappedBytePayloadTokenFilterFactory |
|
WarekiCharFilter |
|
WarekiCharFilterFactory |
|