参照先: 説明
パッケージ | 説明 |
---|---|
com.rondhuit.html |
RCSSパッケージのうち、HTMLに関する実装をしているクラスを提供している。
|
com.rondhuit.lucene.tool |
Luceneツール関係のパッケージ。
|
com.rondhuit.solr.analysis | |
com.rondhuit.solr.analysis.morpho |
JaSynonymTokenizer形態素解析器に関する実装をしているクラスを提供している。
|
com.rondhuit.solr.response |
カスタムの
QueryResponseWriter を集めたパッケージ。 |
com.rondhuit.solr.search |
検索関連のクラスを集めたパッケージ。
|
com.rondhuit.solr.spell |
「もしかして」検索機能関連のクラスを集めたパッケージ。
|
com.rondhuit.solr.tool |
コマンドラインツールなどを集めたパッケージ。
|
com.rondhuit.solr.update |
UpdateRequestProcessor 等、インデックス作成関連のクラスを集めたパッケージ。 |
com.rondhuit.solr.util |
その他のユーティリティ関係のパッケージ。
|
同類の複数のHTMLページからノイズを同定してノイズブロックを削除します。検索エンジンのインデックスに登録するHTMLファイルからの冗長ブロックの削除、Webをクロールして収集したHTMLファイルのコーパス利用のためのツール作成、ハードディスク容量の削減などに利用できます。アルゴリズムはおよそ、次の通りです。
入力ミスの例 | 「もしかして」で出力される例 | 備考 |
---|---|---|
笑止高齢化 | 少子高齢化 | |
いんたーねっt | インターネット | 最後の"o"を入力せず変換が正しくできないまま検索した例 |
しゃ皆保険 | 社会保険 | |
滑稽銀 | 国会議員 | |
オーストリア | オーストラリア | データソースに「オーストリア」がないため |
partner湿布 | パートナーシップ | |
滅入るマガジン リーマン | メールマガジン サラリーマン | 2単語以上の誤りにも同時に対応 |
クラスタリング機能はファセット機能と並び、大量にヒットした文書から、目的の文書をすばやく見つけるための絞り込みに役立ちます。フィールドファセットと異なり、あらかじめ絞り込み用のフィールドを整備する必要がありません。そのため、R&D部門など創造性が重視される部門ではスコアの低い文書を掘り起こし、いろいろな「気づき」を与えてくれるなどの効用が知られています。
Solrにはもともと検索語をサジェストするための支援機能がありますが、日本語ではIMEが介在するためにその機能は使えません。本プラグインを使用すれば、日本語環境に対応した検索語のサジェスチョンが可能となります。
サジェストする文字列は自由に選ぶことができます。クエリログをサジェストするのが一般的ですが、商品名や文献のタイトルなどをサジェスト文字列とすることも可能です。さらに、インデックスから専門用語性の高い文字列を抽出してサジェストすることもできます。サジェストデータを工夫することで、パーソナライズドされた(フィルタリングされた)サジェスチョンも可能です。
日本語検索語サジェスチョンのデモ(弊社ホームページの検索窓)がありますのでご覧ください。
項目 | 説明 |
---|---|
N-gramフィールドの 高速検索 | クエリ中の単語の長さに応じて適切なサイズ(N)のフィールドを自動的に選択することで、漏れがなく高速な検索を実現します。 |
パーソナライズ 検索 |
単純ベイズ分類器を用いてアクセスログを解析し、個人またはグループ分けされたユーザの好みをランキングに反映します。
(注意:パーソナライズのしくみ上、多くのメモリを必要とします。)
|
概要 | 日本語サンプル |
---|---|
半角・全角正規化 | アイウ123 <=> アイウ123 |
新旧漢字変換 | 慶應大学 <=> 慶応大学 |
外来複合語の中黒表記有無 | オープンソース・ソフトウェア <=> オープンソースソフトウェア |
踊り字 | 時々 <=> 時時、部分々々 <=> 部分部分、いすゞ自動車 <=> いすず自動車 |
読み変換 | かたかな <=> カタカナ <=> katakana 日本語=>にほんご |
漢数字=>算用数字正規化 | 四七=>47 四十七=>47 四拾七=>47 四〇七=>407 |
和暦=>西暦正規化 |
新聞記事検索、官報や官公庁が発行する記事の検索、歴史的資料の検索などに便利です。和暦は西暦に正規化されるので、元号/年号をまたがった範囲検索や和暦と西暦が混在した検索も可能です。
|
正規分解(NFD) 互換分解(NFKD) 正規合成(NFC) 互換合成(NFKC) | か゛ <=> が |
漢字1文字の社名や店名の最適化検索 | 居酒屋 和 |
適用例 | 説明 |
---|---|
ユニークキーの作成 | 他の複数のフィールド値の一部を正規表現で指定して抽出し、組み合わせることでユニークキーの値として使用します。 |
UTC日付変換 | 自由書式で書かれた日時文字列を、Solrが認識するUTCフォーマット/タイムゾーンの日付文字列に変換します。 |
HTMLタグ除去 | 指定したフィールドからHTMLタグを取り除きます。 |
URLデコード | 指定したフィールドのエンコーディングされたURL文字列をデコードします。 |
プラグイン | 出力スニペット |
---|---|
適用前 | とで、ハイライトスニペットをより見やすく表示することがで |
適用後 | 使用することで、ハイライトスニペットをより見やすく表示することができます。 |
適用例 | 説明 |
---|---|
分散検索時タイムアウト試験 | 分散検索のテストにおいて特定のShardサーバで意図的にタイムアウトを発生させることができます。 |
検索時エラー発生試験 | 検索のテストにおいて意図的にエラーIOException を発生させることができます。分散検索でも使えます。 |
単体テスト開発支援 | 思いのままのTokenStream を発生させることができるTokenFilter が提供されます。単体テストを早く書くのに便利です。 |
Copyright © 2009-2018 RONDHUIT Co.,Ltd. All Rights Reserved.