検索に使用する文書

id title content
0 Java Book Java programming is required to write Lucene application.
1 Java Programming Java is a popular computer language. I like Java.
2 Perl Book Perl is not a kind of jewelry. It is a programming language.

ボタンをクリックして検索を実行

検索式(デフォルト:content) 解説

tf(Term Frequency)は、Documentに含まれるTermの個数が多いほど大きくなる

idf(Inverse Document Frequency)は、検索式が複数の検索語からなるとき、希少語を重要視する。この場合、"java"(文書数2)よりも"perl"(文書数1)を含む文書が高いスコアを獲得する

検索式が複数の検索語からなるとき、検索語に重み(デフォルトは1.0)をつける。この場合、"perl"よりも"java"を含む文書が高いスコアを獲得する

フィールドの長さが短い方を重要視する。contentよりもフィールド長が短いtitleに"programming"を含む文書が高いスコアを獲得する

インデックス作成時にcontentのNormalizationを省略する。これによりcontentフィールドの長さが無視される

インデックス作成時にcontentに重み(3.0)をつけ、titleよりも重視されることを確認する

検索式が複数の検索語からなるとき、検索語をより多く含むほど大きくなる

検索式を自由に入力して検索を実行する(QueryParserを利用)




<ご注意>
このプログラムはApache Lucene 2.0のスコアリングのしくみを簡単に見られるよう、教育目的で公開しているものです。このプログラムの実行結果について、RONDHUITは一切の責任を負いません。


Copyright (c) 2007 RONDHUIT Co.,Ltd. All Rights Reserved