Hatena::Groupasakura

全文検索エンジン

全文検索エンジン

 何故だか最近全文検索エンジンの開発が流行っている模様。

 N-gramが今更のように流行っているのは、ディスクスペースを気にしなくても良くなったからでしょうかね。それとも何かうまい手が見つかって、N-gramでもディスクスペースをそんなに消費しないようになったのかもしれませんけれど。


 日本語は分かち書きされてないので云々という話を昔は良く聞いたものだけれど、仮名漢字まじりという特性を活かせばもっとうまくいくんじゃないの? とか思ったり思わなかったり。

 ちなみに今はMeCabを使って形態素解析するのが流行りらしい。


Estraier

  • これが一番古い、のかな?
  • 新版の「Hyper Estraier」を開発中の模様

Senna

  • MySQLのFullTextIndexとして組み込める

Rast

  • 未踏プロジェクトらしい

 ……まだあったような。

* はてなダイアリーキーワード:全文検索エンジン