2004年07月24日

Heimdallrに自動学習機能追加を検討中(2/2)

前回の続きです。

Heimdallrに自動学習機能を搭載してみるにあたり、一つ割り切らないとならないことがあります。

それは性能です。
自動学習機能は、本当に真面目に作ると、それをネタに論文が書けるでしょう。
そこまで真面目に作るつもりはありません。というかできません。
よって多少いい加減な自動学習機能になるでしょう。

アルゴリズムの概要は次のようなものです。

  1. 利用者が閲覧した記事のタイトル文字列を解析して、固有名詞を抜き出します。
  2. それぞれの固有名詞の登場回数を記録していきます。
  3. 登場回数が一定回数を超えると、その固有名詞は利用者が興味を持つ固有名詞だと判定し、それ以降その固有名詞が含まれた記事を優先的に表示します。

ありきたりのアルゴリズムというか、まあそんな特別な工夫があるわけでもないです。

さてここで問題になるのが、タイトル文字列を解析して固有名詞を抜き出す方法です。
それ以外は、現状のキーワード設定機能と大きく変わるものでもないので、頑張ればなんとかなるでしょう。

文字列を解析して固有名詞を抜き出すためには、形態素解析ができれば良いようです。
形態素解析についてはウィキペディアに解説がありますが、要は文章を単語に分解して夫々の品詞を見分ける作業です。

形態素解析を行うためには、形態素解析ツールと、巨大な辞書が必要になりますが、
上記のウィキペディアにあるとおり、フリーの形態素解析ツールと辞書が存在するようです。
ありがたいことです。

これを使えば、Heimdallrでも形態素解析ができるようになりますので、自動学習機能もなんとか搭載できそうです。
使用する形態素解析ツールの有力候補はJumanです。
Windows用バイナリがあるので、これを使えばすぐ作れそうですし、ライセンスもBSDライセンスに似たものですので(なんと辞書までBSDライセンス!)、HeimdallrにJumanを組み込むこともできそうです。

と言っても、アルゴリズムの細かい点は結構課題が山積みなので、まだまだ先は長そうです。

投稿者 MASATO : 2004年07月24日 02:18 | トラックバック
コメント
コメントする









名前、アドレスを登録しますか?