前回の続きです。
Heimdallrに自動学習機能を搭載してみるにあたり、一つ割り切らないとならないことがあります。
それは性能です。
自動学習機能は、本当に真面目に作ると、それをネタに論文が書けるでしょう。
そこまで真面目に作るつもりはありません。というかできません。
よって多少いい加減な自動学習機能になるでしょう。
アルゴリズムの概要は次のようなものです。
ありきたりのアルゴリズムというか、まあそんな特別な工夫があるわけでもないです。
さてここで問題になるのが、タイトル文字列を解析して固有名詞を抜き出す方法です。
それ以外は、現状のキーワード設定機能と大きく変わるものでもないので、頑張ればなんとかなるでしょう。
文字列を解析して固有名詞を抜き出すためには、形態素解析ができれば良いようです。
形態素解析についてはウィキペディアに解説がありますが、要は文章を単語に分解して夫々の品詞を見分ける作業です。
形態素解析を行うためには、形態素解析ツールと、巨大な辞書が必要になりますが、
上記のウィキペディアにあるとおり、フリーの形態素解析ツールと辞書が存在するようです。
ありがたいことです。
これを使えば、Heimdallrでも形態素解析ができるようになりますので、自動学習機能もなんとか搭載できそうです。
使用する形態素解析ツールの有力候補はJumanです。
Windows用バイナリがあるので、これを使えばすぐ作れそうですし、ライセンスもBSDライセンスに似たものですので(なんと辞書までBSDライセンス!)、HeimdallrにJumanを組み込むこともできそうです。
と言っても、アルゴリズムの細かい点は結構課題が山積みなので、まだまだ先は長そうです。