Heimdallrには、バージョン1.06alpha2から自動学習機能が搭載されています。
この自動学習機能は、公式には次のように説明されています。
「Heimdallrの自動学習機能は、利用者の好みを学習し、利用者が興味を持ちそうな記事を優先的にビューに表示する機能です。」
うーむこう書くとなんとなく凄そうに見えますね。
でも実際はそんな大したものではないのでこう書くのが正しいでしょう。
「Heimdallrの自動学習機能は、利用者が見た記事の内容をてきとーに記録しておいて、利用者が興味を持っていそうな感じだとなんとなく思った記事をそれっぽくビューに表示する機能です。」
・・・。
それはともかく。
最近Heimdallrの自動学習機能をテストするため、自分で色々使ってみているのですが、まだ色々難点がありますねー。
とくにやっかいなのが、根本原因がHeimdallrでは無い場合。これは私が頑張るだけでは解決できないので、難しいものがあります。
例えばこんな問題です。
記事の内容とは関係無いけれど記事中に頻出する単語がある。
例えば、「BLOG」という単語です。
世の中、サイトのタイトルが「なんちゃらBLOG」となっているサイトは色々あります。
そしてこのサイトのタイトルは、色々なツールを巡ってRSS Feed中の記事(item)のタイトル(title)や概要(description)に含まれてHeimdallrまで届きます。
こうした「BLOG」がタイトルや概要に含まれる記事を見ていると、「BLOG」という単語に興味を持っているとHeimdallrが判定し、タイトルや概要に「BLOG」が含まれる記事を優先的に表示するようになります。
こうした勘違いがなかなか防げません。
「RSS」「FEED」といった単語でも同じような現象を見ることができます。
利用者に、こうした単語は無視するよう指定してもらえれば良いのですが、
「自動学習機能」なのに「手動」で調節するというのもなんだか悲しいものがあります。
問題の根本は、
サイトのタイトルが、色々なツールを巡っているうちにRSS Feed中の記事(item)のタイトル(title)や概要(description)に含まれてしまう。
ということにあると思います。
うーん・・・
他にもこんな問題もあります。
引用しかない記事が多数ある。
「某会社がなんとかサービスを始めました」という記事が大手ニュースサイトに掲載されたとします。
私はたまたまそのなんとかサービスに興味があったので、その記事(以下ソース記事)や、その記事と関連する記事を見ているうちに、
「なんとかサービス」に興味があるとHeimdallrが判定し、「なんとかサービス」が含まれる記事を優先的に表示するようになりました。
ここまでは問題ありません。「なんとかサービス」に対する大勢の人の意見を見ることができるのでしたら、自動学習機能をつけた甲斐があったというものです。
というわけで、「某会社がなんとかサービスを始めました」という記事がHeimdallrに表示されるたび、喜んでクリックしてみるのですが、大抵の場合、そこに書いてあるのは、ソース記事へのリンクと若干の引用だけです。
ソース記事はもう読んだし、内容も知っている。私が読みたいのはそれに対するみんなの意見だーと思っていても、表示されるのは引用だけの記事です。
別に引用だけの記事が悪いというわけではありません(引用だけの記事は著作権法に抵触するような気はしますが、それは別の問題)。
私も時々引用だけの記事から有用な記事を見つけます。つまり、最初のとっかかりとしては、引用だけの記事は有用です。しかし、引用だけの記事をいくつも見てもあまり意味がないでしょう。
問題の根本は、
「引用のみの記事」と、「意見が書いてある記事」が、RSS Feedを見ただけでは判断できない。
ということにあると思います。
さてはてどうしたものか・・・
いやー難しいものですね。
> 自動学習部分を別プロセスで動かす事ってできませんかね?
次バージョンでは別プロセス(スレッド)になります。
手元には既に別プロセスになったバージョンがありますので、修正が一段落したらリリースします。(だいぶ軽くなりました)
「最新の情報に更新」の処理が完了した時点でも数秒(時間は記事数依存)フリーズするという問題があるのですが、こちらはどうでしょう。気になりますか?
自動学習が重い感じがするデス
自動学習部分を別プロセスで動かす事ってできませんかね?
自動学習処理に足を引っ張られて表示や既読処理がクリックから結構もたついている感じがします。
数件一気に表示したり既読にしようと思ったときに結構違和感ありますので、なんとかなりませんでしょうか?