|
秀まるおさん今日は、Iranoan です。
> 素朴な疑問なんですけど、POPFileだと、returned mailについてもうまく分類
> してくれるんでしょうか。
基本的にはしてくれません。
しかし本当の Returned mail を分類し直してやれば、宛先などから正しく
分類されるようになります。ただ鶴亀とは異なり論理的な判断をするわけでは
ないので、
> それでも Returned mail の判定など、一部はそのまま使えると認識率が上
> がるでしょうが。
と書いています。つまり、ユーザが自作したフィルタから、鶴亀標準のフィル
ター判定の関数
> spam (virus)
> spam (virus in zip)
> spam (virus iframe-tag)
> spam (empty mail)
> spam (empty link)
> spam (html plain mismatch)"
> spam (clickable image only)
> spam (super small font)
等の利用できたら嬉しいという意味です。
また「マグネット」という名前で、To, From, Cc, Subject は、ベイジア
ン・フィルターの判定より優先した分類ができます。ただしこれは鶴亀の振り
分けを使えばよいことですし、宛先を騙った spam/virus も多いので、私は
使っていません。
> あと、98%といっても、Iranoanさんは普段ほとんど英語のメールをやりとりす
> ることは無いですよね。
少ないですね。
> たまに、もしかして見知らぬ人から英語のメールがぽつ
> っと送ってきたとして、それがちゃんと迷惑じゃないメール扱いになってくれる
> かどうかってのは分かるんでしょうか。
私も誤判定の不安があるので、一日に二度、念の為 spam になったメールを
確認しています。
これだと手間が変わらないと思われるかもしれませんが、手の空いたときに
分類を集中して行うので、時間は短縮できています。
また学習を続けていけば、使われている単語の頻度の関係で、数の少ない英
文も認識率が上がって来ています。現在、98% は無くても、90% はクリアして
いるという印象です。日本語のメールが圧倒的に多くても、数少ない英文につ
いて学習させていけば、認識率は上がります。受け取る真面な英文が少ないか
ら、認識率が低いままということはありません。
勿論 POPFilter にも
・リソースの消費
・Perl のせいか判定が遅い
・添付付きメールの判定は特に遅く、認識率も他より低い気がする
・私の環境では、同時接続が不安定 (結局、同時接続は OFF にしている)
・出現頻度のあまりに低い文字列でもデータベースから自動削除する機能が無
いのか、データベース・ファイルがどんどん大きくなる。現在 3.5 MB(^^;
という不満はあります。
|
|