迷惑ワードの登録No.20962
Firak さん 04/12/24 14:11
 
こんにちは、ふぃらく です。

 秀丸にスパムフィルターが実装されたので、試しております。
 
 現在は、精度の問題で、POPFileと併用です。
 
 お願いなのですが、unclearになったメールから効率的に迷惑ワードを抽出す
るような機能を追加できないでしょうか?
 
 迷惑メールは、本文中にホームページのリンクが存在するケースが高いので、
選択したメールの中から、ドメインを抽出して迷惑ワードとして登録していただ
けるだけで、迷惑メールの登録がかなり楽になります。
 
 現状、毎日約40通から50通のunclearを開いて、迷惑ワードの登録をして
いるのですが、結構時間がかかります。
 
 1週間、迷惑ワードを登録し続けたところ、精度は、7割を超えましたので、
プロバイダのスパムフィルターよりは、よほど使い物になると感じています。
 
 今後どの程度、制度が上がるか、もうしばらく様子を見てみようと思います。
 
 コンスタントに8割を超えるようになれば、POPFileの使用をやめる事も検討
できかなと思っております。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:20962 迷惑ワードの登録No.20963
秀まるお2 さん 04/12/24 14:39
 
>  迷惑メールは、本文中にホームページのリンクが存在するケースが高いので、
> 選択したメールの中から、ドメインを抽出して迷惑ワードとして登録していただ
> けるだけで、迷惑メールの登録がかなり楽になります。

 現状で、URLの上でマウス右ボタンを押して「... を迷惑ワードとして登録」
を実行してOKするだけですが、それが面倒なくらい毎日多数の迷惑メールが届く
ってことですかね。

 ちょっと怖いのは、URLを偽装してるHTMLメールなんかもあるからでして…。
例えばメールの最初の方に、よくありそうなURL(例えばAmazon.comへのよくあ
りそうなURL)をわざと入れておいて、それはあまりクリックできないようにし
ておいて、本当にクリックして欲しいURLは後の方に書いておくという…。そう
いうやつだと、人間的にどのURLを迷惑ワード扱いするか判断してもらわないと
いけないような気がします。

 なんでしたら、とにかく選択したメール中に含まれるURL(中のドメイン名部
分)をとにかく全部迷惑ワードとして登録したいって話ならば、そういうマクロ
を作って差し上げる手はあります。tkf_SpamDomain.txtファイルを直接編集すれ
ばいい話なので、マクロでどうにでも出来ます。

------
 もし、普段から英語のメールをやりとりすることが無いようなら、迷惑メール
フィルターの設定にて、「http:入りでリンク先が.jp以外の外国語メールを迷惑
メール扱いとする」をONにしてしまったらいいと思います。そうすれば、迷惑ド
メインを登録する手間はほとんど無くなります。

 ただ、多少外国からの(しかもまったく見知らぬ人からの)メールを受け取る
機会があるのだとしたら、例えばそれがどういう関係で届くメールなのかを見極
めた上で、適当な信頼ワードを登録すればいいんじゃないかと思います。

[ ]
RE:20963 迷惑ワードの登録No.20966
Firak さん 04/12/24 15:22
 
ふぃらく です。

>>  迷惑メールは、本文中にホームページのリンクが存在するケースが高いので、
>> 選択したメールの中から、ドメインを抽出して迷惑ワードとして登録していただ
>> けるだけで、迷惑メールの登録がかなり楽になります。
>
> 現状で、URLの上でマウス右ボタンを押して「... を迷惑ワードとして登録」
>を実行してOKするだけですが、それが面倒なくらい毎日多数の迷惑メールが届く
>ってことですかね。
>


 少なくとも100通、多いときは200通の迷惑メールがやってきます。
 
 3割がuncleaになると、30通から60通、毎日確認する必要がでます。
 
 とはいえ、一見して、スパムと判ってしまうのがほとんど、スパムじゃないも
のを手で処理して、後は一気に処理したいです。
 
>
> なんでしたら、とにかく選択したメール中に含まれるURL(中のドメイン名部
>分)をとにかく全部迷惑ワードとして登録したいって話ならば、そういうマクロ
>を作って差し上げる手はあります。tkf_SpamDomain.txtファイルを直接編集すれ
>ばいい話なので、マクロでどうにでも出来ます。
>

 それでもいいです、それでどの程度弊害が出るか試してみたいです。
 
 現状よりはマシになるとおもいます。

>
> ただ、多少外国からの(しかもまったく見知らぬ人からの)メールを受け取る
>機会があるのだとしたら、例えばそれがどういう関係で届くメールなのかを見極
>めた上で、適当な信頼ワードを登録すればいいんじゃないかと思います。

 通常であれば、「信頼できる差出人」でかなり精度の高い分類ができるのです
が、僕の場合、メーリングリスト管理者アドレスに届くメールが問題です。
 
 回送されるメールの差出人は、メーリングリストの管理者アドレスになってい
ますから、「信頼できる差出人」に登録すると、1日に50通以上のスパムを受
け取ることになります。
 
 仕方がないので、管理者アドレスは、「信頼できる差出人」から外して、キー
ワードによる分類に頼るということなります。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:20966 迷惑ワードの登録No.20967
Firak さん 04/12/24 15:36
 
ふぃらく です。

>
> 通常であれば、「信頼できる差出人」でかなり精度の高い分類ができるのです
>が、僕の場合、メーリングリスト管理者アドレスに届くメールが問題です。
> 
> 回送されるメールの差出人は、メーリングリストの管理者アドレスになってい
>ますから、「信頼できる差出人」に登録すると、1日に50通以上のスパムを受
>け取ることになります。
> 
> 仕方がないので、管理者アドレスは、「信頼できる差出人」から外して、キー
>ワードによる分類に頼るということなります。
> 

 ちょっと思い浮かんだアイディアですが、

 現状の鶴亀のスパムフィルタの機能の範囲では、キーワードによる分類しか実
現できないのですが、もし、指定したアドレスに届いたメールは、本文中から
Fromを検出して「信頼できる差出人」で判断というのでも、問題は解決できます。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:20962 迷惑ワードの登録No.20975
秀まるお2 さん 04/12/24 17:41
 
>  コンスタントに8割を超えるようになれば、POPFileの使用をやめる事も検討
> できかなと思っております。

 一応、自分の名誉のためにここに書いておきますけど、今回のケースは、特定
メーリングリスト用の特殊なケースのメールを迷惑ワードだけで分類しようとし
て、それによる判定精度が7割程度ってことですよね。

 普通に、ちゃんとした(?)メールの場合なら、例えば

   spam (virus)
   spam (virus in zip)
   spam (virus iframe-tag)
   spam (empty mail)
   spam (empty link)
   spam (html plain mismatch)"
   spam (clickable image only)
   spam (super small font)

 とかも総合して判定されれば、まだまだ精度は上がるはずです。

 (ってコメントを付けておかないと、鶴亀メールの迷惑メールの精度を間違っ
て解釈されると思いまして、念のため書いておきます)

[ ]
RE:20975 迷惑ワードの登録No.20976
けんいち さん 04/12/24 18:04
 
 けんいちです。
 お世話になります。
 ちょっと話題からずれるかもしれませんが、丁度知りたかった話が出てきたので、
質問させてください。

》   spam (virus)
》   spam (virus in zip)
》   spam (virus iframe-tag)
》   spam (empty mail)
》   spam (empty link)
》   spam (html plain mismatch)"
》   spam (clickable image only)
》   spam (super small font)

 これらの意味はヘルプ等のどこで説明されていますでしょうか?TkFilter.hlpを
見てみたのですが、発見できませんでした。

 それぞれの意味となぜそのようなものをSPAMとして扱うのかを知りたいのです。
 なぜかというと、例えば、送信元は信頼できるところと思っているメールが、
spam (super small font)に該当して、SPAMフォルダ(X-TuruKame-Filter:がspamを
含むで振り分け)に振り分けられることがあるためです。

 よろしくお願いします。

[ ]
RE:20975 迷惑ワードの登録No.20979
Firak さん 04/12/24 18:29
 
ふぃらく です。

>
> 一応、自分の名誉のためにここに書いておきますけど、今回のケースは、特定
>メーリングリスト用の特殊なケースのメールを迷惑ワードだけで分類しようとし
>て、それによる判定精度が7割程度ってことですよね。

 そういうことです。
 
 僕の場合では、先に書きましたように、差出人だけでほとんどクリアーな状態
になりますので、unclea に落ちるのは、ほとんどがスパムです。
 
 このuncleaをはっきりスパムに分類するために迷惑ワードを1週間投入しつづ
けて、精度が7割まで来ました。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:20976 迷惑ワードの登録No.20980
秀まるお2 さん 04/12/24 18:32
 
 ヘルプにはあんまり詳しく書いてないですが…。

 今説明させていただきますと、

>    spam (virus)

 ウィルスと思わしき添付ファイルを含んだメールです。xxxx.scrとか、
xxxx.doc.exeとか。

>    spam (virus in zip)

 .zip形式添付ファイルが付いていて、その中にウィルスと思わしきファイルが
入ってるケースです。

>    spam (virus iframe-tag)

 HTMLメールでのいわゆるiframeタグを使って何らかのプログラムを、HTMLメー
ルの表示と同時に実行させようとしているメールです。

>    spam (empty mail)

 Subject:も本文も空っぽのメールです。

 Subject:が「Re:」だけで本文無しってのもこれになります。

>    spam (empty link)

 <a href="....></a> のように、クリック不可能な<a>タグがあった場合にこう
なります。普通はこんなリンクを埋め込むことはありえないはずですが、迷惑
メールにはこういうのを使って、例えばamazon.comとかにリンクしてるように見
せかけて、迷惑メールフィルターをすり抜けようとする物があります。

>    spam (html plain mismatch)

 HTMLメールだけでも、text/plainパートも付いていて、その2つの内容がまっ
たく食い違ってるケースです。普通のメールソフトで普通にhtmlメールを作った
場合には絶対ありえないはずなのですが、これまた迷惑メールフィルターをすり
抜けるために、迷惑メールがこういう手口を使うケースがよくあります。

>    spam (clickable image only)

 <a href="..."><img src="..."></a> みたいにして、つまり、メールの中にイ
メージしか入ってなくて、それをクリックするとどこかのホームページに飛ぶと
いうやつです。

>    spam (super small font)

 これは、例えば<font size=1>または<font size=1pt>のようなタグを使ってる
か、または、スタイルシートの中で"font-size:1pt"のような指定をしている場
合です。

 フォントサイズ1ptってのは、事実上画面上には文字として出てきません。普
通にメールを作った場合にはこのような文字を使うことはないはずですが…。

 果たして、そのメールは誰がどういう目的で送ってきてる物なのか、さらには、
どういうソフトで送ってきてるのか(X-Mailer:ヘッダは何になってるのか)辺
り教えて頂けると、今後のための大変な参考になりますが…。

 出来れば、差し支えなければそのメール自体を僕の所に転送して欲しいような
気もします。受信ログを添付ファイルとして送って欲しい所です。(送り先は、
maruo@mitene.or.jpです)

[ ]
RE:20979 迷惑ワードの登録No.20982
Iranoan さん 04/12/24 18:51
 
 ふぃらくさん今日は、Iranoan です。
>  僕の場合では、先に書きましたように、差出人だけでほとんどクリアーな状態
> になりますので、unclear に落ちるのは、ほとんどがスパムです。
 こういった環境の人は、unclear も spam と同様にゴミ箱に直行させてしま
えばよいのでは? そして、逆に必要に応じて unclear から safety に成るよ
うに設定すれば良いと思いますけど。

[ ]
RE:20982 迷惑ワードの登録No.20983
Firak さん 04/12/24 22:08
 
ふぃらく です。

> こういった環境の人は、unclear も spam と同様にゴミ箱に直行させてしま
>えばよいのでは? そして、逆に必要に応じて unclear から safety に成るよ
>うに設定すれば良いと思いますけど。

 ここが特殊事情なんですけど、上記設定の場合、管理しているメーリングリス
トの投稿確認のメールが全部スパムに落ちる事になるんですね。
 
 本文の方は別のメールで来るように仕込んであるので見逃す事自体は無いので
しょうが、1日の投稿1通に対して、投稿宛のスパムメールが30通、その中から
探す必要があります。
 
 探す事より誤ってスパムを参加者に配信する方が怖いです。
 
 POPFileの方が現状では僕のニーズに合っています。
 
 鶴亀との連動という点で、鶴亀のスパム対応機能はとても魅力的なので、なん
とかして、うまい使い方を考えてPOPFile、移行したいという思いはあります。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:20980 迷惑ワードの登録No.20985
きいろいまふらあ さん 04/12/25 03:03
 
ここにはあまり書き込んじゃいけないのですが。

> ヘルプにはあんまり詳しく書いてないですが…。

ヘルプの「フィルターの詳細ダイアログボックス」というページにそこそこ詳し
く書かれているようですが、目次からはたどり着けないようですね。

「鶴亀標準・迷惑メールフィルターの設定」→「フィルターの詳細」ダイアログ
の「ヘルプ」ボタンで表示されます。

目次からも行けたほうがいいんじゃないかと思います。

[ ]
RE:20980 迷惑ワードの登録No.20987
ワッキー さん 04/12/25 07:19
 
>  果たして、そのメールは誰がどういう目的で送ってきてる物なのか、さらには、
> どういうソフトで送ってきてるのか(X-Mailer:ヘッダは何になってるのか)辺
> り教えて頂けると、今後のための大変な参考になりますが…。

これは、
> >    spam (super small font)
なメールのことでしょうか?

だとしたら、今僕の手元には、"spam (super small font)"で引っ
かかったメールが26件あります。ほとんどが外国語のスパムです
が、1件だけ日本語のメールマガジンがあります。
御希望であればお送りしますけど?

[ ]
RE:20975 迷惑ワードの登録No.20991
Firak さん 04/12/25 11:31
 
ふぃらく です。

>
> 普通に、ちゃんとした(?)メールの場合なら、例えば
>
>   spam (virus)
>   spam (virus in zip)
>   spam (virus iframe-tag)
>   spam (empty mail)
>   spam (empty link)
>   spam (html plain mismatch)"
>   spam (clickable image only)
>   spam (super small font)
>
> とかも総合して判定されれば、まだまだ精度は上がるはずです。

 デフォルトで迷惑ワードなしの実験をしてみました。
 
 先月の28日から蓄積されているスパムを迷惑ワードを削除した後で分類させる

 
 Spam 851
 unclear 3831
 
 となり、認識率では、約18%です。
 
 これは、スパムと判断する場合の認識率です。
 
 スパムじゃないメールの識別率はまた別の話です。
 
 おそらくそちらは、95%とかいくと思います
 
 僕はこれを低い数字とは思いません、以前、プロバイダのSPAMフィルターを試
したときも3割ぐらいしかフィルターがかからなかったです。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:20983 迷惑ワードの登録No.20992
Iranoan さん 04/12/25 11:54
 
 ふぃらくさん今日は、Iranoan です。
> > こういった環境の人は、unclear も spam と同様にゴミ箱に直行させてしま
> >えばよいのでは? そして、逆に必要に応じて unclear から safety に成るよ
> >うに設定すれば良いと思いますけど。
>
>  ここが特殊事情なんですけど、上記設定の場合、管理しているメーリングリス
> トの投稿確認のメールが全部スパムに落ちる事になるんですね。
 ふぃらくさんの場合は、この方法は駄目なんですね。

>  鶴亀との連動という点で、鶴亀のスパム対応機能はとても魅力的なので、なん
> とかして、うまい使い方を考えてPOPFile、移行したいという思いはあります。
 TkFilter.tkf と、別ファイルになっているので、必要な関数などが解れば、
ここのユーザが POPFile などを移植できるのかもしれませんね。
 それでも Returned mail の判定など、一部はそのまま使えると認識率が上
がるでしょうが。

 鶴亀の迷惑メール・フィルタの現状の仕様は、宛先や単語をユーザが個別に
登録しないと駄目なので、使いにくいですね。また私は、POPFile で、99% 程
度の認識率があるので、なかなか乗り換える気になれないです。

[ ]
RE:20992 迷惑ワードの登録No.20993
Firak さん 04/12/25 13:47
 
ふぃらく です。

>
>>  鶴亀との連動という点で、鶴亀のスパム対応機能はとても魅力的なので、なん
>> とかして、うまい使い方を考えてPOPFile、移行したいという思いはあります。
> TkFilter.tkf と、別ファイルになっているので、必要な関数などが解れば、
>ここのユーザが POPFile などを移植できるのかもしれませんね。
> それでも Returned mail の判定など、一部はそのまま使えると認識率が上
>がるでしょうが。

 鶴亀のスパムフィルターの利点は、スパムじゃないメールを良く判断してくれ
る点ですね。
 
 信頼できる差出人は強力な機能です。
 
 それと、すぐに再振り分けしてくれる便利さ。
 
 今は、POPFileと併用してそれなり利点は感じています。

>
> 鶴亀の迷惑メール・フィルタの現状の仕様は、宛先や単語をユーザが個別に
>登録しないと駄目なので、使いにくいですね。また私は、POPFile で、99% 程
>度の認識率があるので、なかなか乗り換える気になれないです。

 こちらもまだ、POPFileを止める事は出来そうも無いです。
 
 先ほど実験した4600通のメールで、迷惑ワードを元に戻すと
 
 Spam 2543
 unclear 2139
 
 となって、スパムの識別率が54%となります。
 
 鶴亀のスパムフィルターを運用し始める前のメールの方が圧倒的に多いので、
かなり認識率は低いです。
 
 逆にいうと、1週間、迷惑ワードを投入すると、半分以上は識別できるともい
えます。
 
 2時間がかりで unclear 2139通のメールに迷惑ワードを設定してみました。
 
 一月分のメールを丸ごとやってみたわけですから、これで出てくる認識率が迷
惑ワード方式での上限に近い値になるかと思います。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:20987 迷惑ワードの登録No.20995
秀まるお2 さん 04/12/25 20:30
 
 是非ください。(受信ログを添付ファイルで)

[ ]
RE:20995 迷惑ワードの登録No.20996
秀まるお2 さん 04/12/25 20:47
 
 けんいちさんから3通送ってもらって原因が分かりました。なので、やっぱり
いらないです。

 スタイルシートでの"font-size:1pt"はたしかに見た目的にまったく見えない
んですけど、<font size="1">についてはちゃんと見えるようです。僕が勘違い
してたいというかテスト不足でした。こういうケースはsuper small font扱いに
ならないように修正させていただきます。

[ ]
RE:20991 迷惑ワードの登録No.20997
秀まるお2 さん 04/12/25 20:52
 
 とりあえず、そこの掲示板には日本語で、しかもHTMLメールじゃなくて普通の
plain/textのメールでしか書き込みされないという前提でなら、本文中に入って
くるメールでのContent-Type:ヘッダを使って振り分け設定したらいいような気
がします。

 例えば、"本文"が"iso-2022-jp"を含まない かつ
         "本文"が"jis"を含まない かつ
         "本文"が"euc"を含まない

 ってことにして、それに該当しないメールを全部ゴミ箱行きにしてもいいんじ
ゃないかと思います。

 的はずれかもしれないので、それならそれで無視してください。

[ ]
RE:20996 迷惑ワードの登録No.21006
けんいち さん 04/12/27 09:10
 
 けんいちです。

》 けんいちさんから3通送ってもらって原因が分かりました。なので、やっぱり
》いらないです。

》 スタイルシートでの"font-size:1pt"はたしかに見た目的にまったく見えない
》んですけど、<font size="1">についてはちゃんと見えるようです。僕が勘違い
》してたいというかテスト不足でした。こういうケースはsuper small font扱いに
》ならないように修正させていただきます。

 お役に立ってよかったです。
 hidesoft.8:20980の説明もありがとうございました。いろいろな迷惑メールのパ
ターンがあり、それらに細かく対応されていることがわかり、勉強になったととも
に、鶴亀メールの細かな配慮に改めて感心と安心を覚えました。

 今後ともよろしくお願いします。

きいろいまふらあ さん
 ヘルプの記載について教えていただきありがとうございました。
 またしばらくすると忘れてしまいそうですが…(^^ゞ

[ ]
RE:20993 迷惑ワードの登録No.21015
秀まるお2 さん 04/12/27 15:31
 
 素朴な疑問なんですけど、POPFileだと、returned mailについてもうまく分類
してくれるんでしょうか。例えば、たしかに自分が送った相手からのreturned
mailがspam扱いにならないような、そういう仕組みはあるんでしょうかね。

 あと、98%といっても、Iranoanさんは普段ほとんど英語のメールをやりとりす
ることは無いですよね。たまに、もしかして見知らぬ人から英語のメールがぽつ
っと送ってきたとして、それがちゃんと迷惑じゃないメール扱いになってくれる
かどうかってのは分かるんでしょうか。

[ ]
RE:20985 迷惑ワードの登録No.21017
秀まるお2 さん 04/12/27 16:11
 
 一応、X-TuruKame-Filter:ヘッダの中身と、それが具体的に設定ダイアログボ
ックス上のどのオプションに相当するかってのは、別にヘルプを見るまでもなく
なんとなく想像付くように作ったつもりではあるんですが…。

 とりあえず、目次からダイアログボックスのヘルプページへ行けるようにだけ
しときます。

[ ]
RE:21015 迷惑ワードの登録No.21019
Firak さん 04/12/27 16:33
 
ふぃらく です。

 僕への質問ではないかもしれませんが、鶴亀+POPFileで利用しておりますの
で、こちらの状況をお伝えします。
 
> 素朴な疑問なんですけど、POPFileだと、returned mailについてもうまく分類
>してくれるんでしょうか。例えば、たしかに自分が送った相手からのreturned
>mailがspam扱いにならないような、そういう仕組みはあるんでしょうかね。
>

 
 そういう機能は持っていません、単語毎に重み付けをつけて、SPAMの判断をし
ています。
 
 リターンメールも文面にしたがって判断しています。
 
 差出人詐称のスパムやウイルスがリターンメールとして戻ってくる場合は、そ
の文面に特徴がありますから、かなり正確に判断します。
 
 過去のスパムを覗いて見る限り、リターンメールも確実に分類しています。
 
 使っている感想としては、98%の認識率というのは正しいです。
 
> あと、98%といっても、Iranoanさんは普段ほとんど英語のメールをやりとりす
>ることは無いですよね。たまに、もしかして見知らぬ人から英語のメールがぽつ
>っと送ってきたとして、それがちゃんと迷惑じゃないメール扱いになってくれる
>かどうかってのは分かるんでしょうか。

 このケースだと無視しがたい確率でSPAM扱いされると思います。
 
 僕の環境だと、有用な英語メールが広告のような文体だと、まずSPAM扱いされ
ると思います。
 
 個人的は内容の文面は、ほとんど学習させていませんので、高い確率で
unclassifiedになるとおもいます。
 
 過去の経験から1度その誤分類したメールを再学習させると、まず、2回目以
降は、分類をミスると言う事はないです。
 
 それでも月に数回の頻度で、SPAMに落ちたメールを再分類するケースに出会い
ますので、SPAMも無条件に削除ではなく、僕の場合、1月ほど保持しています。
 
 鶴亀の場合は、迷惑ワードなしのデフォルトで設定すれば、まず有用なメール
がスパム扱いされる事がないというのは長所です。
 
 POPFileは、誤認識によりメールを失う見逃す確立がありますが、学習機能が
優れていて、200通ほど学習させると9割を越す認識率になります。
 
 僕の場合、1週間ほどで認識率が97%を超えました。
 
 鶴亀の場合、1週間を超えましたが、まだ8割を超えたとはいえない状況です。
 
 1月分のスパムから、迷惑メールを投入したわけですから、現状が限界と見て
います。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21015 迷惑ワードの登録No.21022
Iranoan さん 04/12/27 17:05
 
 秀まるおさん今日は、Iranoan です。
>  素朴な疑問なんですけど、POPFileだと、returned mailについてもうまく分類
> してくれるんでしょうか。
 基本的にはしてくれません。
 しかし本当の Returned mail を分類し直してやれば、宛先などから正しく
分類されるようになります。ただ鶴亀とは異なり論理的な判断をするわけでは
ないので、
>  それでも Returned mail の判定など、一部はそのまま使えると認識率が上
> がるでしょうが。
と書いています。つまり、ユーザが自作したフィルタから、鶴亀標準のフィル
ター判定の関数
>    spam (virus)
>    spam (virus in zip)
>    spam (virus iframe-tag)
>    spam (empty mail)
>    spam (empty link)
>    spam (html plain mismatch)"
>    spam (clickable image only)
>    spam (super small font)
等の利用できたら嬉しいという意味です。
 また「マグネット」という名前で、To, From, Cc, Subject は、ベイジア
ン・フィルターの判定より優先した分類ができます。ただしこれは鶴亀の振り
分けを使えばよいことですし、宛先を騙った spam/virus も多いので、私は
使っていません。

>  あと、98%といっても、Iranoanさんは普段ほとんど英語のメールをやりとりす
> ることは無いですよね。
 少ないですね。
> たまに、もしかして見知らぬ人から英語のメールがぽつ
> っと送ってきたとして、それがちゃんと迷惑じゃないメール扱いになってくれる
> かどうかってのは分かるんでしょうか。
 私も誤判定の不安があるので、一日に二度、念の為 spam になったメールを
確認しています。
 これだと手間が変わらないと思われるかもしれませんが、手の空いたときに
分類を集中して行うので、時間は短縮できています。
 また学習を続けていけば、使われている単語の頻度の関係で、数の少ない英
文も認識率が上がって来ています。現在、98% は無くても、90% はクリアして
いるという印象です。日本語のメールが圧倒的に多くても、数少ない英文につ
いて学習させていけば、認識率は上がります。受け取る真面な英文が少ないか
ら、認識率が低いままということはありません。
 勿論 POPFilter にも
・リソースの消費
・Perl のせいか判定が遅い
・添付付きメールの判定は特に遅く、認識率も他より低い気がする
・私の環境では、同時接続が不安定 (結局、同時接続は OFF にしている)
・出現頻度のあまりに低い文字列でもデータベースから自動削除する機能が無
  いのか、データベース・ファイルがどんどん大きくなる。現在 3.5 MB(^^;
という不満はあります。

[ ]
RE:21022 迷惑ワードの登録No.21025
秀まるお2 さん 04/12/27 17:27
 
 結局のところ、spamと判定されたメールでも一通り目を通す訳ですか。

 僕が迷惑メールフィルターを作っていて思ったのは、結局の所、迷惑メールに
目を通すことになるならフィルターの意味は無いというか、それが出来ないなら
結局人間の手間は減らないということでしたが…。

 最初は、とにかくsafeかどうか判定できれば使えると思っていたんですけど、
やはり最終的にはspamかどうかの判定精度が一番重要というか、それが高くない
と使えないという結論になった訳です。

 とにかくそれはそれで、僕のフィルターの方向性的には間違ってないだろうと
思いまして、少し安心しました。情報ありがとうございます。

[ ]
RE:21025 迷惑ワードの登録No.21030
Firak さん 04/12/27 18:16
 
ふぃらく です。

> 結局のところ、spamと判定されたメールでも一通り目を通す訳ですか。
>
> 僕が迷惑メールフィルターを作っていて思ったのは、結局の所、迷惑メールに
>目を通すことになるならフィルターの意味は無いというか、それが出来ないなら
>結局人間の手間は減らないということでしたが…。
>
> 最初は、とにかくsafeかどうか判定できれば使えると思っていたんですけど、
>やはり最終的にはspamかどうかの判定精度が一番重要というか、それが高くない
>と使えないという結論になった訳です。
>
> とにかくそれはそれで、僕のフィルターの方向性的には間違ってないだろうと
>思いまして、少し安心しました。情報ありがとうございます。

 発想としては、ありかと思いますが、もし、現状で鶴亀とPOPFile、どちらが
運用が楽かと聞かれると、POPFileと答えます。
 
 メーリングリストの管理作業がなくても、spamを再確認する必要があっても
POPFileの方が楽です。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21025 迷惑ワードの登録No.21032
Iranoan さん 04/12/27 18:28
 
 秀まるおさん今日は、Iranoan です。
>  結局のところ、spamと判定されたメールでも一通り目を通す訳ですか。
>
>  僕が迷惑メールフィルターを作っていて思ったのは、結局の所、迷惑メールに
> 目を通すことになるならフィルターの意味は無いというか、それが出来ないなら
> 結局人間の手間は減らないということでしたが…。
 これと、http://www.maruo.co.jp/hidesoft/8/x20965_.html#21027
>  根本的に僕の迷惑メールフィルターは、spamかそうでない(safe/unclear)か
> ってことを判定するために作った物、つまり、spamと判定されたメールを一切目
> で見ることなく破棄するために作った物
を読んで、秀まるおさんの想定していることが明確に分かりました。私は、手
間がかかっても結果的に spam に割く時間が減れば良いと思っているのですが、
鶴亀のフィルタは兎に角 spam を見る機会/手間を減らすことが主目的なんで
すね。

 私個人としては、ふぃらくさんの
http://www.maruo.co.jp/hidesoft/8/x20965_.html#21028
>  Unclearの中を確認するか、Spamの中を確認するかと言う違いで、確認は必要
> なわけですから、実運用上何かが変わるわけではないというのが、今まで使った
> 実感です。
      以下略
と同じ印象を持っていますが。

[ ]
RE:21030 迷惑ワードの登録No.21040
セイ さん 04/12/27 19:21
 
In <xxxxxxxxxxxxxx@maruo.co.jp>,
At 2004/12/27 18:16,
Firak <xxxxxxxxxxxxxx@maruo.co.jp> wrote:
>  発想としては、ありかと思いますが、もし、現状で鶴亀とPOPFile、どちらが
> 運用が楽かと聞かれると、POPFileと答えます。
>  
>  メーリングリストの管理作業がなくても、spamを再確認する必要があっても
> POPFileの方が楽です。

メールサーバー (SMTPサーバー) で受信を拒否する形以外では、
いったん受け取ったメールはけっきょく目で見て確認しないと、い
けなくなっちゃうのかなあと思います (もちろん人によります)。

メールサーバーの段階で受け取りを拒否 (reject) していれば、少
なくとも送った人がエラーメールなどで拒否されたことが分かりま
すから「送った」「いや、受け取っていない」のトラブルに発生す
る確率がずいぶん減ります。

メールサーバーがいったん受け取ってしまえば、受け取ったあとに
100%のスパム判定が可能でなければ、心配性の人は誤判定される可
能性を案じてメールをチェックする必要がどうしても出てきてしま
います。

                            ***

で、メールサーバーの拒否云々を持ち出すと、メーラーの実装から
話がそれててしまいますので、いったんメールサーバーが受け取っ
たあとのスパム対策としては、下記の2つの方針があるのだと思い
ます。

    01) 少なくとも非スパムメールをスパムメールと誤判定しない。
        スパム判定されたメールはいっさい見る必要がない (心配
        性の人は見るかもしれませんが)。的中率は#2と比較して
        低くならざるをえない。

    02) 多少の誤判定はありうる。スパム判定されたメールも念の
        ためチェックする必要がある。スパム判定的中率は#1より
        高め。POPFileなど。

どちらを選択するかは、好みの問題になるのかなと……。

-- 清

[ ]
RE:21022 迷惑ワードの登録No.21041
CXYZ さん 04/12/27 19:39
 
 Iranoanさん今晩は、CXYZです。
 既にご存知だったり、外していたら申し訳ありません。
 現在、popfileは0.22.2が出ていて、同時接続時に落ちたりする現象を修正し
てあるようです。私はXpユーザーですが、以前は確実に死んでいたのが、バー
ジョンアップ後は(鶴亀でもPOPFileでも設定しているのに同時接続になりませ
んが…)大変健康です。よろしければお試しください。

[ ]
RE:21041 迷惑ワードの登録No.21055
Iranoan さん 04/12/28 12:27
 
 CXYZ さん今日は、Iranoan です。
>  現在、popfileは0.22.2が出ていて、同時接続時に落ちたりする現象を修正し
> てあるようです。
 情報有り難うございました。
 以前、報告したときに他の方からの報告も無くそのままにしていましたが、
今回改めて試してみました。

 しかし Windows98 では、OS の標準 DLL で落ちることがあります(;_;)。

[ ]
RE:21055 迷惑ワードの登録No.21058
CXYZ さん 04/12/28 14:05
 
 Iranoanさん今日は、CXYZです。
>  情報有り難うございました。
>  以前、報告したときに他の方からの報告も無くそのままにしていましたが、
> 今回改めて試してみました。
>
>  しかし Windows98 では、OS の標準 DLL で落ちることがあります(;_;)。
 環境自体は手元にあるのですが、もはやお蔵入りの状況なので試してみないま
ま投稿してしまいました。RC2の話題がMLで出た時、9Xでのテスターを募集して
いたそうです。その後それほど時間を開けずに正式版が出たので、導入して変更
履歴を見たら「修正した」とあったので大丈夫なのかと思っていました。お役に
立てず申し訳ありませんでした。

[ ]