RE:15136 スパムフィルターNo.15210
nishio@kumamoto さん 03/11/08 06:54
 
> どっちにしても、スパムメールを送っているのは生身の人間でして、最終的に
>100%近く正確に除去することは不可能かとは思います。

今の段階では、最後は『人手で確認』しないと、
完全消去は出来ないんです。
でも、以前に比べて振り分け設定だけでも、
かなりスパム処理は減らす事は出来ました。

少しずつ、積み上げて行きたいと思うます。

[ ]
RE:15210 スパムフィルターNo.15216
秀まるお2 さん 03/11/08 21:21
 
 ちなみにですが、スパムメールを遮断するのにかなり効率的な方法として、日
本語以外のメールを全部シャットアウトするという作戦があります。しかし、残
念ながら、現状の鶴亀メールでは、日本語以外のメールかどうかを的確に判断で
きる仕組みになってません。

 具体的には、Contenet-Type:ヘッダまたはX-Body-Content-Type:ヘッダの
charset=部分に日本語以外が設定されてたらスパム扱いするという作戦ですが、
メールによってはうまくcharset=が設定されないケースがあります。その辺は次
のバージョンで改良します。(今いじってる所)

[ ]
RE:15216 スパムフィルターNo.15219
ぱと さん 03/11/08 21:46
 
秀まるお2 さん

鶴亀ユーザーのぱとと申します。

> 具体的には、Contenet-Type:ヘッダまたはX-Body-Content-Type:ヘッダの
>charset=部分に日本語以外が設定されてたらスパム扱いするという作戦ですが、
>メールによってはうまくcharset=が設定されないケースがあります。その辺は次
>のバージョンで改良します。(今いじってる所)

以前ご紹介したことがあるような気がしますが、現在私が行っているスパム除去
フィルターは以下のようなものが中心です。

-----------------
Date: が
0900 を含まない
かつ
Content-Type: が
2022 を含まない
-----------------

私の環境の場合、この大雑把なフィルタ(だが、"かつ" としているところがミソ
で案外うまく作動する)で、ばっさりと日本語以外のメールをスパム扱いしてしま
います。

Date: に 0900 を含まないのスパムでは無いようなメールは、Content-Type: に
2022 を含んでいることが多いし、その逆で Content-Type: に 2022 を含んでい
ないのに、スパムで無いメールは、Date: に 0900をだいたいの場合含んでいます。

もちろん、いきなりゴミ箱には入れないで、スパム専用のフォルダに入れて、た
まにチェックします。

ほとんどがスパムなのですが、たまに必要なメールが見つかるので、それはこれ
より上位の個別のフィルタを設定して救います。

私のところには、一日で50通〜100通ぐらいのスパムが来るのですが、上記の設定
と、ADSLの環境のおかげでそれほど悩まされずに済んでいます。(昔の低速環境の
ままだとしたら、スパムを受信すること自体の影響が大きかったでしょうから、
この点は助かっています。)

個別の条件を細かく積み上げていくより、大雑把な条件でばっさりと切り、逆に
救うメール(スパム扱いしないメール)に対して、個別の条件を設定するというの
がこつだと思っています。

----
ぱと

[ ]
RE:15219 スパムフィルターNo.15221
秀まるお2 さん 03/11/08 23:00
 
> -----------------
> Date: が
> 0900 を含まない
> かつ
> Content-Type: が
> 2022 を含まない
> -----------------

 "Content-Type:"と指定してるなら、それを
 "Content-Type:/X-Body-Content-Type:"に変更しないとまずいと思います。で
ないと、添付ファイル付きメールが全部スパム扱いになってしまいます。

 (たぶん、既にそのように設定されてると思いますけど)


 さらに、shift_jis形式や、euc-jp形式なんかもあるので、

 "2022"を含まない、または、"shift_jis"を含まない、または、"euc"を含まな
い みたいな設定にしないとまずいと思います。

---------------
 っということですが、それでもやはり、完璧に外国語メールを除去するために
は、charset=の指定が何も付かないケースはよくないと思いまして、現在、
charset=の指定が何か必ず付くように修正している所です。特に、HTMLメールの
スパムメールでcharset=の指定およびX-Body-Content-Type:が付かないケースが
多く発生しています。

[ ]
RE:15221 スパムフィルターNo.15224
ぱと さん 03/11/08 23:14
 
秀まるお2 さん

鶴亀ユーザーのぱとと申します。

>> -----------------
>> Date: が
>> 0900 を含まない
>> かつ
>> Content-Type: が
>> 2022 を含まない
>> -----------------
>
> "Content-Type:"と指定してるなら、それを
> "Content-Type:/X-Body-Content-Type:"に変更しないとまずいと思います。で
>ないと、添付ファイル付きメールが全部スパム扱いになってしまいます。
>
> (たぶん、既にそのように設定されてると思いますけど)

いえいえ、いくつかの場所でこのフィルタの設定を披露すると、それじゃまずい
だろというご指導をいただくのですが、「Date: が0900を含まない かつ」という
条件が加わっていることで、かなりのメールが救われるので、私の環境ではこれ
くらいで丁度いいんですよ。

> さらに、shift_jis形式や、euc-jp形式なんかもあるので、
>
> "2022"を含まない、または、"shift_jis"を含まない、または、"euc"を含まな
>い みたいな設定にしないとまずいと思います。

このあたりのチューニングをすればするほど、これまでの私の経験では、スパム
がフィルタから滑り落ちてしまうんですよ。

つまり 「Date: が 0900 を含まない」という部分がどちらかというとこのスパム
フィルターの中心なのです。だけどもこれだけだと大雑把すぎるので、
「かつ Content-Type 云々」をおまけにつけているようなものなのです。

外国語メールかどうかということを Content-Type の方から攻めるのではなくて、
まず、Date: ヘッダ から攻めるというところが肝です。

----
ぱと

[ ]
RE:15224 スパムフィルターNo.15296
nishio@kumamoto さん 03/11/12 19:55
 
>鶴亀ユーザーのぱとと申します。
>
>「Date: が0900を含まない かつ」という条件が加わっていることで、
>かなりのメールが救われるので、私の環境ではこれくらいで丁度いいんですよ。

<snip>

>つまり 「Date: が 0900 を含まない」という部分がどちらかというと
>このスパムフィルターの中心なのです。

成る程、、、です。
参考にさせて頂きま。

[ ]