迷惑フィルタ: 迷惑ドメインの自動収集No.21420
Nanni さん 05/01/25 11:34
 
こんにちは。

鶴亀メールの迷惑フィルタを昨年末より使いはじめました。

これまでに1/3くらいの迷惑メールを取れるようになりました。残りの2/3を「迷惑フ
ィルタ・迷惑ワード・迷惑ドメイン」に登録して一網打尽にしたいのです。これまで
に手動で迷惑ドメインを800くらい登録しております。この作業を「信頼できる差出
人・自動収集」のように、自動でできるようにはできないでしょうか?

よろしくお願いします。



[ ]
RE:21420 迷惑フィルタ: 迷惑ドメインの自No.21421
さん 05/01/25 12:08
 
「ど」と申します。

自動収集の機能実装の話はともかくとして、
1/3しか迷惑メールが取れていないというのは、迷惑フィルタの
運用方法としてはちょっと効率が悪すぎるのではないかと思います。

機能追加の要望をする前に、もっと別の方法のアプローチを
考えられてはいかがでしょうか。

私の環境では約50通/日、約2000通/月のSPAMを受け取っていますが、
[信頼できる差出人] + [迷惑ワード(標準添付のもの)]の設定だけで
99%以上の精度が出ています。ここ1週間は誤判定ゼロです。
迷惑ドメインと信頼ワードは全く設定していません。

[ ]
RE:21420 迷惑フィルタ: 迷惑ドメインの自No.21424
秀まるお2 さん 05/01/25 13:26
 
 迷惑ワードの自動収集というのは、たぶん技術的に不可能です。

 迷惑ドメインについてはある程度可能だとは思うんですが、URLを偽装した迷
惑メールがあったりすると誤判定されることがあってよくないと思いまして、今
のところ対応していません。また、実は迷惑ドメインを登録しても、あまりうま
くヒットしてくれません。迷惑ドメインに登録されたサイトというのは、ある程
度の時間が経つと消えてしまい、また別のドメインにて迷惑メールを送りつける
というパターンになってます。

 とりあえず、迷惑メールフィルターの精度を上げる手っ取り早い方法は、迷惑
メールフィルターの設定での、「フィルターのレベル」を上げることです。1つ
上げるだけでもかなり精度アップすると思います。

 あと、外国からの迷惑メールでお困りでしたら、「外国語メールの扱い...」
の所をなるべくONにして欲しいです。

[ ]
RE:21420 迷惑フィルタ: 迷惑ドメインの自No.21426
Firak さん 05/01/25 14:03
 
ふぃらく です。
 
>
>これまでに1/3くらいの迷惑メールを取れるようになりました。残りの2/3を「迷惑フ
>ィルタ・迷惑ワード・迷惑ドメイン」に登録して一網打尽にしたいのです。これまで
>に手動で迷惑ドメインを800くらい登録しております。この作業を「信頼できる差出
>人・自動収集」のように、自動でできるようにはできないでしょうか?
 
 昔同じような要望を出した者です。
 
 1月ほど試しましたが、迷惑ドメインの登録では、7割当たりが限界でした。
 
 精度を向上させたいのであれば、作者提供の迷惑ワードの取り込みをお勧めし
ます。
 
 それだけで、6割以上のスパムを検出できます。
 
 現在は、迷惑メールのドメインを闇雲に登録しても精度があまり向上しなかっ
たので、できる限り、キーワードのなるそうな単語を探して、登録しています。
 
 適切なキーワードが見つからない場合のみ、メールアドレスやドメインを迷惑
ワードとして登録しています。
 
 現時点では、8割以上のスパムを検出できています。
 
 メーリングリストの管理者として特殊事情があるので、僕の場合は、8割です
が、普通なら9割ぐらいまで行くのではないかと思います。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21421 迷惑フィルタ: 迷惑ドメインの自No.21427
Nanni さん 05/01/25 14:13
 
「ど」さん、ありがとうございました。

>[信頼できる差出人] + [迷惑ワード(標準添付のもの)]の設定だけで
>99%以上の精度が出ています。ここ1週間は誤判定ゼロです。
>迷惑ドメインと信頼ワードは全く設定していません。

みなさんも30%程度だと思っていましたので99%とは驚きです。

現在フィルタのレヴェルを「標準」にしています。これをあげて見ます。

[ ]
RE:21424 迷惑フィルタ: 迷惑ドメインの自No.21428
Nanni さん 05/01/25 14:31
 
秀まるおさん、ありがとうございました。

>とりあえず、迷惑メールフィルターの精度を上げる手っ取り早い方法は、迷惑
>メールフィルターの設定での、「フィルターのレベル」を上げることです。1
>つ上げるだけでもかなり精度アップすると思います。
>
>あと、外国からの迷惑メールでお困りでしたら、「外国語メールの扱い...」
>の所をなるべくONにして欲しいです。

捕捉できない迷惑メールは、ハングル、中国語が多いので、「日本語・英語以外を迷
惑メールとする」をチェックすればかなり改善すると思います。

英語の他にも欧州の言語を使うことがあるのですが、これは信頼ワードで対応するこ
とにしましょう。あるいは英語の他に、使用する言語別にスイッチをつくっていただ
くとか。




[ ]
RE:21427 迷惑フィルタ: 迷惑ドメインの自No.21429
秀まるお2 さん 05/01/25 14:39
 
 99%ってのは良すぎると思いますが…。

 レベルを上げる場合は、誤判定を防ぐためにも、信頼ワードだけは適当に登録
して欲しいです。例えばご自身のお名前を登録しておくだけでも、かなり安全に
なります。

 例えば僕なら「斉藤」、「サイトー」って文字列を登録しておくだけで、初め
て送られてくるユーザー様からのメールの多くがこれらにヒットします。

[ ]
RE:21421 迷惑フィルタ: 迷惑ドメインの自No.21430
Firak さん 05/01/25 14:46
 
ふぃらく です。

>
>私の環境では約50通/日、約2000通/月のSPAMを受け取っていますが、
>[信頼できる差出人] + [迷惑ワード(標準添付のもの)]の設定だけで
>99%以上の精度が出ています。ここ1週間は誤判定ゼロです。
>迷惑ドメインと信頼ワードは全く設定していません。

 確認したいのですが、これは、Unclarをスパムと扱っての話でしょうか、
それともSafeと扱っての話でしょうか。
 
 あるいは、ほとんどUnclarが発生しないということなのでしょうか。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21426 迷惑フィルタ: 迷惑ドメインの自No.21431
Nanni さん 05/01/25 14:47
 
ふぃらくさん、アドヴァイスありがとうございました。

>精度を向上させたいのであれば、作者提供の迷惑ワードの取り込みをお勧めし
>ます。

作者提供の迷惑ワードというのは、DefaultSpamWord.txt のことでしょうか。これは
私も取り込んでいます。

> 現在は、迷惑メールのドメインを闇雲に登録しても精度があまり向上しな
>かったので、できる限り、キーワードのなるそうな単語を探して、登録しています。

迷惑ドメインよりも迷惑ワードの方が効果がありそうだということは分かるのですが、
とりあえず自動化できそうなのはドメインの方ではないかと思ったしだいです。しか
しドメインの方を次々に変えられてしまっては効果がないですね。

[ ]
RE:21428 迷惑フィルタ: 迷惑ドメインの自No.21432
秀まるお2 さん 05/01/25 14:49
 
> 英語の他にも欧州の言語を使うことがあるのですが、これは信頼ワードで対応するこ
> とにしましょう。あるいは英語の他に、使用する言語別にスイッチをつくっていただ
> くとか。

 特定の文字コードのメールを迷惑メール扱いしないようにする方法は1つあり
ます。メールのContent-Type:ヘッダ中のcharset=で指定されてる文字コードを
信頼ワードに登録すればいいです。

 charset=の指定については以下のURLを参照するのがいいと思います。

http://msdn.microsoft.com/workshop/author/dhtml/reference/charsets/charset4.asp

 例えば韓国語だと、

ks_c_5601, euc-kr, iso-ir-149, korean, KSC_5601, KSC5601, euc-kr,
iso-2022-kr

 辺りを信頼ワードに登録しておけばいいんじゃないかと思います。

[ ]
RE:21430 迷惑フィルタ: 迷惑ドメインの自No.21433
さん 05/01/25 15:13
 
すみません、私の運用方法でちょっと言葉足らずなところが
あったので補足します。

Firak<xxxxxxxxxxxxxx@maruo.co.jp> wrote...
>>私の環境では約50通/日、約2000通/月のSPAMを受け取っていますが、
>>[信頼できる差出人] + [迷惑ワード(標準添付のもの)]の設定だけで
>>99%以上の精度が出ています。ここ1週間は誤判定ゼロです。
>>迷惑ドメインと信頼ワードは全く設定していません。
>
> 確認したいのですが、これは、Unclarをスパムと扱っての話でしょうか、
>それともSafeと扱っての話でしょうか。
> 
> あるいは、ほとんどUnclarが発生しないということなのでしょうか。

ご察しのとおり、unclearも基本的にはスパム扱いにしています。
ただし、[メールの振り分け]を併用していて、unclearであっても
優先度が高い振り分け条件にヒットした場合にはスパム扱いにはしません。
振り分け条件に全くヒットしなかったunclearメールをSPAMフォルダに
放り込むように振り分け設定しています。(一定期間経過後に自動削除)

「要らないものを捨てる」ではなくて「必要なものだけを拾い上げる」
という発想です。

ただ、この方法だと必要なメールまでSPAMフォルダに入ってしまう
ことがありますが、私の環境だと目で追える程度の頻度(約1%)でしか
起きないので、とりあえずこれで運用しています。

要するに、迷惑フィルタだけにはべったりと頼らない方法です。
読みたくないメールや良からぬことをするメールを排除できれば満足なので
もともと私はフィルタの精度にはさほど期待していません。

[ ]
RE:21432 迷惑フィルタ: 迷惑ドメインの自No.21435
Firak さん 05/01/25 15:16
 
ふぃらく です。

>
> 特定の文字コードのメールを迷惑メール扱いしないようにする方法は1つあり
>ます。メールのContent-Type:ヘッダ中のcharset=で指定されてる文字コードを
>信頼ワードに登録すればいいです。

 この方法だと、韓国語なら韓国語のメールが全てSafeに分類され、韓国語
のスパムが全く検出できなくなると思うのですが、理解が間違っているでしょう
か?

==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21431 迷惑フィルタ: 迷惑ドメインの自No.21436
Firak さん 05/01/25 15:16
 
ふぃらく です。

>
>作者提供の迷惑ワードというのは、DefaultSpamWord.txt のことでしょうか。これは
>私も取り込んでいます。

 変ですね、迷惑ワードなしの状態でも、15%程度、DefaultSpamWord.txtを
取り込んだ直後で60%以上スパムを検出していました。
 
 取り込んでも30%というのは低すぎるような気がします。
 
 Nanniさん宛に届くスパムに何か特殊な事情であるのでしょうか?
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21435 迷惑フィルタ: 迷惑ドメインの自No.21437
秀まるお2 さん 05/01/25 15:47
 
>  この方法だと、韓国語なら韓国語のメールが全てSafeに分類され、韓国語
> のスパムが全く検出できなくなると思うのですが

 その通りです。


[ ]
RE:21433 迷惑フィルタ: 迷惑ドメインの自No.21438
Firak さん 05/01/25 16:53
 
ふぃらく です。

>
>ただ、この方法だと必要なメールまでSPAMフォルダに入ってしまう
>ことがありますが、私の環境だと目で追える程度の頻度(約1%)でしか
>起きないので、とりあえずこれで運用しています。

 なるほど、これなら僕の方でも99%ですね。
 
 こちらは、unclearは、スパムとは別に扱っていますので、明にスパムに分類
されるのが8割りです。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21432 迷惑フィルタ: 迷惑ドメインの自No.21442
Nanni さん 05/01/25 18:24
 
>特定の文字コードのメールを迷惑メール扱いしないようにする方法は1つあり
>ます。メールのContent-Type:ヘッダ中のcharset=で指定されてる文字コードを
>信頼ワードに登録すればいいです。

秀まるおさん、文字コードによる分類方法、ありがとうございました。

iso-8859-1 というコードは、私のところにきたメールでは、英語にも英語以外の欧
州の言語でも使われていますが、鶴亀の中ではどちらに分類されているのでしょうか?

[ ]
RE:21442 迷惑フィルタ: 迷惑ドメインの自No.21444
秀まるお2 さん 05/01/25 20:43
 
 iso-8859-1は、いわゆる欧文の文字コードです。しかし、いわゆる普通の英語
のメールでも、この文字コードが指定されている場合があります。

 鶴亀メールの迷惑メールフィルターでは、iso-8859-1等の欧文用文字コードの
メールを見つけた場合、そのメールの中に、欧文用の文字が実際に入っているか
調べます。入ってなければ「英語」という扱いにし、入っていれば「欧文」とな
ります。

 「欧文」と扱われた場合で、迷惑メールフィルターの設定での「外国語メール
の扱い」での「日本語と英語以外の外国語メールを迷惑メール扱いとする」がON
の場合は、そのメールは迷惑メールと扱われます。

 というややこしいケースになる訳ですけど。

 欧文のメール(実際に欧文用の文字の入ったメール)を普段やりとりする必要
があるのなら、迷惑メールフィルターの精度はかなり落とさざるを得ないと思い
ます。

[ ]
RE:21444 迷惑フィルタ: 迷惑ドメインの自No.21457
Nanni さん 05/01/26 14:03
 
秀まるおさん、iso-8859-1等の欧文用文字コードについて、ていねいに説明していた
だきありがとうございました。

>欧文のメール(実際に欧文用の文字の入ったメール)を普段やりとりする必要
>があるのなら、迷惑メールフィルターの精度はかなり落とさざるを得ないと思い
>ます。

それは残念です。「日本語と英語以外の外国語メールを迷惑メール扱いとする」とい
う選択肢のほかにiso-8859-1等もいれた「日・米・欧以外の...」という選択肢をい
つかつくっていただけたらと思います。



[ ]
RE:21457 迷惑フィルタ: 迷惑ドメインの自No.21463
秀まるお2 さん 05/01/26 16:35
 
 しいて対応するとしたら、例えば

 ё

 のように、英数字の上に点々が付いたような文字を「e」と同一視して迷惑
ワードと照合させるような処理が必要だろうと思います。それはそれで技術的に
は可能だとは思います。

 今すぐはちょっと難しいしニーズ的にもどうかって気もするんですが、将来的
な懸案事項って扱いにさせていただきます。

[ ]
RE:21463 迷惑フィルタ: 迷惑ドメインの自No.21468
Nanni さん 05/01/26 20:08
 
>今すぐはちょっと難しいしニーズ的にもどうかって気もするんですが、将来的
>な懸案事項って扱いにさせていただきます。

それはどうもありがとうございます。

「フィルターレベル」を「標準」から「高」のデフォルトにしたところ、精度が格段
に上昇し満足のできるよう水準になりました。

spam (clickable image)がたくさんかかるようになりました。これが捕捉率改善の原
因だと思います。

spam (korea charset)などコードでかかるものもありますがあまり多くはありません。

「日本語と英語以外の外国語メールを迷惑メール扱いとする」もオンにしています。
harset=ISO-8859-1を含む非英語メールも迷惑メールとならずに今のところうまくい
っています(これはこれで問題なのかもしれませんが)。

ありがとうございました。





[ ]
RE:21468 迷惑フィルタ: 迷惑ドメインの自No.21470
秀まるお2 さん 05/01/26 22:41
 
 ちなみに欧文のメール(西ヨーロッパ言語のメール)ってことになると、
iso-8859-1の他に、

 latin1
 windows-1252

 ってのもあるので、それも信頼ワードに入れておいた方がいいかもしれません。

[ ]