スパムフィルター、空白メールの扱いNo.20965
Firak さん 04/12/24 15:22
 
こんにちは、ふぃらく です。

 必要になるのは、非常に少数派なので、だめ元で要望を出します。
 
 メーリングリストの管理者をしていると、以下のようなメールがやってきます。
 
 最近のウイルスのせいでかなり多量に発生します。
 
 実際には、空白メールなのですが、メーリングリストの管理サーバで、メール
を転送する再、メールを本文に転記してしまうので、実際には空白メールである
にもかかわらす、本文ありとなってしまいます。
 
 本文中にヘッダ相当に記述しかない場合は、空白メールとしてスパムに分類し
ていただけると助かります。

================以下事例1

Dear moderators

Moderated $MAIL_LIST <xxx@sannyasjp.net> receives a submit from

   xxxxxxxxxxx@o2.pl
   (who is NOT A RECEIVER NOR A MEMBER).

モデレータの方へ:
リクエストをフォワードします。
以下のメールが適当でメーリングリストへ流してよいなら
次のキーワード(の行だけ)を<xxxxxxx@sannyasjp.net>宛に送って下さい。

moderator certified 200412241436242635.526566



------- Forwarded Message

Received: (qmail 2621 invoked from network); 24 Dec 2004 05:36:16 -0000
Received: from unknown (HELO 66.98.152.83) (61.83.252.5)
  by ohah.net with SMTP; 24 Dec 2004 05:36:16 -0000
Received: from HJTPT-TX51 (61.83.252.5) by 61.83.252.5; Fri, 24 Dec 2004
07:31:09 +0200
From: "Cherie Jorgensen" <xxxxxxxxxxx@o2.pl>
To: xxxxxxx@sannyasjp.net
Cc: xxxxxxxx@sannyasjp.net, xxxxxxx@sannyasjp.net, xxx@sannyasjp.net
Subject: The cheapest you will find anywhere
Date: Fri, 24 Dec 2004 07:31:09 +0200
MIME-Version: 1.0
Content-Type: text/plain; charset=ISO-2022-JP
X-Ml-Ignore-Type: Multipart/Alternative
X-Priority: 3
X-MSMail-Priority: Normal
Message-Id: <0[6

------------------------------------------------------------------------
--
このメールはサニヤス掲示板(SIJ)から配信されています。手続きについては、
http://www.sannyasjp.net/inet/sijcmd.htm を参照ねがいます。

[ ]
RE:20965 スパムフィルター、空白メールのNo.20972
秀まるお2 さん 04/12/24 17:12
 
 状況があまり理解できてないかもしれないのでなんですが、つまり、本文中に
入っているFrom:のメールアドレスが「信頼できる差出人」かどうか判定できれ
ばそれで100%満足なのでしょうか。そのほかの、迷惑ワードにヒットするかどう
かとか、ウィルスと思わしき添付ファイルが付いてるかどうかとか、そういった
ことはまったく関係ないんですかね?

 だいたいにして、メール本文に転送元のメールが入っているにしも、それは必
ずそういう「Forwarded message」みたいにして届くってことは、そこのシステ
ムでの完全ローカル仕様でして、将来的にそのまま仕様変更される保障も無いよ
うな気がしますけど…。本文がカットされてるのか添付ファイルがカットされて
るのかデコードされてるのかエンコードされてるのかも僕には分からないので、
今の断片的な情報だけではどっちにしても対応できないですが。

[ ]
RE:20972 スパムフィルター、空白メールのNo.20974
秀まるお2 さん 04/12/24 17:27
 
 とりあえずですけど、例えば「転送元の差出人リスト」みたいなのを対応した
として、From:のメールアドレスがそこのリストに登録されていたら、「信頼で
きる差出人かどうか」って判定を、メール本文またはmessage/rfc822形式添付フ
ァイルまたはmessage/rfc822-header形式添付ファイル中の「From:」で始まる行
の中から拾ってきて、それで判定させるってことなら技術的には可能です。

 そういう「転送元の差出人リスト」ってことで対応する程度ならそこそこ出来
ますけど。ただ、ニーズ的にどうか分からないのに作るのはやる気の問題があり
ます。

[ ]
RE:20972 スパムフィルター、空白メールのNo.20977
Firak さん 04/12/24 18:12
 
ふぃらく です。

>入っているFrom:のメールアドレスが「信頼できる差出人」かどうか判定できれ
>ばそれで100%満足なのでしょうか。そのほかの、迷惑ワードにヒットするかどう
>かとか、ウィルスと思わしき添付ファイルが付いてるかどうかとか、そういった
>ことはまったく関係ないんですかね?

 手元に過去3年分のスパムフリーの状態でメールが蓄積されておりまして、こ
れを元に「信頼できる差出人」を作成しました。
 
 「信頼できる差出人」にヒットしないuncleaをスパムとみなすと、サーバから
の転送メールの除くと98%以上の精度があります。
 
 POPFileを凌ぐ精度になっています。
 
 判定ミスになったのは、メーリングリストからのメールや、アドレスを変えた
友人のメールなどきわめて限られたもので、毎日200通近くのメールから、平均
して1通まで行かないという状況です。
 
 そんなわけで、迷惑ワードの判定がなくともかなりの精度が期待できそうだと
見込んでおります。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:20974 スパムフィルター、空白メールのNo.20978
Firak さん 04/12/24 18:13
 
ふぃらく です。

> とりあえずですけど、例えば「転送元の差出人リスト」みたいなのを対応した
>として、From:のメールアドレスがそこのリストに登録されていたら、「信頼で
>きる差出人かどうか」って判定を、メール本文またはmessage/rfc822形式添付フ
>ァイルまたはmessage/rfc822-header形式添付ファイル中の「From:」で始まる行
>の中から拾ってきて、それで判定させるってことなら技術的には可能です。

 ウイルスメールかどうかとか、いろいろチェックはあると思いますが、上記の
処理で、こちらのケースをみていると、9割以上、正確に判定できてしまうとい
う感じがあります。
 
>
> そういう「転送元の差出人リスト」ってことで対応する程度ならそこそこ出来
>ますけど。ただ、ニーズ的にどうか分からないのに作るのはやる気の問題があり
>ます。

 僕もそう思います。
 
 この種の問題を抱える人は少ないとおもいますし、そんな人は、POPFileのよ
うなツールもあるでしょうしね。
 
 一応、そんな要望もあるという程度の認識で良いです。
 
 転送メールのような例を除くと、「信頼できる差出人」のフィルタだけで99
%の精度が出ています。
 
 手元にスパムフリーで充分なメールが蓄積されているという前提がありますけ
どね。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:20977 スパムフィルター、空白メールのNo.21021
秀まるお2 さん 04/12/27 16:53
 
 safeとunclearとspamの3つに分類されるとして、結局の所、unclearと分類さ
れたメールの中にはsafeとなるべきメールが含まれている訳で、そうすると、人
間がメールを1通づつ確認しないといけないです。

 つまり、safeかどうかっていう判定が98%の精度になったとしても、それで人
間的なメールチェックの手間が減る訳ではないと思います。結局のところ、

 「明らかに迷惑メールと思わしき物をspamと判定する」

 っていう、その精度が高くならない限り、迷惑メールの海から必要なメールを
救出するという、大変面倒な作業がずっとつきまとう訳で…。

 だから、「信頼できる差出人」の精度が98%になってもあまり意味無いような
気がします。

 今回の話というか、前回から続いてる一連の話は、つまり、Firakさんとこに
届いてる、特殊な掲示板への書き込みメールについての話な訳でして…。

 そこの管理者向けに転送されてくるメールから実際に投稿されたメールをうま
く抽出する方法があれば、そういう抽出する機能を別途作った上で、その抽出し
たメールを元に判定するようにすれば万事解決なんだろうと思います。というか、
そういうことが出来ないならば、無理して現在のフィルターでなんとかしてくれ
と言われても無理な話です。

[ ]
RE:21021 スパムフィルター、空白メールのNo.21026
Firak さん 04/12/27 17:38
 
ふぃらく です。

>
> 今回の話というか、前回から続いてる一連の話は、つまり、Firakさんとこに
>届いてる、特殊な掲示板への書き込みメールについての話な訳でして…。
>

 僕の場合は、特殊ではあります。
 
 しかし、信頼できる差出人の判定をヘッダのFromにとどめるのか、本文中の転
送メールまで拡大するのかという点に関しては検討の余地があるとおもいます。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21026 スパムフィルター、空白メールのNo.21027
秀まるお2 さん 04/12/27 17:51
 
>  しかし、信頼できる差出人の判定をヘッダのFromにとどめるのか、本文中の転
> 送メールまで拡大するのかという点に関しては検討の余地があるとおもいます。

 だから、それについては技術的に(速度的に)出来ないという話をどこかに書
いたと思ったんですが…。(どこに書いたか忘れたのでなんだけど)

 で、繰り返しになりますけど、safeか、それともunclear/spamかって判定精度
が98%になったとしても、結局のところ、unclearと分類されたメールを全部目視
チェックしないといけないとしたら、それは人間的に手間が軽減された訳じゃな
いと思うんですよね。

 根本的に僕の迷惑メールフィルターは、spamかそうでない(safe/unclear)か
ってことを判定するために作った物、つまり、spamと判定されたメールを一切目
で見ることなく破棄するために作った物でして、根本的に、safeかどうかの判定
精度をどうにかしてくれって言われても、それは、僕の想定している迷惑メール
フィルターの利用目的と違う訳なんです。だから、そういう要望には対応したく
ないという思いが根本的にある訳なんです。

 仮に上記の話に同意していただけるとしたら、とりあえず、対象のメールを
100通ほど、lzh形式に圧縮して僕に送っていただけないでしょうか。それで対応
できる/出来ないがお返事できると思います。サイズが大きい場合は
xxxxx@maruo.co.jp宛に送って欲しいです。

[ ]
RE:21021 スパムフィルター、空白メールのNo.21028
Firak さん 04/12/27 18:05
 
ふぃらく です。

>
> つまり、safeかどうかっていう判定が98%の精度になったとしても、それで人
>間的なメールチェックの手間が減る訳ではないと思います。結局のところ、
 
 Unclearの中を確認するか、Spamの中を確認するかと言う違いで、確認は必要
なわけですから、実運用上何かが変わるわけではないというのが、今まで使った
実感です。
 
 また、Spamに分類されたものも、迷惑ワードを増やしていけば、予期しない形
で、Spamに分類されるものがありえるわけで、やはりSpamへの監視というのは必
要になります。
 
 確かに迷惑ワードを限定して登録すれば、あやまってSpamに分類されるケース
はなくなるでしょうが、その範囲では、認識率は、5割もいかないとおもいます、
毎日最低100通のUnclearを監視する必要があります。
 
 また、ウイルス由来のものが毎日10通程度、Safeに分類されるので、Safeを
完全に信頼してよいというわけでもありません。
 
 いろいろ要望を出しておりますが、短期的に解決してもらえるという期待はし
ておりません、こういうケースもあるという事で、今後の改善に参考にしていた
だけると幸いです。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21027 スパムフィルター、空白メールのNo.21029
Firak さん 04/12/27 18:09
 
ふぃらく です。

>
> だから、それについては技術的に(速度的に)出来ないという話をどこかに書
>いたと思ったんですが…。(どこに書いたか忘れたのでなんだけど)

 Fromに相当する部分を確実に判定するということではなく、単に信頼ワード扱
いできないかと言う事なんですけど。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21029 スパムフィルター、空白メールのNo.21031
秀まるお2 さん 04/12/27 18:26
 
>  Fromに相当する部分を確実に判定するということではなく、単に信頼ワード扱
> いできないかと言う事なんですけど。

 現状の迷惑メールフィルターでは出来ないです。ってことをお返事すればいい
んですかね。それとも、そういう風にプログラムを直してくれるかどうかって質
問ですかね。仮にそうだとしたら、「直しません」というお返事になります。

 しいて現状でやりたければ、tkf_SafeSender.txt中の「\」を「@」に変換した
上で、その内容をtkf_SafeWord.txtにくっつけてやればいいですけど。マクロで
なんとかしようと思えば出来るとは思います。

[ ]
RE:21028 スパムフィルター、空白メールのNo.21034
秀まるお2 さん 04/12/27 18:39
 
>  また、Spamに分類されたものも、迷惑ワードを増やしていけば、予期しない形
> で、Spamに分類されるものがありえるわけで、やはりSpamへの監視というのは必
> 要になります。

 少なくとも僕のPEH00775のメールでは、spamと判定されたメールはまったく件
名を見ること無く破棄してますが…。間違ってspamと判定されないように、迷惑
ワードも標準のままで運用しています。

 spamと判定されたはずのメールも一通り見るようでは、何のためのフィルター
なのか分からないって話が、以下のURLにも書いてありますが…。

  http://www.itmedia.co.jp/lifestyle/articles/0412/27/news006.html

 まぁ、とりあえず僕の迷惑メールフィルターはそれなりに自分では使える物か
なぁと思うし、ふぃらくさんのケースはちょっと特殊みたいだしということで、
そのまま当分様子見してみます。

[ ]
RE:21027 スパムフィルター、空白メールのNo.21035
Firak さん 04/12/27 18:50
 
ふぃらく です。

>
> で、繰り返しになりますけど、safeか、それともunclear/spamかって判定精度
>が98%になったとしても、結局のところ、unclearと分類されたメールを全部目視
>チェックしないといけないとしたら、それは人間的に手間が軽減された訳じゃな
>いと思うんですよね。

 現状の鶴亀のフィルターでは、Spamの代わりにunclearを目視という状況にな
っています。
 
 unclearは目視の必要がないというのは、どういう運用を想定しているのでし
ょうか?
 
 Spamに分類されるメールに必要なメールが無いとしても、Safeに分類されるべ
きメールが100通を超えるunclearの中に混ざっており、それを探し出す作業
は必要になると思います。
 
 unclearについて目視の必要がないのであれば、僕の理解が根本的にまちがっ
ていることになるので、教えてください。
 
==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21031 スパムフィルター、空白メールのNo.21036
Firak さん 04/12/27 18:52
 
ふぃらく です。

>
> しいて現状でやりたければ、tkf_SafeSender.txt中の「\」を「@」に変換した
>上で、その内容をtkf_SafeWord.txtにくっつけてやればいいですけど。マクロで
>なんとかしようと思えば出来るとは思います。

 確かにそのやり方がありますね、時間ができたらトライしてみます。

==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21034 スパムフィルター、空白メールのNo.21037
Firak さん 04/12/27 18:56
 
ふぃらく です。

>
> spamと判定されたはずのメールも一通り見るようでは、何のためのフィルター
>なのか分からないって話が、以下のURLにも書いてありますが…。
>
>  http://www.itmedia.co.jp/lifestyle/articles/0412/27/news006.html
>

 現実的には、理想論だと思います。

> まぁ、とりあえず僕の迷惑メールフィルターはそれなりに自分では使える物か
>なぁと思うし、ふぃらくさんのケースはちょっと特殊みたいだしということで、
>そのまま当分様子見してみます。

 かなり使えていますね、POPFileを知らなければ満足していると思います。
 
 特に「信頼できる差出人」とデフォルトのSPAM判定は良いです。

==============================
ふぃらく
xxxxx@net.email.ne.jp
==============================

[ ]
RE:21037 スパムフィルター、空白メールのNo.21039
たまちゃん3 さん 04/12/27 19:00
 
98%の精度というのはけっして高いものではありません。

世の中には POPFile よりも優れたフィルタがあります。後ほど
別のことをゆっくり書きます。

[ ]
RE:21039 スパムフィルター、空白メールのNo.21042
たまちゃん3 さん 04/12/27 19:55
 
書きたかったのはジャンクメールを受け取った後にどのようにフィ
ルタにかけるかではなく,そもそも受け取らないようにするにはど
うしたらいいかということでしたが,[21040] でセイさんがおっし
ゃっているように鶴亀の話と外れますので,やめときます。

すみません。

あ,ちなみに POPFile 自身は優れていると思います。最近のバージ
ョン(同時接続での問題点を解決したもの)は日本のあまつぶさん
の多大なる努力によるものです。すばらしいです。

[ ]
RE:21042 スパムフィルター、空白メールのNo.21047
秀まるお2 さん 04/12/27 22:46
 
 現実問題としては、僕がPOPFileを使ったことがないというのは当たりでして
…。それについて反論することが出来ないのか悲しい所ですが、たまちゃんさん
の話の通り、この話をつきつめていくと、結局話はどんどん深みにはまっていく
んですね。

 とにかくですけど、一般的な見地から言って、迷惑メールフィルターが「迷惑
メールだ」は判定したら、シロウト的に見たら、たぶん最初のうちはおもしろ半
分でどんなのが届いてるか見るけども、だんだん慣れてくるうちに何も見ないで
破棄すると思うんですよね。実際、うちの奥さんが、僕が何も言わなくてもそう
いう処理をしています。だから、鶴亀メールでの「spam」というのは、本当に
spamとみて間違い無いようにしてるつもりです。(といいつつ、まだ一部バグに
よって、正常なメールもspamになったケースが出てしまいましたが)

 なんとなく僕の頭の中がどうなってるかは理解いただいたようなので、後は、
そのふぃらくさんの所での特殊な形式で転送されるメールのサンプルさえいただ
ければ、それはそれで僕が対応できるかどうかだけ判断させていただきます。送
るかどうかはふぃらくさんの判断におまかせしますので、何も届かなかったら僕
は何もしません。何か届いたら中身をぼちぼち見ます。

 出来れば、現状の鶴亀メールのフィルターが「safe」と判定するケースを少々、
unclearと判定するケースを多数、spamと判定するケースを少々教えていただく
程度がいいです。個人情報はもちろん漏洩させないつもりです。受信ログのよう
な、生のデータ(エンコードされた形式)でください。

[ ]
RE:21047 スパムフィルター、空白メールのNo.21050
秀まるお2 さん 04/12/27 23:21
 
 すみません。今さらながら、「信頼できる差出人」を本文中のメールアドレス
にもヒットうんぬんって話についてのコメントが何も出されてなかったことに気
づきました。

 ちゃんと返事を書いたつもりが、草稿フォルダに入ったまま放置されてまして
…。こんな風に返事したつもりに(僕の頭の中で)なっていたようです。大変失
礼しました。

------------------------------------------------
>  個人的には、本文中に出現するメールアドレスもFromと同様に扱って欲しいの
> ですが、他とのからみもあるでしょうから仕様なら仕方が無いと思っています。

 そうしてしまうと、それは単に信頼ワードと同じ扱いになりますが…。

 「信頼できる差出人」のリストはかなり膨大になることがありまして、それを
メール本文に対して検索するのはかなり重い処理になる可能性があります。例え
ば僕のPEH00775のメールアドレスのような信頼できる差出人が何万人、下手する
と何十万人なんてこともありえますので…。
------------------------------------------------

 ということで、つまり、内部的な処理の都合(=処理速度)の関係で、無理そ
うだってことを言ったつもりでいたようです。

-----------
 あー今ちょっと酒が入ってもうすぐ寝ようとしてるので、無礼な点があったら
ご勘弁ください。もう寝ます。

[ ]