迷惑メールフィルターの仕様について相談No.08540
秀まるお さん 04/10/27 15:27
 
 迷惑メールフィルターをだいぶ作り込んだんですけど、よくない所がいきなり
出てきたので、常連ユーザー様にひとつ相談があります。

 現在、ホワイトリスト、ホワイトワード、ブラックリスト、ブラックワード 
という4つの仕組みを使って主にメールを分類してるんですけど、この用語自体
が分かりにくいという話になってます。

 ホワイトリストとは、例えば以前メールをやりとりしてた人をそこに登録して
おくと、その人からのメールは必ず迷惑メールじゃない扱いとなります。

 ホワイトワードとは、例えば僕の場合なら「秀丸」とかの単語を登録しておく
と、そういう単語の入ったメールは必ず迷惑メールじゃない扱いとなります。

 ブラックリストとは、特定の送り主を登録しておくことで、その人からのメー
ルを迷惑メール扱いとします。

 ブラックワードとは、迷惑メールでよく使われている単語を登録しておくこと
で、その単語を含むメールを迷惑メール扱いとする物です。

 ホワイトワード/ホワイトリストの方が、ブラック…より優先順位が高くなっ
てまして、仮にブラックワードを含んでいても、ホワイトワードを含んでいれば
迷惑メール扱いとはなりません。

 で、分類の結果は、

 spam     ... 迷惑メール
 safety   ... 迷惑じゃないメール(ホワイトリストなどにマッチした)
 unclear  ... どっちにもヒットしなかった

 という3分類となってしまいます。ユーザーさんにとっては"spam"かどうかだ
けした見なくていいのが理想なんですが…

 そもそも、「ホワイト…」とか「ブラック…」という言い方が分かりにくいと
いうことで、とりあえず「ブラックリスト」は「迷惑リスト」、「ブラックワー
ド」は「迷惑ワード」にしようかと思いつつ、じゃぁ「ホワイト…」はどうする
のかって話がありまして…。

 何かこう、きれいな言い方があれば教えて欲しいです。

[ ]
RE:08540 迷惑メールフィルターの仕様につNo.08541
たまちゃん さん 04/10/27 15:47
 
ホワイトリストとブラックリストは定番の表現となっていますのでそのままでよいと
思います(ブラックリストをブロックリストと呼ぶソフトもあります)。

spam     ... 迷惑メール
safety   ... 迷惑じゃないメール(ホワイトリストなどにマッチした)
unclear  ... どっちにもヒットしなかった

spam メールでないメールも通常は ham メールと呼ばれます。どちらでもないメール
は迷惑メールフィルタによって呼び方が違いますが,一番メジャーな POPFile など
では unclassified などとしています。

ホワイトワードとブラックワードの表現については調べてみます。

[ ]
RE:08540 迷惑メールフィルターの仕様につNo.08542
hito さん 04/10/27 15:52
 
セイフティリスト(ワード)あるいは安全リスト(ワード)
ではどうでしょう。

---
hito

[ ]
RE:08542 迷惑メールフィルターの仕様につNo.08543
たまちゃん さん 04/10/27 15:59
 
>セイフティリスト(ワード)あるいは安全リスト(ワード)
>ではどうでしょう。

ホワイトワードという表現はなかったので,やはりつくった方がよい
と思いました。

hitoさんのご意見もいいですね。 trusted が英語ではよく用い
られているようなのでホワイトリストは「信頼リスト」などとできる
かと思います。

[ ]
RE:08540 迷惑メールフィルターの仕様につNo.08544
Iranoan さん 04/10/27 16:06
 
 秀まるおさん今日は、Iranoan です。
>  ホワイトリストとは、例えば以前メールをやりとりしてた人をそこに登録して
> おくと、その人からのメールは必ず迷惑メールじゃない扱いとなります。
 ヴィールス・メールは宛先を詐称して送ってくるので、これが出来ても果た
して有効かどうか不明。実際、私は From:xxxxxxxx@nifty.ne.jp となってい
るヴィールスを受け取ったことが有るし(^^)。

 この事は本題から外れますので、無視して頂くとして、
>  そもそも、「ホワイト…」とか「ブラック…」という言い方が分かりにくいと
> いうことで、とりあえず「ブラックリスト」は「迷惑リスト」、「ブラックワー
> ド」は「迷惑ワード」にしようかと思いつつ、じゃぁ「ホワイト…」はどうする
> のかって話がありまして…。
>
>  何かこう、きれいな言い方があれば教えて欲しいです。
に付いて、綺麗がどうかは別にして、「安全」「受信」なら解りやすいのでは
ないでしょうか?

 ##文面を読むとベイジアン・フィルターを使っているわけでは無さそうです
ね。この方式で、どの程度賢く分類してくれるようになるのだろう。

[ ]
RE:08544 迷惑メールフィルターの仕様につNo.08545
秀まるお さん 04/10/27 17:14
 
 さっそくいろいろ情報ありがとうございます。とりあえずIranoanさんの話に
だけコメントさせていただきます。

>  ヴィールス・メールは宛先を詐称して送ってくるので、これが出来ても果た
> して有効かどうか不明。実際、私は From:xxxxxxxx@nifty.ne.jp となってい
> るヴィールスを受け取ったことが有るし(^^)。

 実は、ホワイトリストによる分類について、From:ヘッダが自分自身だった場
合の特別な法則も用意しています。具体的には、From:が自分自身だけども送っ
た先(To:/Cc:)が身に覚えの無いアドレス(ホワイトリストに登録されてない)
だったら、

    X-TuruKame-Filter: spam (unknown mail from me)

 みたいになります。ちなみにですけど、自分が誰かにメールを送ると、その送
った先は自動的にホワイトリストに登録されるという仕組みも別途用意していま
す。

 不達メールについての振り分けも作りました。自分が送ってないはずの相手か
らの不達メールは "spam (unknown returned mail)"となり、自分がたしかに送
った相手からの物は"safety (real returned mail)"となります。

 他にもいくつか細工があって、社内テストしながら試行錯誤してる所ですが、
たぶんβ版を公開すると、こういうややこしい話が多数発生して大変なことにな
るんだろなぁとは思います。

>  ##文面を読むとベイジアン・フィルターを使っているわけでは無さそうです
> ね。この方式で、どの程度賢く分類してくれるようになるのだろう。

 ペイズ理論でやるには日本語の単語区切りとかも考えないといけないし、僕に
は無理だと思いました。ま、一応フィルター自体はプラグインになっているので、
誰かそういうプラグインを作ってくれれば別ですが。

 もう1つネタをばらすと、メール中に入っているURLの、ホスト名部分だけを
google検索して、もし何も見つからなかったら迷惑メール扱いにするってアイデ
アもあるにはあるんですが…。まだこれについては手付けてません。

 とにかくこういう先の話は別にして、最初の銘々関係がおかしいと後々修正で
きないので、先に確定させるべき所を確定させたいなぁと思います。

 ってことで、情報よろしくお願いします。

[ ]
RE:08543 迷惑メールフィルターの仕様につNo.08546
Iranoan さん 04/10/27 17:25
 
 今日は、Iranoan です。
> trusted が英語ではよく用い
> られているようなのでホワイトリストは「信頼リスト」などとできる
> かと思います。
 「安全」は考えましたが、これは良いですね。
>  ヴィールス・メールは宛先を詐称して送ってくるので、これが出来ても果た
> して有効かどうか不明。実際、私は From:xxxxxxxx@nifty.ne.jp となってい
> るヴィールスを受け取ったことが有るし(^^)。
の時は、全然「安全」ではないので。

[ ]
RE:08540 迷惑メールフィルターの仕様につNo.08547
EMiCC さん 04/10/27 17:26
 
万人にわかり易くとなると、他の人も挙げていますが「安全リスト(ワード)」・
あるいは「許可リスト(ワード)」・「OKリスト(ワード)」などでしょうか。
でも[許可]とか[OK]とかいう文言を使うと、[迷惑]の方も[拒否]とか[NG]とか
いう文言に変えたくなります(が、これは賛否両論ありそうなので聞き流しといて下
さい)


[ ]
RE:08545 迷惑メールフィルターの仕様につNo.08548
Iranoan さん 04/10/27 17:45
 
 秀まるおさん今日は、Iranoan です。
>  実は、ホワイトリストによる分類について、From:ヘッダが自分自身だった場
> 合の特別な法則も用意しています。具体的には、From:が自分自身だけども送っ
> た先(To:/Cc:)が身に覚えの無いアドレス(ホワイトリストに登録されてない)
> だったら、
 確かにこれもチェックすれば、ある程度効果はありそうですね。

>  ペイズ理論でやるには日本語の単語区切りとかも考えないといけないし、僕に
> は無理だと思いました。ま、一応フィルター自体はプラグインになっているので、
> 誰かそういうプラグインを作ってくれれば別ですが。
 ちょっと残念ですが、プラグインになっているなら、誰かが作ってくれるの
を待つのもいいかもしれませんね(^^)。プラグインなら、GPL の分かち書き
ツールも使えますし。
 因みに、POPFile は鍛えてやれば、相当正確に分類してくれます。私の環境
では、最近の 10 日間では、分類ミスが 1 つも有りません。それ以前は 98%
程度で頭打ちだったので、これ以上は無理かなあ〜、と思っていたのですが。
それに比べて @nifty のそれは今一つです(;_;)。

>  もう1つネタをばらすと、メール中に入っているURLの、ホスト名部分だけを
> google検索して、もし何も見つからなかったら迷惑メール扱いにするってアイデ
> アもあるにはあるんですが…。まだこれについては手付けてません。
 正直、URL やメール・アドレスについては、これは効果があると思います。
しかし、トラフィックを大幅に増大させてしまいそうなのが怖いですね。

[ ]
RE:08547 迷惑メールフィルターの仕様につNo.08552
秀まるお さん 04/10/27 23:03
 
 ここにコメントするのもなんですが、もう1つ疑問に思う所がありました。

 「リスト」って、別にEmailのリストじゃなくてもリストって言う訳で、つま
り、ホワイトな電子メールアドレスのリストもリストだけど、ホワイトな単語の
リストもリストな訳で、それら2つを「××リスト/××ワード」と呼び分ける
のがおかしい気がしました。

 ということで、それぞれを「××アドレス」、「××ワード」にしようかなぁ
と今さら思ったりします。

 「××」の所は、みなさんのお話を総合して、現状で「safety」と言ってしま
ってることも配慮(?)して、

 安全アドレス/安全ワード
 迷惑アドレス/迷惑ワード

 ってことにしようかなぁと…。まだしっくり来ませんが。

 もうちょっと考えます。

[ ]
RE:08545 迷惑メールフィルターの仕様につNo.08553
たまちゃん さん 04/10/27 23:03
 
>メール中に入っているURLの、ホスト名部分だけを
>google検索して、もし何も見つからなかったら迷惑メール扱いにするってアイデ
>ア

URI を使うアイデアとして SURBL

http://www.surbl.org/

があります。私も使ってますがかなり強力です。

同じように dns のブラックリストを使ったフィルタとして

http://www.spampal.org/

があります。鶴亀と結構長い間使ってました。dns ブラックリストは
気をつけないと誤検知(false positives)の恐れがあるので,ホワイト
リストとうまく併用しないとダメです。

本題の鶴亀さんのフィルタのアイデアはとってもいいと思います。自
分でフィルタの動作を決めることができるのはとっても大事だと思っ
ているからです。

[ ]
RE:08547 迷惑メールフィルターの仕様につNo.08554
秀まるお さん 04/10/27 23:05
 
 やっぱりsafetyをやめてtrustedにしようかなぁと…。それで「安全××」を
「信頼××」にするかなぁと…。

[ ]
RE:08553 迷惑メールフィルターの仕様につNo.08555
秀まるお さん 04/10/27 23:17
 
 情報ありがとうございます。たぶんそういうブラックリストみたいなのはどこ
かにあるんだろなぁとは思っていたんですけど、実際のそういう製品やりサイト
なりは知りませんでした。

 googleを使うにもいまいち不完全なので、最終的にこういう black domain
listみたいなのを使わないといけないのかなぁと思ったりしますが、そうすると、
壮大な計画になりそうな気がします。つまり、誰がリストを更新するかという話
になりまして…。

 例えば、リストを更新するアルバイトみたいな人を登録制にして、リスト自体
はうちのコミュニテックスサーバーで管理しつつ、登録はアルバイトさんが行う
という風なアイデアがあります。そして、アルバイトさんは、自身が登録した
black domainの数だけポイントがたまっていって、例えば100ポイントたまっ
たら1000円もらえるとか…。さらには、black domain listをうちのサー
バーにだけ置いておいたのでは一般ユーザー様からのアクセスが集中してしまう
ので、例えばミラーサイトみたいなのをたくさん用意して、そこに、うちのサー
バーから自動でftp転送するとか…。

 そういうシステムを作ったとして、果たしてどこから運用資金を捻出するのか
も問題ですけど。例えばそういうblack domain listの取得だけ会員制にして、
サイトー企画が適当にマージンを取った残りをアルバイトさんが分かち合うとか
…。

 ま、そこまでいくと本当に大変な話になるので、とりあえずやめときます。

[ ]
RE:08545 迷惑メールフィルターの仕様につNo.08556
davinci さん 04/10/27 23:25
 

2004/10/27(水) 23:05:33

こんにちは、秀まるおさん

ダヴィンチ@ユーザーです。

ホワイトリスト→ 許可リスト
ブラックリスト→ ブロックリスト

上記は、「ウィルスセキュリティ」の迷惑メール監視設定上の
文言です。

ホワイトについてはIranoanさんの「安全」とか「受信」という表現が
わかりやすいと思います。

ホワイトについてはちょっとトッピですが・・・
○パスリスト
○ファミリーリスト
○フリーリスト
なんてどうでしょう。

/*
** タイトル:『turukame.2:08545| RE 08544 迷惑メールフィルターの仕様につ
いて相談』
** 発信日:2004年10月27日(水) 17:14:25
** 発信者:秀まるおさん
*/
> 実は、ホワイトリストによる分類について、From:ヘッダが自分自身だった場
>合の特別な法則も用意しています。具体的には、From:が自分自身だけども送っ
>た先(To:/Cc:)が身に覚えの無いアドレス(ホワイトリストに登録されてない)
>だったら、

これは嬉しい仕組みです。
実際私もこれに会い、SpamFilterでは太刀打ち出来ませんでした。

>
>    X-TuruKame-Filter: spam (unknown mail from me)
>
> みたいになります。ちなみにですけど、自分が誰かにメールを送ると、その送
>った先は自動的にホワイトリストに登録されるという仕組みも別途用意していま
>す。

ホワイトリストへの自動登録もありますが、
通常扱うメールは、通常のフォルダに保存されておりますので
通常フォルダに保存されているFrom/To/Ccに該当するメールは、
安全メールとして処理していただけると、一々ホワイトリストを
管理しなくて良いです。

現状のアドレス検索は非常に高速なのでありかと、
思いましたが、いかがでしょう。

--
メーラー: TuruKame 3.70 (WinNT,500)
OS: Windows2000 SP4
※このコメントはサイトー企画とは無関係です。
※私の個人的な見解です。

[ ]
RE:08554 迷惑メールフィルターの仕様につNo.08557
hito さん 04/10/27 23:25
 

> やっぱりsafetyをやめてtrustedにしようかなぁと…。それで「安全××」を
>「信頼××」にするかなぁと…。

”安全”を提案したのですが、たまちゃんの”信頼”の方が、語感がよ
いと思います。
”迷惑”は、その通りなのでぴったりだと思います。

---
hito

[ ]
RE:08557 迷惑メールフィルターの仕様につNo.08558
たまちゃん さん 04/10/27 23:30
 
シロであるかクロであるかを機械が自動的に決めるのではなく,自分で決める
わけですから,「信頼」がしっくりくると私も思います。

もちろん信頼は裏切られることはあります。(^^;; そのときはフィルタの修正
ということで対応可能なのでよいのではないかと。

[ ]
RE:08555 迷惑メールフィルターの仕様につNo.08559
たまちゃん さん 04/10/27 23:38
 
>つまり、誰がリストを更新するかという話になりまして…。

この作業は SpamCop (http://www.spamcop.net/) なり Spamhaus
(http://www.spamhaus.org/) などの有名どころがやってくれますの
で,こちらでリストを更新する必要はないと思います(もちろん spam
メールのサンプルを提供することはできます)。こちらでやることは
彼らのデータベースを参照することだけです。

外部ブラックリストを参照するのは壮大になるので,最初に出していた
だいたアイデアで本当にいいと思います。

[ ]
RE:08554 迷惑メールフィルターの仕様につNo.08560
nogold さん 04/10/28 01:32
 
nogoldです。

ホワイトリスト、ブラックリストの呼称に関してですが
ちょっと調べてみました。
以下の通りです。
ニフティ 「セーフリスト」、「受信拒否アドレスリスト」
MSN 「セーフ リスト」
Yahoo.com 「Blocked Addresses」

ホワイトリストの方は、「セーフリスト」という名前が
結構使われているようです。
日本語としてもセーフと言うのはわかりやすいと思います。
ちなみに、英語のsafeには「信頼できる」という意味もあります。

取り急ぎ、ご報告まで。

[ ]
RE:08555 迷惑メールフィルターの仕様につNo.08561
アルビレオ さん 04/10/28 03:24
 
アルビレオです。

今のところは思いついただけのようなので大きなお世話だとは思いますが、ブラ
ックリスト公開によるトラブルというものもあります。

○スパムブラックリストへの苦情増える(ITmedia)
http://www.itmedia.co.jp/news/0207/13/nebt_10.html

個人的に使うならどんなリストを作ろうが自由ですが、それを公開/共有すると
なると「誰が見ても間違いなくスパム」というものだけにしなければならず、い
ろいろとめんどうがあるみたいです。

[ ]
RE:08556 迷惑メールフィルターの仕様につNo.08562
秀まるお さん 04/10/28 09:51
 
> ホワイトリストへの自動登録もありますが、
> 通常扱うメールは、通常のフォルダに保存されておりますので
> 通常フォルダに保存されているFrom/To/Ccに該当するメールは、
> 安全メールとして処理していただけると、一々ホワイトリストを
> 管理しなくて良いです。

 一応、既存のメールからメールアドレスを拾ってホワイトリストに登録する機
能は作りました。送信したメールとか受信したメールとか、アドレス帳とかから
引っ張ってくることが出来ます。これを最初に一回実行してもらう形になります。

>
> 現状のアドレス検索は非常に高速なのでありかと、
> 思いましたが、いかがでしょう。

 定期的に、ホワイトリストの自動取得を実行する程度なら対応できるかなぁと
は思いますが、受信の度に毎回ってことになるとかなり重いと思います。

 β版を公開してからぼちぼち改良することになろうかと思います。

[ ]
RE:08560 迷惑メールフィルターの仕様につNo.08563
秀まるお さん 04/10/28 10:11
 
 多数の情報ありがとうございます。

 お話を総合して変更すると、

 spam         -->  そのまま
 safety       -->  safe
 ホワイトリスト -->  safe sender list
 ホワイトワード --> safe word list
 ブラックリスト -->  spam sender list
 ブラックワード -->  spam word list

 と英語で書けばそれなりに分かりやすくなるような気がします。

 あとは、この「safe sender list」および「safe word list」をいかに日本語
に直すか、あるいはこのまま英語表記にするか考えようかなぁと思います。

 信頼差出人
 信頼ワード
 迷惑差出人
 迷惑ワード

 にしようかなぁと… (鶴亀では差出人じゃなくて送り主になってるけど)

[ ]
RE:08562 迷惑メールフィルターの仕様につNo.08565
davinci さん 04/10/29 22:42
 

2004/10/29(金) 22:34:52

こんにちは、秀まるおさん

ダヴィンチ@ユーザーです。

/*
** タイトル:『turukame.2:08562| RE 08556 迷惑メールフィルターの仕様につ
いて相談』
** 発信日:2004年10月28日(木) 09:51:42
** 発信者:秀まるおさん
*/
>> ホワイトリストへの自動登録もありますが、
>> 通常扱うメールは、通常のフォルダに保存されておりますので
>> 通常フォルダに保存されているFrom/To/Ccに該当するメールは、
>> 安全メールとして処理していただけると、一々ホワイトリストを
>> 管理しなくて良いです。
>
> 一応、既存のメールからメールアドレスを拾ってホワイトリストに登録する機
>能は作りました。送信したメールとか受信したメールとか、アドレス帳とかから
>引っ張ってくることが出来ます。これを最初に一回実行してもらう形になります。

了解です。

>
>>
>> 現状のアドレス検索は非常に高速なのでありかと、
>> 思いましたが、いかがでしょう。
>
> 定期的に、ホワイトリストの自動取得を実行する程度なら対応できるかなぁと
>は思いますが、受信の度に毎回ってことになるとかなり重いと思います。
>
> β版を公開してからぼちぼち改良することになろうかと思います。

リリース後には、いろいろ要望が出るでしょうね。
お忙しくなると思います。

ちなみに私のSpamFilterを使用されているユーザー様の中には、
複数アカウント宛に届いた迷惑メールを一箇所のフォルダで管理されて
いる方がおりますので、本体実装予定の迷惑メールフィルターにも
アカウントを越えた振り分けがされる事を希望されるでしょう。

SpamFilter専用の設定ファイルでは、迷惑メール保存用のアカウントが
指定出来るようになっております。

--
メーラー: TuruKame 3.70 (WinNT,500)
OS: Windows2000 SP4
※このコメントはサイトー企画とは無関係です。
※私の個人的な見解です。

[ ]
RE:08545 迷惑メールフィルターの仕様につNo.08567
cuma さん 04/10/31 12:57
 
秀まるお様 すばらしいです

いろいろと現在スパムメールで気になっている点が配慮されていて
感動です。
今日現在まではノートン、その他のアンチスパム機能を試験しては断念しての繰り返
しでした。
結構、セキュリティー製品に無駄金をつぎ込みました。

正直、鶴亀はスパム対策が他のメジャーソフトよりも対応開始が遅れたかなと気にな
っておりましたが、これで逆に他のメーラーや、アンチスパムアプリを一気に抜き去
る感じですね。
β公開を楽しみにお待ち致します。


[ ]
RE:08565 迷惑メールフィルターの仕様につNo.08574
秀まるお さん 04/11/04 11:07
 
 今さらこれだけコメントさせていただきますが、現状の迷惑メールフィルター
は、X-TuruKame-Filter:ヘッダを出力するだけで、振り分けについては何もしま
せん。

 今のところはそういう仕様にしています。

[ ]