デコードに関してNo.10140
hiro0903 さん 04/02/18 14:46
 
今回のスレッド関係とは違う点で恐縮なのですが
デコードについての質問です

【メールヘッダ】のようなメールが以前からちょこちょこ来ていて
文字化けするなぁ〜と思っていたんですけど
よくよくいろいろ調べてみましたら
鶴亀側のデコードがgb2312 (maybe)と判断していました

「文字コードが不定なメールはなるべく日本語扱いとする」をONにしても
charset=gb2312 (maybe)
と判断されています
そこで、仕方ないからログからメールをコピーして、
dateの「+0000」→「+0900」に変更して
デコードしたら
charset=iso-2022-jp (maybe)
となりました

確かにこの箇所のヘルプを見ると、条件には引っかからないのですが
なんとかならないでしょうか?
このあたりは条件をいろいろ吟味されて今の形になったと思います
検討してもらえれば幸いです

【メールヘッダ】
X-Apparently-To: xxxxxxxx@yahoo.co.jp via web501.mail.yahoo.co.jp; 17 Feb 20
04 16:57:56 +0900 (JST)
X-Track: 1: 40
Received: from bay9-f46.bay9.hotmail.com  (EHLO hotmail.com) (64.4.47.46)
  by mta17.mail.yahoo.co.jp with SMTP; 17 Feb 2004 16:57:56 +0900 (JST)
Received: from mail pickup service by hotmail.com with Microsoft SMTPSVC;
  Mon, 16 Feb 2004 23:57:55 -0800
Received: from 210.163.139.141 by by9fd.bay9.hotmail.msn.com with HTTP;
 Tue, 17 Feb 2004 07:57:55 GMT
X-Originating-IP: [210.163.139.141]
X-Originating-Email: [xxxxxxx@hotmail.com]
X-Sender: xxxxxxx@hotmail.com
From: "YYYYYYYY" <xxxxxxx@hotmail.com>
To: xxxxxxxx@yahoo.co.jp
Bcc:
Subject: RE: Hiro (^-^)
Date: Tue, 17 Feb 2004 07:57:55 +0000
Mime-Version: 1.0
Content-Type: text/html
Message-ID: <xxxxxxxxxxxxxx@hotmail.com>
X-OriginalArrivalTime: 17 Feb 2004 07:57:55.0640 (UTC) FILETIME=[C05FAB80:01
C3F52B]

※ XXXXXXXXXやYYYYYYYYはこちらで見せたくない項目なので
   修正させてもらいました

鶴亀:3.50b4
OS:Windows2000 sp4 + ie6

[ ]
RE:10140 デコードに関してNo.10141
秀まるお さん 04/02/18 15:14
 
 ソースコードを調べてみたら、「文字コードが不定なメールはなるべく日本語
扱いとする」をONにしても、送り主が日本と思わしき場合でないと日本語にデ
コードしてませんでした。具体的には、From:のメールアドレスが「.jp」を含む
か、またはDate:ヘッダが「+0900」を含むか、Message-Id:ヘッダが「.jp」を含
まないとダメでした。

 そもそも、「文字コードが不定なメールはなるべく日本語扱いとする」に関係
なく、ちゃんと日本語扱いにならないのがバグだと思います。今回のメールは
htmlメールのようなので、それが原因でうまくいってない可能性が高いです。

 メール本文がばれたらまずいでしょうか?。受信ログの中に入っているメール
本文をそのまま教えて欲しいんですが…。無理でしたら、僕自身がhotmailのWeb
メールを使ってテストしてみます。

[ ]
RE:10141 デコードに関してNo.10142
hiro0903 さん 04/02/18 15:43
 
わかりました
今、このあて先へメールを送りました
maruo@mitene.or.jp

よろしくお願いします

[ ]
RE:10142 デコードに関してNo.10143
秀まるお さん 04/02/18 16:11
 
 わざわざ送っていただいてありがとうございます。

 うまく日本語扱いされない原因が分かりまして、これはこれでちゃんと日本語
扱いとなるように修正させていただきます。

---------------
 うまく日本語扱いされない原因は、このメールの中に含まれる日本語文字が極
端に少なく、しかもその文字の中にひらがなが含まれてないのが原因です。鶴亀
側では日本語かどうかの判断材料として、「ひらがな、または句読点が適当に含
まれているかどうか」を見てます。

 今回、その判定は多少生かしつつも、その判定の優先度を適当に下げて、うま
く日本語と判定されるようにします。少なくともそういうケースが中国語と判定
されることは無いようにします。

 ただし、もっと日本語が少ないと、やはり最終的には誤判定されても仕方がな
いと思います。それはそれで仕様ってことでお願いします。

[ ]
RE:10143 デコードに関してNo.10145
hiro0903 さん 04/02/18 20:19
 
こういうメールがいくつかあって、原因がわかり
すっきりしています。
下記の処理で良いと思います
修正ありがとうございます


> わざわざ送っていただいてありがとうございます。
>
> うまく日本語扱いされない原因が分かりまして、これはこれでちゃんと日本語
>扱いとなるように修正させていただきます。
>
>---------------
> うまく日本語扱いされない原因は、このメールの中に含まれる日本語文字が極
>端に少なく、しかもその文字の中にひらがなが含まれてないのが原因です。鶴亀
>側では日本語かどうかの判断材料として、「ひらがな、または句読点が適当に含
>まれているかどうか」を見てます。
>
> 今回、その判定は多少生かしつつも、その判定の優先度を適当に下げて、うま
>く日本語と判定されるようにします。少なくともそういうケースが中国語と判定
>されることは無いようにします。
>
> ただし、もっと日本語が少ないと、やはり最終的には誤判定されても仕方がな
>いと思います。それはそれで仕様ってことでお願いします。

[ ]