タイ語メールの文字化けについてNo.15814
りゅうじ さん 03/12/19 13:55
 
いつもお世話になっております。

タイ語のメールですが、時々文字化けが発生します。
相手はOutlook expressやhotmailを使っているようで、
メールの中で文字コードが指定されていません。

現象としては、下記の感じです。
  1. 受信メールを開く
  2. 文字コードが「多国語混在ユニコード」になっているのでタイ語に変更
     (文字コードをタイ語に変更しても、本文、件名のタイ語部分が文字化けしてい
ます)
  3. メールを保存してもう一度開くと「多国語混在ユニコード」に戻っている

ちなみに、受信ログを保存してエディタで見ると、文字化けは起こりませんでした。

当方の環境は Windows 2000SP4+鶴亀メール3.07 B33です。

受信ログを送付して、調べて頂くことは出来るでしょうか?

[ ]
RE:15814 タイ語メールの文字化けについてNo.15823
秀まるお2 さん 03/12/19 17:08
 
 utf-8に誤認されるのは仕方がないにしても、その後文字コードを指定しなお
してもダメなのは、やはり直さないとまずいです。

 というか、実はそれについては僕の方でも把握してはいたんですが、普通の
メールがutf-8に誤認されるケースはまず無いだろうと思ってそのまま放置して
まして…。

> 受信ログを送付して、調べて頂くことは出来るでしょうか?

 受信ログが無くてもたぶん調査できますが、送って頂けるとなおうれしいです。

  maruo@mitene.or.jp 宛にお願いします。

[ ]
RE:15823 タイ語メールの文字化けについてNo.15826
秀まるお2 さん 03/12/20 00:11
 
 いろいろ調べました。

■utf-8文字コードから他の文字コードへの変換について

 文字コードがutf-8と自動認識されてしまったメールを、後で文字コード変更
して相変わらず化ける件ですが、やはり対応できませんでした。間違ってutf-8
と誤認識された場合、変換に失敗した文字が「?」となって出てきてしまいます。
これはどうやっても元の文字には戻せません。

■文字コード自動認識のバグ

 そもそもですが、バグを見つけました。文字コード指定なしメールでの文字
コードの自動判定の中に、タイ語かとうかの判定が入ってませんでした。まずは
それを修正させていただきます。

■さらに、文字コード自動判定の精度アップ

 現状では、文字コード自動認識での、utf-8の優先順位がかなり高いです。次
のβ34では、タイ語も含んでいろんな文字コードとして不正かどうか検証して、
すべての言語で不正である場合に限ってのみutf-8と自動認識するように修正し
てみます。これでなおさら自動認識の精度が高くなると思います。

[ ]
RE:15826 タイ語メールの文字化けについてNo.15827
秀まるお2 さん 03/12/20 00:32
 
> ■さらに、文字コード自動判定の精度アップ

 タイ語のメールは簡体字中国語となってしまうようです。

 簡体字中国語よりもタイ語を優先すると、今度は本当に簡体字中国語のメール
がタイ語になってしまいます。文字コードが重なってるのでどうしようも無いで
す。

 そもそも、charsetの指定なしで自動認識するのにも限界がある訳でして、先
日の、日本語か欧文かの判定なんかでは、日本語特有の特徴を探して自動判定す
るような作りにしたくらいです。

 何か、Date:ヘッダのタイムゾーン指定でも見て、タイ語か簡体字中国語か判
定するようにでもしないとダメみたいな気がします。

 (あくまで簡体字中国語とタイ語の区別だけに限って)

 とりあえず、utf-8とご認識されるケースは無くなったので、「設定・文字
コード」を使ってうまく表示できるようにはなったと思います。

[ ]
RE:15827 タイ語メールの文字化けについてNo.16009
りゅうじ さん 04/01/03 21:16
 
あけましておめでとう御座います <(_ _)>
返事が遅くなりました。実は12月19日午後以降、タイとアメリカ間の
回線に障害が発生したとかでインターネットが使えなかったんです。

とりあえず本日、鶴亀メール3.10にて再確認しました。問題の
2通の内、1通で「受信解析のやり直し」をしてみましたが、
やはり文字コードは「多国語混在ユニコード」になっていました。

新年早々申し訳ないのですが、別途メールにて受信ログを送付させて
頂きますので、一度ご検討をお願いします <(_ _)>

[ ]
RE:16009 タイ語メールの文字化けについてNo.16012
秀まるお2 さん 04/01/03 22:48
 
 とりあえず、現在の鶴亀メールV3.10ならば、間違って「多国語混在ユニコー
ド」と解釈されてしまったメールでも、エディタで開いて文字コードを指定しな
おせばちゃんと表示されると思います。

 こちらでテストした所では、ちゃんとタイ語になってるような気がしつつも、
中身が読めないのでどうにもなりませんでした。あと、添付ファイルのファイル
名は相変わらず化けたままになってしまうようです。

 ユニコードになってしまう原因については後ほど調査します。

[ ]
RE:16012 タイ語メールの文字化けについてNo.16020
秀まるお2 さん 04/01/04 01:53
 
 詳しく調べてみたら、鶴亀メールの文字コード自動判定部分のバグが見つかっ
てしまいました。

 多国語混在ユニコードと判定されるのもバグですが、さらに、デコードされた
結果のメールについて、文字コードを「タイ語」と指定しなおしても、相変わら
ず化けてしまうバグも見つかってしまいました。

 タイ語のメールに限らず、適当な外国語のメールで、ヘッダも本文も一切文字
コード指定なしの場合だと、ほとんどのケースで多国語混在ユニコードとなって
しまう&文字化けするようです。

 とにかく修正させていただきます。

[ ]