|
秀丸担当さん今日は、ひろです。
文字コードの自動認識についてちょっと思いついた事を書きます。
エスケープシーケンスの有無や 1 文字を著すバイト数の関係から、結局
文字コードの自動認識において問題になるのは、EUC/Shift-JIS の自動認識
だと思います。そこで現在の秀丸では、EUC/Shift-JIS の自動認識は各々の
文字コードにしか存在しない文字の有無によって認識をしていたと思います。
さて個々で現在の主要な OS 毎で標準の文字コードと改行コードは、
-------+----------+----------
|文字コード|改行コード
-------+----------+----------
DOS 系 | Shift-JIS| CR+LF
MAC | Shift-JIS| CR
UNIX 系| EUC | LF
-------+----------+----------
という組み合わせだと思います。この判断が正しいなら、各々の文字コード
にしか存在しない文字の有無でも判定できない場合、改行コードに CR が含
まれているかどうかによって、表示する文字コードを決定すれば、結果的に
誤認識が減ると思うのですが如何でしょうか?
P.S Shift-JIS コードで半角の「デスクトップ」という内容のファイルを
開いたところ、
秀丸 ×
Emacs ×
Internet Explore ×
Netscape Navigator (Ver.4.7) ×
Mozilla ○
という結果でしたが、Mozilla はどうやって文字コードの自動認識をしてい
るのろう。
|
|