文字コードの自動認識 - 秀丸エディタ関連ソフト会議室 - スレッド08896, 2001/06/05

文字コードの自動認識

ひろさん　01/06/05 18:46

　秀丸担当さん今日は、ひろです。
　文字コードの自動認識についてちょっと思いついた事を書きます。
　エスケープシーケンスの有無や 1 文字を著すバイト数の関係から、結局
文字コードの自動認識において問題になるのは、EUC/Shift-JIS の自動認識
だと思います。そこで現在の秀丸では、EUC/Shift-JIS の自動認識は各々の
文字コードにしか存在しない文字の有無によって認識をしていたと思います。
　さて個々で現在の主要な OS 毎で標準の文字コードと改行コードは、
-------+----------+----------
|文字コード|改行コード
-------+----------+----------
DOS 系 | Shift-JIS| CR+LF
MAC | Shift-JIS| CR
UNIX 系| EUC | LF
-------+----------+----------
という組み合わせだと思います。この判断が正しいなら、各々の文字コード
にしか存在しない文字の有無でも判定できない場合、改行コードに CR が含
まれているかどうかによって、表示する文字コードを決定すれば、結果的に
誤認識が減ると思うのですが如何でしょうか?

　P.S Shift-JIS コードで半角の「デスクトップ」という内容のファイルを
開いたところ、
秀丸 ×
Emacs ×
Internet Explore ×
Netscape Navigator (Ver.4.7) ×
Mozilla ○
という結果でしたが、Mozilla はどうやって文字コードの自動認識をしてい
るのろう。

RE:08896 文字コードの自動認識

秀丸担当 さん　01/06/06 17:57

>この判断が正しいなら、各々の文字コード
>にしか存在しない文字の有無でも判定できない場合、改行コードに CR が含
>まれているかどうかによって、表示する文字コードを決定すれば、結果的に
>誤認識が減ると思うのですが如何でしょうか?

なるほど。それはいい案かもしれないです。
試しに作ってみてよさそうだったら採用するかもしれません。

RE:08908 文字コードの自動認識

ひろさん　01/06/06 19:42

　秀丸担当さん今日は、ひろです。
> なるほど。それはいい案かもしれないです。
> 試しに作ってみてよさそうだったら採用するかもしれません。
　実際に誤認識が減るかどうかは、やってみないと解ら無いかもしれません
が、採用されたらなんだか非常に嬉しいです。