EUC-JPの3バイト文字No.36762
ひろせ さん 18/08/09 15:49
 
EUC-JP の3バイト文字が正しく表示できないようですが、サポートしていないでしょ
うか?

例) 「〜」(8F A2 B7)

A1 C1 も「〜」ですが、エディタによって保存時にこの3バイトにしてしまうものが
あって、見えなくなってしまうのです。

よろしくお願いします。

[ ]
RE:36762 EUC-JPの3バイト文字No.36763
秀丸担当 さん 18/08/09 17:15
 

8F A2 B7を試してみたところ、確かに「・」のようになって、うまくいっていません
でした。
秀丸エディタで現状やっているこの部分の変換は、Windowsの変換に依存するところ
があるのですが、8F A2 B6や8F A2 B8など周辺の文字コードはうまくいっているとこ
ろ、8F A2 B7だけができないようでした。

今後のバージョンでこの一文字だけ特別扱いして変換するように修正しようと思いま
すが、困ったことがありました。
調べてみてたところでは、8F A2 B7は、JIS X 0212の0x2237に相当して、この文字は
「〜」ではなく「~」のようでした。
参考:
http://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0212.TXT
http://www.asahi-net.or.jp/~ax2s-kmtn/ref/jisx0212/index.html

「~」の場合は0x7Eなので、3バイトにする必要は無くて、1バイトで済むASCII文字で、
そもそもエンコードする必要が無い文字です。
そういった何らかの事情があってWindowsの変換も除外されているのだと思いますが、
「・」になるよりかは「〜」または「~」になったほうがいいと思います。

正確には「~」だと思うのですが、ひろせさんのところでは「〜」が別ソフトによっ
て生成されたということだと思われ、chromeで開いても「〜」になるようで、どちら
にするか迷います。
事実上「〜」として使わているようなら「〜」のほうがいいのかもしれません。
このあたりで何か情報がありましたら助かります。

[ ]
RE:36763 EUC-JPの3バイト文字No.36765
ひろせ さん 18/08/11 00:35
 
http://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/JIS/JIS0212.TXT
↑このマッピングは廃止されたもののようです。
以下の ReadMe を見ると「半角は間違い」とも書いてありました。

https://www.unicode.org/Public/MAPPINGS/OBSOLETE/EASTASIA/ReadMe.txt

    WARNING: These EASTASIA mapping tables are all considered
    obsolete and are no longer being maintained in any way.
    They are preserved here only for historical purposes.
    (略)
    The following are available as Full Width characters in the FFxx range.
    Therefore, the mappings of these characters are incorrect. This appears to
    be a *mapping file issue* as far as these characters are concerned
    (略)
    FILE JIS0212.TXT------
    0x2243  U+00A6  Na  # BROKEN BAR
    0x2234  U+00AF  Na  # MACRON
    0x2237  U+007E  Na  # TILDE  ★


http://www.fileformat.info/info/unicode/char/ff5e/charset_support.htm
こちらで、'FULLWIDTH TILDE' (U+FF5E) が
EUC-JP の 8fa2b7 にマッピングされていますので、全角で問題ないかと思います。

[ ]
RE:36765 EUC-JPの3バイト文字No.36766
秀丸担当 さん 18/08/16 08:35
 

情報ありがとうございます。
全角の「〜」にしたほうがよさそうなので、今後のバージョンで修正したいと思いま
す。
ただ、読み込まれた後の文字は8F A2 B7とA1 C1が区別できないので、保存時にはA1
C1になり、これは仕方ないことになりそうです。

[ ]
RE:36766 EUC-JPの3バイト文字No.36767
ひろせ さん 18/08/16 10:14
 
>ただ、読み込まれた後の文字は8F A2 B7とA1 C1が区別できないので、保存時にはA1
> C1になり、これは仕方ないことになりそうです。

エディタをまたぐ度に入れ替わることになりますね(^^;
元のバイト列を保持できるのがベストかとは思いますが、お互い様ということで問題
ないかと思います。

※ちなみに Atom というエディタでも 8F A2 B7 は正しく表示できませんでした。

[ ]