【要望】IBM拡張文字含まれるテキストをJI - 秀丸エディタ関連ソフト会議室 - スレッド14444, 2003/04/09

【要望】IBM拡張文字含まれるテキストをJI

でるもんた さん　03/04/09 19:02

でるもんたです。

IBM 拡張文字（シフト JIS コードで FA40～FC4B の範囲の文字）が含まれる
テキストを JIS、EUC で保存すると、不正な文字に化けてしまいます。

これを、IBM 拡張文字を JIS、EUC で保存する際は NEC 選定 IBM 拡張文字
（シフト JIS コードで ED40～EEFC の範囲に、同じ文字が原則同じ順序で
採録されている。SJIS→UNICODE 変換ではどちらも同じコードにマッピング
されるが、UNICODE→SJIS 変換では FA40～FC4B のほうに統合される）に変換
して保存する、という仕様に変更していただけないでしょうか。この変換機能は、
エディタではありませんが Outlook Express で採用されています。

現状の秀丸エディタでも、「半角カタカナを JIS で保存する場合は全角に変換
する」という機能が組み込まれていますので、IBM 拡張文字について同様の変換を
行っても特に問題はないと思われます。

よろしくご検討のほどお願いします。

RE:14444 【要望】IBM拡張文字含まれるテ

秀丸担当 さん　03/04/09 19:37

>IBM 拡張文字（シフト JIS コードで FA40～FC4B の範囲の文字）が含まれる
>テキストを JIS、EUC で保存すると、不正な文字に化けてしまいます。

該当と思われる文字をやってみたところ、JISは文字化けしませんでしたが、
EUCは文字化けしました。
自動変換、検討させていただきます。

RE:14448 【要望】IBM拡張文字含まれるテ

でるもんた さん　03/04/09 20:22

でるもんたです。

> >IBM 拡張文字（シフト JIS コードで FA40～FC4B の範囲の文字）が含まれる
> >テキストを JIS、EUC で保存すると、不正な文字に化けてしまいます。
>
> 該当と思われる文字をやってみたところ、JISは文字化けしませんでしたが、
> EUCは文字化けしました。

うちの環境だと、JIS、EUCで保存してから開き直したところ、テストデータが短い
せいだと思いますが、文字コードの自動判別が機能せずに、JIS も EUC も SJIS
の化けたデータとして表示されました。使用したテストデータは

SMAPの草〓剛氏の「〓」の字は機種依存文字である。

（〓は FA67）の一文だけのファイルで、ダンプ結果は次の通り。

C:\>msdump SJ.TXT
00000000 53 4D 41 50 82 CC 91 90-FA 67 8D 84 8E 81 82 CC SMAP.....g......
00000010 81 75 FA 67 81 76 82 CC-8E 9A 82 CD 8B 40 8E ED .u.g.v.......@..
00000020 88 CB 91 B6 95 B6 8E 9A-82 C5 82 A0 82 E9 81 42 ...............B

C:\>msdump JIS.TXT
00000000 53 4D 41 50 1B 24 42 24-4E 41 70 93 48 39 64 3B SMAP.$B$NAp.H9d;
←9348
00000010 61 24 4E 21 56 93 48 21-57 24 4E 3B 7A 24 4F 35 a$N!V.H!W$N;z$O5
00000020 21 3C 6F 30 4D 42 38 4A-38 3B 7A 24 47 24 22 24 !<o0MB8J8;z$G$"$
00000030 6B 21 23 1B 28 42 k!#.(B

C:\>msdump EUC.TXT
00000000 53 4D 41 50 A4 CE C1 F0-93 C8 B9 E4 BB E1 A4 CE SMAP............
←93C8
00000010 A1 D6 93 C8 A1 D7 A4 CE-BB FA A4 CF B5 A1 BC EF ................
00000020 B0 CD C2 B8 CA B8 BB FA-A4 C7 A4 A2 A4 EB A1 A3 ................

> 自動変換、検討させていただきます。

よろしくお願いします。m(_ _)m

RE:14449 【要望】IBM拡張文字含まれるテ

秀丸担当 さん　03/04/10 18:54

>うちの環境だと、JIS、EUCで保存してから開き直したところ、テストデータが短い
>せいだと思いますが、文字コードの自動判別が機能せずに、JIS も EUC も SJIS
>の化けたデータとして表示されました。使用したテストデータは

やってみたところ、JISの自動認識ができませんでした。
ナギという字を削除してやってみたところ、自動認識できました。
どうもその範囲の文字は自動認識をできなくしてしまうようです。
なんとか対策したいと思います。