【要望】IBM拡張文字含まれるテキストをJINo.14444
でるもんた さん 03/04/09 19:02
 
でるもんたです。

IBM 拡張文字(シフト JIS コードで FA40〜FC4B の範囲の文字)が含まれる
テキストを JIS、EUC で保存すると、不正な文字に化けてしまいます。

これを、IBM 拡張文字を JIS、EUC で保存する際は NEC 選定 IBM 拡張文字
(シフト JIS コードで ED40〜EEFC の範囲に、同じ文字が原則同じ順序で
採録されている。SJIS→UNICODE 変換ではどちらも同じコードにマッピング
されるが、UNICODE→SJIS 変換では FA40〜FC4B のほうに統合される)に変換
して保存する、という仕様に変更していただけないでしょうか。この変換機能は、
エディタではありませんが Outlook Express で採用されています。

現状の秀丸エディタでも、「半角カタカナを JIS で保存する場合は全角に変換
する」という機能が組み込まれていますので、IBM 拡張文字について同様の変換を
行っても特に問題はないと思われます。

よろしくご検討のほどお願いします。

[ ]
RE:14444 【要望】IBM拡張文字含まれるテNo.14448
秀丸担当 さん 03/04/09 19:37
 
>IBM 拡張文字(シフト JIS コードで FA40〜FC4B の範囲の文字)が含まれる
>テキストを JIS、EUC で保存すると、不正な文字に化けてしまいます。

該当と思われる文字をやってみたところ、JISは文字化けしませんでしたが、
EUCは文字化けしました。
自動変換、検討させていただきます。

[ ]
RE:14448 【要望】IBM拡張文字含まれるテNo.14449
でるもんた さん 03/04/09 20:22
 
でるもんたです。

> >IBM 拡張文字(シフト JIS コードで FA40〜FC4B の範囲の文字)が含まれる
> >テキストを JIS、EUC で保存すると、不正な文字に化けてしまいます。
>
> 該当と思われる文字をやってみたところ、JISは文字化けしませんでしたが、
> EUCは文字化けしました。

うちの環境だと、JIS、EUCで保存してから開き直したところ、テストデータが短い
せいだと思いますが、文字コードの自動判別が機能せずに、JIS も EUC も SJIS
の化けたデータとして表示されました。使用したテストデータは

SMAPの草〓剛氏の「〓」の字は機種依存文字である。

(〓 は FA67)の一文だけのファイルで、ダンプ結果は次の通り。

C:\>msdump SJ.TXT
00000000  53 4D 41 50 82 CC 91 90-FA 67 8D 84 8E 81 82 CC   SMAP.....g......
00000010  81 75 FA 67 81 76 82 CC-8E 9A 82 CD 8B 40 8E ED   .u.g.v.......@..
00000020  88 CB 91 B6 95 B6 8E 9A-82 C5 82 A0 82 E9 81 42   ...............B

C:\>msdump JIS.TXT
00000000  53 4D 41 50 1B 24 42 24-4E 41 70 93 48 39 64 3B   SMAP.$B$NAp.H9d;
 ←9348
00000010  61 24 4E 21 56 93 48 21-57 24 4E 3B 7A 24 4F 35   a$N!V.H!W$N;z$O5
00000020  21 3C 6F 30 4D 42 38 4A-38 3B 7A 24 47 24 22 24   !<o0MB8J8;z$G$"$
00000030  6B 21 23 1B 28 42                                 k!#.(B

C:\>msdump EUC.TXT
00000000  53 4D 41 50 A4 CE C1 F0-93 C8 B9 E4 BB E1 A4 CE   SMAP............
 ←93C8
00000010  A1 D6 93 C8 A1 D7 A4 CE-BB FA A4 CF B5 A1 BC EF   ................
00000020  B0 CD C2 B8 CA B8 BB FA-A4 C7 A4 A2 A4 EB A1 A3   ................

> 自動変換、検討させていただきます。

よろしくお願いします。m(_ _)m

[ ]
RE:14449 【要望】IBM拡張文字含まれるテNo.14454
秀丸担当 さん 03/04/10 18:54
 
>うちの環境だと、JIS、EUCで保存してから開き直したところ、テストデータが短い
>せいだと思いますが、文字コードの自動判別が機能せずに、JIS も EUC も SJIS
>の化けたデータとして表示されました。使用したテストデータは

やってみたところ、JISの自動認識ができませんでした。
ナギという字を削除してやってみたところ、自動認識できました。
どうもその範囲の文字は自動認識をできなくしてしまうようです。
なんとか対策したいと思います。

[ ]