読めないUnicodeファイルNo.06370
TK さん 00/08/24 01:26
 
こんにちは。TKです。秀丸3.05をWindows98で使用中です。

どうやっても文字化けしてしまうUnicodeのファイルがあるのですが
どうすれば秀丸で読めるようになるでしょうか。

以下Unicodeとして開いたファイルの文字化け例です。

-----STRAT------------------------------------
たかいのでしょうか????攀????攀??椀???ナ?李???????
はい???攀????攀????????嬰????
なんとも申し????????
そうですか??????攀????????地??
ありがとうございました???攀????攀??椀???地?地??
-----END--------------------------------------

元ファイルが必要でしたらお送りします。

[ ]
RE:06370 読めないUnicodeファイルNo.06373
かかし さん 00/08/24 10:27
 
かかしです、こんにちは。

>こんにちは。TKです。秀丸3.05をWindows98で使用中です。
>
>どうやっても文字化けしてしまうUnicodeのファイルがあるのですが
>どうすれば秀丸で読めるようになるでしょうか。

開く→(開くのダイアログ一番下)文字コード[Unicode]

と指定してもだめなのでしょうか?

---かかし

[ ]
RE:06373 読めないUnicodeファイルNo.06384
TK さん 00/08/25 09:36
 
>開く→(開くのダイアログ一番下)文字コード[Unicode]
>
>と指定してもだめなのでしょうか?

元発言に書いてますとおり

>>Unicodeとして開いたファイルの文字化け例
~~~~~~~~~~~~~~~~~~~~~

おっしゃるような操作をして開いていますが読めないです。


[ ]
RE:06370 読めないUnicodeファイルNo.06385
える さん 00/08/25 10:15
 
>以下Unicodeとして開いたファイルの文字化け例です。

Unicode の codepage だかがずれてませんか?
ShiftJIS にマップできない文字は ? で表示するとか
ここで秀丸担当さんが記されていたような気がします。

UltimaOnline のジャーナルとか、ずれてるので読めま
せんよね、それと同じかと。

[ ]
RE:06370 読めないUnicodeファイルNo.06388
秀丸担当 さん 00/08/25 17:19
 
>どうやっても文字化けしてしまうUnicodeのファイルがあるのですが
>どうすれば秀丸で読めるようになるでしょうか。
>
>以下Unicodeとして開いたファイルの文字化け例です。

V3.05では、SHIFT-JISに変換できない文字は'?'にになる仕様です。
次のバージョンからはUnicodeの独自の文字にも対応します。

ただ、'?'にならず、変な漢字に文字化けしているものが気になります。
差し支えなければ、ファイルを送ってください。
宛先は xxxxxxxx@nifty.ne.jp でお願いします。

[ ]
RE:06388 ファイル送りましたNo.06402
TK さん 00/08/28 16:02
 
秀丸担当さま、こんにちは。

>宛先は xxxxxxxx@nifty.ne.jp でお願いします。

昨夜、上記宛て先に送信しておきました。
よろしくお願いいたします。

[ ]
RE:06402 ファイル送りましたNo.06405
秀丸担当 さん 00/08/28 18:05
 
>昨夜、上記宛て先に送信しておきました。
>よろしくお願いいたします。

早速いただきました。ありがとうございます。
いただいたファイルは、確かに一文字一文字はUnicodeですが、改行
コードが 0D 0A 00 0D 00 なんていうふうに奇数バイトになってい
るので、これは正当なUnicodeではありませんでした。
残念ながらこのファイルは対応不可能です。

[ ]
RE:06405 ファイル送りましたNo.06407
秀丸担当 さん 00/08/28 18:13
 
>改行コードが 0D 0A 00 0D 00

補足ですが、もしかしたらサーバーにあるファイルをftpしている
のでしょうか。
ASCIIモードでftpするとこうなるのではないかと思います。
BINARYモードにしてみてください。

特殊な文字は無いようなので、秀丸V3.05でもできると思います。

[ ]
RE:06407 ファイル送りましたNo.06413
TK さん 00/08/31 19:26
 
FTPではなくて、

UltimaOnlineというゲームソフトが会話内容などをログとして、
ローカルディスクに直接保存しています。

そのファイルを開いてみたら今回のような状況でした。
開発元に改行コードの異常を伝えて、正当なUnicodeで
保存してもらうように改善してもらう事にします。

ありがとうございました。


[ ]
RE:06413 ついでに教えてください(UnicodeNo.06414
TK さん 00/08/31 19:42
 
>開発元に改行コードの異常を伝えて、正当なUnicodeで
>保存してもらうように改善してもらう事にします。

と、書いたのですが、正当なUnicodeファイルの改行コードとい
うのはWindowsではCR+LFになるのですか?


[ ]
RE:06414 ついでに教えてください(UnicodeNo.06415
える さん 00/08/31 21:59
 
>正当なUnicodeファイルの改行コードというのはWindowsでは
>CR+LFになるのですか?

現在、unicode では「改行」は12種類定義されています。

Unicode の文字には改行のために

BK,CR,LF,CM,SG,ZW,IN,GL,CB,SP,BA,BB,B2,HY,NS,OP,CL,
QU,EX,ID,NU,IS,SY,AL,PR,PO,SA,AI,XX

という分類があり、どの分類中でどういった改行を行うかを定義されています。

このうち、改行コードとして秀丸が処理するとすれば、BK,CR,LF と CM,SG
くらいでしょうか。(もちろん、すべてを処理するのが望ましいわけですが)

コードでいうと

BK = 0x000c, 0x2028, 0x2029
CR = 0x000d
LF = 0x000a

で、BK と LF は「ここで改行しろ」という意味で、CR は「次が LF でなけ
れば改行しろ」という意味が定義されています。

CM と SG は改行の制御に用い、0x000d を文字として表現したい場合などに利用
されるのだと思います。

[ ]
RE:06415 ついでに教えてください(UnicodeNo.06421
秀丸担当 さん 00/09/01 17:26
 
>>正当なUnicodeファイルの改行コードというのはWindowsでは
>>CR+LFになるのですか?

CR+LFでいいです。
いただいたファイルはCR+LFを表そうとしているようです。
しかし、CR+LFでいいかどうかという問題の前に、改行コードが
奇数バイトになっていることが問題です。


>現在、unicode では「改行」は12種類定義されています。

というのは初めて聞きましたが、よろしければこのあたりの情報などが
書かれている場所などがあれば教えていただけないでしょうか。
BK=0x000c というのが信用していいのかどうかわからないです...

[ ]
RE:06421 ついでに教えてください(UnicodeNo.06426
える さん 00/09/01 18:43
 
>>現在、unicode では「改行」は12種類定義されています。
>というのは初めて聞きましたが、よろしければこのあたりの情報などが
>書かれている場所などがあれば教えていただけないでしょうか。

http://www.unicode.org/

各種仕様書や文字テーブルがおいてあります。
改行については記憶の限りでは 24 か 14 あたり。

[ ]
RE:06426 ついでに教えてください(UnicodeNo.06427
える さん 00/09/01 18:48
 
>>>現在、unicode では「改行」は12種類定義されています。
>>というのは初めて聞きましたが、よろしければこのあたりの情報などが
>>書かれている場所などがあれば教えていただけないでしょうか。
>http://www.unicode.org/
>各種仕様書や文字テーブルがおいてあります。
>改行については記憶の限りでは 24 か 14 あたり。

Unicode Technical Report #14
LINE BREAKING PROPERTIES rev.6 (1999-11-15)

初版は rev.3 1998-05-19

[ ]
RE:06427 ついでに教えてください(UnicodeNo.06435
秀丸担当 さん 00/09/04 18:53
 
>Unicode Technical Report #14
>LINE BREAKING PROPERTIES rev.6 (1999-11-15)
>
>初版は rev.3 1998-05-19

ありがとうございます。参考にさせていただきます。

[ ]