変換できなかった文字の検索は可能ですかNo.19914
arturo_tak さん 05/09/02 00:46
 
大きいテキストファイル(73MB) が壊れてしまい
修復しております。
大事なファイルなため、どうしても修復しなければなりません。

変換できなかった文字が1575箇所あると表示されるのですが、
ジャンプできるのは最初の箇所だけで、それを
修復したら、再読み込みしなければなりません。
ファイルが大きいため、これにはかなりの時間がかかります。

再読み込みせずに変換できなかった文字を検索する
ことはできますか?

また、変換できなかった文字を任意の文字列に一括
置換できると大変助かるのですが、このような
ことはできませんか。

よろしくお願いします。

[ ]
RE:19914 変換できなかった文字の検索は可No.19915
秀丸担当 さん 05/09/02 09:33
 

>再読み込みせずに変換できなかった文字を検索する
>ことはできますか?
>
>また、変換できなかった文字を任意の文字列に一括
>置換できると大変助かるのですが、このような
>ことはできませんか。

このメッセージは、多くの場合、テキストファイルのエンコードの種類とは異な
るエンコードの種類で読み込んだ場合にエラーが出ます。
「変換できなかった文字にジャンプする」ではなく、「エンコードの種類を指定
しなおす」を選んで、適切なエンコードの種類を選ぶと、文字化けが発生しない
かもしれません。
ファイルを読み込んだ後に[ファイル]→[エンコードの種類]から選んで[ファイ
ルを読み込みし直す]をしても同様のことができます。

修正する前のバックアップがあれば、エンコードの種類を指定しなおすことで文
字化けは改善される場合があります。

もし既にテキストの初めの方を修正して保存してしまっている場合、エンコード
の種類は別のものになっているので、この操作をしても改善されないかもしれま
せん。
エラーが出ても、まだ修正していない後半部分を見てみると、後半部分だけが改
善される可能性はあります。

エンコードの問題ではなく、本当にファイルが破損している場合は、エラーのあ
った箇所を検索することや、一括して置換することはできません。
エラーとなる文字が特定の文字になる場合は、正規表現を使った検索や置換でも
できるかもしれないです。
どのように文字化けしているのか、特徴を具体的に教えていただけると何かわか
るかもしれません。

[ ]
RE:19915 変換できなかった文字の検索は可No.19916
arturo_tak さん 05/09/02 10:15
 
リプライをありがとうございます。

このファイルはほぼ間違いなく壊れています。
他のエンコードを全て試しましたが、他のエンコードでは
全てが文字化けます(UTF-7は文字化けが少ないですが、
エラー箇所が大幅に増えます)。

エラーの箇所は、“ と ”(半角で右と左が違う特殊文字)が
ある箇所に限られているようですが、
特殊なソフト(Tradosという翻訳支援ソフト)が出力する
テキストファイルなので、この文字がどのように
扱われているのかよく分かりません。

秀丸で変換できなかった文字を検索したりや置換したり
することができないことをご説明いただき、ありがとう
ございました。

バイナリエディタか何かで分析するしかなさそうです。
あまり詳しくないので、ちょっとお手上げ状態ですが。

お騒がせしました。

[ ]
RE:19916 変換できなかった文字の検索は可No.19917
秀丸担当 さん 05/09/02 10:42
 

そうでしたか。
エラーが出る文字が限られている場合、正規表現を使って検索や置換ができる場
合があります。
エラーの出る文字にカーソルを合わせて「文字コード表示」コマンドをすると、
文字コードを見ることができます。
Shift-JISのコードを見て、例えば「0x12」とか表示されていたら、検索で正規
表現をチェックして「\x12」を検索すると、検索できます。
同様に置換もできます。

「文字コード表示」コマンドは、キー割り当てで「その他」系にあります。
メニュー編集では「表示」にあります。

[ ]
RE:19917 変換できなかった文字の検索は可No.19925
arturo_tak さん 05/09/02 21:47
 
文字コード表示の説明をありがとうございます。
このような機能があることを知りませんでした。

早速利用させていただいたところ、0x94 という文字のようです。
ただし、このコードは他の正しい日本語でも多く使われて
いるようなので、一つ一つ確認しながらの作業に
なりそうです。

一つ直して、再度読み込ませ自動的に変換できなかった
文字を探してもらう方が早いのか、
一つ一つ検索して確認していくのが早いのか、
ちょっと分かりませんが、他の方法が見つからなかったら
いずれかの方法で1つ1つ直すしかなさそうです。

秀丸のサポートとはほど遠い内容にも関わらず
色々と検討していただきまして、まことにありがとうございます。
取り急ぎ、お礼まで。

秀丸はすばらしいソフトだと思います。

[ ]
RE:19925 変換できなかった文字の検索は可No.19928
秀丸担当 さん 05/09/05 09:57
 

>早速利用させていただいたところ、0x94 という文字のようです。
>ただし、このコードは他の正しい日本語でも多く使われて
>いるようなので、一つ一つ確認しながらの作業に
>なりそうです。

0x94に続いて次の文字も確定していて、文字コード表示が「0x9412」とか表示さ
れていたら、検索で「\x94\x12」とかいう感じにすればできるかもしれません。
文字化けが不確定で、普通の文字にも文字化けしてしまっている場合は、見つけ
るのは難しいかもしれません。

[ ]