U+2003 の取り扱いNo.39025
石田 さん 21/06/17 00:37
 
 先日、音楽関係のWEBサイトを見ていたら興味ある記事が掲載されていたので、消
される前に自分のローカルPCに保存しておきました。和文テキストですが、改行後の
次の行の冒頭一字下げに利用されている全角空白が検索/置換には対応していない U+
2003 でした。秀丸では全部空白、メモ帳 & 一太郎では中黒(・)として表示され
ます。U+2003 記号をエンコードの違いに制約されない汎用性のある 0x8140(U+300
0) に変換するにはやはり、手で改変するしかないでしょうか。

[ ]
RE:39025 U+2003 の取り扱いNo.39026
秀丸担当 さん 21/06/17 09:08
 

U+2003の文字は特殊な空白で、フォントによっては中黒に見えることもあるようです。
UTF-16やUTF-8で保存する場合はそのままの文字コードで保存されます。
自動的にU+3000の全角空白にはならないので、全角空白にする場合は、手動で置換す
るか、マクロで置換するかしかないです。
マクロの場合は以下のような感じになります。
setcompatiblemode 0x20000;
replaceallfast "\u2003"," ";
endmacro;

検索でヒットしないのを防止するには、あいまい検索を使う方法があります。
検索ダイアログで、あいまい検索をONにして、設定(Y)...の、「Unicodeの特殊空白
の同一視/特殊ハイフンの同一視」をONにして検索すると、普通の空白と同じように
して検索ができます。

[ ]
RE:39026 U+2003の取り扱いNo.39030
でるもんたいいじま さん 21/06/17 13:25
 
でるもんた・いいじま@秀丸愛用者です。

> U+2003の文字は特殊な空白で、フォントによっては中黒に見えることもあるようで
>す。
> UTF-16やUTF-8で保存する場合はそのままの文字コードで保存されます。
> 自動的にU+3000の全角空白にはならないので、全角空白にする場合は、
> 手動で置換するか、マクロで置換するかしかないです。
>
> マクロの場合は以下のような感じになります。
> setcompatiblemode 0x20000;
> replaceallfast "\u2003"," ";
> endmacro;

いくつか別解を。

まず、Shift_JISで保存しようとすると
「文字コード変換できない文字が含まれています。」
というダイアログが出てきます。
ここで「変換できない文字を"?"等に置き換えて保存する」を選ぶと、試していませ
んがたぶんU+2003は全角の"?"に置き換えられると思います。
それを開き直して、「?」を全角スペースに置換するという手があります。

もう一つ、置換ダイアログで正規表現を使う場合には [...]の中にUnicodeのコード
を指定できます。具体的には、
  「検索」欄に全文半角で「[\u2003]」の8文字
  「置換」欄には全角スペース
  「正規表現」にチェックを入れる
のように置換するとヒットしてくれます。私の場合、
setcompatiblemode 0x20000;
replaceallfast "[\\u2000-\\200F]"," ", regular; // 私は半角が好み
endmacro;
というマクロを用意してあります。

[ ]
RE:39030 U+2003の取り扱いNo.39032
石田 さん 21/06/17 23:01
 
 秀丸担当さん、でるもんたいいじま さん に教えて貰ったマクロで綺麗に置換でき
ました。
検索・置換には対応していない特殊空白ゆえ、replaceallfast は使えないだろう
≠ニ思い込んでいたら
\u2003 と文字コード自体を指定すれば置換できました。眼からウロコでした。有り
難うございました。

 以下、素人質問になりますが、「メモ帳」すらサポートしていない特殊記号を使用
できる 別OS が
あるのでしょうか? 例えば MacOS とか、Linux とか。 ちなみに上記音楽サイトに
掲載された文章は
五十歳代の女性が書かれたご子息の回想記でした。

[ ]
RE:39026 U+2003 の取り扱いNo.39033
石田 さん 21/06/17 23:10
 
>検索でヒットしないのを防止するには、あいまい検索を使う方法があります。
>検索ダイアログで、あいまい検索をONにして、設定(Y)...の、「Unicodeの特殊空白
>の同一視/特殊ハイフンの>同一視」をONにして検索すると、普通の空白と同じよう
>にして検索ができます。

 あいまい検索は毎日使う機能ではないのでOFFにしていたのですがONにしたらちゃんと
チェックが入っていました。特殊空白など滅多に見ないので忘れていました。



[ ]
RE:39032 U+2003の取り扱いNo.39034
でるもんたいいじま さん 21/06/17 23:45
 
でるもんた・いいじまです。

> 以下、素人質問になりますが、「メモ帳」すらサポートしていない
> 特殊記号を使用できる 別OS があるのでしょうか?
> 例えば MacOS とか、Linux とか。

まず、正しく表示できるかどうかは「各アプリとフォントがUnicodeの扱いにどれだ
け習熟しているか」という問題になると思います。文字自体は最近のOSならWindows
でもMacでも問題なく扱えます。

メモ帳でお使いのフォントはデフォルトの「MS ゴシック」でしょうか。Windows 1
0なら「BIZ UDゴシック」「BIZ UD明朝 Medium」が入っていると思いますので、そち
らでも試してみてください。

一太郎は日本語(とせいぜいラテン文字で書く言語)のことしか考えていませんから、
最新版でやっと対応しているかどうか、という状況だと思います。

ただ、特にブラウザ関係はGoogleやAppleが精力的に開発していますから、割と新し
めのブラウザであればこういう特殊空白も難なく扱えます。私自身も、Twitterから
のコピペでは結構な頻度で特殊空白に遭遇します。

それと、こういう空白類をユーザが明示的に入れるケースはそれほど多くなくて(ま
あ、HTML中に   と書けば U+2009 になったりしますが)、逆に、ワープロソ
フトやWebアプリなどが自動生成しているケースのほうが多いと思います。

ではでは。

[ ]
RE:39034 U+2003の取り扱いNo.39040
石田 さん 21/06/19 22:25
 
 今も Win7(Win10 ダウングレードモデル)を愛着を持って使い続けている者です。

>まず、正しく表示できるかどうかは「各アプリとフォントがUnicodeの扱いにどれだ
>け習熟しているか」と
>いう問題になると思います。文字自体は最近のOSならWindowsでもMacでも問題なく
>扱えます。
 これをヒントにテストしてみました。普段秀丸で常用しているフォントは 「イワ
タUD明朝 JIS90字形、
第二水準漢字まで。固定ピッチ/可変ピッチ/縦組み/横組みフォント同梱 TrueType
 」という代物です。
「辻」が一点しんにょうになるフォントで、秀丸の故郷「鯖江市」は魚+青になりま
す。
 秀丸は横書きで使っていますが、フォントは 固定ピッチ/縦組み用フォント を利
用しています。
平仮名/カタカナ/英数字が漢字より小ぶりに出来ているので長文を読むのに眼が疲れ
ません。
横書きで横組み用フォントを使うと漢字と平仮名が同じ高さになり、読みづらく感じ
ます。
これは駅構内や公共施設での短文に特化した案内表示用フォントだと思います。

 シフトJIS で使っていますが、このフォントに収録されていない文字があると、フ
ァイル保存時に
秀丸が自動的に別フォントに切り替えてくれます(例:ドイツ語ウムラウト等)
 ・メモ帳のフォント設定を イワタUD明朝 にした場合 U+2003 は中黒表示 (秀丸
は透明表示)
   (中黒でも置換窓で U+3000 に置換可)
 ・メモ帳のフォント設定を MS明朝 にした場合、秀丸同様 透明表示
 ・メモ帳のフォント設定を Meiryo UI にした場合、秀丸同様 透明表示
 ・メモ帳のフォント設定を 游ゴシック にした場合、秀丸同様 透明表示
 ・メモ帳のフォント設定を ヒラギノUD明朝 にした場合、秀丸同様 透明表示
きりが有りませんのでフォント遊び≠ヘ終わりにします。

>逆に、ワープロソフトやWebアプリなどが自動生成しているケースのほうが多いと思
>います。
 何か理由があって特殊空白が開発されたのだと思いますが、どんな利便性や目的が
あるのでしょうか?
>警告を出す特殊な空白の一覧 (秀丸ヘルプから)
>U+00A0 〜 U+FEFF

※ ※ 長文失礼しました。 ※ ※

[ ]
RE:39040 U+2003の取り扱いNo.39041
Iranoan さん 21/06/20 00:56
 
石田さんこんにちは、Iranoan です
>  何か理由があって特殊空白が開発されたのだと思いますが、どんな利便性や目的
>があるのでしょうか?
完全に秀丸の話では無くなってしまうので、簡単な例を示します

例えば、Mr., Ms. など敬称の後に空白を入れますが、ここで折り返しは通常許され
ません
逆にこれら以外の通常の文章末尾の . の後ろの空白部分では折返しが許され、更に
他の単語間空白よりも広めの幅が取られます
文末以外の etc. などの略記も . で終わりますが、他の単語間空白と同じ幅です

なおこれらの規則は、個々の言語で異なっています
(時には国・地域によってすら)

0x20 以外の空白を用意することで、これらを区別し、アプリが対応していればそれ
に即した処理が行えます

[ ]
RE:39041 U+2003の取り扱いNo.39042
石田 さん 21/06/20 06:55
 
>0x20 以外の空白を用意することで、これらを区別し、アプリが対応していればそれ
>に即した処理が行えます

 PCでは、半角・全角空白しかないと思っていましたが、
組版用語で言う「四分アキ」のような四分の一空白に似た
空白も用意されているという事でしょうか。

 欧文には疎い私ですが、欧文を秀丸に貼り付けると、文末が
自然な形で折り返すのをよく見ます。

[ ]
RE:39041 U+2003の取り扱いNo.39043
石田 さん 21/06/20 13:15
 
Iranoan さん

秀丸ヘルプに記載されている FOUR-PER-EM SPACE で検索したら、
色々な情報が出てきました。これから勉強します。
有り難うございました。




[ ]