Unicode空白のあいまい検索No.01557
白雲斎 さん 07/10/30 12:09
 
こんにちは、白雲斎です。
Windows XP, 秀丸エディタ 7.04

あいまい検索のオプションに、「Unicode空白をASCII空白として検索」オプショ
ンを追加できませんか?
また、「空白/ダブ文字を無視する」に、Unicode空白を含めることはできません
か?

理由:
    検索キーワード(1)(2)で、(3)をヒットさせたい!
    +---+------------+--------+
    |   | キーワード | 空白   |
    +---+------------+--------+
    | 1 | FOOBAR     |        |
    | 2 | FOO BAR    | 0x0020 |
    | 3 | FOO BAR    | 0x00A0 |
    +---+------------+--------+


Unicode空白:
    00A0;N # NO-BREAK SPACE
    2000;N # EN QUAD
    2001;N # EM QUAD
    2002;N # EN SPACE
    2003;N # EM SPACE
    2004;N # THREE-PER-EM SPACE
    2005;N # FOUR-PER-EM SPACE
    2006;N # SIX-PER-EM SPACE
    2007;N # FIGURE SPACE
    2008;N # PUNCTUATION SPACE
    2009;N # THIN SPACE
    200A;N # HAIR SPACE
    200B;N # ZERO WIDTH SPACE

[ ]
RE:01557 Unicode空白のあいまい検索No.01559
秀まるお さん 07/10/30 17:44
 
 技術的には対応出来ると思いますけども、ニーズ的にどうかなぁと思ったりし
ます。

 あと、0xA0の空白は見たことありますけど、0x2000〜0x200Bの空白は見たこと
が無いし、例えばWindowsに付属の文字コード表でも表示されないです。こうい
うのは使ってる人いるのでしょうか?。入力方法も分からないし。

 使ってる人がいるかどうかも入力方法も分からない物に対応するのもどうかな
ぁと思ったりします。

[ ]
RE:01559 Unicode空白のあいまい検索No.01560
いいじま さん 07/10/30 18:37
 
いいじまです。横から失礼。

>  技術的には対応出来ると思いますけども、ニーズ的にどうかなぁと思ったりし
> ます。
>
>  あと、0xA0の空白は見たことありますけど、0x2000〜0x200Bの空白は見たこと
> が無いし、例えばWindowsに付属の文字コード表でも表示されないです。こうい
> うのは使ってる人いるのでしょうか?。入力方法も分からないし。

HTML/XMLで   と書いてコピペすると出るかと。
0xA0は   ですから、頻繁に目にしますね。

[ ]
RE:01559 Unicode空白のあいまい検索No.01561
白雲斎 さん 07/10/30 18:43
 
こんにちは“秀まるお”さん、白雲斎です。

> 技術的には対応出来ると思いますけども、ニーズ的にどうかなぁと思ったりし
>ます。
>
> あと、0xA0の空白は見たことありますけど、0x2000〜0x200Bの空白は見たこと
>が無いし、例えばWindowsに付属の文字コード表でも表示されないです。こうい
>うのは使ってる人いるのでしょうか?。入力方法も分からないし。

Unicode空白の為に検索が失敗するのは、主にブラウザからコピーされたものを
そのまま貼り付け保存された文章です。
0x2000〜0x200Bの空白は参考のため明記した物で、私自身も過去に一度しか遭遇
していません。(どう使い分けるかも知らない)

> 使ってる人がいるかどうかも入力方法も分からない物に対応するのもどうかな
>ぁと思ったりします。

確かに!
『0xA0の空白だけでも!』と思ったりしますが、何か中途半端ですかね。
Hidemarnet Explorerでは、0xA0を0x20に置き換えているようですから、違いを
意識せず検索できます。同じとはいきませんが、オプション操作で違いを吸収で
きれば良いな〜なんて考え、要望を出しました。
手を上げる人が私だけなら、この件は忘れてください。

[ ]
RE:01561 Unicode空白のあいまい検索No.01562
秀まるお さん 07/10/31 08:50
 
  でテスト出来るならそれでテストしてから考えてみます。

[ ]
RE:01562 Unicode空白のあいまい検索No.01563
秀まるお さん 07/10/31 09:29
 
 ってことでテストしてみたんですけど、0xA0のユニコード文字を生成させるこ
とが出来ませんでした。

 以下のようなHTMLファイルをInternet ExplorerおよびFirefoxで開いて表示さ
れた内容をコピーして秀丸エディタに貼り付けしたら、0x20の空白しか出てきま
せんでした。

<html>
<body>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
</body>
</html>

 ということで、すみませんが何かもっと具体的に0xA0の空白に遭遇するケース
を教えて欲しいです。

[ ]
RE:01563 Unicode空白のあいまい検索No.01564
秀まるお さん 07/10/31 09:40
 
 ちなみに&nbsp;じゃなくて&#160;と書いても、やはり秀丸エディタに貼り付け
た時点では0x20の空白になってしまうようです。

 メモ帳に貼り付けユニコードで保存して、それを秀丸で開いて見てもやはり
0x20になってるようですけど。

 ちなみにテストしたのはWindows2000上です。

[ ]
RE:01564 Unicode空白のあいまい検索No.01565
白雲斎 さん 07/10/31 11:25
 
こんにちは“秀まるお”さん、白雲斎です。

> ちなみに&nbsp;じゃなくて&#160;と書いても、やはり秀丸エディタに貼り付け
>た時点では0x20の空白になってしまうようです。

そのようですね。
ファイル作成者を含め、ちょっと確認してみます。
時間をください。

[ ]
RE:01564 Unicode空白のあいまい検索No.01566
白雲斎 さん 07/10/31 12:56
 
こんにちは“秀まるお”さん、白雲斎です。

ファイル作成者一人から情報を得ました。
一度、ワープロ(StarSuite)を介しているようです。
で確認してみますと、HTML形式のまま貼り付けると、0xA0のまま記録されるよう
です。それをコピーして秀丸に貼り付けすると、0xA0のままとなりました。

しかし、他の人間は、そんな手順は踏まないと言っているので、上の条件がすべ
てに当てはまるかは分かりません。

取りあえずの報告です。
引き続き調べます。

[ ]