同一視指定ファイルNo.19864
bouz さん 05/08/26 09:18
 
HmJre - 正規表現/あいまい検索DLLヘルプの
同一視指定ファイルの作成方法、書き方で

 同一視指定する単語の1つのグループ中の単語数は、最大でも255個程度までで
す。グループの数については制限はありません。

とありますが、これをファイルの行数に制限はありません。
1行内の単語数は255までです。

と解釈したのですが、正しいでしょうか?
もし正しいとすると、実際には2万行弱でエラーが出て読み込めなくなりましたが、
これは秀丸の側での制限でしょうか?

[ ]
RE:19864 同一視指定ファイルNo.19867
秀まるお2 さん 05/08/26 10:03
 
 ソースコードを調べてみたら、同一視指定ファイルのファイルサイズが512
キロバイトを超えた所でエラー扱いにしてました。

 (ファイル名) - ファイルサイズが大きすぎます。

 というエラーになるようです。

 これはこれで制限といえば制限ですが、別に大きくしても問題ないです。とい
うことでこの制限をもっと大きくします。

 ただ、僕としてはこんなに大きな同一視指定ファイルを指定されることは想定
していませんで、あいまい検索の動作速度はかなり遅くなると思います。その辺
はがまんして使って欲しい所ですけど。

 とりあえずHmJre.dllのこの制限解除版だけ個別にアップロードさせていただ
きます。

[ ]
RE:19867 同一視指定ファイルNo.19868
秀まるお2 さん 05/08/26 10:25
 
 ということで、HmJre.dllのVersion1.68というのをアップロードしました。そ
れで試してみて欲しいです。

  http://www.hidemaru.interlink.or.jp/software/bin/hmjre168.lzh

 サイズ制限は2メガバイトになってます。

[ ]
RE:19868 同一視指定ファイルNo.19869
bouz さん 05/08/26 11:00
 
> ということで、HmJre.dllのVersion1.68というのをアップロードしました。そ
>れで試してみて欲しいです。
>
>  http://www.hidemaru.interlink.or.jp/software/bin/hmjre168.lzh
>
> サイズ制限は2メガバイトになってます。

試してみたところ、読み込みはうまくいきました。
ありがとうございます。電光石火です。嬉しい限りです。

しかし結果が期待通りになりませんでした。
ふたつしか検索されないであろう単語がたくさん検索されたり、
概して検索結果がかなり多めに表示されます。規則性がちょっと考えた分にはつかめ
ませんでした。
これはこれで正常な動作なのでしょうか?
こういうふうな使い方は想定外ということだとは思いますが、
一応指定した同一視指定ファイルをメールしておきます。

緊急の用件というわけではありません。

[ ]
RE:19869 同一視指定ファイルNo.19872
秀まるお2 さん 05/08/26 13:17
 
> しかし結果が期待通りになりませんでした。
> ふたつしか検索されないであろう単語がたくさん検索されたり、
> 概して検索結果がかなり多めに表示されます。規則性がちょっと考えた分にはつかめ
> ませんでした。

 僕の所でテストしたら、たしかにこちらでもおかしかったです。なんとか調べ
ます。

[ ]
RE:19872 同一視指定ファイルNo.19873
秀まるお2 さん 05/08/26 13:47
 
 調べてみたら、カスタム同一視指定ファイルの最後の方の同一視指定の関係で、
あいまい度が極端に高くなってヒットしまくってしまうようです。

 具体的には、「あ」という文字に対する同一視指定をしている部分以降をごっ
そり削除して欲しいです。それでうまくいくと思います。

[ ]
RE:19873 同一視指定ファイルNo.19875
bouz さん 05/08/26 14:46
 
> 調べてみたら、カスタム同一視指定ファイルの最後の方の同一視指定の関係で、
>あいまい度が極端に高くなってヒットしまくってしまうようです。
>
> 具体的には、「あ」という文字に対する同一視指定をしている部分以降をごっ
>そり削除して欲しいです。それでうまくいくと思います。

あ、ちょうど似たような書き込みをしようとしていたところでした。
<512K制限のときに、前半部分と後半の一文字部分を分けた
<ときにはうまく検索されていたようです。

ということは、この同一視指定ファイルというのは、条件が並行していくタイプでは
なくて、先着か後着かわかりませんが、ともかくどんどん上書きされていくタイプ、
ということでしょうか?
ファイルを別指定すればいいのでしょうか?

ともかくうまいこといくように分割してみます。

[ ]
RE:19875 同一視指定ファイルNo.19876
秀まるお2 さん 05/08/26 15:10
 
 例えば「い」と「依」が同一視指定されていて、さらに「え」と「依」が同一
視指定されたとすると、「い」も「え」も「依」も全部同一視指定さたのと同じ
になります。

 他に「い」と「え」について同一視指定された漢字は全部同一視指定されたの
と同じ扱いになります。他にもこういう感じで同一視指定されてしまってるケー
スが多々あると、ほとんど「あ」も「い」も何もかも同じ扱いってことになって、
なにもかもヒットしてしまいます。

[ ]
RE:19873 同一視指定ファイルNo.19877
bouz さん 05/08/26 15:14
 
> 調べてみたら、カスタム同一視指定ファイルの最後の方の同一視指定の関係で、
>あいまい度が極端に高くなってヒットしまくってしまうようです。
>
> 具体的には、「あ」という文字に対する同一視指定をしている部分以降をごっ
>そり削除して欲しいです。それでうまくいくと思います。

三つに分けてやってみました。
1.ひらがな二文字以上
2.アルファベット
3.ひらがな一文字

1と2は単独でも組み合わせてもOKでした。

3は組み合わせても単独でも「ぐ」と「ぜ」と「ら」が期待通りだった以外はダメで
した。
なぜ、この3文字以外はほとんどすべての単語にヒットしてしまうのか、
なぜ「ら」はOKで「る」はダメなのか、
という2点が疑問に残ってしまいました。


[ ]
RE:19876 同一視指定ファイルNo.19878
bouz さん 05/08/26 15:20
 
> 例えば「い」と「依」が同一視指定されていて、さらに「え」と「依」が同一
>視指定されたとすると、「い」も「え」も「依」も全部同一視指定さたのと同じ
>になります。
>
> 他に「い」と「え」について同一視指定された漢字は全部同一視指定されたの
>と同じ扱いになります。他にもこういう感じで同一視指定されてしまってるケー
>スが多々あると、ほとんど「あ」も「い」も何もかも同じ扱いってことになって、
>なにもかもヒットしてしまいます。

書き込みが前後してしまいました。
なるほど、大体解って来ました。
要するに
グループA 10文字
グループB 10文字
グループC 10文字

Aのうち一文字がBに含まれるとAとBの20文字が同一視され、
さらにBとCに一文字でもダブりがあるとBとCが同一視され、
結果的に30文字すべてが同一視される、というわけなんですね?
飲み込めました。


[ ]