PseudoDataMiningマクロ - 秀丸エディタマクロ作者会議室 - スレッド07959, 2015/11/29

PseudoDataMiningマクロ

白馬の王子様 さん　15/11/29 17:04

白馬の王子様です。
　山紫水明さんのNo. 07955の投稿の中の一節

>カタカナ語，漢字熟語の単語検索

で、思い出したのですが、かつて私が便利に使わせていただいていたマクロ（秀丸の
マクロではなく、今は亡きBoonEditorのマクロだったと思います)に、今で言うデー
タマイニングの入り口的なものがありました。
　要するに、文書中の単語をばらばらにして、頻度の高いもの順に並べて、各単語の
頻度を併記してある、というものです。
　この何がデータマイニングと関係があるかというと、通常は、自分が関心のある語
を検索語としてその周囲を読む、というのに対して、この単語一覧表があると、予想
しなかった用語から文章の読みの幅や深さが変わることがあるのです。
　私がかつて経験したのでは、恋愛詩についての文献を渉猟中、loveとかaffection
とかいう語でばかり検索していたところ、amatoryというのも検索語として考えるべ
きだと、偶然気づきました。もちろん、同義語辞典を併用すればこの場合はよかった
でしょうが、例えば、恋愛詩に戦いのイメージが多く出てくることは、こういう単語
一覧表から発見できます。
　単語に分割されていない日本語ではこうした一覧表は難しいでしょうが、単純に、
カタカナ語、漢字熟語（単漢字も含む）の一覧表があると、思わぬ発見が連想ゲーム
的に可能で、面白いと思います。
　物好き用のマクロと、笑われるかも知れませんが、こんなのもあったら便利かと思
います。

RE:07959 PseudoDataMiningマクロ

白馬の王子様 さん　15/11/29 17:18

追伸です。
　こうしたマクロの邪道な使い方としては、読もうと思っている電子テキストが本当
に読む価値がありそうかどうかを、まず、使用単語頻度一覧表を作成して、自分が関
心のある関係の単語が多ければ読む、ほとんど出てくれば止める、なんてずるい読み
方もできるでしょう。もちろん、たった一度しか使われていない語が実は重要だった
りすることもまれにはあるでしょうから、あくまでこの使い方は邪道以外の何もので
もありませんが…。
　それから、日本語では、カタカナ語、英単語、漢字熟語しか出力されなくても、意
味のある語はたいていはこのカテゴリーに入っているので大ざっぱな検討を付けるに
は十分でしょう。例えば、上記のパラグラフでは、出現順に

マクロ
邪道
使
方
読
思
電子
テキスト
本当
価値
使用頻度一覧表
作成
（後略）

となりますが、頻度順では、

読　 4
邪道　2
使 2

ですが、これだけでも、読み方について書かれたもので、しかもまともな読み方では
なさそう（「邪道」が2回も！）…と推測ができる、かも。

RE:07959 PseudoDataMiningマクロ

IKKI さん　15/11/29 19:27

ユーザーのIKKIです。こんばんは。

>　単語に分割されていない日本語ではこうした一覧表は難しいでしょうが
>文書中の単語をばらばらにして、頻度の高いもの順に並べて、各単語の頻度を併記
>してある
日本語の形態素解析に基づくワードカウントですね。
このへんで少し遊んでみてはいかがでしょう。
http://tool.konisimple.net/text/hinshi_keitaiso

RE:07961 PseudoDataMiningマクロ

白馬の王子様 さん　15/11/29 20:46

IKKIさん、
　たびたびお世話になります。
　面白情報、ありがとうございました。こういうのがあるんですね。

>日本語の形態素解析に基づくワードカウントですね。
>このへんで少し遊んでみてはいかがでしょう。
>http://tool.konisimple.net/text/hinshi_keitaiso
　これは本格的なもののようですね。
　早速訪れてみました。そして「お気に入り」にも登録しました。
ただ、どのくらいの長さ（一冊の本全体分？）まで可能なんでしょうかね？いつか、
試してみようかしら。

RE:07962 PseudoDataMiningマクロ

白馬の王子様 さん　15/11/29 21:03

追伸です。
　いつかとは言わず、早速、「吾輩は猫である」の第一話で試しましたが、長すぎる
のか、いつまでも結果が出ないので、最初の数センテンスで試したところ、結果がす
ぐに出ました。
　詳しすぎる！というのが正直な感想です。国語学者なら喜ぶんでしょうが、邪道な
読者には、時間がかかりすぎるのと、詳しすぎるので、ちょっと手頃感がないですね。

RE:07959 PseudoDataMiningマクロ

colder さん　15/11/29 21:19

>　単語に分割されていない日本語ではこうした一覧表は難しいでしょうが、単純に、
>カタカナ語、漢字熟語（単漢字も含む）の一覧表があると、思わぬ発見が連想ゲー
>ム的に可能で、面白いと思います。

秀丸のマクロで日本語を単語分割する方法は、一応あります。
オープンソースの日本語形態素解析エンジンであるMeCab(http://taku910.github.io
/mecab/)が、h_tomさん制作のh_tools.dll(http://homepage3.nifty.com/_htom/macr
o/macro_dll.html#label-13)を使えば、利用できます。
とりあえず、日本語を単語分割するマクロです。(エラー処理は省いてます)
loaddll "ht_tools.dll";
#a = dllfunc("mecab_load","c:\\mecab\\bin\\libmecab.dll");
#i = 1;
while(#i < linecount2)
{
moveto2 0,#i;
beginlinesel;
$text = gettext2(column,lineno,linelen2, lineno,1);
$new = dllfuncstr("mecab_wakati", "", $text);
insert $new;
#i = #i +1;
}
#d = dllfunc("mecab_free");
freedll;
endmacro;

RE:07965 PseudoDataMiningマクロ

IKKI さん　15/11/29 21:38

>　詳しすぎる！
特徴語抽出ツールなんてのもあったりして…
http://tool.konisimple.net/text/keyphrase

RE:07966 PseudoDataMiningマクロ

白馬の王子様 さん　15/11/30 20:09

colderさん、
　またお世話になります。
　実は本日（月曜日）一日中、外出と接客でちょっと疲れて、今晩はせっかくのマク
ロ、使用する元気がありません。明日も午前中は外出しなければならず、試用は午後
になります。本当はすぐにも試したくてうずうずしているのですが……。
　明日午後に改めて投稿させていただきます。
　ともかく、大変感謝申し上げます。

RE:07967 PseudoDataMiningマクロ

白馬の王子様 さん　15/11/30 20:11

IKKIさん、
　フォローアップ、ありがとうございます。
　colderさんへのお返事にも書いたのですが、今日はお疲れモードでちょっと試せま
せん。明日の午後、是非試させていただきます。
　情報、ありがとうございました。

RE:07966 PseudoDataMiningマクロ

colder さん　15/11/30 20:20

で、一覧表を作成するマクロを作ってみました。
このマクロを動かすには、以下の三つが必要です。
MeCab(http://taku910.github.io/mecab/)
h_tomさん制作のh_tools.dll(http://homepage3.nifty.com/_htom/macro/macro_dll.
html#label-13)
自作の変換モジュールxsort.hmf(まだ正式公開前ですが、暫定的にここに置いておき
ます
https://onedrive.live.com/?id=F554E5A5ADB3B475!110&cid=F554E5A5ADB3B475&group=0
)

setcompatiblemode 0x20f;
//MeCabのpath
$mecab = "c:\\mecab\\bin\\libmecab.dll";
begingroupundo;
loaddll "ht_tools.dll";
if(!result)
{
message "ht_tools.dllが見つかりません";
endmacro;
}
if(!dllfunc("mecab_load",$mecab))
{
message "MeCabが見つかりません";
endmacro;
}
#i = 1;
setsearch "[　-黑]+",0x10;
gofiletop;
while(true)
{
finddown2;
if(!result) break;
$text = gettext(foundtopx,foundtopy,foundendx, foundendy,1);
$new = dllfuncstr("mecab_wakati", "", $text);
insert " "+$new+" ";
}
#d = dllfunc("mecab_free");
freedll;
replaceallfast "\\s+", "\\n", regular;
//記号類、ひらがな一文字の単語は(助詞、助動詞の可能性が高いので)削除
replaceallfast "^([ぁ-ん]|[、。　「」『』？！?!.()（）]*)\\n", "", regular;
selectall;
filter "xsort.hmf","Uniq","2000001000000\" 0000011";
filter "xsort.hmf","XSort","10111121000000\"0000:000";
endgroupundo;
endmacro;

RE:07970 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/01 15:39

colderさん、
　ようやくPCの前に座ることができたので、昨晩のマクロを試用しよう、と思ったら、
進化型マクロがもう出来ているではありませんか！？

>一覧表を作成するマクロ
ということで、早速試用したいのですが、「このマクロを動かすには、以下の三つが
必要」とのことで、まず、これらについて一つづつ、お尋ねします。
　最初の
MeCab(http://taku910.github.io/mecab/)
ですが、教えていただいたurlを見ると、たくさんの辞書ファイルやら関連のプログ
ラムがありますが、私としてはとりあえず、
mecab-0.996.exe:
をダウンロードし、Cドライブの\Program Files\MeCabに入れました。
これについては、それだけでよいのでしょうか？入れ場所が違っていたり、他に必要
なものがあるでしょうか？

RE:07971 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/01 15:50

colderさん、
続きです。

>h_tomさん制作のh_tools.dll(http://homepage3.nifty.com/_htom/macro/macro_dll.
>html#label-13)
についてですが、これは
•正式版　ht_tools.dll　Version 1.22.00(2014/10/18)
だけをダウンロードし、秀丸のディレクトリに入れました。他に必要なものがあれば
教えて下さい。また入れる場所はこれでよいのでしょうか？
　さらに、
>自作の変換モジュールxsort.hmf(まだ正式公開前ですが、暫定的にここに置いてお
>きます
>https://onedrive.live.com/?id=F554E5A5ADB3B475!110&cid=F554E5A5ADB3B475&group=0
>)
はダウンロードしたのですが、入れるべき場所が分かりません。よろしくご教示下さ
い。

RE:07972 PseudoDataMiningマクロ

colder さん　15/12/01 16:26

>をダウンロードし、Cドライブの\Program Files\MeCabに入れました。
>これについては、それだけでよいのでしょうか？入れ場所が違っていたり、他に必
>要なものがあるでしょうか？
それだけでいいはずです。場所はどこでもいいです。
入れた場所に応じて先頭付近にある↓を書き換えてください。
$mecab = "c:\\mecab\\bin\\libmecab.dll";

>正式版　ht_tools.dll　Version 1.22.00(2014/10/18)
>だけをダウンロードし、秀丸のディレクトリに入れました。他に必要なものがあれ
>ば教えて下さい。また入れる場所はこれでよいのでしょうか？
それでいいはずです。

>>自作の変換モジュールxsort.hmf(まだ正式公開前ですが、暫定的にここに置いてお
>きます
>>https://onedrive.live.com/?id=F554E5A5ADB3B475!110&cid=F554E5A5ADB3B475&gr
>oup=0)
>はダウンロードしたのですが、入れるべき場所が分かりません。よろしくご教示下
>さい。
xsort.hmfを秀丸と同じフォルダ入れてください。

RE:07967 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/01 16:32

IKKIさん、
　ご紹介いただいた特徴語抽出ツール、試してみました。
　「我が輩は猫である」の第一話を投入したところ、長すぎるのかいつになっても結
果がでないので、最初のパラグラフだけ投入したら、すぐに結果が出ました。「書
生」が一番特徴的な語だそうです。この程度の長さなら、改めて言われなくても……、
　そして、長文だと結果がなかなか出ないなんて……？長文だからこそ、コンピュー
タにお願いしたいところなのに。
　これなら、出現単語の頻度順リストがさっと出てくれた方がずっと実際的なような
気がします。人間が一覧表を通覧するなら、頻度が高くても、例えば、「人」とか
「私」などは一般的過ぎる語として、無視して、それ以外の内容語に目が行きますも
のね。

RE:07972 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/01 16:34

colderさん、
　こんなに素早く、恐縮です。
　ご指示の通り、やってみます。（ちょっと、これからPCから離れるので、実験には
少々お時間下さい。)

RE:07975 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/01 16:56

colderさん、
マクロの書き換えは、

$mecab = "c:\Program Files\MeCab\bin\libmecab.dll";

で、よいのですよね？
　なぜか、Mecabがありません、とエラーメッセージが出てしまうのですが。

RE:07976 PseudoDataMiningマクロ

colder さん　15/12/01 18:15

\は\\のように二重にして下さい。
$mecab = "c:\\Program Files\\MeCab\\bin\\libmecab.dll";

RE:07977 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/01 18:46

colderさん、
　早速のアドバイス、ありがとうございました。

>\は\\のように二重にして下さい。
>$mecab = "c:\\Program Files\\MeCab\\bin\\libmecab.dll";

としたら、できました！
　見事に！
　漢字（文字列）やカタカナ（文字列）だけでなく、ひらがな（文字列）も意味のあ
る語として出力されました、しかも、頻度順に！
　これは素晴らしい！使えます。
　試しに英文でも試しましたが、ばっちりですね。
　いろいろな先行プログラムを組み合わせ、マクロでそれを制御することで素晴らし
いことができるんですね。感動しました！
　これ、公にする価値があるのでは？

RE:07978 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/01 18:55

追伸です。
　便利この上ないので、勝手ながら「使用語頻度一覧.mac」として、我が秀丸にマク
ロ登録させていただきました。

RE:07979 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/01 19:04

追伸の追伸です。
　このマクロが利用している単語の切り出しプログラムに、面白い特徴があることに
気づきました。

(21):なっ
(19):思っ
(15):なかっ
(9):いっ
(8):あっ
(8):って
(7):おっ
(6):とっ

といった調子で、「なった」とか「なって」とか「思った」とか「思って」とかが、
「っ」で切られるようですね。もちろん実用には全く支障はないのですが、面白いな
と思った次第です。

RE:07980 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/01 19:13

　さらに英文で実験したところ、行末でハイフンで切れている語はそこで一つの単語
として認識されてしまうようですね。ちょっと残念。

例；

This is a tele-
vision set.
That is also a television set.

という英文にマクロをかけると、

(2):is
(2):a
(2):set.
(1):This
(1):tele-
(1):vision
(1):That
(1):also
(1):television

となります。
(2)television
となってくれれば理想的ですね。でも、長文の大きな傾向は十分把握できるのですか
ら、文句は言えないと思います。

RE:07981 PseudoDataMiningマクロ

colder さん　15/12/02 13:55

>　さらに英文で実験したところ、行末でハイフンで切れている語はそこで一つの単
>語として認識されてしまうようですね。ちょっと残念。
begingroupundo;の直後に以下の文を追加してみて下さい。
//ここから
replaceallfast "([.?!。！？])(?!$)","\\1\\n", regular;
replaceallfast "(?<![.?!。！？])-?\\n","",regular;
//ここまで
おおざっぱに一行一文の形式に整形します。B.B.C.みたいな略語が複数の単語と認識
されるようになっちゃうけど。

RE:07985 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/02 20:35

colderさん、
　今日は一日中忙しく、PCの前に座れるのが、午後8時半過ぎになってしまい、お礼
のお返事が遅くなり、失礼しました。
　たった今、「ここから」「ここまで」を追加して、実験しました。見事にtele- vi
sionがtelevisionとなってカウントに入りました！大満足です。
>B.B.C.みたいな略語が複数の単語と認識されるようになっちゃうけど。
　気にしない、気にしない。行末の単語の泣き別れの方がよっぽど困る現象ですから。

RE:07985 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/02 21:02

colderさん、
　一覧表で、現状では頻度順でしか並びませんが、アイウエオ順（正確にはJISコー
ド順、とでも言うのでしょうか）も選べるといいですね。
　というのは、自分では、「愛」という語が頻度が高い、と思っていたのに、実際は
全然低い頻度で、なかなか見つからない、なんてことがあるからです。
　ファイラーで、ファイル名順でソートして表示されたもので慣れているので、漢字
などが通常のあいうえお順とは異なっても大丈夫です。
　さらに欲を言えば、文字列の長い順、短い順というのもあれば、長い人名（外国人
の場合など）や長い熟語など、発見しやすくなると思います。

RE:07988 PseudoDataMiningマクロ

colder さん　15/12/02 22:34

>　一覧表で、現状では頻度順でしか並びませんが、アイウエオ順（正確にはJISコー
>ド順、とでも言うのでしょうか）も選べるといいですね。
>　というのは、自分では、「愛」という語が頻度が高い、と思っていたのに、実際
>は全然低い頻度で、なかなか見つからない、なんてことがあるからです。
一覧表を検索すればいいだけのような気もしますが、

>　さらに欲を言えば、文字列の長い順、短い順というのもあれば、

endgroupundo;の直前に以下の文を入れて下さい。
//ここから
menu "頻度順","shift-jis順","文字列の長い順","文字列の短い順";
if(result == 2)
filter "xsort.hmf","XSort","00100121000100\"0100:000";
else if(result == 3)
filter "xsort.hmf","LSort","10121000100\":00";
else if(result == 4)
filter "xsort.hmf","LSort","00121000100\":00";
//ここまで

RE:07989 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/03 09:59

colderさん、
　早速の改良版、ありがとうございました。

>一覧表を検索すればいいだけのような気もしますが、
　きっとそう言われるだろうな……と思いながら、書いていました(笑)。
でも、今回の改良版で出力した結果の一部、
(1):優
(1):優れ
(7):優位
(2):優越
(3):優雅
(1):優秀
(2):優勢
(2):優先
(4):優美
を見ると、「優」を冒頭に含む語でどのようなものが使われていて、この例では「優
位」という語がかなり特徴的に使われている、ということが分かります。
　こんな具合に、単純な検索ではなかなか見えてこない用語法が改良版だと、見事に
発見できるのです。
　これから、長い順、短い順も見てみますね。

RE:07990 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/03 10:19

colderさん、
　今度は長い順でソートしてみました。
　すると、今回使ったテスト文書ファイルでは、カタカナ表記の固有名詞が最初の方
に浮かび上がってきました。面白いですね。
　ただ、ちょっと不思議なのは、それら長い固有名詞の中に、

(1):ベルリン・フィルハーモニー・オーケス

というのがあったことです。当然、ベルリン・フィルハーモニー・オーケストラのこ
とで、本文で検索するとちゃんと「ベルリン・フィルハーモニー・オーケストラ」と
なっていて、改行をまたいでいるわけでもありませんでした。こうした尻切れと思わ
れる語が見つかったら、通常の検索機能で該当箇所を見つけ出して、確認すれば済む
ことで、実用上は問題ないのですが、ちょっと不思議に思ったので、報告させていた
だきました。
　また、Shift-JISでソートした一覧表を眺めていると、原語（英語等）表記がどれ
だけあるのか、とか、外来語（カタカナ表記語）がどれだけあるのか、など、次々と
面白い発見があって、飽きないです。

RE:07991 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/03 10:34

colderさん、
　現状では、出力結果を保存したいとき、いちいちファイル名を付けなければなりま
せん。しかも、出力結果が表示された段階で、そのまま保存すると、元のファイルが、
上書きされてしまいます。
　そこで、

ファイル名_使用語一覧_頻度順.txt,
ファイル名_使用語一覧_shift-jis順.txt
ファイル名_使用語一覧_文字列の長い順.txt
ファイル名_使用語一覧_文字列の短い順.txt

というファイル名のいずれかで保存するかどうか提案して、よければそのまま出力結
果が保存される、という風になると、便利で安全になると思います。
　それにしてもこのマクロ、便利ですので、公開を視野に入れられてはいかがでしょ
うか？

RE:07992 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/03 10:45

colderさん、
　今度は、非常に短い、下記の例文で実験しました。

これは四字熟語を含む例文です。
しかもこの文では、その四字
熟語が改行で泣き別れになっています。

出力結果(頻度順）は下記の通りです。

(2):四
(2):字
(2):熟語
(1):これ
(1):含む
(1):例文
(1):です
(1):しかも
(1):この
(1):文
(1):その
(1):改行
(1):泣き別れ
(1):なっ
(1):ます

私は「四字熟語」という文字列は一続きの単語として出力されると思っていましたが
そうではないのですね。
　単純に漢字の連なりは一単語として出力する、という機能は無理でしょうか？（辞
書を参照しているようですので、そこに例えば、東京都特許許可局という語がないと、
東京都　特許　許可局とかになってしまうのかしら？）
　試したら、

(1):東京
(1):都
(1):特許
(1):許可
(1):局

となりました。うーん。

RE:07993 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/03 14:09

colderさん、
　考えてみたのですが、辞書を通さずに、アラビア数字、英字、カタカナ、ひらがな、
漢数字、漢字、記号類の連なりをまとまった文字列として（「単語」として）取り出
す、という機能があればよいのではないか、と思いつきました。例えば、直前の例で
すと、

>これは四字熟語を含む例文です。
>しかもこの文では、その四字
>熟語が改行で泣き別れになっています。

これは
四字熟語
を
含
む
例文
です。
しかもこの
文
では
、
その
四字熟語
が
改行
で
泣
き
別
れになっています
。

と分解される、というものです。
　ただ、上記の例では「四字」が

四
字熟語

と分解されるのは仕方ないですね。

RE:07994 PseudoDataMiningマクロ

colder さん　15/12/03 15:18

ここにまとめて返信します。
>というファイル名のいずれかで保存するかどうか提案して、よければそのまま出力結
>果が保存される、という風になると、便利で安全になると思います。
http://www.maruo.co.jp/hidesoft/4/x07959_.html#7989で追加した部分を以下のも
のに変更して下さい。
//ここから
menu "頻度順","shift-jis順","文字列の長い順","文字列の短い順";
if(result == 1) {
changename filename+""+"_使用語一覧_頻度順"+filetype;
}
else if(result == 2) {
changename filename+"_使用語一覧_shift-jis順"+filetype;
filter "xsort.hmf","XSort","00100121000100\"0100:000";
}
else if(result == 3) {
changename filename+"_使用語一覧_文字列の長い順"+filetype;
filter "xsort.hmf","LSort","10121000100\":00";
}
else if(result == 4) {
changename filename+"_使用語一覧_文字列の短い順"+filetype;
filter "xsort.hmf","LSort","00121000100\":00";
}
question "保存しますか？";
if(result) SAVEAS;
//ここまで

>公開を視野に入れられてはいかがでしょうか？
公式ライブラリにアップするつもりはないです。
そもそもここは、マクロ作者同士の情報交換の場という認識なので、
ここに、書き込んだマクロは単なるサンプルです。
公式ライブラリにアップするようなものは、データマイニングに詳しい人にお任せし
ます。(その際には、私の書いたマクロは自由に参考してもらって構いません。)

一部の単語が複数の単語に分割されることがある件については、
単語への分割はすべてMeCabに任せているので、マクロから何とかすることは出来な
いです。
MeCabの方にユーザー定義辞書を使用する方法が準備されているようなので、ユー
ザー定義辞書を作って対応して欲しいです。

RE:07995 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/03 16:55

colderさん、
　保存ファイルについての改良、早速ありがとうございました。
非常に使いやすく、便利になりました。

>公式ライブラリにアップするつもりはないです。
>そもそもここは、マクロ作者同士の情報交換の場という認識なので、
>ここに、書き込んだマクロは単なるサンプルです。
　単なるサンプルで、こんなに便利とは！！

>公式ライブラリにアップするようなものは、データマイニングに詳しい人にお任せ
>します。(その際には、私の書いたマクロは自由に参考してもらって構いません。)
　誰かがこの「サンプル」の便利さ、汎用性に気づいて、公開に向けて動いてくれる
といいですね。ここに閉じ込めておくのはもったいない気がします。

>一部の単語が複数の単語に分割されることがある件については、
>単語への分割はすべてMeCabに任せているので、マクロから何とかすることは出来な
>いです。
　やはりそうでしたか。辞書に依存というのは高速で便利な反面、そうした制約が生
まれてしまうのですね。

>MeCabの方にユーザー定義辞書を使用する方法が準備されているようなので、ユー
>ザー定義辞書を作って対応して欲しいです。
　現状でも、少なくとも私の目的には十分なのでそこまでは……。ただ、汎用性と、
私の少しばかりの欲を言うと、辞書を利用しない道も残されているといいかなと思っ
た次第です。

RE:07995 PseudoDataMiningマクロ

山紫水明 さん　15/12/03 17:31

　colderさん，

　日本語形態素解析エンジンであるMeCabとh_tomさん制作のh_tools.dllという
非常にいいものを紹介していただきました。

>一部の単語が複数の単語に分割されることがある件については、単語への分割
>はすべてMeCabに任せているので、マクロから何とかすることは出来ないです。
　私もそう思いました。
　人名については基本的に姓と名に分割しているようです。夏目漱石や森鴎外な
ども人名としてはありません。ただ国名については，登録しているようで「中華
人民共和国」や「朝鮮民主主義人民共和国」のような長いものもあります。

>MeCabの方にユーザー定義辞書を使用する方法が準備されているようなので、
>ユーザー定義辞書を作って対応して欲しいです。
　ここをのぞいてみましたが，辞書追加には一定のレベルを要求されるようで，
私のような秀丸マクロ以外に能のない者ものにとっては，敷居が高いですね。
　それで出力されたデータからなんとかならないかと考えてみました。

　白馬の王子様さん，

>私の少しばかりの欲を言うと、辞書を利用しない道も残されているといいかな
>と思った次第です。

replaceallfast "\\s+", "\\n", regular;
の次に以下の行を挿入してみてください。

replaceallfast "([亜-黑])(\\n)([亜-黑])", "\\1\\3", regular;
replaceallfast "([亜-黑])(\\n)([亜-黑])", "\\1\\3", regular;
replaceallfast "([ァ-ヶー])(\\n)(・)(\\n)([ァ-ヶー])", "\\1\\3\\5",
regular;

山紫水明

RE:07997 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/03 18:36

山紫水明さん、
　白馬の王子様です。
　colderさん作成の「単なるサンプル」（何という謙遜でしょう！）に関心を持って
いただき、ありがとうございます。

>　それで出力されたデータからなんとかならないかと考えてみました。
　なるほど！そういう道もあったのですね。
　早速作っていただいた部分マクロを追加して、実験してみました。
非常にいいです。出力結果が、辞書だけを利用した場合より、自然な感じです。例の
「吾輩は猫である」の第一話の長い順のリストの冒頭は以下の通りになりました。

(8):アンドレア・デル・サルト
(1):レオナルド・ダ・ヴィンチ
(1):ニコラス・ニックルベー
(2):タカジヤスターゼ
(1):第一話下段中段
(1):四五遍繰り返し
(1):ニャーニャー
(1):ぎりほとんど
(1):毎夜繰り返す
(1):ぺたをひどく
(1):ヴァイオリン
(1):あわただしく
(1):毎日毎日書斎
(1):一本一本嗅ぎ
(1):随分傍若無人
(1):同盟敬遠主義

これが辞書依存だけだと、

(8):アンドレア・デル・サルト
(1):レオナルド・ダ・ヴィンチ
(1):ニコラス・ニックルベー
(2):タカジヤスターゼ
(1):ニャーニャー
(1):ぎりほとんど
(1):ぺたをひどく
(1):ヴァイオリン
(1):あわただしく
(1):セオファーノ
(1):ダ・ヴィンチ
(3):どうしても
(3):せんだって
(2):もぐり込ん
(2):おとなしく
(1):ぷうぷうと

ということで、改良型の方が自然（実際的）な出力が得られます。もちろん用途によ
って辞書依存オンリーの方が有用というユーザーもいるかもしれませんが、少なくと
も私は改良版の方が便利に思います。
　どうもありがとうございました。

RE:07998 PseudoDataMiningマクロ

山紫水明 さん　15/12/04 17:38

　長文失礼します。
　人名については姓と名前はかなり登録されているようですが，その組み合わせ
である姓名となると実は無数と言ってもいいくらいあり，たとえMeCabのユー
ザー定義辞書に登録できるスキルがあっても，登録は事実上不可能だろうと思い
ます。それで出力された漢字を接続するやり方がやはり現実的かなと思います。
それで漢字熟語の問題も解決できそうです。
　ただそうすると，副作用として不自然な結合が出てくるのは避けられません。
そこで，独立語のリストを作り，その単語については再度切り離すという方法は
どうかと考えてみました。
　それを利用して元のマクロに追加したのが次のマクロです。

//---------------------------------------------//
$listfile= macrodir + "\\独立語リスト.txt";
#mainhandle = hidemaruhandle(0);
openfile "/h " + $listfile;
if( !result ) openfile $listfile;
#listhandle = hidemaruhandle(0);
gofiletop;
#lcount = linecount2;
while( #i < #lcount ) {
$word[#i] = gettext2( 0, lineno, linelen2, lineno );
if( $word[#i] == "" ) break;
moveto2 0, lineno + 1;
#i = #i + 1;
}
setactivehidemaru #mainhandle;
closehidemaru #listhandle;
$mainfile = filename2;
#mainhandle = hidemaruhandle(0);
setcompatiblemode 0x20f;
//MeCabのpath
$mecab = "c:\\Tools\\MeCab\\bin\\libmecab.dll";
begingroupundo;
loaddll "ht_tools.dll";
if(!result) {
message "ht_tools.dllが見つかりません";
endmacro;
}
if(!dllfunc("mecab_load",$mecab)) {
message "MeCabが見つかりません";
endmacro;
}
setsearch "[　-黑]+",0x10;
gofiletop;
while(true) {
finddown2;
if(!result) break;
$text = gettext(foundtopx,foundtopy,foundendx, foundendy,1);
$new = dllfuncstr("mecab_wakati", "", $text);
insert " "+$new+" ";
}
#d = dllfunc("mecab_free");
freedll;
#subhandle = hidemaruhandle(0);
disabledraw;
replaceallfast "\\s+", "\\n", regular;
replaceallfast "^\\n", "", regular;
replaceallfast "(第?)(\\n)([0-9０-９]*)(\\n)([次回年月日時分秒])",
"\\1\\3\\5", regular;
replaceallfast "([亜-黑])(\\n)([亜-黑])", "\\1\\3", regular;
replaceallfast "([亜-黑])(\\n)([亜-黑])", "\\1\\3", regular;
replaceallfast "([ァ-ヶー])(\\n)(・)(\\n)([ァ-ヶー])", "\\1\\3\\5",
regular;
#i = #i -1;
while( #i >= 0 ) {
replaceallfast "(" + $word[#i] + ")([亜-黑])", "\\1\\n\\2",
regular;
#i = #i -1;
}
//記号類、ひらがな一文字の単語は(助詞、助動詞の可能性が高いので)削除
replaceallfast "^([ぁ-ん]|[、，。　「」『』？！?!.()（）]*)\\n", "",
regular;
selectall;
filter "xsort.hmf","Uniq","2000001000000\" 0000011";
filter "xsort.hmf","XSort","10111121000000\"0000:000";
menu "頻度順","shift-jis順","文字列の長い順","文字列の短い順";
if(result == 1) {
changename filename+""+"_使用語一覧_頻度順"+filetype;
}
else if(result == 2) {
changename filename+"_使用語一覧_shift-jis順"+filetype;
filter "xsort.hmf","XSort","00100121000100\"0100:000";
}
else if(result == 3) {
changename filename+"_使用語一覧_文字列の長い順"+filetype;
filter "xsort.hmf","LSort","10121000100\":00";
}
else if(result == 4) {
changename filename+"_使用語一覧_文字列の短い順"+filetype;
filter "xsort.hmf","LSort","00121000100\":00";
}
escape;
closehidemaruforced #mainhandle;
openfile $mainfile;
setactivehidemaru #subhandle;
clearupdated;
question "保存しますか？";
if(result) SAVEAS;
endgroupundo;
endmacro;
//---------------------------------------------//
GO HIDESOFT

RE:07998 PseudoDataMiningマクロ

山紫水明 さん　15/12/04 17:47

（続き）
　このマクロを使うために，マクロのフォルダに「独立語リスト.txt」を置きま
す。この内容は以下のとおりで，漱石の「猫」のテキストが青空文庫にあるので，
それを素材にしたものです。現在ではひらがなで書くような単語も多く漢字で書
かれています。ちょっと古い文章を分析対象にする場合には必要だろうと思いま
した。それに若干追加しました。１行に１語ずつ書いています。追加削除は自由
にできます。

あの後
あの時
この間
この際
この時
この前
その間
その後
その時
その前
ただ今
案外
以来
一意
一応
一向
一所懸命
一心不乱
一生懸命
一層
一体
一同
一番
一風
一本一本
仮令
何返
果然
極力
近頃
近来
愚図愚図
偶然
君
結果
研究上
元来
此際
今更
今頃
今度
今日
今晩
最早
昨日
昨夜
始終
思う存分
至急
至極
実際
終日
充分
所謂
人一倍
随分
是非
生憎
惜哉
折柄
先刻
先生
先日
前回
全然
双方共
早速
早晩
存外
多少
多年
多分
大概
大体
大抵
大分
大変
大方
断然
到底
突然
二六時中
年来
乃至
比較的
不相変
平生
別段
本来
毎月
毎朝
毎日
毎晩
満更
無論
夜中
余計
余程
翌日

山紫水明

RE:07999 PseudoDataMiningマクロ

colder さん　15/12/04 18:50

>　人名については姓と名前はかなり登録されているようですが，その組み合わせ
>である姓名となると実は無数と言ってもいいくらいあり，たとえMeCabのユー
>ザー定義辞書に登録できるスキルがあっても，登録は事実上不可能だろうと思い
>ます。

$new = dllfuncstr("mecab_wakati", "", $text);
の部分を以下のものに変更すれば
$new = dllfuncstr("mecab", "", $text);

単に、単語に分割するだけじゃなく、分割した単語を1行1単語の形式で、品詞、活用
の種類、基本形、読みなどの詳細な情報が得られるので、
姓名に関していえば、その情報を元に、「人名,姓」、「人名,名」という単語が並ん
でいるものを一つの人名として処理するのが正当な解決方法だと思います。
姓名以外でも詳細な情報が得られるので、うまく活用すれば、本格的なデータマイニ
ングマクロができるでしょう。

RE:08000 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/04 20:26

山紫水明さん、
　白馬の王子様です。
　私が当初考えていたより遙かに本格的なマクロをお考えいただいているようで、心
底、恐縮しております。
　早速、「使用語頻度一覧_新.mac」（と、勝手に命名させていただいています）を
実験してみました。
　実験文書は、たった１行の次の文から成り立っています。

この間一生懸命取り組んだマクロが近日中に公開されるそうです。

　これをこれまでのマクロで処理した結果は、

(1):この間一生懸命取り組ん
(1):マクロ
(1):近日中
(1):公開
(1):れる
(1):そう
(1):です

新版での処理結果は

(1):この間
(1):一生懸命取り組ん
(1):マクロ
(1):近日中
(1):公開
(1):れる
(1):そう
(1):です

となりました。
独立語リストに「この間」が入っているお陰で、「この間一生懸命取り組ん」と一ま
とめに出力されていたものが、ちゃんと二語に分かれて出力されています。
　他方、「一生懸命」は独立語リストに登録されているのに、後続の「取り組ん」と
繋がったままです。
　あと、「公開されるそうです」の「さ」が新旧両版とも、無視されています。
　実は私の用途としては、旧版で十分なのですが、公開を視野に入れると汎用性を考
えないといけないので、新版をもっと改良した方がいいかなとも思います。

RE:08001 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/04 20:31

colderさん、
　白馬の王子様です。
　何やら、当初私が思っていたより話が遙かに先に進みそうで、怖いくらいです。

>姓名以外でも詳細な情報が得られるので、うまく活用すれば、本格的なデータマイ
>ニングマクロができるでしょう。
　意味の領域に踏み込まず、あくまで形式的にしか処理できないマクロでどこまで可
能なのか、私のような素人には見当もつきませんが、１００％とはいわないまでも、
８０％くらいの精度まで高まればきっと多くのユーザーに喜ばれることと思います。
　実験、試用程度のご協力でよければ、微力ながらお手伝いさせていただきますよ。

RE:08002 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/04 20:38

山紫水明さん、
colderさん、
　当初の私の希望を超えた本格的マクロに成長しそうなので、実験、試用のお手伝い
は惜しみませんが、私は国語学者や言語学者でなく、あくまで、素人ですので、普通
のユーザーの範囲内でしかコメントできません。
　予め、ご容赦下さい。

RE:08004 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/04 20:42

追伸です。
　今日、使用語頻度一覧マクロを、XPのPCでも使ってみました。
　このマクロの前提として必要な３つのツールのどれかに、XPより後のWindowsでし
か使えないようなことが書いてあったと思うのですが、XPでもマクロはちゃんと使え
ました。万歳！

RE:08000 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/04 20:46

白馬の王子様です。
　独立語リストのアイデア、素晴らしいですね。
　追加、削除が自由に行える単純な形式のテキストファイルなので、ユーザーがそれ
ぞれの目的や対象文書に合わせて育てていけば、非常に精度の高い出力が得られるよ
うになりますよね。
　私自身はと言えば、その労力も余生も残されていませんが（笑と涙）。

RE:08005 PseudoDataMiningマクロ

でるもんたいいじま さん　15/12/04 20:49

白馬の王子様さん：

苦情になって申し訳ありません。

この掲示板はマクロ全般について相談する場所であって、
あなた個人のマクロの専用開発現場ではなかったはずです。

現在、この板の書き込みの3/4があなたの名前になっていて、
私のようにメールで読んでいる人は他の記事が完全に埋もれて
しまっています。
誤解を恐れずに言うと、完全に迷惑です。

これ以上続けるようであれば、もっと適切な場所に移っていただけることを
切に希望します。

RE:08001 PseudoDataMiningマクロ

山紫水明 さん　15/12/04 21:09

　colderさん，

　いつもながらのご教示ありがとうございます。
　ただ，この情報を駆使してデータマイニングのマクロを作る能力も時間もあり
ませんので，とりあえずは手出しするのはやめておきます。いずれ何かの折に利
用できる機会があるかもしれません。

山紫水明

RE:08007 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/04 21:15

でるもんたいいじまさん、
　白馬の王子様です。
　ご迷惑をお掛けしていることに全く気づかず大変失礼しました。
　今後は、投稿をできる限り控えることにします。

RE:08002 PseudoDataMiningマクロ

山紫水明 さん　15/12/04 21:25

　白馬の王子様さん，

>新版での処理結果は
>
>(1):この間
>(1):一生懸命取り組ん
>(1):マクロ
>(1):近日中
>(1):公開
>(1):れる
>(1):そう
>(1):です
>
>となりました。

　私の方では
>(1):この間
>(1):一生懸命
>(1):取り組ん
>(1):マクロ
>(1):近日中
>(1):公開
>(1):れる
>(1):そう
>(1):です

>となりました。なぜかな？

>　あと、「公開されるそうです」の「さ」が新旧両版とも、無視されています。
　これは元の colder さんのマクロで
//記号類、ひらがな一文字の単語は(助詞、助動詞の可能性が高いので)削除
とされているからで，その直下の１行をコメントアウトすると，

(1):この間
(1):一生懸命
(1):取り組ん
(1):だ
(1):マクロ
(1):が
(1):近日中
(1):に
(1):公開
(1):さ
(1):れる
(1):そう
(1):です
(1):。

となります。

>　実は私の用途としては、旧版で十分なのですが、公開を視野に入れると汎用
>性を考えないといけないので、新版をもっと改良した方がいいかなとも思いま
>す。

　いや，将来はともかく，その予定は今のところありませんので，白馬の王子様
さんが満足されているならそれで結構かと思います。

山紫水明

RE:08010 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/05 11:15

山紫水明さん、
　白馬の王子様です。

>>なぜかな？
　私の実用上は問題ないので、構いません。

>　これは元の colder さんのマクロで
>//記号類、ひらがな一文字の単語は(助詞、助動詞の可能性が高いので)削除
>とされているからで，その直下の１行をコメントアウトすると，
　なるほど。これも実用上は問題ないので、現状のまま行きます。

>　いや，将来はともかく，その予定は今のところありませんので，白馬の王子様
>さんが満足されているならそれで結構かと思います。
　了解しました。大満足です。

　この会議室では、山紫水明さん、colderさん、ikkiさん、K'zawaさんなど、大勢の
皆様に１ヶ月と１週間近く、集中的に大変お世話になりました。厚く御礼申し上げま
す。
　また、集中的な投稿でご迷惑をお掛けしてしまった方々に深くお詫び申し上げます。
　ひとまずこれにて今後の投稿は控えさせていただきます。
　皆様のご健勝をお祈り申し上げます。

白馬の王子様

> 山紫水明

RE:07995 PseudoDataMiningマクロ

shima さん　15/12/06 08:50

　飛び込みで、失礼します。
　colderさん、マクロを試用させていただきました。
　日本語形態素解析というものは今回初めて知った素人です。
　実行結果を見て、"xsort.hmf"を別の場面で使ってみたいと思いました。
　ただ、いくつかの状況で使ってみたところ、
　　　　出現回数の１の位がゼロのとき、それが消えてしまう
という現象が起きています。具体的には、
　　　　(10)→(1)
　　　　(770)→(77)
　　　　(1050)→(105)
という具合です。
　以下のテスト用データ(５行)で確認してみていただけないでしょうか。
----------------------------------------
形態、形態、形態、形態、形態、形態、解析、解析、解析、解析、日本語
形態、形態、形態、形態、形態、形態、解析、解析、解析、解析、日本語
形態、形態、形態、形態、形態、形態、解析、解析、解析、解析、日本語
形態、形態、形態、形態、形態、形態、解析、解析、解析、解析、日本語
形態、形態、形態、形態、形態、形態、解析、解析、解析、解析、日本語
----------------------------------------

　このデータにマクロを実行して「頻度順」を選択すると、
　　　　(30):形態
　　　　(20):解析
　　　　(5):日本語
となるべきだと思いますが、以下のようになります。
　　　　(5):日本語
　　　　(3):形態
　　　　(2):解析

　よろしくお願いします。

RE:08015 PseudoDataMiningマクロ

colder さん　15/12/06 12:47

>　実行結果を見て、"xsort.hmf"を別の場面で使ってみたいと思いました。
>　ただ、いくつかの状況で使ってみたところ、
>　　　　出現回数の１の位がゼロのとき、それが消えてしまう

ご指摘ありがとうございます。その通りでした。
修正したものに差し替えました。、

RE:08016 PseudoDataMiningマクロ

shima さん　15/12/07 08:47

>修正したものに差し替えました。

　colderさん、早速の修正、ありがとうございます。
　テスト用データでの確認後、総単語[キーワード]数、約１５万のデータ（日本語形
態素
とは関係ないものです）に対して、既存の頻度表作成マクロと、これに"xsort.hmf"を
組み込んだマクロの両方を実行し、両者の結果が完全に一致することを確認しました。
　実行時間が大幅に短縮（４９秒→７秒）しました。（７秒のうちの４～５秒は
"xsort.hmf"を実行する前の処理にかかっていると思われます。）
　４万語弱のデータでも、完全に一致しました。（９秒→３秒）
　変換モジュールの偉力を感じています。

　１つ質問があります。"xsort.hmf"には、パラメータの指定で、出現回数だけでなく、
総単語数に対する割合（パーセント）も出力するような機能はあるでしょうか。
　次のような感じのものです。
　　　　(5896):(3.896):解析
　　　　(3505):(2.316):形態
　　　　(3398):(2.245):日本語
　　　　(304):(0.200):機能

　あれば、パラメータの指定の仕方を教えていただくことは可能でしょうか。
　ない場合は、今後の改訂の際の検討案に加えていただけるとありがたいです。

　大雑把ですが、以下のような内容を考えています。
　①　パーセントの数値で小数第３位まで必要。
　　　小数第４位以下の扱いは、切り捨て・切り上げ・四捨五入のどれでもよい。
　②　‘％’や‘%’や‘パーセント’は添えない。
　③　5.3パーセントの場合なども(5.300)のように小数第３位まで0を埋める。
　　　　例：(32.000) (21.020) (15.200) (8.700) (4.000)
　④　割合の位置は、上のような真ん中でも、次のような右端でもよい。
　　　　(5896):解析:(3.896)

RE:08018 PseudoDataMiningマクロ

colder さん　15/12/07 20:31

>　１つ質問があります。"xsort.hmf"には、パラメータの指定で、出現回数だけでな
>く、
>総単語数に対する割合（パーセント）も出力するような機能はあるでしょうか。
>　あれば、パラメータの指定の仕方を教えていただくことは可能でしょうか。
>　ない場合は、今後の改訂の際の検討案に加えていただけるとありがたいです。
今のところ、割合を出力する機能はないです。
どのような機能があるかは、パラメータを指定しないで呼び出すとオプション指定用
のダイアログが出るので、それを見てほしいです。
パラメータの指定方法は、手動で設定することは考えてなくて、
ヘルプにあるように、キー操作の記録をしていただくか、
http://hidemaruo.mydns.jp:81/helpsite/hidemaru/html/070_Env_Edit_Convert.html
マクロからオプション指定用のダイアログを直接呼び出してパラメータ文字列を返す
関数が用意されているので、それを利用してほしいです。
//サンプル
loaddll "xsort.hmf";
$s = dllfuncstr("ParameterDialog",
hidemaruhandle(0), // ダイアログの親となるウィンドウのハンドル
"Uniq", // ダイアログを出す変換関数の名前
"" // パラメータの初期値
);
freedll;
message "変換モジュールのパラメータは「"+$s+"」です";

RE:08020 PseudoDataMiningマクロ

山紫水明 さん　15/12/07 21:13

　colderさん，

>姓名に関していえば、その情報を元に、「人名,姓」、「人名,名」という単語
>が並んでいるものを一つの人名として処理するのが正当な解決方法だと思いま
>す。

　前回は正直いってこの含意をよく理解してませんでしたが，よく考えてみると
なる程と思います。改めて利用方法を考えてみたいと思います。

　この XSort.hmf もなかなかすぐれものですね。公開を期待しております。

山紫水明

RE:08020 PseudoDataMiningマクロ

shima さん　15/12/08 08:39

>今のところ、割合を出力する機能はないです。

　了解しました。

>どのような機能があるかは、……
>……
>……それを利用してほしいです。

　このような方法があることをまったく知りませんでした。
　"xsort.hmf"を既存のマクロに組み込むときも、サンプルマクロにおける「頻度順」の
ところのコードをそのままコピペして使っていました。
　今回添えていただいたサンプルを実行してみて、"xsort.hmf"の姿が見えました。
　キー操作の記録も試してみました。

　前回報告しましたように、既存のマクロの一部を"xsort.hmf"に置き換えることにより
実行時間を大幅に短縮することができました。
　今回教えていただいた方法を使ってみて、"xsort.hmf"にどのような機能があるの
かを知って、このマクロを改良したり、これとは別の場面で"xsort.hmf"を使うこと
ができる
のではないかと感じています。
　ありがとうございました。

RE:08016 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/08 16:59

colderさん、
　白馬の王子様です。
　ちょっとだけ失礼します。

>修正したものに差し替えました。
と言われるxsortはどこに行けばダウンロード可能でしょうか？
以前教えていただいた

https://onedrive.live.com/?id=F554E5A5ADB3B475%21110&cid=F554E5A5ADB3B475

には旧版しかないようですが……。

RE:08023 PseudoDataMiningマクロ

colder さん　15/12/08 18:03

>https://onedrive.live.com/?id=F554E5A5ADB3B475%21110&cid=F554E5A5ADB3B475
>
>には旧版しかないようですが……。
ファイル名は同じですが、新しいものに入れ替わっています(今日もまた入替えたり
しています)。
旧版しか見つからないということであれば、ブラウザのキャッシュを削除してみて下
さい。

RE:08024 PseudoDataMiningマクロ

白馬の王子様 さん　15/12/08 20:26

colderさん、
　白馬の王子様です。
　早速ご教示ありがとうございました。

>旧版しか見つからないということであれば、ブラウザのキャッシュを削除してみて
>下さい。
　これでうまく行きました。
　shimaさんのテストデータで試したところ、正しくカウントされていました。
　shimaさんの発見と、colderさんの素早い対応で、大きなカウント間違いをせずに
済むことになりました。
　お二人に感謝申し上げます。