|
こんにちは。マボカルと申します。こんな検索が出来ないかと気になり
ましてご意見をうかがいたいと思います。
題名にもあるように擬声語・擬態語のような文字列の検索です。日本語
の擬声語・擬態語は、以下のように同じ音節の文字が繰り返される
場合が多いですが、
「にやにや」「うろうろ」「じわじわ」「ざわざわ」「がやがや」
こういった規則性を利用して機械的に同じ文字列が2回繰り返されて
いるパターンを検索できないかと考えています。勿論このような
パターンなら擬声語・擬態語でなくても「1212」「ABAB」など
なんでもいいのですが、検索するリスト無しに、同じ文字列がすぐに
2回繰り返されている部分を果たして検索することが出来るのかと
気になっています。
私の考えた限りでは、検索リスト無しにはあらゆる正規表現を使って
でも無理だと思い、マクロなどを組んだりプログラムを組んだり
しないと不可能だと考えています。で、もう少し突っ込んで考えると
マクロやプログラムを組んでも果たして検索が可能なのかといった
不安もあります。
こういった検索が機械的に可能なのか、またはマクロで可能なのか
ご教授頂ければと思います。
条件1:検索対象となるテキストはプレーンテキスト(形態素分析に
よって擬声語・擬態語のような検索の際の目印になるようなタグ付け
がされていない)
条件2:検索語のリストなどを作成することなく、文字列の並び方の
規則性のみを手がかりとする
|
|