タグ付けのチェック方法No.04985
マボカル さん 05/12/21 13:07
 
こんにちは。マボカルと申します。こんなマクロ作れないかと一人で
考えているうちに、そもそも機械処理で実現可能なのか不安になって
きまして、アドバイスをお願いいたしたく投稿いたします。

例えば以下のような形式のタグ付け文書があるとします。

///////////////////////////////////////////////////

<text>
<body id=1>
<div id=1.1>
<head id=1.1.h1>Title</head>
<p id=1.1.p1><s id=1.1.p1.s1>AAAAA.</s></p>
<p id=1.1.p2><s id=1.1.p2.s1>CCCCC.</s><s id=1.1.p2.s2>DDDDD.</s></p>
<p id=1.1.p3><s id=1.1.p3.s1>EEEEE.</s><s id=1.1.p3.s2>FFFFF.</s><s id=1.1.p
3.s3>FFFFF.</s></p>
</div>
<div id=1.2>
<head id=1.2.h1>Title</head>
<p id=1.2.p1><s id=1.2.p1.s1>GGGGG.</s></p>
<p id=1.2.p2><s id=1.2.p2.s1>HHHHH.</s><s id=1.2.p2.s2>IIIII.</s></p>
<p id=1.2.p3><s id=1.2.p3.s1>JJJJJ.</s><s id=1.2.p3.s2>KKKKK.</s><s id=1.2.p
3.s3>LLLLL.</s></p>
</div>
</body>
</text>

///////////////////////////////////////////////////

このタグの開いて閉じる部分が、きちんと対応するもの同士ペアに
なっているのかをチェックしたいのですが、今まではタグのみを
抽出してリストアップしたあと、目視で確認したり、ハイライトで
タグの種類ごとに強調表示させておかしな部分は目視ですぐに発見
できるようにしていました。それはそれでいいのですが、ファイルの
数が大量になると一つ一つ目視で確認も困難になってきますので、
これをなんとか機械処理で表記上おかしな部分を探し出せないかという
のが今回の質問です。

昔タグ付けも手作業でやっていた頃は、対応するタグの閉じるタグを
入力し忘れていたり、ペア関係に無いタグが混入していたりするミスが
結構ありました。そのファイルも相当な数になるので、そういったミス
の箇所を探したいのですが、原理上機械化が可能でしょうか。

秀丸エディタの基本機能では、( とか{ の場合、対応する )や }
同士を太文字でハイライトさせることができますが、あのような感じで
上のタグ付き文書も対応するもの同士を機械的に判断することができる
のでしょうか。

[ ]
RE:04985 タグ付けのチェック方法No.04986
ENCODINGSHIFTJIS さん 05/12/21 13:59
 
SGMLの形式がチョットの点ですね

xmlならxmlエディター/IE に投げ込んで well-formedness をcheckです。

日本語が通る SGMLコマンドとか sgml-mode のある editorは Windows向きは困難。

秀丸エディタのマクロで作れますが
とりあえず
=(.+?)>  → =”\1”>
全置換でxmlにして、xmlエディタにコピペするのが簡単でしょう。

その他 ● id= の属性値は 手入力しなくとも XSLTプロセッサで自動発生できるでし
ょう、見た感じでは、構造と一致してそうですから。

[ ]
RE:04985 タグ付けのチェック方法No.04987
あべのり さん 05/12/21 13:59
 
>このタグの開いて閉じる部分が、きちんと対応するもの同士ペアに
>なっているのかをチェックしたいのですが、今まではタグのみを
>抽出してリストアップしたあと、目視で確認したり、ハイライトで
>タグの種類ごとに強調表示させておかしな部分は目視ですぐに発見
>できるようにしていました。それはそれでいいのですが、ファイルの
>数が大量になると一つ一つ目視で確認も困難になってきますので、
>これをなんとか機械処理で表記上おかしな部分を探し出せないかという
>のが今回の質問です。

状況がわかってない気がするので,間違えたらごめんなさい.
IKKIさんのCloseTag.mac
http://www18.big.or.jp/~fujiwara/ikki/hidemaru/macro/closetag.shtml
の処理が激しく目的にあってる気がするのですが,どうでしょう?

[ ]
RE:04985 タグ付けのチェック方法No.04988
IKKI さん 05/12/21 14:36
 
IKKI です。
たらたら書いてるうちになんかもう紹介されちゃってますが…(汗)

> 上のタグ付き文書も対応するもの同士を機械的に判断することができる
> のでしょうか。

可能です。これが XML か否かで話が変わってきますが…

XML ならば、 ENCODINGSHIFTJIS さんがおっしゃるように
XML パーサに投げ込むのが速いし確実だと思います。

秀丸マクロで処理するには、スタックか再帰呼び出しを使うことになります。
再帰呼び出しを使った単純な例を文末に載せておきます。
のりさんに紹介していただいた CloseTag.mac はスタックを使っています。

HTML だと終了タグの省略があるので話はもっと複雑です。ご参考までに…
http://www18.big.or.jp/~fujiwara/ikki/forum/hidemaru/uptree.cgi?n=1370


//--------------------------------------------------------------------
//   XML タグチェッカもどき  by IKKI  (2005/12/21)
//--------------------------------------------------------------------
//
// ・要素名の大文字小文字は区別される
// ・終了タグは省略できない(簡略終了タグも不可)
// ・要素間の依存関係は考慮されない
//
#debug = yes;  // #debug = no; にするとメッセージを抑制
$pattern = "</?[A-Za-z][A-Za-z0-9:_.-]*(?=[ \\t\\n/>])";
searchdown "<[A-Za-z][A-Za-z0-9:_.-]*(?=[ \\t\\n/>])", regular;
if (#debug) message "ここからスタート";
call SeekPairDown midstr(gettext(foundtopx, foundtopy, foundendx, foundendy,
 true), 1, 255);
endmacro;

SeekPairDown:
 $$name1 = $$1;
 searchdown $pattern, regular;
 if (!result) goto NotFound;
 while (true) {
  $$name2 = midstr(gettext(foundtopx, foundtopy, foundendx, foundendy, true),
 1, 255);
  if (leftstr($$name2, 2) == "</") {
   $$name2 = midstr($$name2, 1, 255);
   if ($$name1 == $$name2) {
    if (#debug) message "<" + $$name1 + "> → </" + $$name2 + ">\n終了タグが
現れた\n外へ";
    return true;
   } else {
    if (#debug) message "<" + $$name1 + "> → </" + $$name2 + ">\n自分以外の
終了タグが現れた\n外へ";
    call Omitted $$name1, $$name2;
    return false;
   }
  } else {
   if (#debug) message "<" + $$name1 + "> → <" + $$name2 + ">\n開始タグが現
れた\n中へ";
   call SeekPairDown $$name2;
   if (!##return) continue;
  }
  searchdown $pattern, regular;
  if (!result) goto NotFound;
 }
NotFound:
 message "次のタグが見つかりません";
 return true;

Omitted:
 $$m =       "</" + $$2 + "> の前に </" + $$1 + "> が省略されています。\n\n";
 $$m = $$m + "  △ <" + $$1 + "> 〜 </" + $$2 + ">\n";
 $$m = $$m + "  ○ <" + $$1 + "> 〜 </" + $$1 + "></" + $$2 + ">\n\n";
 $$m = $$m + "</" + $$1 + "> を挿入しますか?";
 question $$m;
 if (result) {
  escape;
  insert "</" + $$1 + ">";
  searchdown2 $pattern, regular;
 }
 return;

[ ]
RE:04986 タグ付けのチェック方法No.04989
マボカル さん 05/12/21 20:32
 
ENCODINGSHIFTJISさん

ありがとうございます。

>xmlならxmlエディター/IE に投げ込んで well-formedness をcheckです。

XMLエディタが無いのですぐには確認できませんが、やっぱりこの
ような構造化を確認するのは、XML方式が効果的なのですね。フリー
のXMLエディタや試用版などで、どのような動きをするのか確認して
みたいです。XMLについてはまだ概念をはっきり理解していないので
そこの勉強も必要かと思います。

>日本語が通る SGMLコマンドとか sgml-mode のある editorは Windows向きは困難。

この部分はよく分かりませんので、用語を検索して勉強してみます。

>その他 ● id= の属性値は 手入力しなくとも XSLTプロセッサで自動発生できるで
>しょう、見た感じでは、構造と一致してそうですから。

タグ付けに作業に関しては、以前投稿したときにENCODINGSHIFTJISさん
をはじめ、たくさんの方からの貴重なご意見をいただきました。

04196 『連番自動割り振りマクロ』の改造方法に関する質問 / Majima [ 04/0
3/22 13:03 ]
http://www.maruo.co.jp/hidesoft/4/x04196_.html#4196

タグ付けの規則が実はいろいろと複雑な規則があって、完全な自動化
というのは考えていませんでした。よって現在使っているタグ付け
マクロも半自動ですが、それで十分活用しています。

[ ]
RE:04987 タグ付けのチェック方法No.04990
マボカル さん 05/12/21 20:40
 
あべのりさん

ありがとうございます。

>状況がわかってない気がするので,間違えたらごめんなさい.
>IKKIさんのCloseTag.mac
>http://www18.big.or.jp/~fujiwara/ikki/hidemaru/macro/closetag.shtml
>の処理が激しく目的にあってる気がするのですが,どうでしょう?

マクロを動かして見ましたが、このマクロはタグを入力する際に
閉じるべきタグを自動判定して入力してくれるものですよね。私の
求める動きは全てのタグ付けを終えた後に、果たしてきちんとタグの
ペア同士が存在するかしないかを確認しようとするものなので、
CloseTag.mac の動きはちょっと違うようです。でもこの動きは何かの
ネタになりそうです。参考にします。

[ ]
RE:04988 タグ付けのチェック方法No.04991
マボカル さん 05/12/21 21:08
 
IKKIさん

ありがとうございます。

>XML ならば、 ENCODINGSHIFTJIS さんがおっしゃるように
>XML パーサに投げ込むのが速いし確実だと思います。

やっぱりXMLですね・・・。避けては通れそうにもありません。

>秀丸マクロで処理するには、スタックか再帰呼び出しを使うことになります。
>再帰呼び出しを使った単純な例を文末に載せておきます。
>のりさんに紹介していただいた CloseTag.mac はスタックを使っています。

私のところで動作を確認させていただいたところ、タグを確認する
たびにメッセージが出て、そのまま続けていると20回目ぐらいで
「ネストが深すぎます」みたいなメッセージが出てマクロが終了
します。またメッセージがたびたび出るのが面倒くさいので、

#debug = yes;

の部分を

#debug = no;

にしてメッセージを抑制すると、同じように途中で「ネストが深すぎ
ます」みたいなメッセージと共にマクロが終了します。

重要なタグ表記のエラーのチェックの動きですが、ためしにサンプル
ファイルの閉じるタグの </s> を一つ削除してマクロを動かしてみても
</s> が無い部分で「閉じるタグがありません」みたいな警告無しに、
そのまま通り過ごしてしまいます。IKKIさんはこのようなエラー箇所で
どのような動きになるようにマクロをお作りになったのでしょうか。

あと、「次のタグが見つかりません」のメッセージが出た後も、マクロ
がずっと続いています。何回か後に終了しますが・・。

求める動きとしてはその場その場で確認のダイアログは必要なく、

#debug = yes;

の部分を

#debug = no;

のような状態で、マクロを実行して、エラーの箇所だけメッセージを
表示するか、とりあえずファイルの最後までマクロが動いて、エラー
箇所はマクロ終了後にエラーファイルとしてエラーの種類やエラー箇所の行番号など
の情報を吐き出してくれるような動きをイメージしてい
ます。

XMLでやれば簡単なのにマクロでやろうとするから面倒になると
言われればそれまでですが、IKKIさんのマクロを少し改造すれば求める
動きになるのでしたら、私にとってはもう少しヒントが必要です。

マクロをもう一度ご確認できるでしょうか。

>HTML だと終了タグの省略があるので話はもっと複雑です。ご参考までに…
>http://www18.big.or.jp/~fujiwara/ikki/forum/hidemaru/uptree.cgi?n=1370

ちなみに私の作業している上の例のようなタグ付きコーパスでは、終了
タグの省略はありません。

[ ]
RE:04991 タグ付けのチェック方法No.04992
IKKI さん 05/12/21 21:54
 
IKKI です。おつかれさまです。

えーと、まず話の全体像をつかんでおきたいのですが…

マボカルさんは自然言語解析方面の研究をなさっている。
そこで利用するコーパスを XML 形式で手作りしている(していた)。
その文法チェックを機械的に実行したい。
秀丸マクロはご自分で作れるが、 XML については詳しくない。
という認識で間違いないでしょうか?

この認識で間違いないとすると、そういった研究用のツールとして、たとえば
「コーパス作成ソフト」みたいなものが出回っていそうな気がするのですが…。
あるいは研究室内でデータベースを構築してたりはしないのでしょうか?

こんなのはテキストエディタでちまちま手作りするものとも思えません。(^^;
が、以下、あえて秀丸マクロで攻めるものとして話を進めます。

> >秀丸マクロで処理するには、スタックか再帰呼び出しを使うことになります。
>
> 私のところで動作を確認させていただいたところ、タグを確認する
> たびにメッセージが出て、そのまま続けていると20回目ぐらいで
> 「ネストが深すぎます」みたいなメッセージが出てマクロが終了
> します。

秀丸マクロの再帰呼び出しは20階層ぐらいが限界です。
それを超えるようならスタックを使った実装に改める必要があります。

スタックを使った例として塚本牧生さんの hxTagCheck.mac を紹介します。
http://digit.que.ne.jp/work/index.cgi?hxTagChecker

とりあえず↑をお試しになってみては。

> 重要なタグ表記のエラーのチェックの動きですが、ためしにサンプル
> ファイルの閉じるタグの </s> を一つ削除してマクロを動かしてみても
> </s> が無い部分で「閉じるタグがありません」みたいな警告無しに、
> そのまま通り過ごしてしまいます。IKKIさんはこのようなエラー箇所で
> どのような動きになるようにマクロをお作りになったのでしょうか。

それをエラーとして検出するためには
「<s> 〜 </s> の中に <s> 〜 </s> は含まれない(入れ子にならない)」
という知識(辞書)を持たなければなりません。
先刻のマクロは単に XML としての構造的妥当性 (well-formedness) を
チェックしているだけです。

たとえば

 <p>
  <s>
   CCCCC.
  </s>
  <s>
   DDDDD.
  </s>
 </p>

から1つめの </s> を削除した場合、

 <p>
  <s>
   CCCCC.
   <s>
    DDDDD.
   </s>
       ←ここに </s> がない
 </p>

と解釈されます。

この種の議論をすると、どうしても XML の概念や用語が出てきます。
私も無意識に使ってしまっていた部分があって申し訳ないですが、
マボカルさんも入門書や解説サイトなどを当たって理解を深められたら
有益かと思います。

[ ]
RE:04992 タグ付けのチェック方法No.04993
マボカル さん 05/12/22 12:26
 
IKKIさん

ありがとうございます。

>えーと、まず話の全体像をつかんでおきたいのですが…
>マボカルさんは自然言語解析方面の研究をなさっている。
>そこで利用するコーパスを XML 形式で手作りしている(していた)。
>その文法チェックを機械的に実行したい。
>秀丸マクロはご自分で作れるが、 XML については詳しくない。
>という認識で間違いないでしょうか?

もっと詳しく説明いたしますと・・・。
自然言語解析方面の研究をしているというより、まぁそれに近いですが
現在取り組んでいるのが日本語と韓国語の並列コーパスの構築です。
ただし資料の構築のみ担当しておりまして、具体的な言語解析ツールの
開発などは、別の部門の人が担当することになっています。よって、
バリバリの自然言語解析方面の研究というまでにはいかず、「こんな
感じでファイルを作ってくれ」という指示に従って作業をしているのみ
です。で、作成しているコーパスは XML 形式で手作りしているのでは
なく、上の例でも挙げたように SGML の形式です。XML 自体よく把握
してませんのでこう申し上げていますが、とにかく上の例のような
フォーマットで日本語・韓国語の同一内容のテキストをセンテンス単位
でタグ付けして、さらに日本語のどのセンテンスと韓国語のどのセン
テンスが同一内容なのかも

<linkList>
<linkGrp domains="1 ; 1">
<linkGrp domains="1.1 ; 1.1">
    <link xtargets="1.1.h1 ; 1.1.h1">
<linkGrp domains="1.1.p1 ; 1.1.p1">
    <link xtargets="1.1.p1.s1 ; 1.1.p1.s1">
</linkGrp>
</linkList>

↑こんな感じで別ファイルに対応センテンスのテーブルも作って
います。このような作業は、XML で対応するほうが効率的で絶対いいと
おっしゃられる方も多いですが、つまるところ私が主導となって
コーパスの作成を行っているのではなく、あくまでも上から指示された
形式で作業を行っているのみですので、どうも動きにくいところも
あります。投稿の一番初めであげたような形式で作業を行うというのが
大前提(しかも規則はもっと複雑)で、その形式のタグ付け状態を
効率よくチェックしたいというのが目的です。 XML については全く
詳しくありません。

>この認識で間違いないとすると、そういった研究用のツールとして、たとえば
>「コーパス作成ソフト」みたいなものが出回っていそうな気がするのですが…。
>あるいは研究室内でデータベースを構築してたりはしないのでしょうか?

私の勉強不足でもありますが、コーパス作成ソフトで作成可能な範囲も
限度があると思います。(どんなものがあるのかよく把握していませ
んが・・)私が行っている作業では、細かなタグ付けの規則で汎用的
でない特別な作業の方法も含まれるからです。そういった全ての条件に
対応したコーパス作成ソフトは無いと思うので、こうしてマクロで
作ろうとしているわけです。あと、並列コーパスですから、韓国語も
扱えるものでなければなりません。OSも韓国語XPですし・・・。
そういった作業環境の事情もあり、秀丸のマクロが必要というわけです。

>こんなのはテキストエディタでちまちま手作りするものとも思えません。(^^;
>が、以下、あえて秀丸マクロで攻めるものとして話を進めます。

私の私見ですが、結局並列コーパスの構築はタグ付けする際に確認する
箇所が多くて、全ての対応関係も見なければならないので、ちまちま
手作りしていくほうが、逆にいいように思えます。一括処理後に修正
するとしても、修正箇所が多く出て結局一つ一つ確認しなければ
ならないからです。完全な手作業ではないので、現段階では半自動の
クロを活用してタグ付けするのに満足しています。でももっと勉強
しながらより効率のいい方法があればそれを採択しようとも考えて
います。

>秀丸マクロの再帰呼び出しは20階層ぐらいが限界です。
>それを超えるようならスタックを使った実装に改める必要があります。
>スタックを使った例として塚本牧生さんの hxTagCheck.mac を紹介します。
>http://digit.que.ne.jp/work/index.cgi?hxTagChecker
>とりあえず↑をお試しになってみては。

動き的には考えていたものに非常に近いものになっています。マクロを
ちょっと改造してみようかと思います。

>それをエラーとして検出するためには
>「<s> 〜 </s> の中に <s> 〜 </s> は含まれない(入れ子にならない)」
>という知識(辞書)を持たなければなりません。
>先刻のマクロは単に XML としての構造的妥当性 (well-formedness) を
>チェックしているだけです。
>
>たとえば
>
> <p>
>  <s>
>   CCCCC.
>  </s>
>  <s>
>   DDDDD.
>  </s>
> </p>
>
>から1つめの </s> を削除した場合、
>
> <p>
>  <s>
>   CCCCC.
>   <s>
>    DDDDD.
>   </s>
>       ←ここに </s> がない
> </p>
>
>と解釈されます。

XML をはじめとしてその周辺の知識不足のため、IKKIが投稿でおつくり
になったマクロの動きがよく理解できていませんが、例えば </s> が
無い部分を自動検出するためには、マクロにそれを認識させるための
知識(辞書)を持たせる必要があるというわけですよね。

>この種の議論をすると、どうしても XML の概念や用語が出てきます。
>私も無意識に使ってしまっていた部分があって申し訳ないですが、
>マボカルさんも入門書や解説サイトなどを当たって理解を深められたら
>有益かと思います。

私もよく概念が分かっていない状態で投稿とかしたりして、レスを
書いてくれる方に相当迷惑をおかけしている部分もありますが、でも
初めて聞いた用語や概念の説明などで、曖昧としていたものの中で
どこに焦点を当てて機械化作業を考えていけばいいのか、理解できる
部分もあって、大変助かっています。私もあまり的外れな質問を
しないように、勉強したいと思います。

ありがとうございます。



[ ]
RE:04989 タグ付けのチェック方法No.04994
ENCODINGSHIFTJIS さん 05/12/22 14:04
 
SGML で回すのなら、一般的には
DTD(文書型定義)と SP1.3(あるいは OpenNSGMLS)を渡されてしかるべきです、SG
ML運用の基本。


Packins
https://skw.info.pmda.go.jp/download/idx_download.html

ーーーーーーーーーーーーーーー
本格的には xml-DB を導入でしょうか
外部リンク情報の手作りも省略可能です
xml操作は常識になりつつあるので、システム保守の安心感ありします

外からでは、何とでも言える。の話ですが

[ ]
RE:04994 タグ付けのチェック方法No.04995
マボカル さん 05/12/22 15:03
 
ENCODINGSHIFTJISさん

ありがとうございます。

>SGML で回すのなら、一般的には
>DTD(文書型定義)と SP1.3(あるいは OpenNSGMLS)を渡されてしかるべきです、S
>GML運用の基本。

ご教授なさったサイトをチェックしてみます。

>本格的には xml-DB を導入でしょうか
>外部リンク情報の手作りも省略可能です
>xml操作は常識になりつつあるので、システム保守の安心感ありします
>外からでは、何とでも言える。の話ですが

私のやっている作業の上の者(指示を出す人)がどのような構想や姿勢
でどの程度のDB構築の知識を持っているのかはっきり分かりませんが
私がもっと勉強してDB構築の設計にも発言できるようになれればと
思います。今の段階では指示されたフォーマットにあわせてどれだけ
正確に効率よく作業をこなすことができるのかのみ私に主導権がある
状態ですから。

でも私の周りの情報処理を扱う専門化の方も、ENCODINGSHIFTJISさんの
ようなことをいっていたので、XML形式への移行を考えなければ
ならないのだと思います。大変参考になりました。




[ ]
RE:04993 タグ付けのチェック方法No.04996
IKKI さん 05/12/23 01:11
 
IKKI です。おつかれさまです。

事情はよくわかりました。というか、最初に
http://www.maruo.co.jp/hidesoft/4/x04196_.html
を示しておけば十分でしたのに。(^^;

秀丸マクロの話題は「hxTagCheck.mac の改造を試みる」という結論で
一段落でしょうか。ご健闘をお祈りします。

以下、秀丸とは関係ない話題です。

ここまでの断片的な情報から推測するに、マボカルさんのプロジェクトでは
CES ないし XCES を適用しているような気がしてきました。

 Corpus Encoding Standard
 http://www.lpl.univ-aix.fr/projects/multext/CES/CES1.html

 XCES - Corpus Encoding Standard for XML
 http://www.cs.vassar.edu/XCES/

CES は SGML、 XCES は XML であり、それぞれ DTD が公開されています。
DTD があれば機械的なチェックは可能なはずです。実際に SGML/XML 用の
ツールをコーパス研究に利用する方法もあちこちで紹介されているようです。

とりあえず、私が調べた範囲で参考になりそうなサイトを列挙します。
このあたりを出発点として探求を進められてはいかがでしょうか。

 言語研究とXML
 http://dicom1.gsid.nagoya-u.ac.jp/~ohna/xml/xml.html

 コーパス言語学関連リンク集
 http://www.geocities.jp/corpus_maniac/

 コーパス言語学入門
 http://www.tufs.ac.jp/ts/personal/motizuki/lecture/cp2k4/2004_1-j.html

 言語イニシアティブ調査
 http://it.jeita.or.jp/eltech/report/linguistic.html

 『日本語話し言葉コーパス』 XML 文書について
 http://www2.kokken.go.jp/~csj/public/members_only/manuals/xml_1.1.pdf

ちなみに、私は機械系の出身で言語学はまったくの専門外です。
この投稿はマボカルさんにとっては釈迦に説法だったかもしれません。
失礼の段はお許しください。

# というか、この掲示板に言語学者さんがいないのが意外でした。

[ ]
RE:04996 タグ付けのチェック方法No.04997
マボカル さん 05/12/23 05:12
 
IKKIさん

ありがとうございます。

>事情はよくわかりました。というか、最初に
>http://www.maruo.co.jp/hidesoft/4/x04196_.html
>を示しておけば十分でしたのに。(^^;

そうでしたね。原点はあの投稿からでした。今でもちんぷんかんぷんの
ところがありますが、でも最初の投稿の際に皆さんから頂いた貴重な
ご意見や基本的な考え方などを読み返してみると、一部は納得して十分
理解できるようになった部分もあります。

>秀丸マクロの話題は「hxTagCheck.mac の改造を試みる」という結論で
>一段落でしょうか。ご健闘をお祈りします。

そうですね。とりあえず今回の投稿の一番の目的であった、タグ付けの
チェックを機械的に判断できるかということが分かり、私の求める作業
に応用できそうなマクロも紹介していただいたので、それをもとに改造
してみます。

>とりあえず、私が調べた範囲で参考になりそうなサイトを列挙します。
>このあたりを出発点として探求を進められてはいかがでしょうか。
>
>ちなみに、私は機械系の出身で言語学はまったくの専門外です。
>この投稿はマボカルさんにとっては釈迦に説法だったかもしれません。
>失礼の段はお許しください。

わざわざサイトまで紹介くださってありがとうございます。同じような
作業をするにも文系の人と機械系の人では視点が違う部分もあると思い
ます。私は文系の視点がベースになって、機械系の人の研究成果に
よって生まれた技術をどう文系の研究に生かせるかという点に非常に
関心があります。何ができるかということより、どこに利用できるか
ということを研究しているわけでありますが、いずれにしろIKKIさん
たちがおっしゃっている技術的な面の理解があってはじめて成り立つ
ことだと考えています。よってその系のバリバリの専門家もしくはプロ
の方の率直なご意見をうかがうことができるのは、大変幸せに思って
います。お付き合いありがとうございました。




[ ]
RE:04997 タグ付けのチェック方法No.04998
IKKI さん 05/12/23 22:08
 
……。
なんだか暖簾に腕押ししているような気がしてきました。(^^;;;
私の投稿に言葉足らずな点があったとしたら申し訳ありません。

本題は解決したのでもういいのかもしれませんが、今後
同じような質問を繰り返さないために、次のことおすすめします。

 (1) 何という規格に基づいたタグ付けを行っているのか、
   統括者(発注元?)に問い合わせてはっきりさせる。

 (2) http://dicom1.gsid.nagoya-u.ac.jp/~ohna/xml/xml.html
   のリンク先を片っ端から読み漁る。

 (3) 目的に適したツールを見つけて活用する。

(1)については「CES という規格に基づいたタグ付けではないか?」と
示唆しましたが、合っていたでしょうか。

(2)は週末を潰してでも実行しましょう。
ご自分が携わっている研究についての展望が開けるに違いありません。
それは作業の効率化にも結びつくでしょう。

(3)は「秀丸よりも目的に適したソフトがあるのではないか?」という
意味です。秀丸のサポート掲示板でこんなことを言うのもアレですが、
他のソフトの利用をためらう必要はありません。適材適所、柔軟に
使い分けるのが効率化の早道です。


最後に、完全な蛇足ですが…
こういったサポート掲示板のような場所では、お答えした内容に対し
どこまでが理解可能/実行可能で、どこからが理解不可能/実行不可能
だったかを返していただけると、相互に有意義なコミュニケーションが
成り立つのではないかと思います。

それでは、今後のご健闘とご発展をお祈りしております。

[ ]