HTMLのタグの除去マクロNo.05065
kiwikazuya さん 06/02/16 13:13
 
HTML文書からタグを除去して、
テキストだけにするマクロってできますか?
ただ、aリンクや、altの文字列とか、httpのリンクは、
そのまま残したいです。

よろしくお願いいたします。

[ ]
RE:05065 HTMLのタグの除去マクロNo.05066
IKKI さん 06/02/16 23:18
 
IKKI です。こんばんは。

マクロを使うまでもなく、2回の置換だけでできます。

[1回目]
検索: <([^>]|\n)+(alt|href)=['"]?\f[^'"<> \n]+\f([^>]|\n)*>
置換:  \1
正規表現:ON

[2回目]
検索: <([^>]|\n)*>
置換: (空文字列)
正規表現:ON

これをあえてマクロ化するなら

replaceallfast "<([^>]|\\n)+(alt|href)=['\"]?\\f[^'\"<> \\n]+\\f([^>]|\\n)*>
", " \\1 ", regular;
replaceallfast "<([^>]|\\n)*>", "", regular;

となります。

あるいは
http://www.maruo.co.jp/turukame/4/x00169_.html
が参考になるかもしれません。

[ ]
RE:05066 HTMLのタグの除去マクロNo.05067
kiwikazuya さん 06/02/17 09:41
 
IKKIさん、ありがとうございます。
ただ、<ではじまって、>で終わるのが、
複数行目のものは、残ってしまうみたいです。

勉強になりました。

[ ]