|
足立 です。
PDFからテキストを抜き出したいのなら、
http://www.foolabs.com/xpdf/ のなかにある、 pdftotextコマンド を使ったらどう
でしょうか。x86/DOS/Win32用を使えば、DOSプロンプトから、もしくはバッチファイ
ルからまとめて処理できます。
わたしが使っている(全文検索サイトの運用の中で)範囲では、4回続けて、にはなら
ないですが...。
acrobatは4を使っています。
ただし、pdf内で使われているフォントによっては、うまく日本語が取り出せない場
合がありますが...。
もしかしたらうまくいくかも、ぐらいでおためしください。
|
|