RE:10009 4回くりかえされている文字をNo.10021
adachi さん 01/10/17 11:13
 
足立 です。

PDFからテキストを抜き出したいのなら、
http://www.foolabs.com/xpdf/ のなかにある、 pdftotextコマンド を使ったらどう
でしょうか。x86/DOS/Win32用を使えば、DOSプロンプトから、もしくはバッチファイ
ルからまとめて処理できます。
わたしが使っている(全文検索サイトの運用の中で)範囲では、4回続けて、にはなら
ないですが...。
acrobatは4を使っています。

ただし、pdf内で使われているフォントによっては、うまく日本語が取り出せない場
合がありますが...。


もしかしたらうまくいくかも、ぐらいでおためしください。

[ ]