重複行の削除についてNo.06915
yamasan さん 12/04/29 11:15
 
こんにちは。よろしくお願いします。
Firefoxというフラウザソフトの履歴をエクスポートしました。
その整理の過程でご相談申し上げます。

2011/12/28 09:46:06
から、
2012/04/21 17:32:53
までの履歴があります。

53,000行あまりの巨大なテキストファイルです。
その履歴から日付だけ取り出して、作業に取りかかりたいのです。
(それを 2011年分:約32,000行、2012年分:約21,000行の二つに分けました。)

検索
([0-9][0-9][0-9][0-9]/../.. ..:..:..)\t.+$
置換
\1

として置換するのが第一歩です。
そして、その後、日付と時刻だけの
約32,000行と、約21,000行の二つのテキストファイルになります。

その延長作業を考えています。
1.同じ日付時刻の行(重複行)を削除したい。

そして、最終的には、
2.日付時刻を数行(4〜5列)に並べて、A4で印刷(PDFファイル化)したい。
この印刷する際に、MSのExcel(表計算ソフト)に持っていこうと思います。
その先は、Excelの相談サイト(モーグなど)で相談したら良いでしょうか?

それとも、
秀丸でタブ区切りで処理してそれから、エクセルに持って行ったら良いのでしょうか?
などを考えております。

まずは、
検索
([0-9][0-9][0-9][0-9]/../.. ..:..:..)\t.+$
置換
\1
で置換して、
重複行を削除することについて、マクロをお教えください。
その他、簡便な方法がありましたら、お教えください。よろしくお願いします。

[ ]
RE:06915 重複行の削除についてNo.06916
Iranoan さん 12/04/29 12:14
 
 yamasan さん今日は、Iranoan です。
> 2011/12/28 09:46:06
の様なデータは抽出されているとします。

> 1.同じ日付時刻の行(重複行)を削除したい。
 秀丸エディタのマクロだけでも
http://hide.maruo.co.jp/lib/macro/linesimplify209.html
等で出来ますが、速度を考えると、変換モジュール
http://hide.maruo.co.jp/lib/hmconv/uniq.html
を使った方が速いでしょうね。

> 2.日付時刻を数行(4〜5列)に並べて、A4で印刷(PDFファイル化)したい。
 表記が長くなってしまうので、2 行を一組として、2 列一組のタブ区切りに
する変換する場合を例にすると、
検索文字列:([0-9]{4}/../.. ..:..:..)\n([0-9]{4}/../.. ..:..:..)
置換文字列:\1\t\2

[ ]
RE:06916 重複行の削除についてNo.06917
yamasan さん 12/04/29 13:58
 
Iranoanさん、こんにちは。ありがとうございました。

>http://hide.maruo.co.jp/lib/hmconv/uniq.html
>を使った方が速いでしょうね。

確かに、速かったです。
変換モジュールライブラリの使い方を知らなかったので、
今回、初めて使いました。範囲選択しないといけないようで、
それも知りませんでした。取り出すことが出来ました。

32000行 → 28700行。21000行 → 18400行に減ずることが出来ました。
ありがとうございました。

>検索文字列:([0-9]{4}/../.. ..:..:..)\n([0-9]{4}/../.. ..:..:..)
>置換文字列:\1\t\2

ありがとうございます。実行しました。
もう少し、色々考えてみます。
本当に助かりました。ありがとうございました。

[ ]