文字列の 取捨選択No.07122
ノノムン さん 12/09/22 13:35
 
こんにちは ノノムンと申します

web上に 次のようなページがあります。
http://www.shoutcast.com/

54,299 Free Internet Radio Stations
フリーと有りますが有料もありID、パスワードが聞かれるところは拾えません、
1ページ当たりは
station genre listeners bitrate type の順に書かれていて

局名 idobi Radio: New. Music. Unfiltered. ido...
ジャンル Recently Played: Eddie Jason & Chris - @EJCshow Facebook....
リスナー Pop
ビットレート 128 (128,64,32 と有りますが 64以上でないと音質が落ち、
早いと受信が追いつかなくなってとぎれたりします)
ファイル変調形式 MP3 (AAC+とかかれたものは変調の関係で受信できません)


181.FM - POWER 181 -=[: The Hitz Channel...
Now playing: Edward Maya f/Vika Jigulina - Stereo Lov...
Top 40
2561
128
MP3
と 10局 ずつ表示されてで終わり。
次が
 「shoe more」となっていて クリックすると
次の10局が追加されて表示されます。

新しく追加しても前の分は消えないので、
ドンドン開いて表示しますと、重く成りすぎて、なかなか応答が帰ってきません。

(オフィスのカルクで形式を指定しないで貼り付けると、同じように作れますが
重すぎて、止まってしまいます)

内容は左側のジャンル別を連続に結合して表示しているだけだと思うんですが、
ジャンル別に開いた場合も切れ目は判りません。

これを全部選択して「テキストに」コピペしますと、
type
idobi Radio: New. Music. Unfiltered. ido...
Recently Played: Eddie Jason & Chris - @EJCshow Facebook....
Pop
15736
128
MP3
の様にデータを得られます。

さて
マウスを局名に当てますと リスナー と URLが浮き出して表示され、
右の(リンクを別のタブで開く)をクリックし このURLを選びますと、
(局名を同じようにしても同じです)
「tunein-station.pls」(全部同じ様な名前なので前に区別文字を足します)の
ダウンロードになる場合と

局のweb画面が開き内容が表示されます、この場合は画面の中に
「tunein-station.pls」が有る場合は上と同じ処理をして保存し
hidemaruで開きますと
[playlist]
numberofentries=1
File1=http://50.97.48.41:10300
Title1=(#1 - 0/5000) rutamx
Length1=-1
Version=2
が載っていて

なにかから連結される
http://www.justmp3search.com/tag/abacus/3
「crime48.m3u」こちらは接続URLのみ記載されていて他のデータが判りません。

これらを編集して
(URLにはhttp:// が無いものもあり
http://shoutcast.tristate.ne.jp:8000

Tatchi-Tomakoma
shoutcast.tristate.ne.jp:8006

Russian POP
212.48.125.69:8400

ポート :NNNN の記載がないものもある)
Country today
http://scfire-mtc-aa03.stream.aol.com:80/stream/1075
等の表示があります。

最終的には次のようなリストを作りたいのですが、
どの様な方法がありますでしょうか?

BB-Shout ChannelList v1.0
---
Latte JAZZ
http://shoutcast.tristate.ne.jp:8000


Mozart Symphony
http://199.19.105.215:8110
---

それでは宜しくお願いします。



[ ]
RE:07122 文字列の 取捨選択No.07123
秀まるお2 さん 12/09/22 16:35
 
 秀丸エディタとHidemarnet Explorerを組み合わせて、例えば秀丸でURLを開い
てから正規表現を駆使して必要なデータだけ抽出するってのは、一応可能です。

 ただ、今回のサイトはJavaScriptを使いまくってますので、Hidemarnet
Explorerでアクセスするにはちょっと都合が悪いんじゃないかと思います。

> 次が
>  「shoe more」となっていて クリックすると
> 次の10局が追加されて表示されます。

 この辺がまさに、JavaScriptで出来てるというか、いわゆるAjaxというか、ダ
イナミックHTMLというか、ブラウザ上でないと動かない部分になります。この辺
のJavaScriptがうまく動かないと情報が取得出来ないようだとしたら、
Hidemarnet Explorerではどうしようも無いです。


 ちなみにこういう、Web上の情報を抜き取るような作業を、以前教えてもらっ
たのでは「スクレイピング」と言うそうです。そういう1分野があるらしいです。
何かそういう系のツールを使えばいけるのかもしれませんが、僕自身はあまり詳
しくないです。

[ ]