pythonでウェブスクレイピング

スポンサーリンク

前回はブラウザを自動操作するための準備をいたしました。
せっかくなので実践してみましょう。

サンプルページを用意してあります。
https://minokamo.xyz/file/youtube/sample1.html

そこにあるエクセルファイルを順番にダウンロードしていきます。ダウンロードするファイルは2020年6月1日時点のETFを除く全銘柄データで9つに分けてあります。.pyファイルを書き換えればどこのページにも応用することができ、通常はページのソースでどんなことが記述されているかを解析します。ファイル名が20200601-1.xlsx、20200601-2.xlsxとなっており規則性があります。

この規則性を利用して用意した.pyファイルをダブルクリックするか、コマンドプロンプトにて入力します。前者の方が簡単ですが意味が分かるように後者をおこないます。
cドライブにyoutubeというフォルダがあり、そこにxyz.pyというウェブスクレイピングをするファイルが設置してあります。
ブラウザを立ち上げずにファイルをダウンロードするヘッダレスモードを採用しています。

.pyファイルは下記にてダウンロードできます。

Youtubeで使った資料のダウンロードページ | 美濃加茂の蝮のホームページ
下に行くほど新しい資料です。 2000年からのNT倍率推移 2020年3月時点の寄与度ランキング webスクレイピングサンプルファイル RSSセル参照、代入 NT倍率検証 202...

コメント

タイトルとURLをコピーしました