pythonでウェブスクレイピング

スポンサーリンク

前回はブラウザを自動操作するための準備をいたしました。
せっかくなので実践してみましょう。

サンプルページを用意してあります。
https://minokamo.xyz/file/youtube/sample1.html

そこにあるエクセルファイルを順番にダウンロードしていきます。ダウンロードするファイルは2020年6月1日時点のETFを除く全銘柄データで9つに分けてあります。.pyファイルを書き換えればどこのページにも応用することができ、通常はページのソースでどんなことが記述されているかを解析します。ファイル名が20200601-1.xlsx、20200601-2.xlsxとなっており規則性があります。

この規則性を利用して用意した.pyファイルをダブルクリックするか、コマンドプロンプトにて入力します。前者の方が簡単ですが意味が分かるように後者をおこないます。
cドライブにyoutubeというフォルダがあり、そこにxyz.pyというウェブスクレイピングをするファイルが設置してあります。
ブラウザを立ち上げずにファイルをダウンロードするヘッダレスモードを採用しています。

.pyファイルは下記にてダウンロードできます。

https://minokamo.xyz/?p=784

コメント

タイトルとURLをコピーしました