ブラウザ自動操作のための準備と実践
ブラウザの自動操作を実現する準備が整いました。今回は、実際にサンプルページを用いて動作確認を行います。
サンプルページの概要
サンプルページは下記のURLにて公開中です。
https://minokamo.tokyo/file/youtube/sample1.html

このページでは、エクセルファイルが順番にダウンロードできるようになっています。
ダウンロード対象は、2020年6月1日時点でETFを除いた全銘柄データで、9つのファイルに分割されています。
ファイル名は「20200601-1.xlsx」「20200601-2.xlsx」……と規則的に命名されています。

実践方法
本プロジェクトでは、用意した.pyファイルを利用することで、ほぼどのウェブページにも応用可能なウェブスクレイピングを実現します。
通常は、ページのソースコードから必要な情報を解析し、ダウンロード処理を自動化しています。
実行方法は2通りあります。
- ダブルクリックでの実行
手軽に実行できるため初心者向けです。 - コマンドプロンプトからの実行
プログラムの動作をより理解するために、コマンドラインから実行する方法です。
例として、Cドライブ直下に「youtube」というフォルダを作成し、その中に「xyz.py」というファイルを配置しています。
この.pyファイルは、ブラウザを起動せずにファイルをダウンロードする「ヘッドレスモード」を採用しており、効率的に処理を行います。


ファイルの入手方法
最新の「xyz.py」ファイルは、以下のリンクからダウンロード可能です。
コメント