ブラウザ自動操作とウェブスクレイピングの実践例

ブラウザ自動操作のための準備と実践

ブラウザの自動操作を実現する準備が整いました。今回は、実際にサンプルページを用いて動作確認を行います。

サンプルページの概要

サンプルページは下記のURLにて公開中です。
https://minokamo.tokyo/file/youtube/sample1.html

このページでは、エクセルファイルが順番にダウンロードできるようになっています。
ダウンロード対象は、2020年6月1日時点でETFを除いた全銘柄データで、9つのファイルに分割されています。
ファイル名は「20200601-1.xlsx」「20200601-2.xlsx」……と規則的に命名されています。

実践方法

本プロジェクトでは、用意した.pyファイルを利用することで、ほぼどのウェブページにも応用可能なウェブスクレイピングを実現します。
通常は、ページのソースコードから必要な情報を解析し、ダウンロード処理を自動化しています。

実行方法は2通りあります。

  1. ダブルクリックでの実行
    手軽に実行できるため初心者向けです。
  2. コマンドプロンプトからの実行
    プログラムの動作をより理解するために、コマンドラインから実行する方法です。
    例として、Cドライブ直下に「youtube」というフォルダを作成し、その中に「xyz.py」というファイルを配置しています。

この.pyファイルは、ブラウザを起動せずにファイルをダウンロードする「ヘッドレスモード」を採用しており、効率的に処理を行います。

ファイルの入手方法

最新の「xyz.py」ファイルは、以下のリンクからダウンロード可能です。

コメント

タイトルとURLをコピーしました