Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。
【BeautifulSoupとは】導入方法
BeautifulSoupとは、Pythonで「HTML」「XML」を解析(パーサ)できるモジュールです。
Webスクレイピングなどで使用されます。
BeautifulSoupは以下のpipコマンドでインストールできます。
pip install beautifulsoup4
ただし、Webスクレイピングを行う際はアクセス先のサーバに負荷をかけたり、著作権保護の問題等もあるため注意する必要があります。
主な注意事項は以下ページにまとめました。
404 NOT FOUND | Python入門速報
動画解説
本ページの内容は以下動画でも解説しています。
【基礎】BeautifulSoupの基本操作
BeautifulSoupの基礎的な使い方について下記に整理しました。
– | Webスクレイピングの基礎 |
---|---|
Urlibの基本操作 | BeautifulSoupを扱う上で必要となる、Urlibの基本操作であるHTML取得、HTML取得(日本語)、User-Agent設定、URLの存在確認について |
タイトルの取得 | タイトルの取得を行います。 |
タグの全て・先頭のみ取得 | あるタグの全て・先頭のみ取得する方法 |
TableをCSVに保存 | 表(Tableタグ)のデータをCSVに保存します。 |
画像収集 | Webページから画像を収集します。 |
RSS取得 | feedparserでRSSを取得します。 |
地震速報 | 気象庁から地震速報を取得します。 |
天気情報の取得 | 天気情報の取得を行います。 |
【Python超入門】使い方とサンプル集
Pythonの使い方について、基礎文法から応用例まで入門者向けに解説します。
コメント