【Python】Webスクレイピング入門(BeautifulSoup4編)

Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。

【BeautifulSoupとは】導入方法

BeautifulSoupとは、Pythonで「HTML」「XML」を解析（パーサ）できるモジュールです。
Webスクレイピングなどで使用されます。
BeautifulSoupは以下のpipコマンドでインストールできます。

pip install beautifulsoup4

ただし、Webスクレイピングを行う際はアクセス先のサーバに負荷をかけたり、著作権保護の問題等もあるため注意する必要があります。
主な注意事項は以下ページにまとめました。

本ページの内容は以下動画でも解説しています。

BeautifulSoupの基礎的な使い方について下記に整理しました。

–	Webスクレイピングの基礎
Urlibの基本操作	BeautifulSoupを扱う上で必要となる、Urlibの基本操作であるHTML取得、HTML取得(日本語)、User-Agent設定、URLの存在確認について
タイトルの取得	タイトルの取得を行います。
タグの全て・先頭のみ取得	あるタグの全て・先頭のみ取得する方法
TableをCSVに保存	表(Tableタグ)のデータをCSVに保存します。
画像収集	Webページから画像を収集します。
RSS取得	feedparserでRSSを取得します。
地震速報	気象庁から地震速報を取得します。
天気情報の取得	天気情報の取得を行います。