【Python】Webスクレイピング入門(BeautifulSoup4編)

Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。

【BeautifulSoupとは】導入方法

BeautifulSoupとは、Pythonで「HTML」「XML」を解析(パーサ)できるモジュールです。
Webスクレイピングなどで使用されます。
BeautifulSoupは以下のpipコマンドでインストールできます。

pip install beautifulsoup4

ただし、Webスクレイピングを行う際はアクセス先のサーバに負荷をかけたり、著作権保護の問題等もあるため注意する必要があります。
主な注意事項は以下ページにまとめました。

404 NOT FOUND | Python入門速報

動画解説

本ページの内容は以下動画でも解説しています。

【基礎】BeautifulSoupの基本操作

BeautifulSoupの基礎的な使い方について下記に整理しました。

Webスクレイピングの基礎
Urlibの基本操作 BeautifulSoupを扱う上で必要となる、Urlibの基本操作であるHTML取得HTML取得(日本語)User-Agent設定URLの存在確認について
タイトルの取得 タイトルの取得を行います。
タグの全て・先頭のみ取得 あるタグの全て・先頭のみ取得する方法
TableをCSVに保存 表(Tableタグ)のデータをCSVに保存します。
画像収集 Webページから画像を収集します。
RSS取得 feedparserでRSSを取得します。
地震速報 気象庁から地震速報を取得します。
天気情報の取得 天気情報の取得を行います。

Qiita(Beautiful Soup関連記事一覧)

【Python超入門】使い方とサンプル集
Pythonの使い方について、基礎文法から応用例まで入門者向けに解説します。

コメント