Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。
【BeautifulSoupとは】導入方法
BeautifulSoupとは、Pythonで「HTML」「XML」を解析(パーサ)できるモジュールです。
Webスクレイピングなどで使用されます。
BeautifulSoupは以下のpipコマンドでインストールできます。
pip install beautifulsoup4
ただし、Webスクレイピングを行う際はアクセス先のサーバに負荷をかけたり、著作権保護の問題等もあるため注意する必要があります。
主な注意事項は以下ページにまとめました。
404 NOT FOUND | Python入門速報
動画解説
本ページの内容は以下動画でも解説しています。
【基礎】BeautifulSoupの基本操作
BeautifulSoupの基礎的な使い方について下記に整理しました。
– | Webスクレイピングの基礎 |
---|---|
Urlibの基本操作 | BeautifulSoupを扱う上で必要となる、Urlibの基本操作であるHTML取得、HTML取得(日本語)、User-Agent設定、URLの存在確認について |
タイトルの取得 | タイトルの取得を行います。 |
タグの全て・先頭のみ取得 | あるタグの全て・先頭のみ取得する方法 |
TableをCSVに保存 | 表(Tableタグ)のデータをCSVに保存します。 |
画像収集 | Webページから画像を収集します。 |
RSS取得 | feedparserでRSSを取得します。 |
地震速報 | 気象庁から地震速報を取得します。 |
天気情報の取得 | 天気情報の取得を行います。 |
【Python超入門】使い方とサンプル集
Pythonとは、統計処理や機械学習、ディープラーニングといった数値計算分野を中心に幅広い用途で利用されている人気なプログラミング言語です。 主な特徴として「効率のよい、短くて読みやすいコードを書きやすい」、「ライブラリが豊富なのでサクッと...
コメント