Python標準ライブラリ「urllib」を用いて、URL先のHTMLを取得する方法とソースコードについて紹介します。
【1】URLからHTMLのデータを取得①
Python標準ライブラリ「urllib」では、urlopenメソッドでURLを開き、readメソッドでHTMLを取得できます。
【対象のHTMLファイル】
【Python/HtmlParser】HTML解析(パース)
Python3の標準ライブラリ「HtmlParser」を用いて、HTML解析(パース)する方法とソースコードについて紹介します。
動画解説
本ページの内容は以下動画でも解説しています。
【2】URLからHTMLのデータを取得②
取得したデータの日本語文字列を文字化けさせずに出力するには、decodeメソッドでバイト文字列(UTF-8)からStr文字列に変換します。
【対象のHTMLファイル】
【Python/urllib】日本語含むHTML取得
Python標準ライブラリ「urllib」を用いて、URL先のHTML(日本語含む)を取得する方法とソースコードについて紹介します。
【3】ユーザーエージェント情報
ユーザーエージェント情報とは、Webサイトにアクセスする閲覧者の情報です。
Webページにアクセスする閲覧者は、ユーザーエージェント情報をサーバーへ送信できます。
Python3の標準ライブラリ「urllib」では、HTMLを取得する際に送信するユーザーエージェント情報を設定できます。
書式
opener = urllib.request.build_opener() opener.addheaders = [(送信するユーザーエージェント情報)] opener.open(url)
サンプルコードです。
【対象のHTMLファイル】
【Python/urllib】ユーザーエージェントを設定してHTML取得
Python標準ライブラリ「urllib」を用いて、ユーザーエージェントを設定してHTML取得する方法とソースコードについて紹介します。
【4】URLが存在しているか確認
Python3の標準モジュール「urllib」で指定したURLが存在しているか確認するサンプルです。
【対象のHTMLファイル】
【Python/urllib】URLが存在しているか確認
PythonのurllibモジュールでURLが存在しているか確認する方法をソースコード付きでまとめました。
【Python】Webスクレイピング入門(BeautifulSoup4編)
Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。
【Python超入門】使い方とサンプル集
Pythonの使い方について、基礎文法から応用例まで入門者向けに解説します。
コメント
import urllib
ではNGでした。
import urllib.request
で実行できました。
※通りすがり 様
いつもお世話になっております。
該当箇所を修正しました。
今後ともよろしくお願いします。