【Python/urllib】日本語含むHTML取得

Webスクレイピング

2017.03.212024.07.01

Python標準ライブラリ「urllib」を用いて、URL先のHTML（日本語含む）を取得する方法とソースコードについて紹介します。

目次

HTML取得
ソースコード

HTML取得

Python3の標準ライブラリ「urllib」では、urlopenメソッドでURLを開き、readメソッドでHTMLを取得できます。
取得したデータの日本語文字列を文字化けさせずに出力するには、decodeメソッドでバイト文字列（UTF-8）からSｔｒ文字列に変換します。

ソースコード

サンプルプログラムのソースコードです。

【Python/HtmlParser】HTML解析（パース）

Python3の標準ライブラリ「HtmlParser」を用いて、HTML解析（パース）する方法とソースコードについて紹介します。

コメント