Python標準ライブラリ「urllib」を用いて、URL先のHTML(日本語含む)を取得する方法とソースコードについて紹介します。
HTML取得
Python3の標準ライブラリ「urllib」では、urlopenメソッドでURLを開き、readメソッドでHTMLを取得できます。
取得したデータの日本語文字列を文字化けさせずに出力するには、decodeメソッドでバイト文字列(UTF-8)からStr文字列に変換します。
ソースコード
サンプルプログラムのソースコードです。

【Python/HtmlParser】HTML解析(パース)
Python3の標準ライブラリ「HtmlParser」を用いて、HTML解析(パース)する方法とソースコードについて紹介します。
コメント