Python3の標準ライブラリ「HtmlParser」を用いて、HTMLを解析してサイトタイトルを取得する方法とソースコードについて紹介します。
サイトタイトルの取得
Python3の標準ライブラリ「HtmlParser」では、HTML文字列からタイトルタグに格納されている値を取り出すことができます。
HTMLParserクラスを継承して、独自のパーサを作成し、feedメソッドにHTML テキストを渡すことによって解析(パース)ができます。
今回は、Titleタグが見つかった時に、その値を取り出して表示させてみました。
ソースコード(Python3)
サンプルプログラムのソースコードは下記の通りです。
・開始タグがヒットしたら、handle_starttagメソッド呼び出し
・終了タグがヒットしたら、handle_endtagメソッド呼び出し
・タグ内の値はhandle_dataメソッドで処理
【Python/HtmlParser】HTML解析(パース)
Python3の標準ライブラリ「HtmlParser」を用いて、HTML解析(パース)する方法とソースコードについて紹介します。
【Python超入門】使い方とサンプル集
Pythonの使い方について、基礎文法から応用例まで入門者向けに解説します。
コメント