【Python/HtmlParser】サイトタイトルの取得

Webスクレイピング

2017.03.212024.07.01

Python3の標準ライブラリ「HtmlParser」を用いて、HTMLを解析してサイトタイトルを取得する方法とソースコードについて紹介します。

目次

サイトタイトルの取得
ソースコード(Python3)

サイトタイトルの取得

Python3の標準ライブラリ「HtmlParser」では、HTML文字列からタイトルタグに格納されている値を取り出すことができます。
HTMLParserクラスを継承して、独自のパーサを作成し、feedメソッドにHTML テキストを渡すことによって解析（パース）ができます。
今回は、Titleタグが見つかった時に、その値を取り出して表示させてみました。

ソースコード(Python3)

サンプルプログラムのソースコードは下記の通りです。

・開始タグがヒットしたら、handle_starttagメソッド呼び出し
・終了タグがヒットしたら、handle_endtagメソッド呼び出し
・タグ内の値はhandle_dataメソッドで処理

【Python/HtmlParser】HTML解析（パース）

Python3の標準ライブラリ「HtmlParser」を用いて、HTML解析（パース）する方法とソースコードについて紹介します。

【Python超入門】基礎から応用例まで幅広く解説

PythonについてPythonは、統計処理や機械学習、ディープラーニングといった数値計算分野を中心に幅広い用途で利用されているプログラミング言語です。他のプログラミング言語と比較して「コードが短くて読みやすい、書きやすい」「ライブラリが豊...

コメント