【Python/reppy】robots.txtの情報を解析

Pythonモジュール「reppy」でrobots.txtの情報を解析する方法についてソースコード付きでまとめました。

robots.txtの情報を解析

Pythonモジュール「reppy」を用いて、Yahooトップのニュース記事のタイトルとURLを取得してみました。

サンプルコード(Python3)

サンプルプログラムのソースコードです。

#-*- coding:utf-8 -*-
from reppy.robots import Robots

# robots.txtのURL
url_robot = 'https://www.google.com/robots.txt'

# クロールが許可されているか検証するURL
url = 'https://www.google.com/search'

# robots.txtのデータを取得
robots = Robots.fetch(url_robot)

# URLへのアクセスが許可されているか確認(Falseだと禁止)
print(url + '...' + str(robots.allowed(url, 'robot'))) # False

# 巡回時間間隔の確認
print('巡回時間間隔:', robots.agent('*').delay) # None

# サイトマップの確認
print('サイトマップの場所:', list(robots.sitemaps)) # ['http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml', 'https://www.google.com/sitemap.xml']

Yahooファイナンス・画像検索のrobots.txt

【Python】Webスクレイピング入門(BeautifulSoup4編)
Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。

コメント