Pythonモジュール「reppy」でrobots.txtの情報を解析する方法についてソースコード付きでまとめました。
robots.txtの情報を解析
Pythonモジュール「reppy」を用いて、Yahooトップのニュース記事のタイトルとURLを取得してみました。
サンプルコード(Python3)
サンプルプログラムのソースコードです。
#-*- coding:utf-8 -*-
from reppy.robots import Robots
# robots.txtのURL
url_robot = 'https://www.google.com/robots.txt'
# クロールが許可されているか検証するURL
url = 'https://www.google.com/search'
# robots.txtのデータを取得
robots = Robots.fetch(url_robot)
# URLへのアクセスが許可されているか確認(Falseだと禁止)
print(url + '...' + str(robots.allowed(url, 'robot'))) # False
# 巡回時間間隔の確認
print('巡回時間間隔:', robots.agent('*').delay) # None
# サイトマップの確認
print('サイトマップの場所:', list(robots.sitemaps)) # ['http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml', 'https://www.google.com/sitemap.xml']

【Python】Webスクレイピング入門(BeautifulSoup4編)
Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。
コメント