Pythonモジュール「reppy」でrobots.txtの情報を解析する方法についてソースコード付きでまとめました。
robots.txtの情報を解析
Pythonモジュール「reppy」を用いて、Yahooトップのニュース記事のタイトルとURLを取得してみました。
サンプルコード(Python3)
サンプルプログラムのソースコードです。
#-*- coding:utf-8 -*- from reppy.robots import Robots # robots.txtのURL url_robot = 'https://www.google.com/robots.txt' # クロールが許可されているか検証するURL url = 'https://www.google.com/search' # robots.txtのデータを取得 robots = Robots.fetch(url_robot) # URLへのアクセスが許可されているか確認(Falseだと禁止) print(url + '...' + str(robots.allowed(url, 'robot'))) # False # 巡回時間間隔の確認 print('巡回時間間隔:', robots.agent('*').delay) # None # サイトマップの確認 print('サイトマップの場所:', list(robots.sitemaps)) # ['http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml', 'https://www.google.com/sitemap.xml']
【Python】Webスクレイピング入門(BeautifulSoup4編)
Pythonモジュール「BeautifulSoup4」を用いたWebスクレイピングについて入門者向けにまとめました。
コメント