Adding some logic to get the number of pages to crawl from the command line

2024-12-09 10:18:50 +01:00 · 2024-12-09 10:18:50 +01:00 · 515f9ca361
commit 515f9ca361
parent ad50fe8224
1 changed files with 12 additions and 3 deletions
--- a/rlsbb_scraper/spiders/rlsbb.py
+++ b/rlsbb_scraper/spiders/rlsbb.py
@ -3,13 +3,22 @@ import scrapy
 class RlsBBMagsSpider(scrapy.Spider):
    name = "rlsbb_mags"
-    start_urls = [
+    
        "https://rlsbb.ru/category/magazines/"
    ]
    custom_settings = {
        'AUTOTHROTTLE_ENABLED': True,
    }
    def __init__(self, start_page=1, end_page=10):
        self.start_page = int(start_page)
        self.end_page = int(end_page)
    def start_requests(self):
        for i in range(self.start_page, self.end_page + 1):
            if i == 1:
                yield scrapy.Request(url="https://rlsbb.ru/category/magazines/", callback=self.parse)
            else:
                yield scrapy.Request(url=f"https://rlsbb.ru/category/magazines/page/{i}/", callback=self.parse)
    def parse(self, response):
        for article in response.css("article"):
            yield {