Semalt navrhuje 5 krokov na zoškrabanie webových stránok

Scrapy je otvorený zdroj a rámec na získavanie informácií z rôznych webových stránok. Používa API a je napísaný v Pythone. Scrapy je v súčasnosti udržiavaná spoločnosťou zaoberajúcou sa webovým škrabaním s názvom Scrapinghub Ltd.

Je to jednoduchý návod, ako napísať webový prehľadávač pomocou Scrapy, analyzovať Craigslist a ukladať informácie vo formáte CSV. Nasleduje päť hlavných krokov tohto návodu:

1. Vytvorte nový projekt Scrapy

2. Napíšte pavúka, aby ste prehľadali webovú stránku a extrahovali údaje

3. Exportujte zoškrabané údaje pomocou príkazového riadka

4. Zmeňte pavúk a sledujte odkazy

5. Použite argumenty pavúka

1. Vytvorte projekt

Prvým krokom je vytvorenie projektu. Mali by ste si stiahnuť a nainštalovať aplikáciu Scrapy. Na jej vyhľadávacom paneli by ste mali zadať názov adresára, do ktorého chcete údaje uložiť. Scrapy používa rôzne pavúky na extrahovanie informácií a títo pavúky podávajú počiatočné žiadosti o vytvorenie adresárov. Ak chcete, aby pavúk fungoval, musíte navštíviť zoznam adresárov a tam vložiť konkrétny kód. Sledujte súbory v aktuálnom adresári a všimnite si dva nové súbory: quotes-a.html a quotes-b.html.

2. Napíšte pavúka, aby ste mohli prehľadávať web a extrahovať údaje:

Najlepším spôsobom, ako napísať pavúk a extrahovať údaje, je vytvorenie rôznych selektorov v prostredí Scrapy. Adresy URL by ste mali vždy uvádzať v úvodzovkách; v opačnom prípade Scrapy okamžite zmení povahu alebo názvy týchto adries URL. Mali by ste použiť dvojité úvodzovky okolo adresy URL, aby ste správne napísali pavúka. Mali by ste použiť.extract_first () a vyhnúť sa chybe indexu.

3. Exportujte zoškrabané údaje pomocou príkazového riadku:

Je dôležité exportovať zoškrabané údaje pomocou príkazového riadku. Ak ho neexportujete, nebudete mať presné výsledky. Pavúk vygeneruje rôzne adresáre obsahujúce užitočné informácie. Na lepšie exportovanie týchto informácií by ste mali použiť kľúčové slová Python s výnosom. Import údajov do súborov JSON je možný. Súbory JSON sú užitočné pre programátorov. Nástroje ako JQ pomáhajú bez problémov exportovať zoškrabané údaje.

4. Zmeňte pavúk na odkazy:

V malých projektoch môžete pavúky zmeniť tak, aby zodpovedajúcim spôsobom sledovali odkazy. Nie je to však potrebné pri projektoch zameraných na rozsiahle spracovanie údajov . Keď zmeníte pavúk, vytvorí sa zástupný súbor pre položky Potrubia. Tento súbor je možné nájsť v časti tutorial / pipelines.py. Pomocou aplikácie Scrapy môžete kedykoľvek zostaviť sofistikované pavúky a kedykoľvek zmeniť ich umiestnenie. Môžete extrahovať viac stránok naraz a vykonávať rôzne projekty získavania údajov.

5. Použite argumenty pavúka:

Spätné volanie parse_author je argument spider, ktorý možno použiť na extrahovanie údajov z dynamických webových stránok. Môžete tiež poskytnúť argumenty príkazového riadku pavúkom pomocou špecifického kódu. Argumenty pavúka sa v okamihu stanú atribútmi pavúka a menia celkový vzhľad vašich údajov.

V tomto návode sme sa zaoberali iba základmi Scrapy. Pre tento nástroj existuje veľa funkcií a možností. Ak chcete získať viac informácií o jeho špecifikáciách, stačí si stiahnuť a aktivovať aplikáciu Scrapy.