Cele mai bune plugin-uri WordPress Scraper - Cum să răzuiești automat conținutul?
Publicat: 2021-02-09Dacă doriți să creați un site de comparație a prețurilor sau un magazin dropshipping, pluginurile de scraper WordPress pot fi foarte utile. Scrapingul web constă în colectarea de informații de pe web. Aceste informații sunt apoi organizate sau importate.
Unii oameni consideră răzuirea ca o activitate lipsită de etică sau îndoielnică . În realitate, răzuirea web vă poate ajuta să rămâneți la curent cu modificările. Site-urile de comparație a prețurilor pot utiliza date răzuite pentru a oferi vizitatorilor cele mai exacte informații disponibile.
Există o mulțime de pluginuri de scraping WordPress disponibile. În această postare, voi menționa unele dintre cele mai bune pluginuri de crawler pentru conținut WordPress și caracteristicile acestora, astfel încât să puteți alege instrumentul potrivit pentru nevoile dvs.
Cele mai bune pluginuri WordPress Scraper
Iată câteva dintre cele mai bune pluginuri de scraper pentru conținut WordPress pe care le puteți utiliza. Deși sunt opțiuni plătite, toate sunt dotate cu caracteristici utile.
Zgârieturi Octolooks
Octolooks Scrapes este cel mai avansat plugin de crawler pentru conținut și WordPress scraper. Folosește un selector vizual pentru a elimina automat conținutul de pe orice site. Pentru a funcționa, trebuie să potriviți selectorul vizual cu câmpul WordPress corespunzător din pagina țintă. Nu aveți nevoie de cunoștințe de programare sau expertiză.
Interfața ușor de utilizat a pluginului a fost creată pentru a oferi cea mai bună experiență posibilă pentru utilizator. Configurarea se realizează în doar câțiva pași de bază. O puteți lăsa în fundal, iar informațiile vor fi extrase de pe site-urile web sursă.
Puteți crea sarcini noi pentru accesarea cu crawlere sau puteți utiliza setările implicite. De asemenea, puteți utiliza acest plugin ca un plugin de agregator RSS WordPress.
Scrapes completează automat toate câmpurile acceptate. Pluginul Scraper WordPress Octolooks se va potrivi automat cu pagina următoare, imaginea prezentată, conținutul și alte informații importante cu câmpurile corespunzătoare ale site-urilor web sursă.
Puteți utiliza opțiunea șablon pentru a personaliza aspectele postării și a alege în ce ordine vor apărea informațiile pe care le scrapați pe site-ul dvs. web.
Funcția de căutare și înlocuire a expresiei obișnuite poate elimina anumite cuvinte sau fraze din textul răzuit. De asemenea, puteți utiliza propriile cuvinte pentru a le înlocui. Nu există limite la numărul de reguli pe care le puteți executa.
Scăderea, adunarea, divizarea, înmulțirea și alte operații matematice pot fi executate. Acest plugin de crawler pentru conținut WordPress poate crea noi formule și combina numere în diferite câmpuri personalizate.
Yandex Translate, DeepL Translate, Bing Microsoft Translate sau Google Translate pot traduce automat conținut răzuit . Sau puteți traduce automat site-ul WordPress utilizând pluginuri precum Weglot (verificați Weglot review) și WPML (consultați WPML review).
Puteți utiliza unul dintre pluginurile de filare automată WordPress pentru a schimba conținutul răzuit sau permiteți serviciului de filare terță parte , cum ar fi WordAi (consultați recenzia WordAi) și Spin Rewriter (bifați Revizuirea Spin Rewriter) să vă facă treaba.
Informațiile extrase de pe site-urile web sursă pot fi filtrate pentru a se asigura că respectă regulile stabilite. Monitorizați conținutul pentru a vă asigura că acesta trece cu succes de la filtre la site-ul dvs.
Suportul câmpurilor personalizate și tipul de postare personalizat din magazinul dvs. WooCommerce pot fi utilizate pentru a răzui conținutul sub formă de produse.
Importator extern Pro
Pluginul External Importer Pro vă permite să extrageți date despre produse de pe site-urile de comerț electronic și să le importați în site-ul WooCommerce. Nu este nevoie de acces API, fluxuri CSV sau XML.
Pluginul extrage datele complete despre produse direct de pe site-urile magazinului. Tot ce trebuie să faceți este să introduceți lista specifică sau adresa URL a produsului. Nu există fișiere CSV voluminoase sau acces API pentru a face față. Disponibilitatea produsului și prețurile sunt actualizate automat . Puteți gestiona fiecare aspect al informațiilor importate.
ID-urile afiliate existente vor fi utilizate automat (dacă le-ați adăugat prin opțiuni de setare) la crearea linkurilor de afiliere. Puteți seta chiar margini de produs dropshipping dacă doriți să importați produse în scopuri dropshipping.
Caracteristici:
- Sincronizare automată - Informațiile privind disponibilitatea și prețurile produsului sunt actualizate automat. Toate produsele care sunt în prezent epuizate pot fi eliminate automat. Actualizările sunt programate în fundal, astfel încât să nu interfereze cu alte operații.
- Import automat - Odată ce produsele noi apar pe pagina de listare a site-ului țintă, acestea vor fi, de asemenea, importate automat pe site-ul dvs. web. Veți avea întotdeauna cele mai actualizate produse în magazinul dvs.
- Produse nelimitate - Capacitatea de a importa câte produse doriți. Puteți importa articole nelimitate de pe câte site-uri de magazine online aveți nevoie.
- Evitați blocarea - Pluginul va citi și respecta sesiunile cookie-urilor, cotele zilnice de interogare, intervalele de interogare aleatorii, antetele browserelor reale, regulile robots.txt, rotația agenților utilizator, limitarea cererilor etc., astfel încât să nu primiți blocat.
- Utilizați rețele afiliate - Utilizați linkuri profunde sau modificați-le dinamic pentru a genera linkuri afiliate.
- Funcții Dropshipping - Puteți crea un magazin dropshipping, iar articolele pot fi adăugate ca produse „simple” WooCommerce. Pot fi stabilite reguli flexibile pentru majorarea prețurilor.
- Atribute locale și globale - Trebuie să determinați specificațiile produsului atribuite ca atribute globale (sau taxonomii). Apoi puteți implementa diverse filtre și widget-uri de catalog WooCommerce.
- Imagini externe după URL - Capacitatea de a afișa imagini externe fără a le salva într-o bibliotecă media locală. Site-urile sursă externe pot fi răzuite pentru a extrage galeriile și imaginile pe care doriți să le afișați pe site-ul dvs. Acest lucru va reduce considerabil cantitatea de stocare pe hard disk pe serverul dvs.
- Categorii dinamice - Produsele cu căi de categorii extrase vor fi importate automat în categoria corespunzătoare.
Pentru mai multe informații despre acest plugin de crawler pentru conținut pentru WordPress, puteți verifica recenzia mea External Importer Pro.
WP Content Crawler
Pluginul WP Content Crawler poate extrage automat informații de pe aproape orice site. Folosește selectoare CSS pentru a găsi conținut. Utilizează instrumentul Visual Inspector care simplifică găsirea selectorilor CSS făcând clic pe elementele respective de pe site-urile țintă.
Caracteristici:
- Inspector vizual - Faceți clic pe un element va identifica selectorul CSS pentru acel element. De asemenea, puteți găsi selectoare CSS alternative care ar putea fi utilizate. Nu trebuie să părăsiți panoul de administrare pentru a îndeplini aceste sarcini.
- Crawlere postări (răzuire, apucare și salvare) - Odată ce URL-urile postării au fost definite, acest crawler de conținut WordPress le va accesa automat în fundal. Acest lucru va avea loc după configurarea setărilor.
- Recrawl (actualizare) postări - Postările pot fi reaspirate automat pentru a vă asigura că aveți cel mai actualizat conținut. Puteți alege să ignorați postările mai vechi, să selectați intervalul de actualizare și să limitați de câte ori poate fi actualizată o anumită postare.
- Șabloane de conținut - Codurile scurte pot fi utilizate pentru a crea o galerie, un articol de listă, un titlu, un conținut de postare și șabloane de extrase. Puteți utiliza caseta de opțiuni pentru a crea șabloane pentru toate valorile selectorului CSS.
- Postări paginate - Pot fi salvate și postări paginate. Nu mai trebuie să vă limitați căutările la postări pe o singură pagină.
- Setări generale personalizate pentru fiecare site web - Setările generale personalizate pot fi setate pentru fiecare postare.
- Salvați toate imaginile - Puteți salva toate imaginile în conținutul postării.
- Salvați imagini ca galerie - Imaginile găsite pe o pagină țintă pot fi salvate ca galerie.
- Opțiuni proxy - Dacă adresa dvs. IP nu are acces la un anumit site, puteți utiliza unul sau mai multe proxy pentru a extrage informații de pe site-urile țintă.
- Traducere automată - API-ul Amazon Translate, Google Cloud Translation API, Microsoft Translator Text API sau Yandex Translate API pot fi folosite pentru a traduce automat postările.
- Filare automată - Filarea poate rescrie automat conținutul accesat cu crawlere. Acest lucru vă poate ajuta să vă măriți clasamentul în motoarele de căutare. Pluginul oferă integrare cu servicii cu plată precum Turkce Spin API și Spin Rewriter API.
- Salvați produsele WooCommerce - Atributele, opțiunile avansate, inventarul, transportul și prețurile produselor pot fi salvate. Articolele pot fi salvate ca produse externe sau simple. De asemenea, puteți defini elementele ca virtuale sau puteți crea o opțiune de fișier descărcabilă.
- Expresii regulate - Expresiile regulate pot fi specificate în opțiunile dvs. „găsi-înlocui”. Acest lucru face mai ușor să găsiți și să înlocuiți orice. Modificatorii și delimitatorii pot fi de asemenea implementați pentru a rafina căutările în continuare.
- Salvați atributele „alt” și „title” - Toate atributele „title” și „alt” sunt recuperate automat de pe site-ul țintă atunci când salvați imagini. Aceste atribute sunt apoi atribuite imaginilor salvate respective. Șabloanele pot fi create pentru a se alinia la strategiile dvs. de optimizare a motorului de căutare.
- Instrument de accesare cu crawlere manuală - Puteți introduce diverse adrese URL pentru a salva mai multe postări odată folosind utilitarul de accesare cu crawlere manuală. URL-urile categoriilor pot fi, de asemenea, introduse pentru ca instrumentul să obțină adresele URL de postare corespunzătoare. Puteți seta crawlerul să acceseze simultan diferite postări.
Scraper - Plugin Crawler de conținut pentru WordPress
Pluginul Scraper Content Crawler pentru WordPress este un plugin care copiază automat conținutul și postează de pe orice site. Creează conținutul la un alt nivel cu caracteristicile și funcțiile sale unice.
Caracteristici:
- Orice site web poate fi răzuit - Utilizarea metodelor Regex și Xpath înseamnă că puteți răzui orice site doriți.
- Puteți răzuia atributele - Răzuitorul poate prelua și atributele elementelor. Asta înseamnă că puteți obține linkuri, surse de imagine, surse video.
- Imagine prezentată - Orice imagine poate fi extrasă și setată ca imagine prezentată.
- Conținut spinner - Pluginul AI Spinner este complet acceptat. Puteți utiliza acest plugin pentru a crea conținut unic.
- Traducerea limbii - Scraperul va detecta automat conținutul, care poate fi apoi tradus în orice limbă preferați.
- Imagini galerie - Orice imagine poate fi analizată. Puteți utiliza aceste imagini pentru a crea galerii de imagini.
- Produse WooCommerce - Sunt acceptate și toate etichetele WooCommerce. Acest lucru simplifică adăugarea de produse WooCommerce în magazinul dvs.
- Calcule matematice - Funcțiile matematice pot scădea, adăuga, împărți sau înmulți numerele. Acest lucru poate fi util la calculele prețurilor.
- Programarea sarcinilor - Puteți atribui sarcini care vor fi efectuate la diferite intervale.
- Deconectați linkuri - Deconectați linkurile din conținutul original al postării.
- Suport proxy - Puteți utiliza proxy-uri în scopuri de răzuire.
Scraper Crawlomatic Multisite
Pluginul Crawlomatic Multisite Scraper este un site de accesare cu crawlere și răzuire , plugin generator de autoblogare post generator. Nu aveți nevoie de API-uri pentru a răci conținutul.
Acest plugin va accesa cu crawlere adresa URL (va căuta toate linkurile de pe o pagină), va vizita și extrage conținut din fiecare adresă URL accesată cu crawlere. Procesul de accesare cu crawlere este personalizabil . Setați adâncimea de accesare cu crawlere, rata de accesare cu crawlere, numărul maxim de articole accesate cu crawlere, accesarea cu crawlere numai a linkurilor cu anumite clase sau ID-uri etc.
Puteți răzui conținut de pe aproape fiecare site. Dacă conținutul este încărcat folosind JavaScript, pluginul poate fi combinat cu PhantomJS pentru a răzuie conținutul generat de JavaScript.
Caracteristici:
- Accesarea cu crawlere a sitemap-urilor este complet acceptată.
- Suportul selectorului de conținut vizual.
- Puteți pagina accesarea cu crawlere a site-ului. Explorarea cu crawlere a articolelor va fi reluată pe pagina următoare a site-ului țintă.
- Puteți importa prețuri pentru toate produsele accesate cu crawlere (pentru site-urile compatibile cu WooCommerce). Prețurile Dropshipping sunt ajustate automat în consecință.
- Puteți crește prețurile articolelor importate cu un număr predefinit. De asemenea, puteți înmulți suma cu un număr stabilit, care este o opțiune utilă pentru dropshippers.
- Proxile pot fi folosite pentru accesarea cu crawlere.
- Dacă nu puteți direcționa cu accesarea cu crawlere (de exemplu, dacă sunteți blocat), puteți oricând accesa cu crawlere pagina respectivă din memoria cache Google.
- Google Traducere este acceptat. Puteți alege limba în care doriți să apară articolele site-ului dvs.
- Filatoarele de text sunt, de asemenea, pe deplin acceptate. Puteți modifica textul generat automat. Cuvintele pot fi schimbate cu sinonimele lor, dacă preferați. SpinRewriter, The Best Spinner, TurkceSpin, WordAI și altele pot fi utilizate.
- Răzuirea și accesarea cu crawlere a site-ului pot fi configurate pentru a respecta anteturile HTML ale roboților din paginile răzuite și fișierele robots.txt ale site-urilor răzuite.
- Etichetele și categoriile de postări de produse pot fi create automat.
- Crawling-ul și răzuirea site-urilor web pot fi utilizate pentru a încorpora videoclipuri DailyMotion, Flickr, IGN, Ustream.tv, Vimeo sau YouTube.
WP Scraper Pro
Plugin automat WordPress
Pluginul automat WordPress este un instrument convenabil care poate posta automat pe WordPress de pe aproape orice site. Există o mulțime de selecții de import.
Pe lângă articolele obișnuite, puteți importa și următorul conținut: produse Amazon și Walmart, videoclipuri YouTube, Vimeo și DailyMotion, imagini Flickr și Instagram, licitații eBay, postări pe rețelele de socializare (tweets, pini, Reddit și postări Facebook), anunțuri din Craigslist, conținut iTunes (cum ar fi melodii, podcast-uri, aplicații, cărți electronice), melodii SoundCloud și chiar articole Envato.
Puteți selecta sursa de conținut și puteți aplica opțiuni de filtrare după etichetă, autor și categorie. Aceasta înseamnă că nu toate informațiile vizate vor fi importate.
Puteți alege imaginile, formatul, șablonul de postare, tipul și starea pe care pluginul o va prelua. Există, de asemenea, opțiuni avansate de traducere și rescriere . Puteți chiar să înlocuiți automat anumite cuvinte pe care nu doriți să le afișeze pe site-ul dvs.
Puteți seta stările postărilor fie publicate, fie schițe. Anumite fraze sau cuvinte pot fi excluse. De asemenea, puteți elimina toate linkurile înainte de a publica o postare. Imaginile prezentate pot fi setate automat.
Setările pot fi modificate, astfel încât titlurile duplicate, postările care nu sunt în limba engleză și postările fără imagini sunt omise. Câmpurile personalizate sunt adăugate automat la postări, iar multisiturile sunt acceptate.
WP Robot
WP Robot este un plugin de autoblogging și de curățare a conținutului . Vă permite să creați automat postări de blog WordPress prin răzuirea conținutului de pe alte site-uri. Alimentează prin picurare informații referitoare la specialitatea sau nișa dvs. particulară. Acest lucru vă asigură că veți avea întotdeauna cel mai actual conținut.
Sunt acceptate peste 30 de surse de conținut și fiecare sursă de conținut este automatizată. Ele pot fi utilizate în orice combinație preferați pentru a găsi conținut de calitate pentru site-ul dvs. web. În funcție de ceea ce aveți nevoie, există multe modalități prin care acest instrument vă poate ajuta.
WP Robot poate extrage conținut de pe site-urile de comerț electronic dacă doriți să postați produse de pe Amazon, AliExpress, Etsy etc. Pluginul poate extrage imagini din Flickr și Pixabay, melodii din videoclipuri iTunes, YouTube, Vimeo etc.
Commission Junction și Linkshare sunt câteva dintre rețelele afiliate pe care le acceptă WP Robot și puteți posta automat oferte de la acestea. Conținutul fluxului RSS poate fi adăugat și pe site-ul dvs. Dacă doriți mai mult decât ceea ce oferă modulele existente, acest lucru vă poate oferi o anumită libertate. Pentru mai multe informații, asigurați-vă că verificați opinia mea despre WP Robot.
WordPress Scraper Plugins Concluzie
Web scraping (cunoscut și sub numele de recoltare web, extragere date web și scraping ecran) obține informații vaste de pe diverse site-uri. Aceste date sunt apoi salvate pe un alt site web sau într-o bază de date. Multe soluții de răzuire web necesită cunoștințe suplimentare și pot fi destul de complicate. Folosind pluginurile de scraper WordPress menționate, scraping-ul de conținut este foarte ușor.
Dacă doriți să creați un magazin afiliat, un site de comparație a prețurilor, un site de oferte sau un magazin dropshipping, va trebui să adăugați produse pe site-ul dvs. Este o modalitate mai bună de a automatiza acest proces în loc să adăugați manual produse.
În acest scop, veți avea nevoie de un plugin bun pentru importul de produse . Deși există multe soluții disponibile, cele mai multe dintre ele necesită să aveți un feed sau un API care va fi utilizat pentru a importa produse.
Dar dacă nu aveți un feed? Ce atunci? Cum să importați produse pe site dacă nu aveți acces la fluxuri? În acest caz, veți avea nevoie de un plugin de scraper web pentru WordPress.