Back to top

Scrapy : un tool per crawling e scraping di siti web e Web Application

Data mining ed estrazione di dati da pagine Web

Il Data mining è diventato parte di diversi settori grazie alla possibilità di trasformare i dati estratti in informazioni utili per prendere decisioni di marketing o di business più in generale.

Scrapy è un framework applicativo per effettuare il crawling di siti web ( uno spider) ed estrarre dati anche in maniera strutturata che possono essere utilizzati proprio per data mining, per processare informazioni in un modo specifico, per es. attraverso API di terze parti.

Applicazioni aziendali di Scrapy

Vediamo quali possono essere dei casi d’uso di Scrapy:

  • estrazione delle opinioni degli utenti da un sito web;
  • Content Discovery;
  • aggregazione di immagini, video e testo da più fonti, per es. articoli in diversi siti web;
  • implementazione di un motore di ricerca su tutti i portali aziendali

In pratica grazie all’estrazione di dati è possibile, successivamente, farne ciò che si vuole e che sia utile per l’organizzazione.

Le funzionalità di Scrapy

  • selezione ed estrazione di dati da HTML/XML con utilizzo di selettori CSS e XPath ed applicazione di regular expression;
  • shell console per test e debug
  • generazione di export in diversi formati come JSON,CSV, XML e salvataggio in diversi backend services come FTP e AWS;
  • Supporto dell’encoding;
  • Estensioni e plugin per la gestione delle sessioni e dei cookie
  • Gestione di compressione, autenticazione e caching HTTP
  • user agent spoofing
  • gestione robots.txt
  • gestione profondità di crawling
  • gestione dei media

e molto altro.

Glue Labs e Scrapy

Esperti di soluzioni online integriamo Scrapy in applicazioni di data mining anche nel Cloud. Contattaci subito e senza impegno per maggiori informazioni o per un preventivo gratuito.

Casi di Successo

Il leader mondiale in sistemi di controllo di impianti refrigeranti, umidificazione e aereazione presente in 75 paesi usa le nostre soluzioni Web Application e System Integration per selezionare le componenti industriali e fornire documentazione tecnica in ambiente controllato e sicuro.

Inizia ora il tuo progetto

CONTATTI

Scrivici dal form di contatto

Tel +39 06 56549766
Fax +39 06 21122581

Mail: info@glue-labs.com
Pec: gluelabs@legalmail.it

Dove Siamo
Roma: Piazza Don Sturzo 15
Padova: Via Savonarola 217
Milano: Via Lazzaretto 19
Torino: P.zza XVIII Dicembre 5

Nome*

E-mail*

Telefono(per un contatto più rapido)

Come possiamo aiutarti?

Altro che vuoi dirci?

Inviando i tuoi dati accetti le condizioni sulla privacy. Li useremo per rispondere alle tue domande e richieste.

TOP