Il Data mining è diventato parte di diversi settori grazie alla possibilità di trasformare i dati estratti in informazioni utili per prendere decisioni di marketing o di business più in generale.
Scrapy è un framework applicativo per effettuare il crawling di siti web ( uno spider) ed estrarre dati anche in maniera strutturata che possono essere utilizzati proprio per data mining, per processare informazioni in un modo specifico, per es. attraverso API di terze parti.
Applicazioni aziendali di Scrapy
Vediamo quali possono essere dei casi d’uso di Scrapy:
- estrazione delle opinioni degli utenti da un sito web;
- Content Discovery;
- aggregazione di immagini, video e testo da più fonti, per es. articoli in diversi siti web;
- implementazione di un motore di ricerca su tutti i portali aziendali
In pratica grazie all’estrazione di dati è possibile, successivamente, farne ciò che si vuole e che sia utile per l’organizzazione.
Le funzionalità di Scrapy
- selezione ed estrazione di dati da HTML/XML con utilizzo di selettori CSS e XPath ed applicazione di regular expression;
- shell console per test e debug
- generazione di export in diversi formati come JSON,CSV, XML e salvataggio in diversi backend services come FTP e AWS;
- Supporto dell’encoding;
- Estensioni e plugin per la gestione delle sessioni e dei cookie
- Gestione di compressione, autenticazione e caching HTTP
- user agent spoofing
- gestione robots.txt
- gestione profondità di crawling
- gestione dei media
e molto altro.
Glue Labs e Scrapy
Esperti di soluzioni online integriamo Scrapy in applicazioni di data mining anche nel Cloud. Contattaci subito e senza impegno per maggiori informazioni o per un preventivo gratuito.