Gli sviluppatori di Twitter hanno rilasciato in un post sul proprio blog come hanno progettato e realizzato la propria piattaforma per la gestione della qualità dei contenuti utilizzando la Google Cloud Platform e diverso software open source.
L’architettura per una Data Quality Platform
Google Cloud fornisce numerosissimi servizi che sapientemente integrati insieme possono diventare uno strumento che fornisce valore a qualsiasi soluzione applicativa. I contenuti sono una componente di core business non solo per Twitter ma anche per qualsiasi applicazione digitale. Garantire la qualità dei dati diventa, pertanto, un must have che Twitter ha strutturato attraverso un processo di ingestion dei dati in un’architettura Google Cloud che sfrutta servizi della Google Cloud stessa e software open source per effettuarne l’analisi della qualità.
In pratica il processo avviene seguendo i seguenti step:
- Un file YAML opportunamento generato è il trigger per avviare Apache Airflow (una piattaforma per gestire i workflow) che effettua dei test con differente granularità;
- I risultati dei test di Airflow vengono inviati ad una coda di Cloud Pub/Sub(una piattaforma per la gestione di eventi/messaggi);
- Da Pub/Sub, attraverso Dataflow(una piattaforma per la gestione dei flussi di dati) i dati vengono inviati ad una tabella di BigQuery(una piattaforma per l’archiviazione e l’analisi di enormi volumi di dati) con una prima analisi della qualità( ricavata attraverso specifici strumenti come Great Expectations);
- La tabella di BigQuery viene utilizzata da Looker( una piattaforma di Business Intelligence) per una successiva analisi.
Il disegno completo dell’architettura è disponibile al seguente link.
Contattaci subito e senza impegno per ottenere la tua Data Quality Platform.
I vantaggi di una Data Quality Platform
Avere a disposizione una piattaforma per la definizione della qualità dei contenuti permette di automatizzarne la verifica affinando sempre di più i tuoi filtri con la possibilità di inserire nel processo anche la capacità umana (Human-in-the-loop) per una migliore qualità.
La qualità dei dati permette ai processi di decision making di avere a disposizione informazioni affidabili e coerenti con le esigenze di business. Inoltre aggiungendo l’arricchimento dei dati è possibile concentrare i team e le persone verso problemi complessi lasciando alla piattaforma le attività maggiormente scalabili e ripetibili.
Infine una Data Quality Platform ti permette di mitigare i rischi di perdita dei dati e di implementare soluzioni per il rispetto di adempimenti normativi per es. relativi alla privacy.
Contattaci subito e senza impegno per ottenere la tua Data Quality Platform.
Glue Labs e la Data Quality Platform
Ti supportiamo nell’implementazione di soluzioni tecnologiche che garantiscono la qualità dei dati e li arricchiscono di informazioni. Siamo Google Cloud Partner e grazie all’esperienza maturata in tantissimi settori, con numerosi Clienti e con un solido gruppo aziendale ti forniamo soluzioni software con garanzia 12 mesi da qualsiasi bug. Contattaci subito e senza impegno per maggiori informazioni.