Il processo classico in uno streaming di dati nell’ambito di una data pipeline prevede 3 differenti fasi:
- ingestion: il momento in cui carichiamo i dati da varie sorgenti;
- process: la fase in cui applichiamo logiche di processamento ed eventualmente di enhancement;
- storage: è l’ultima fase in cui si archiviano i dati in maniera sicura.
Use case di data pipeline
Al fine di comprendere appieno la differenza tra i tre strumenti di processamento descritti nel prossimo paragrafo, ti indichiamo alcuni possibili Use Case in cui può essere implementata una data pipeline:
- la ricezione di click provenienti da link, il relativo processamento per verificare la presenza di possibili tentativi di frode o utilizzi malevoli in generale, l’eliminazione definitiva oppure l’archiviazione dei metadata per future analisi;
- la ricezione di dati grezzi ed in differenti formati da diverse sorgenti, la modellazione e l’accorpamento dei dati in un pattern predefinito, l’archiviazione per l’analisi;
- la ricezione di dati di telemetria e statistici come l’utilizzo real-time di un servizio, il processamento per es. per attivare trigger di scalabilità, l’archiviazione per future analisi di gestione della domanda;
- il mantenimento di un processo di Change Data Capture(CDC) che riceve le modifiche, le analizza e le archivia.
Quelli sopra descritti rappresentano solo alcune delle attività in cui è possibile implementare una data pipeline, di fatto puoi inserire le fasi di ingestion, process e storage ovunque in qualche modo devi gestire dati, estrarne insight, archiviarli per compliance o per tue specifiche esigenze.
Contattaci subito e senza impegno per implementare una data pipeline utile al tuo business.
Come processare i dati: 3 possibili alternative
I flussi di dati possono essere gestiti in 3 modi:
- senza processamento: in pratica i dati vengono archiviati così come arrivano senza alcun cambiamento. E’ la modalità più semplice, una sorta di pass-through. Per esempio, attraverso BigQuery Subscription passi direttamente i dati dall’ingestion tramite Pub/Sub ad una tabella di BigQuery. I dati vengono semplicemente e direttamente archiviati e la modalità descritta (Pub/Sub + BigQuery) è completamente NoCode(cioè non devi sviluppare nulla). Chiaramente una volta archiviati i dati puoi eseguire processamenti successivi anche di tipo Extract Transform Load(ETL).
- con processamento senza aggregazione: in questa modalità si applica un semplice processamento e tipicamente “si normalizzano” i dati cioè vengono resi omogenei ed adatti ad essere usati da specifici applicativi. Puoi effettuare tale tipologia di processamento attraverso richieste HTTP sicure ad un end point magari scalabile e realizzato con Cloud Run.
- con processamento con aggregazione: in questo caso il processamento prevede un’aggregazione realizzata attraverso opportuni algoritmi al fine di ridurre i dati, di contrarli spesso in gruppi omogenei. Pensa al caso di dati di telemetria di diversi dispositivi, potresti avere la necessità di aggregare quelli di uno specifico dispositivo e di lanciare operazioni in base ai quei specifici dati. Cloud Dataflow è un servizio che esegue pipeline di Apache Beam e ti fornisce tutte le funzionalità essenziali per aggregare i dati come: late handling, AI/ML workload, windowing, observability.
Quale approccio utilizzare è una scelta che deve tenere conto di esigenze di business, complessità, capacità di inserimento nei processi aziendali e di integrazione con gli strumenti già esistenti. Contattaci subito e senza impegno per consulenza e supporto nella creazione di data pipeline.
Glue Labs e le Data Pipeline
Abbiamo utilizzato, implementato ed integrato tecnologie Cloud based per la gestione dei dati sia per garantirne la sicurezza sia per fornire valore ed enhancement in ambito ETL(Extract Transform Load) in ambiente on-premise e Cloud. Siamo Google Cloud Partner e grazie all’esperienza maturata in tantissimi settori e con numerosi Clienti ti forniamo la consulenza e l’assistenza per estrarre valore dai tuoi dati ed ottenere insights visualizzati ad hoc per ogni livello della tua organizzazione. Contattaci subito e senza impegno per maggiori informazioni.