Le aspettative di qualsiasi impresa sui dati in possesso riguardano l’ottenere insights, vale a dire informazioni utili per il proprio business, che, oggi, grazie a tecnologie come il Machine Learning, possono diventare informazioni predittive di business che, pertanto, possono generare un enorme vantaggio nei confronti della concorrenza.
Data Analytics
Per ottenere insights in maniera semplice, immediata ed economica ci si può appoggiare a tool consolidati di Data Analytics. In un precedente articolo ( Data Analytics vs Machine Learning) abbiamo indicato come spesso sia da preferire l’analisi dei dati alla scienza dei dati.
La scienza dei dati
Ottenere insights di un livello superiore richiede un impegno decisamente maggiore, sia in termini di tempo, sia di risorse, sia di costi.
La scienza dei dati coinvolge aspetti di:
- Programmazione software
- Analisi matematica avanzata
- Conoscenza del dominio di pertinenza
Programmazione Software
Sono necessarie competenze al fine di collezione i dati, pulirli e trasformarli in una maniera che sia utilizzabile a livello applicativo. I linguaggi più comuni sono Python e R e le competenze coinvolgono il sapiente utilizzo delle librerie matematiche. A ciò si aggiungono le competenze indispensabili nella gestione di database, nella scrittura di Query e nell’ottimizzazione delle Query sia in ambiente SQL like sia NoSQL. Argomenti come Map Reduce devono diventare familiari ed essere integrati con l’utilizzo di tool come Hadoop e Spark.
Analisi matematica avanzata
Occorre essere dei matematici e padroneggiare argomenti come NaN ( Not a Number), Class Imbalance, Variance, Analisi Invariate, Picchi, Correlation Matrix, Co-variance matrix, scatter matrix, multicollinearity, riduzioni dimensionali, trasformazioni lineari, encoding, filtri come Pearson’s Correlation, Linear Discriminant Analysis, ANOVA e Chi-Square, Wrapper e Embedded Methods come Lasso e Ridge, modelli di machine learning come Linear/Logistic Regression, Decision Trees e Random Forests, Neural Network, ecc…
Saremmo potuti andare molto più a lungo nell’indicazione delle competenze matematiche necessarie per “fare” scienza dei dati ma ti risparmiamo la lista consapevoli che hai compreso che non è alla portata di chiunque.
Conoscenza del dominio di pertinenza
E’ necessario affiancare al programmatore esperto, al matematico, un esperto del settore di pertinenza. Il perchè è semplice: un programmatore o un matematico potrebbe saperne veramente poco del vostro business o del settore di pertinenza. In un qualche modo vanno anche loro guidati perchè devono comprendere appieno qualsiasi elemento, per esempio nell’ambito sanitario l’esperto potrebbe essere un medico.
Glue Labs e la Scienza dei Dati
Siamo Google Cloud Partner e, grazie alle competenze specialistiche maturate in tantissimi settori e con numerosi Clienti ed un solido gruppo aziendale, ti forniamo assistenza e supporto per farti ottenere insights dai tuoi dati anche destrutturati e geograficamente distribuiti. Contattaci subito e senza impegno per maggiori informazioni.