Ben Treynor Sloss, senior VP della supervisione delle Technical Operation a Google, è il creatore del termine “Site Reliability Engineering” (SRE), un paradigma operativo implementato all’interno di Google che supera il concetto di DevOps per costruire sistemi, e quindi servizi, altamente affidabili e sicuri.
L’approccio classico al Service Management
Tradizionalmente le imprese impiegano amministratori di sistema per assemblare i vari pezzi di software al fine di erogare servizi. Con l’aumento della complessità dei sistemi, aumenta anche il numero di amministratori (sysadmin) impiegati e siccome le competenze necessarie sono differenti tra sysadmin e developer si ha una costante divisione tra dev e ops. Un approccio semplice che ha funzionato per tantissimo tempo e che continua a funzionare per moltissime realtà.
Questo approccio però ha numerosi difetti soprattutto legati a costi diretti ( team con interventi manuali per il change management e l’event handling) ed indiretti ( spesso maggiori dei diretti, formazione, skill, mindset, comunicazione controversa, conflitti) che aumentano esponenzialmente invece che aumentare linearmente con la complessità dei sistemi.
In questo continuo stato di tensione ha cercato di venire in aiuto il concetto di DevOps che ha solo parzialmente sopperito a questa agonia del Change di sistemi e servizi e di scontro tra sviluppo e operazioni riconsiderando l’IT a supporto dello Sviluppo.
L’approccio Google al Service Management: Site Reliability Engineering (SRE)
L’approccio del Site Reliability Engineering (SRE) è basato sul fatto che sono i software engineer a creare sistemi che permettono di portare avanti il proprio lavoro che prima invece era portato avanti dai sysadmin. In pratica è il software engineering che costruisce il sistema nella sua interezza.
Per usare le parole di Ben Treynor Sloss, “SRE is what happens when you ask a software engineer to design an operations team“.
Il Team SRE è composto esclusivamente da software engineer, una cui parte (circa la metà) ha competenze anche legate a sistemi Unix e Networking (Layer 1 fino a Layer 3). Grazie a questo il team riesce ad automatizzare tutti gli aspetti della messa in produzione di servizi riuscendo a mettere insieme sia la componente Dev sia la parte Ops senza alcuna distinzione.
Il Team SRE è responsabile di:
- availability
- latenza
- performance
- efficenza
- change management
- monitoring
- emergency response
- capacity planning
Contattaci subito e senza impegno per scoprire di più su Site Reliability Engineering.
Glue Labs e SRE
Grazie a più di 10 anni di esperienza nell’integrazione di piattaforme complesse, a numerosi Clienti gestiti ed alla forza del nostro Gruppo aziendale ti forniamo assistenza e supporto per qualsiasi necessità in ambito SRE e nella gestione di architetture complesse come:
- installazione e configurazione
- migrazione e miglioramento delle performance
- system integration e tuning di sicurezza
- continuous integration & delivery
e molto altro. Contattaci subito e senza impegno per un preventivo gratuito.