Voglio essere un/a data scientist

Di
2021-04-22 - 8 minuti

“Voglio essere un/a data scientist.”

Questa affermazione l’ho sentita fare spesso, seguita da domande come “cosa devo fare per lavorare come data scientist?” oppure “devo saper programmare con Python?”, o ancora “che corsi devo seguire?”.

La data science è una scienza che è emersa nell’ultimo decennio come una delle competenze più richieste: girando per i diversi siti di annunci di lavoro, o magari su LinkedIn, è frequente trovare aziende alla ricerca di data scientist che spesso vengono anche pagati abbastanza bene; alcune università hanno anche avviato dei corsi di specializzazione in data science e hanno riscosso un notevole successo.

Ma cosa bisogna fare per diventare un data scientist?

Cominciamo con il dire che si tratta di una domanda che non è posta bene: questa scienza è piuttosto ampia, con competenze che vanno dal sapere accedere e manipolare i dati, fino all’utilizzo di questi la risoluzione di problemi tramite tecniche di apprendimento automatico, o anche tramite la creazione di dashboard che permettano la visualizzazione di queste informazioni all’amministrazione IT.

Essere un data scientist significa questo: lavorare in un campo dove è necessario possedere diverse competenze, con lo scopo di interpretare ed estrarre della conoscenza dai dati attraverso delle fasi di analisi e lavorazione degli stessi.

Fino a qualche anno fa il termine data scientist indicava queste competenze, tutte all’interno dello stesso profilo professionale, ma non è più così.

A seguito della crescita del numero di competenze richieste, i profili specializzati con skills sempre più diversificate hanno iniziato a crescere all’interno del settore IT: per questa ragione, adesso non si parla più solo di_data scientist_, ma anche di data engineer, data analyst, data modeler, data entry oltre che Big data e data specialist.

Vediamo nel dettaglio come si differenziano queste professioni e che cosa fanno nel pratico.

Data Engineer

O anche ingegnere dei dati: una parte importante delle attività di “laboratorio” della scienza dei dati consiste nel prendersi cura dei dati: attività come l’archiviazione, l’accesso o l’aggiornamento delle informazioni.

I data engineer devono avere familiarità con servizi cloud, servizi Web gratuiti o anche a pagamento, repository che tracciano Big data, diversi tipi di software di gestione dei database, e via dicendo.

Inoltre, devono garantire una certa qualità di base dei dati, eliminando incongruenze e/o duplicazioni e implementando KPI comuni per quel dominio aziendale.

Data Analyst

O anche _analista dei dati, q_uesto termine raccoglie tutte le figure professionali con una profonda esperienza in un dominio specifico, come ad esempio la finanza, la sanità, l’IoT o l’industria automobilistica.

Gli analisti di dati non sono necessariamente esperti di dati dal punto di vista dell’IT o dell’apprendimento automatico, ma conoscono i loro dati dentro e fuori: il processo di raccolta, i casi aziendali, le tecniche di preparazione dei dati e i KPI più adatti per descrivere casi d’uso specifici.

Di solito sono esperti nelle tecniche di visualizzazione dei dati, poiché il loro ruolo principale all’interno del laboratorio di scienza dei dati è spiegare il problema, monitorare il processo e interpretare i risultati. Sono il collegamento necessario tra l’algoritmo, i dati e gli esperti IT e gli stakeholder aziendali.

Data entry assistant

L’immissione dei dati è un settore in cui i dipendenti aggiungono, verificano e modificano i dati inseriti in un sistema di gestione.

Molte aziende hanno bisogno di persone per trascrivere gli appunti dalle riunioni, aggiungere dati grezzi nei database e aggiungere i dati di vendita in formati elettronici più volte nel corso di una giornata lavorativa, o ancora registrare dei dati inseriti in delle card tramite software specializzati.

Un candidato che lavora nell’inserimento dei dati dovrà gestire in modo efficiente una grande quantità di informazioni che sono spesso sensibili o riservate.

L’integrità di qualsiasi azienda si basa sui dati che producono e che convalidano l’importanza della posizione di data entry. Qualsiasi informazione immessa dal team verrà quindi utilizzata da altre persone per riferimento o rapporti.

Data modeler

Il ruolo del modellatore di dati è uno dei più richiesti nelle moderne strategie per la gestione dei dati e spesso non è considerato un ruolo a sé, ma parte di altre mansioni: sono sempre più le aziende infatti che convertono i loro attuali modelli di dati in dati non strutturati sfruttando piattaforme NoSQL; questo non solo richiede esperienza nell’utilizzo di RDBMS, data warehouse e modello OLAP dimensionale, ma anche una profonda conoscenza nella progettazione di piattaforme per Big data.

(Big) Data specialist

Il compito di uno specialista di dati è convertire i dati grezzi in formati facilmente accessibili per i clienti: ciò potrebbe includere la progettazione del database e la formazione dei clienti sull’uso dei sistemi di archiviazione dati.

Il compito in questo caso è quello di analizzare e verificare l’autenticità dei dati, convertire i dati in un formato che ne renda più semplice la fruizione e la gestione come un database, generare report dettagliati oltre che fornire supporto tecnico ai tuoi clienti.

Questo lavoro ruota attorno all’elaborazione e all’analisi dei dati: potresti essere chiamato per gestire progetti ad alta priorità e risolvere discrepanze ed errori nei dati per conto di aziende farmaceutiche, agenzie governative o anche aziende IT.

Ci si aspetta che uno specialista dei dati sia bravo in matematica ed eccellente nella programmazione; deve anche possedere delle buone capacità di ascolto, attenzione ai dettagli e capacità di risoluzione dei problemi.

Data scientist

Alla fine dei conti, i data scientist non sono così tanti, né tantissimi sono necessari. I data scientist esaminano l’intero processo, implementano la fase di preparazione dei dati, selezionano, sfruttano e valutano gli algoritmi di machine learning e impacchettano il modello prodotto nell’applicazione di distribuzione.

Un data scientist deve padroneggiare l’arte di costruire una pipeline per ottenere un modello addestrato affidabile ed efficiente, adottando le migliori pratiche aggiornate nel campo della scienza dei dati. Deve avere un’ampia conoscenza degli algoritmi di apprendimento automatico (e non solo) e delle insidie e problemi associati a ciascuno di essi.

E quindi?

E quindi…

Tenendo presente il ruolo professionale che hai scelto, la seconda domanda più frequente è: “Ho un background in matematica o analisi dei dati. Cos’altro mi serve? Basterebbe un corso online sul deep learning?”

Non esiste una risposta precisa, perché sicuramente l’esperienza che si matura grazie all’affiancamento di un professionista è già di per sé una scuola molto valida; in realtà, molto dipende dalla profondità dell’analisi dei dati e dal background matematico.

La conoscenza dei fogli Excel e delle istruzioni SQL potrebbe non essere più sufficiente, ma magari sono necessarie delle competenze di livello più tecnico.

In ogni caso, partire da un corso (online ce ne sono moltissimi, ma anche percorsi universitari specifici sono sicuramente un buon inizio) è l’ideale: quando scegli che percorso di studio seguire, però, assicurati che il corso aggiunga un valore reale al tuo background, affrontando i buchi nella tua istruzione e allo stesso tempo esplorando gli argomenti proposti in modo sufficientemente approfondito.

Se conosci già il tema del machine learning e le diverse tecniche, magari segui un corso sui Big data; viceversa, se sei già un esperto di gestione dei database, magari dovresti approfondire il tema delle tecniche di apprendimento o sulla statistica.

Molto, troppo spesso, i candidati si presentano ad un colloquio con una conoscenza molto generale (considerata_spot_) che risulta solo molto confusa e non realmente utile nel pratico: conoscere quali algoritmi sono disponibili nel mondo del deep learning non è sufficiente per saperli usare, ma piuttosto è bene portare dei casi di studio reali.

Quello che infatti può risultare molto più interessante è parlare di esperienze proprie, anche se non professionali, dove sono state maturate delle competenze che rendono il nostro profilo professionale di rilievo.

Parlando di casi di studio, non è necessario appunto concentrarsi sul fatto di non avere esperienza: esistono diversi modi per costruirsi una propria esperienza, come ad esempio partecipare a degli hackaton o delle challenge online: Kaggle è uno di quei siti che mette a disposizione delle competizioni piuttosto interessanti e di ogni livello e rappresenta un modo ottimale per farsi le ossa.

Ma devo saper programmare?

Ultimo aspetto, ma non ultimo: c’è molto margine di discussione su questo. Alcune persone dicono che è assolutamente necessario, altre persone dicono che sono la prova vivente che non è necessario programmare per essere un data scientist.

La realtà è che esistono molti strumenti open source e non affidabili e molto utilizzati in queste situazioni che spesso non richiedono competenze di programmazione, ma più di risoluzione logica oltre che competenze trasversali.

È mia opinione che molti di questi strumenti che non richiedono delle solide basi di programmazione, come la piattaforma KNIME, si siano dimostrati più che ottimi e che coprono ampiamente le diverse operazioni sui dati grazie all’uso degli algoritmi a disposizione.

Tuttavia, come abbiamo visto, nessuna di queste attività è strettamente correlata ad una sola competenza o strumento, ma di solito viene richiesta una certa flessibilità nell’utilizzare più strumenti: questo significa che quanto più saremo in grado di espandere le nostre conoscenze, tanto più sarà possibile spaziare da un’attività all’altra.

Per concludere…

… un atteggiamento curioso e incline all’apprendimento può portarti lontano.

Nella scienza dei dati (e non solo), la conoscenza si evolve costantemente e la tua esperienza diventa rapidamente obsoleta. Un atteggiamento che porti all’apprendimento continuo, oltre ad essere rinfrescante, ti consente di rimanere sempre in pista, anche quando le regole del gioco cambiano.

Ricorda che puoi imparare nuove tecniche ovunque e da chiunque: ai corsi, ai webinar, dai colleghi, dagli insegnanti, da campi che sembrano non avere nulla a che fare con la tua attività attuale, dai media, dai blog e così via sopra.

È buona norma riservarsi del tempo per apprendere periodicamente alcune delle tecniche più recenti.

L’esperienza viene maturata anche sul lavoro.

Il tempo per imparare di più sulle tecniche emergenti deve provenire anche dal lavoro: quello che puoi augurarti è infatti di vere un buon capo - o meglio, leader- che ti guidi nel percorso e ti affianchi ad un team di esperti che sanno indirizzarti verso il tuo percorso di crescita professionale.

Un capo che funge da mentore è una grande opportunità per progredire tecnicamente e per plasmare il tuo ruolo. Quindi, scegli con saggezza.

Voglio essere un/a data scientist