Voglio diventare un... AI Audio Engineer

  • Di
  • 2022-03-08 - 6 minuti
banner

Per chi lavora nel settore AI, Valerio Velardo è un pilastro: da anni cura un canale YouTube in cui racconta il suo lavoro in modo estremamente semplice e pratico, e soprattutto comprensibile anche per chi si sta iniziando a formare.

Il suo campo di specializzazione è l’audio, e non a caso si definisce un AI Audio Engineer: ma come diventarlo?

Oggi sarà proprio lui a raccontarcelo attraverso un’intervista che parla del suo lavoro e soprattutto dei progetti che sta portando avanti grazie alla sua community!

Descriviti in 100 parole.

Ciao! Sono un consulente che si occupa di AI applicata all’audio e ho scelto di lavorare in questo campo, in particolare la musica, perché ho studiato come pianista, direttore d’orchestra e compositore.

La musica è sempre stata la mia passione; in più, programmo da quando sono teenager e mettere insieme queste due passioni è stata l’evoluzione più naturale.

Ho seguito un percorso classico, studiando al conservatorio e poi ho preso un dottorato all’Università di Huddersfield in Intelligenza Artificiale applicata alla musica, studiando come la musica si evolve nella società (qui l’elenco delle pubblicazioni e dei talk).

In cosa consiste il ruolo di AI Audio Engineer?

Attualmente collaboro con delle aziende per attività di ricerca o di definizione di strategie su progetti che prevedano l’utilizzo di tecniche di AI in ambito multimediale.

Mi occupo anche di talent-sourcing: questa attività mi permette di mettere in contatto il giusto professionista con il giusto cliente e mettere a disposizione le sue competenze per portare avanti attività di diverso genere.

Questo tipo di ricerca la porto avanti grazie alla mia community!

Ma cosa fa una persona che lavora in questo campo?

Normalmente, ho a che fare con professionisti/e come ingegneri in music retrieval o in speech processing, o ancora generative music engineer. La realtà è che queste professioni in Italia non esistono, ma si tratta di ruoli molto specifici che vengono poi costruiti su misura delle specifiche esigenze!

All’interno di questo settore infatti, c’è perlopiù l’AI Sound Engineer, che può avere diverse competenze, come la music information retrieval: per fare un esempio, parliamo di chi fa sistemi di music recommandation o sistemi che possano estrarre il genere o il mood di una canzone.

Altro compito da non sottovalutare è la Environmental Sound Classification, o ancora di chi si occupa di separare le voci di un pezzo, chi lavora con la_speech recognition, text-to-speech__, voice verification_ e via dicendo -si tratta di tutti task analitici-.

Sapevi che diverse banche stanno valutando o hanno adottato dei biomarkers basati sul riconoscimento vocale per gestire i propri conti?

Qual è la soft skill più importante che deve possedere un AI Audio Engineer?

Senza ombra di dubbio, avere un approccio interdisciplinare: ti devi sedere al tavolo con l’idea che quello che stai facendo è più di un semplice applicare il machine learning.

Devi capire come funziona il suono e come funziona la musica, perché capire come funziona il dominio con cui stai lavorando ti dà un vantaggio enorme.

Canale slack con 4000 persone per supporto su audio e musica in tema AI: OpenSource research è un progetto nato e durato un anno e mezzo per pubblicare un paper in ambito generazione del suono e hanno implementato un sintetizzatore che usa una NN per generare suoni di chitarra. Sfrutta un’interfaccia audio che permette all’utente di generare un suono i.e. suono di chitarra distorta. Ha richiesto moltissimo lavoro di ricerca sul suono a cui ci hanno lavorato più di 100 persone ed è tutto open source, organizzato in 5 gruppi di ricerca. => https://thesoundofaiosr.github.io/

La maggior parte di noi utilizza i social per parlare dei propri successi, ma la realtà è che siamo quel che siamo grazie al 90% dei nostri errori. Racconta il tuo più grande fallimento da quando lavori nel settore, che però ti ha reso ciò che sei.

Uno abbastanza rilevante è quando avevo una startup chiamata Melodrive, per cui avevano sviluppato musica per videogames in tempo reale. Le aspettative erano altissime, ma non è andata come sperava; 3-4 anni investiti, sono stati in Silicon Valley, ma la cosa non ha funzionato e hanno venduto e da lì è iniziato il percorso di consulenza.

Stare troppo appresso all’idea di alzare soldi piuttosto che concentrarsi sul prodotto fino in fondo, e quindi anche sul R&D invece sul business. Soluzione più facile e veloce piuttosto che rivolgersi verso la soluzione più complessa. Il mercato forse non era neanche pronto (inerzia nel mercato) e anche l’idea di andare troppo dritti invece di spendere risorse su cose che non erano quelle più importanti. Grande lezione di vita.

Come fare per diventare un AI Audio Engineer?

Oltre a quanto detto prima, studiare l’audio signal processing e il music processing, poi si può parlare di machine learning e deep learning.

Non bisogna dare per scontato che è necessaria tantissima applicazione sulla materia, leggere paper e pubblicazioni e provare anche a reimplementare i prototipi proposti nei paper.

Le soluzioni con cui lavoro utilizzano perlopiù tecnologie come Python o C++ (quest’ultimo viene scelto spesso per questioni di performance) e sfruttando librerie come Tensorflow, e in seconda battuta anche PyTorch, Librosa, Essentia per l’audio.

In ultimo, frequentare gli esperti del settore attraverso gli eventi, come ad esempio ISMIR (una conferenza top nel settore del music processing) o Interspeech e seguire anche i giornali come Journal of Creative Music Systems o Transactions of Music Retrieval.

Parlando di successi, qual è il tuo prossimo obiettivo? Quale ruolo vorresti ricoprire entro i prossimi 3 anni?

Mi piacerebbe far crescere la mia community e continuare con attività che coinvolgano tutti i membri che ne fanno parte per avere un involvement della stessa. In passato ho lavorato con diverse startup, e chissà in futuro! ;)

Conosci il tema gender gap in ambito STEM? Se sì, come fare per superarlo?

Parliamo di un problema ENORME.

Conosco il tema e vorrei studiarlo in maniera più approfondita; da una parte, mi dico che nel 2022 non è possibile ci sia ancora questo gap; dall’altra, vedo i dati e mi rendo conto che in paesi considerati socialmente più “avanzati”, ti aspetteresti che questi problemi siano meno presenti.

La realtà è che si tratta di fardelli evoluzionisti che, come il razzismo, ci portiamo dietro da troppo tempo: vale la pena farsi delle domande e quali battaglie è possibile vincere.

Il problema c’è, inutile negarlo, e sicuramente è legato alla società e alla cultura, ma dove arriva l’evoluzione? Le differenze che ci sono tra i generi è innegabile, ma non hanno nessun valore.

Facciamo un esempio: la disparità enorme tra uomini e donne nel settore degli scacchi esiste: perché? 98% dei giocatori sono uomini, e per questo ci sono più top players; non perché ci sia una reale differenza, ma perché c’è una mancanza di eterogeneità.

Ti dirò di più: spesso si parla di molte giocatrici che in questo settore dimostrano una maggiore intelligenza spaziale e emozionale, campi in cui i due si diversificano moltissimo (qui i dati).

L’empowerment passa attraverso la conoscenza: studiare è la chiave.

Nella mia community all’inizio c’era una platea composta dal 95% maschi, mentre attualmente siamo intorno all'85%; questo non perché non ci siano esperte del settore, ma perché di natura tendiamo a seguire ruoli simili.

Creare dei role models femminili che infondano coraggio e consapevolezza.

Ho una visione miope probabilmente, ma io vedo persone e non generi o etichette.

Io ho sempre fatto una battaglia dell’evitare i discorsi relativi allo status quo. All’interno della community, anche con i diversi progetti che portiamo avanti, non ci sono mai stati problemi: le persone vengono da tutto il mondo, e lavorano insieme in sinergia per una mission comune.

Contatti

Post correlati

Partners

Community, aziende e persone che supportano attivamente il blog

Logo di Codemotion
Logo di GrUSP
Logo di Python Milano
Logo di Schrodinger Hat
Logo di Python Biella Group
Logo di Fuzzy Brains
Logo di Django Girls
Logo di Improove
Logo del libro open source
Logo di NgRome
Logo de La Locanda del Tech
Logo di Tomorrow Devs
Logo di Coderful

Non perderti gli ultimi aggiornamenti, iscriviti a TheRedCode Digest!

La tecnologia corre, e tu devi correre più veloce per rimanere sempre sul pezzo! 🚀

Riceverai una volta al mese (o anche meno) con codici sconto per partecipare agli eventi del settore, quiz per vincere dei gadget e i recap degli articoli più interessanti pubblicati sul blog

Ci sto!

#TheRedComics

Edizione di Ottobre

A cura di Sophie Aiello, copy di Chiara Romano

Fumetto di agosto di Sophie Aiello

Vuoi diventare #tech content creator? 🖊️

Se vuoi raccontare la tua sul mondo #tech con dei post a tema o vuoi condividere la tua esperienza con la community, sei nel posto giusto! 😉

Manda una mail a collaborazioni[at]theredcode.it con la tua proposta e diventa la prossima penna del blog!

Ma sì, facciamolo!