Il fermento intorno all’intelligenza artificiale generativa ha raggiunto ormai un livello febbrile.

Con AI generativa si fa riferimento a quelle tecnologie che generano in modo automatico contenuti completamente nuovi: linee di codice, immagini o anche discorsi in grado di replicare il linguaggio umano.

In questi giorni, le prime pagine degli organi di informazione sono state occupate da applicazioni come ChatGPT, un chatbot che ha raggiunto più di un milione di utenti in meno di una settimana dopo il suo rilascio alla fine del 2022. Al di là dei titoli sensazionalistici, un’ondata di startup è già entrata nel mercato e sta rapidamente espandendo i casi d’uso dell’AI generativa, abbracciando un ventaglio di soluzioni piuttosto ampio, dai motori di ricerca all’animazione, dalla iper-personalizzazione dei contenuti alla motion capture.

Quello che colpisce è come la maggior parte di queste startup abbia finora ricevuto pochi o nessun finanziamento dal settore del Venture Capital, a indicazione del fatto che per gli investitori c’è ancora una grande opportunità di entrare in anticipo in questo verticale potenzialmente trasformativo. Si prevede un crescente numero di investimenti nelle aziende di AI generativa, anche verso quelle realtà che potrebbero non avere già in casa un management di livello o il giusto piglio imprenditoriale, dal momento che i Venture Capital hanno la sensazione che in questo settore possano nascere i prossimi unicorni delle tecnologie emergenti.

L’anno 2023 potrebbe essere un nuovo anno zero per il settore dell’AI generativa.

Dopo averne per certi versi avuto paura e in parte snobbato la reale applicabilità, ponendo l’accento unicamente sugli svantaggi e sulla fallibilità (ha fatto scalpore in questi giorni l’errore commesso da BARD il Chatbot di AI di Google con le notizie relative alle foto del primo pianeta extrasolare scattata dal telescopio James Webb), il mondo si sta rendendo finalmente conto dei punti di forza e delle molteplici possibilità dell’intelligenza artificiale anche nel campo delle comunicazione.

Tra le principali tendenze nell’ambito della AI generativa, un capitolo importante è occupato dalla cosiddetta “Audio Generation”. Con il progredire della sintesi vocale, per l’orecchio umano diventerà praticamente impossibile distinguere tra voci autentiche e sintetiche. Per migliorare l’esperienza dei clienti, si lavorerà per migliorare sistemi IVR (risponditori digitali) e dei riconoscimenti vocali, utilizzando modelli linguistici di grandi dimensioni per l’elaborazione del linguaggio naturale e della sintesi vocale.

Nel settore dei contenuti vocali sintetici, laddove il contenuto audio non sia ridotto ai classici risponditori vocali dei chatbot commerciali ma voglia simulare realmente la conversazione umana, il problema principale risiede nel fatto che i contenuti vocali “espressivi” vengono solitamente acquisiti con attori reali in uno studio di registrazione, coinvolgendo il lavoro di molti altri professionisti quali ingegneri del suono, direttori vocali e produttori.

In modo simile, il processo di doppiaggio di contenuti audio in altre lingue richiede un numero maggiore di attori e professionisti da tutto il mondo, con sessioni di casting e di registrazione spesso interminabili. Questo approccio tradizionale è dispendioso in termini di tempo e denaro e limita la diffusione di contenuti vocali espressivi prodotti e localizzati per diverse applicazioni come videogiochi, serie TV, documentari, audiolibri e pubblicità, contenuti che non hanno a disposizione i budget milionari riservati ad esempio per le grandi produzioni cinematografiche holliwoodiane.

In un tale contesto, nel 2020 è nata una giovane startup milanese di nome Voiseed. Grazie a un innovativo sistema TTS (text-to-speech) espressivo, Voiseed si propone di dare voce ai contenuti non doppiati, che oggi sono solo tradotti e sottotitolati: la necessità arriva da tutti quegli editori che vorrebbero vedere trasformati i propri contenuti in contenuti audio ma che non possono permettersi  un approccio tradizionale per vincoli di tempo e di costi. Entrambi fattori cruciali nell’era della comunicazione “real time”.

Il servizio Voiseed, unico nel suo genere, è fornito da un ambiente basato su cloud e ha selezionato come primo target di mercato l’industria dell’intrattenimento. Grazie alla tecnologia proprietaria di Voiseed (legata anche ad un brevetto in attesa di approvazione), in un prossimo futuro, editori, divulgatori digitali, pubblicitari e studi di registrazione potranno accelerare drasticamente i tempi di consegna e ridurre i costi per il doppiaggio e la produzione di contenuti vocali espressivi, ampliando in modo significativo la portata della loro offerta globale in termini di lingue e progetti, anche in uno scenario diventato ancora più difficile nell’era della post-pandemia.

A riconoscimento della validità della tecnologia, già nel 2021 Voiseed ha ottenuto un sostegno finanziario misto dall’EIC Accelerator (uno schema di finanziamento nell’ambito del programma Horizon Europe) pari a circa 2milioni di euro, di cui più della metà sotto forma di Grant antidiluitivo. Il programma può essere visto come un vero e proprio attestato di validazione tecnologica dal momento che il tasso di conversione tra domanda e vincitori è minimo. Dal primo bando lanciato nel marzo 2021, oltre 4000 imprese hanno presentato proposte complete per l’Accelerator dell’EIC e in occasione dell’ultimo cut-off di ottobre 2022 sono state ricevute 1092 candidature totali, di cui solo 75 sono arrivate a ricevere un finanziamento. Dalla nascita un numero ristrettissimo di società di nazionalità italiana ha raggiunto questo traguardo, a conferma della difficoltà del percorso.

Per quanto riguarda le applicazioni della tecnologia, i settori del doppiaggio e della localizzazione dei giochi sono i primi due mercati a cui si rivolge Voiseed. Questi due obiettivi di mercato da soli, con le dimensioni attuali, costituiscono mercati da svariati miliardi di dollari. Occorre comunque tenere presente che il vero potenziale di questa tecnologia è rappresentato anche dalla distorsione e dall’adozione che potrebbe portare per ampliare e creare mercati nuovi.

Oggi, solo le grandi produzioni di giochi e film possono permettersi di localizzare e doppiare i loro contenuti ma con i servizi avanzati che Voiseed (e alcuni concorrenti) offriranno, qualsiasi produzione sarà in grado di distribuire i propri contenuti in ogni lingua, liberando il potenziale di un vero pubblico globale.

Il panorama delle M&A nell’ambito della intelligenza artificiale è sicuramente molto attivo. Volendo prendere il solo esempio di Spotify, il colosso svedese ha recentemente allargato ancora una volta i propri orizzonti acquistando Sonantic, una piattaforma londinese specializzata in intelligenza artificiale applicata alla voce (che si occupa di pura clonazione di una voce nota e non della creazione di una voce sintetica nuova sganciata dall’originale come nel caso di Voiseed). Dopo l’acquisizione a fine 2021 della società di distribuzione di audiolibri Findaway e la dichiarata intenzione di puntare sempre di più sui contenuti vocali, Spotify va nella direzione di diventare la piattaforma di riferimento per tutti i contenuti audio

Nello spazio della sintesi vocale e della tecnologia text to speech, Voiseed ha l’ambizione di sconvolgere l’attuale stato dell’arte. Il team, concentrato su AI e apprendimento automatico applicati al settore vocale, può contare anche sulla solida esperienza del suo Management, come dimostra il recente passato di Andrea Ballista, CEO e Co-founder, già fondatore della società Binari Sonori, acquisita da Keywords e con una lunga esperienza nel settore della registrazione audio anche grazie al precedente ruolo di Global Audio Director in Keywords.