Microsoft annuncia il modello AI VASA-1 per trasformare le immagini in video

Table of Contents

Microsoft ha recentemente presentato il suo nuovo modello AI VASA-1, progettato per generare volti parlanti realistici per personaggi virtuali con accattivanti abilità visive-affettive. Il framework VASA-1 può creare brevi video con dinamiche realistiche del viso e della testa, sincronizzando i movimenti delle labbra con l’audio e catturando un ampio spettro di sfumature facciali e movimenti naturali della testa.

Secondo Microsoft, il modello VASA-1 può generare video fino a un minuto utilizzando una singola immagine statica e un clip audio vocale. Il modello offre inoltre agli utenti un controllo granulare per regolare diversi aspetti del video, come la direzione dello sguardo dell’occhio principale, la distanza della testa e gli offset delle emozioni. I controlli sull’aspetto districato, sulla posa della testa 3D e sulle dinamiche facciali consentono agli utenti di modificare l’output in un modo migliore.

Il modello AI VASA-1 supporta la generazione online di video 512 x 512 fino a 40 fps con una latenza iniziale trascurabile. Il modello mostra la capacità di gestire input di foto e audio che non rientrano nella distribuzione della formazione, come foto artistiche, audio di canto e discorsi non inglesi. Questi tipi di dati non erano presenti nel training set.

Microsoft ha sottolineato la sua intenzione di utilizzare la tecnologia VASA-1 per creare personaggi virtuali realistici piuttosto che rilasciarla come prodotto o API autonomo. La società ha annunciato che VASA-1 non sarà disponibile al pubblico e non è previsto il rilascio di una demo online, API o ulteriori dettagli di implementazione relativi a VASA. Questa decisione deriva dall’impegno di Microsoft verso pratiche etiche di intelligenza artificiale e dalla sua opposizione a qualsiasi utilizzo di questa tecnologia per fuorviare o ingannare.

Affrontando le preoccupazioni sul potenziale uso improprio, Microsoft ha chiarito la sua posizione secondo cui la sua ricerca si concentra su applicazioni positive per la generazione di abilità visuo-affettive per avatar virtuali di intelligenza artificiale. Anche se il loro metodo potrebbe essere potenzialmente utilizzato in modo improprio per scopi di furto d’identità, si impegnano a far avanzare le tecniche di rilevamento della contraffazione per mitigare tali rischi.

In conclusione, il modello di intelligenza artificiale VASA-1 di Microsoft rappresenta una svolta nell’intelligenza artificiale generativa in grado di creare volti parlanti realistici per personaggi virtuali con capacità visive-affettive accattivanti. Anche se la tecnologia non è disponibile al pubblico, ha un grande potenziale per la creazione di personaggi virtuali realistici per varie applicazioni.

Risorse: https://www.microsoft.com/en-us/research/project/vasa-1/