Ci sono mille ragioni per odiare le videocall con i colleghi, e tra queste ragioni ci mettiamo anche i problemi di compressione video che a volte possono rendere il nostro viso completamente irriconoscibile. Nvidia ha una potenziale soluzione al problema, ma invece di correggere gli algoritmi di compressione, vuole utilizzare le reti neurali per fornire una “creazione digitale” del volto in tempo reale.
Come per tutti i video in streaming su Internet, da YouTube a Netflix, gli algoritmi di compressione vengono utilizzati per ridurre la quantità di larghezza di banda necessaria in modo che le videochiamate avvengano sempre in tempo reale indipendentemente dalla velocità del provider di servizi Internet dell’utente. Questi algoritmi utilizzano molti trucchi, dalla riduzione della fedeltà dei colori, alla perdita di fotogrammi e alla loro reinterpolazione in un secondo momento, fino a ridurre anche la risoluzione del video, che è ciò che spesso fa sembrare come se si stesse utilizzando una webcam di fine anni ’90. Gli algoritmi di compressione video miglioreranno lentamente nel tempo, offrendo una migliore qualità con file di dimensioni inferiori, tuttavia Nvidia ha dimostrato una soluzione che offre notevoli miglioramenti da subito.
Non è un segreto che gli strumenti di elaborazione video alimentati dalla rete neurale siano ora in grado di compiere imprese impressionanti che, fino a poco tempo fa, avrebbero richiesto le capacità di un talentuoso artista degli effetti visivi. Oltre a convincenti scambi di volti, questi strumenti sono anche in grado di migliorare immagini fisse e video, generare visualizzazioni da diverse angolazioni o creare filmati completamente originali di una persona che fa o dice qualcosa, i famosi deep fake. Ci sono buone ragioni per essere preoccupati per gli usi nefandi di questi strumenti, ma altrettanti motivi per essere entusiasti delle loro potenziali applicazioni utili.
Nvidia pensa quindi di utilizzare questa nuova applicazione di compressione video AI. Invece di inviare un flusso di video su Internet a 15 o 30 fotogrammi al secondo, invia solo un numero inferiore di fotogrammi da intervalli di tempo specifici, noti come fotogrammi chiave. Guardare solo questi fotogrammi chiave riprodotti dall’altra parte sembrerebbe una presentazione interrotta, quindi il sistema analizza, estrae e condivide anche i dati sulla posizione e il movimento di punti specifici sul viso del soggetto, che è un rivolo di dati al confronto. Sul lato ricevente, una rete neurale alimentata da una scheda grafica capace utilizza quei dati di punto per generare fotogrammi aggiuntivi tra i fotogrammi chiave, risultando in video full-motion con una riproduzione fluida e senza artefatti visivi comunemente associati a sovra-compressione video.
Non solo i risultati sul ricevitore sembrano migliori, i ricercatori di Nvidia stimano anche che la larghezza di banda necessaria per lo streaming video utilizzando la compressione video AI potrebbe essere ridotta a meno di un decimo della larghezza di banda necessaria invece per i video compressi con standard popolari come H.264. Significa potenzialmente che anche se doveste accedere a una videochiamata sul vostro smartphone con una ricezione irregolare, sareste comunque ben visibili, come se foste seduti in ufficio con una connessione veloce e affidabile, non intaccando il vostro limite di larghezza di banda mensile.
Fonte Fastweb.it