NVIDIA udostępnia za darmo Audio2Face. Skorzystają twórcy gier

25 września 2025przeczytasz w 2 min.

NVIDIA udostępnia w otwartym kodzie modele Audio2Face i narzędzia do animacji twarzy sterowanych mową. Twórcy gier, aplikacji 3D i systemów obsługi klienta mogą je trenować, personalizować i integrować w swoich projektach.

NVIDIA ogłosiła udostępnienie modeli Audio2Face jako open source wraz z kompletnym zestawem narzędzi programistycznych (SDK). Jednocześnie firma otworzyła platformę treningową Audio2Face, umożliwiającą dostrajanie modeli do specyficznych zastosowań.

Audio2Face to zestaw modeli sztucznej inteligencji generatywnej, które umożliwiają tworzenie animacji twarzy zsynchronizowanych z mową. Algorytmy analizują akustyczne cechy nagrania audio, takie jak fonemy i intonacja, a następnie generują strumień danych animacji odwzorowujących mimikę i ruch warg.

Dane animacyjne mogą być renderowane offline w ramach przygotowanych wcześniej sekwencji lub używane w czasie rzeczywistym do animowania postaci sterowanych przez AI. Warto zobaczyć prezentację poniżej.

Obejrzyj w

Rozwiązanie znajduje zastosowanie w grach wideo, produkcjach medialnych i systemach obsługi klienta. Z technologii korzystają już m.in. Codemasters, GSC Games World, NetEase, Perfect World Games oraz firmy tworzące narzędzia, takie jak Convai, Inworld AI, Reallusion, Streamlabs i UneeQ.

Otwartoźródłowe komponenty

Udostępnienie Audio2Face w formie open source oznacza, że społeczność deweloperów zyskuje dostęp do kodu, który można rozwijać i modyfikować. Dzięki temu narzędzia mogą być adaptowane do różnych środowisk produkcyjnych i poszerzane o dodatkowe funkcje.

W ramach projektu dostępne są:

Audio2Face SDK – biblioteki i dokumentacja do uruchamiania animacji lokalnie i w chmurze.
Wtyczka do Autodesk Maya (v2.0) – umożliwia przesyłanie audio i odbieranie animacji twarzy bezpośrednio w Maya.
Wtyczka do Unreal Engine 5 (v2.5) – obsługuje wersje UE 5.5 i 5.6, pozwala integrować animacje w czasie rzeczywistym.
Framework treningowy Audio2Face (v1.0) – narzędzie do tworzenia modeli na podstawie własnych zbiorów danych.
Przykładowe dane treningowe – zestaw startowy do testowania i nauki modeli.
Modele Audio2Face – regresyjne (v2.2) oraz dyfuzyjne (v3.0) do generowania ruchu warg.
Modele Audio2Emotion – produkcyjne (v2.2) i eksperymentalne (v3.0) do wnioskowania o emocjach na podstawie sygnału audio.

NVIDIA kieruje narzędzia do twórców gier, aplikacji 3D oraz systemów interakcji głosowej. Dokumentacja i kod źródłowy są dostępne w repozytoriach otwartego oprogramowania oraz w ramach platformy NVIDIA ACE for Games.

Przeczytaj także:

Otwartoźródłowe komponenty

Komentarze

Witaj!