Wgrywasz do AI zdjęcie swojego pradziadka i ten po przetworzeniu zaczyna się ruszać, tańczyć i śpiewać.
Znaczna część wysiłków inżynierów rozwijających sztuczną inteligencję dotyczy przetwarzania obrazów, dźwięków i filmów. Tak samo ich kreacji. I właśnie nastąpił w tym obszarze kolejny przełom.
Sztuczna inteligencja OmniHuman firmy ByteDance, tej samej, do której należy TikTok, jest w stanie zamienić niemal każde zdjęcie człowieka, w film, w którym on występuje. Mówi, gestykuluje, chodzi, tańczy a nawet śpiewa. Po prostu szok.
Poprzednie modele AI, które robiły takie rzeczy, raczej radziły sobie z animację części ludzkie postaci – od pasa w górę, albo samej twarzy. Widać też często było, że ich „animacja” nie jest doskonała. Rozwiązanie OmniHuman jest bliskiem ideałowi – ludzie ze zdjęć zaczynają wyglądać na filmach stworzonych przez AI jakby naprawdę zostali sfilmowani…
Zresztą popatrzcie sobie na ten film.
Albo zobaczcie jeszcze ten.
Aby osiągnąć ten efekt potrzeba było blisko 19 tys. godzin trenowania sztucznej inteligencji. Inżynierowie z ByteDance twierdzą, że rewelacyjny wynik tego treningu wynika z innowacyjnego podejścia. AI uczono nie tylko na bazie samych materiałów wideo, ale również sięgano po materiały tekstowe i dźwięk.
W sumie powstało narzędzie, które po „drobnych” pracach rozwojowych może zmienić wszystko. Skoro OmniHuman ożywia fotografię, to kolejne wersje tej AI i rozwiązań konkurencyjnych będą mogły stworzyć dla nas np. dowolny film lub reklamę po „wgraniu” scenariusza.
Stworzą też prawdziwe jak nigdy polityczne deepfejki….
Foto: ByteDance.