Mochi 1 AI video generator za darmo do pobrania na komputer oraz dostępne online do przetestowania. Mochi 1 to otwartoźródłowy model generowania wideo oparty na sztucznej inteligencji, opracowany przez Genmo AI, firmę zajmującą się badaniami nad AI z siedzibą w San Francisco. Został wprowadzony 22 października 2024 roku jako „podgląd badawczy” i jest uznawany za przełomowy krok w dziedzinie generatywnej AI, ustanawiając nowy standard dla otwartoźródłowych modeli wideo (SOTA – State of the Art). Działa pod licencją Apache 2.0, co pozwala na bezpłatne użytkowanie zarówno w celach osobistych, jak i komercyjnych, a także umożliwia społeczności dostosowywanie i rozwijanie modelu.
Kluczowe cechy:
- Architektura:
- Posiada 10 miliardów parametrów, co czyni go największym otwartoźródłowym modelem wideo w historii.
- Wykorzystuje Asymmetric Diffusion Transformer (AsymmDiT), innowacyjną architekturę, która efektywnie łączy przetwarzanie tekstu i wizualizacji, z większym naciskiem na wizualne rozumowanie (strumień wizualny ma niemal 4 razy więcej parametrów niż tekstowy).
- Wspiera się na AsymmVAE, asymetrycznym koderze-dekoderze, który kompresuje wideo 128-krotnie (8×8 przestrzennie i 6x czasowo), zachowując wysoką jakość.
- Wydajność:
- Generuje 5,4-sekundowe klipy wideo w rozdzielczości 480p przy 30 FPS, z płynnym, realistycznym ruchem i doskonałą zgodnością z promptami tekstowymi.
- Specjalizuje się w fotorealistycznych stylach, symulując fizykę świata rzeczywistego (np. dynamika płynów, ruch włosów), choć nie radzi sobie dobrze z animacjami.
- Wstępne oceny wskazują, że przewyższa inne otwartoźródłowe modele, a nawet konkuruje z zamkniętymi systemami, jak Runway czy Pika, pod względem jakości ruchu i wierności promptom.
- Wymagania sprzętowe:
- Do uruchomienia lokalnego wymaga co najmniej 4 GPU H100 (ok. 60 GB VRAM w konfiguracji jednoprocesorowej), choć społeczność zoptymalizowała go do działania na mniej niż 20 GB VRAM (np. RTX 4090) za pomocą narzędzi jak ComfyUI.
- Fine-tuning modelu jest możliwy na jednym GPU H100/A100 80 GB dzięki trainerowi LoRA, co pozwala dostosować Mochi 1 do własnych klipów wideo.
Dostępność:
- Kod i wagi: Dostępne na GitHubie (genmoai/mochi) oraz Hugging Face (genmo/mochi-1-preview).
- Playground: Można przetestować za darmo na genmo.ai/play bez potrzeby instalacji.
- Chmura: Platformy jak fal.ai czy RunPod oferują dostęp na wynajętych GPU.
Mochi 1
Zastosowania:
Mochi 1 jest wszechstronny – od tworzenia treści na media społecznościowe, przez prototypowanie scen filmowych, po edukacyjne wizualizacje i rozwój gier. Przykładowe prompty, jak „astronauta idący po Marsie z czerwonym pyłem unoszącym się w powietrzu” czy „kamera śledząca motocykl na pustyni”, pokazują jego zdolność do generowania dynamicznych, szczegółowych scen.
Ograniczenia i przyszłość:
- Aktualne ograniczenia: Rozdzielczość 480p, drobne zniekształcenia przy ekstremalnym ruchu, brak wsparcia dla animacji.
- Plany: Genmo zapowiada Mochi 1 HD (720p), funkcje obraz-do-wideo oraz lepszą kontrolę nad generowaniem, co ma pojawić się w przyszłych aktualizacjach.
Mochi 1 wyróżnia się szybkością (np. generowanie 5 sekund wideo w 4 sekundy na H100), dostępnością i potencjałem społecznościowym, co czyni go przełomowym narzędziem w demokratyzacji tworzenia wideo AI.
Oficjalna strona https://mochi1ai.com/