Mochi 1 AI video generator za darmo

Mochi 1 AI video generator za darmo do pobrania na komputer oraz dostępne online do przetestowania. Mochi 1 to otwartoźródłowy model generowania wideo oparty na sztucznej inteligencji, opracowany przez Genmo AI, firmę zajmującą się badaniami nad AI z siedzibą w San Francisco. Został wprowadzony 22 października 2024 roku jako „podgląd badawczy” i jest uznawany za przełomowy krok w dziedzinie generatywnej AI, ustanawiając nowy standard dla otwartoźródłowych modeli wideo (SOTA – State of the Art). Działa pod licencją Apache 2.0, co pozwala na bezpłatne użytkowanie zarówno w celach osobistych, jak i komercyjnych, a także umożliwia społeczności dostosowywanie i rozwijanie modelu.

Kluczowe cechy:

  1. Architektura:
    • Posiada 10 miliardów parametrów, co czyni go największym otwartoźródłowym modelem wideo w historii.
    • Wykorzystuje Asymmetric Diffusion Transformer (AsymmDiT), innowacyjną architekturę, która efektywnie łączy przetwarzanie tekstu i wizualizacji, z większym naciskiem na wizualne rozumowanie (strumień wizualny ma niemal 4 razy więcej parametrów niż tekstowy).
    • Wspiera się na AsymmVAE, asymetrycznym koderze-dekoderze, który kompresuje wideo 128-krotnie (8×8 przestrzennie i 6x czasowo), zachowując wysoką jakość.
  2. Wydajność:
    • Generuje 5,4-sekundowe klipy wideo w rozdzielczości 480p przy 30 FPS, z płynnym, realistycznym ruchem i doskonałą zgodnością z promptami tekstowymi.
    • Specjalizuje się w fotorealistycznych stylach, symulując fizykę świata rzeczywistego (np. dynamika płynów, ruch włosów), choć nie radzi sobie dobrze z animacjami.
    • Wstępne oceny wskazują, że przewyższa inne otwartoźródłowe modele, a nawet konkuruje z zamkniętymi systemami, jak Runway czy Pika, pod względem jakości ruchu i wierności promptom.
  3. Wymagania sprzętowe:
    • Do uruchomienia lokalnego wymaga co najmniej 4 GPU H100 (ok. 60 GB VRAM w konfiguracji jednoprocesorowej), choć społeczność zoptymalizowała go do działania na mniej niż 20 GB VRAM (np. RTX 4090) za pomocą narzędzi jak ComfyUI.
    • Fine-tuning modelu jest możliwy na jednym GPU H100/A100 80 GB dzięki trainerowi LoRA, co pozwala dostosować Mochi 1 do własnych klipów wideo.

Dostępność:

  • Kod i wagi: Dostępne na GitHubie (genmoai/mochi) oraz Hugging Face (genmo/mochi-1-preview).
  • Playground: Można przetestować za darmo na genmo.ai/play bez potrzeby instalacji.
  • Chmura: Platformy jak fal.ai czy RunPod oferują dostęp na wynajętych GPU.

Mochi 1

Zastosowania:

Mochi 1 jest wszechstronny – od tworzenia treści na media społecznościowe, przez prototypowanie scen filmowych, po edukacyjne wizualizacje i rozwój gier. Przykładowe prompty, jak „astronauta idący po Marsie z czerwonym pyłem unoszącym się w powietrzu” czy „kamera śledząca motocykl na pustyni”, pokazują jego zdolność do generowania dynamicznych, szczegółowych scen.

Ograniczenia i przyszłość:

  • Aktualne ograniczenia: Rozdzielczość 480p, drobne zniekształcenia przy ekstremalnym ruchu, brak wsparcia dla animacji.
  • Plany: Genmo zapowiada Mochi 1 HD (720p), funkcje obraz-do-wideo oraz lepszą kontrolę nad generowaniem, co ma pojawić się w przyszłych aktualizacjach.

Mochi 1 wyróżnia się szybkością (np. generowanie 5 sekund wideo w 4 sekundy na H100), dostępnością i potencjałem społecznościowym, co czyni go przełomowym narzędziem w demokratyzacji tworzenia wideo AI.

Oficjalna strona https://mochi1ai.com/