Open source AI vs OpenAI — Kuba Filipowski

Zaczynają się pojawiać produkty oparte o generowanie treści. Mam silne przeświadczenie, że użycie Stable Diffusion jako silnika, będzie kilka rzędów wielkości większe niż reszty. Głównie z powodu tego, że SD to open source.
Modeli dyfuzyjnych jest kilka, każdy produkuje dobrej jakości rezultaty. Wszystkie mają API. W porównaniu do Midjurney czy Dall-e jakość generowanych obrazów w Stable Diffusion jest gorsza. To jednak Stable Diffusion stoi za sukcesem Lensa AI, najpopularniejszej appki do generowania avatarów.
Powód jest prosty SD - jest open source. Mogę je ściągnąć, dostroić, wrzucić na swój serwer lub odpalić na własnym komputerze i nie płacić za każdy API call. Koszty CPU i GPU potrzebnego do generowania avatarów, przy skali lensy i tak są pewnie duże.
Komercyjne użycie obrazu wygenerowanego w Midjurney kosztuje $600. To super dla Midjurney ale niekoniecznie dla użytkowników. Pewnie istnieją inne licencje i można się dogadać na inne ceny, ale to właśnie jest kluczowe w przewadze SD - nie trzeba się dogadywać, nie trzeba płacić, żeby się pobawić i pokombinować, można swobodnie tworzyć i szukać zastosowań dla tej technologii.

Szybko powstała masa stron, na których można generować swoje obrazy w SD, każda ma trochę inne podejście do cen i użycia, jeśli się chce, to można całymi dniami siedzieć i generować obrazy za darmo.
Powstała również darmowa appka na iPhone / iPad, która pozwala generować obrazy w SD, która działa lokalnie na urządzeniu. Nie jest to może najpiękniejsza appka świata ale jest darmowa, demonstruje możliwości SD i działa lokalnie. Czyli koszt wygenerowania obrazu wynosi 0 zł jeśli masz iPhona.

Co ciekawe Apple wypuściło specjalne optymalizacje dla Stable Diffusion do Core ML, które już są wydane w iOS 16.2 i macOS 13.1.

To lokalne wykorzystanie SD jest bardzo ciekawe. Midjurney używa ponad 10 000 GPU, żeby odsłużyć generowanie obrazów dla swoich użytkowników. Średni koszt GPU od nvidia to około $600, czyli koszt samego procesora, który Midjurney potrzebuje by obsłużyć użytkowników to około $6M USD. Jeśli generowanie obrazu odbywałoby się po stronie klienta to ten koszt spada do zera.

Zrobienie softu, który działa na lokalnej maszynie i ma możliwości standardowego SD plus rozszerzenia z różnego rodzaju strojeniem, jest możliwe. Już dziś można to zrobić, brakuje jednak ładnego interfacu użytkownika.
Będzie można zrobić alternatywę dla Midjurney, z podobną jakością obrazów, z podobnym stylem uzyskanym przez strojenie, która działa lokalnie.
Może od razu jako plugin do Photoshopa. Coś jak to.

Wczoraj pisałem o OpenAI ich wzroście wartości. Myślę, że OpenAI to świetna firma, której wkład w obecną rewolucję AI trudno przecenić. Mam poczucie, że ich biznes model sprawi, że ich technologie nie będą fundamentem i platformą dla większości projektów. Myślę, że niebawem pojawi się open sourcowy large language models, który może będzie nieco gorszy od GPT-3 lub GPT-4 ale będzie za darmo i wygra.
OpenAI ma duże finansowanie i dużych partnerów z których największym jest Microsoft. Ale to tylko jedna firma. Jeśli powstanie open sourcowy LLM to będzie konkurowała z tysiącami niezależnych developerów (których wspierać będą inne duże firmy, takie jak Apple).
Techniki i IP, które stoi za sukcesem ChatGPT są znane. Nawet jeśli OpenAI nie opublikuje opracowania na temat tego jak działa ChatGPT to ta wiedza krąży. Ludzie, którzy pracują w OpenAI ją mają, istnieją inne duże modele językowe, między innymi w DeepMind i Google. Sekretny sos nie będzie długo sekretem.
Przykład SD pokazuje, że open source “wygrywa masą”. Dall-E od OpenAI jest fajne, ale cały świat używa do swoich projektów darmowego i nieco gorszego SD.
Trwają już prace nad open source wersją dużego modelu językowego InstructGPT. W projekt zaangażowane jest Stability.ai, które stoi za Stable Diffusion.
Myślę, że projekt typu InstructGPT, czyli open souce, darmowy duży model językowy, będzie ważniejszym milestonem w rozwoju AI niż GPT-4.

Open source AI vs OpenAI /December 28, 2022 by Kuba Filipowski