Open source AI vs OpenAI / by Kuba Filipowski

  1. Zaczynają się pojawiać produkty oparte o generowanie treści. Mam silne przeświadczenie, że użycie Stable Diffusion jako silnika, będzie kilka rzędów wielkości większe niż reszty. Głównie z powodu tego, że SD to open source.

  2. Modeli dyfuzyjnych jest kilka, każdy produkuje dobrej jakości rezultaty. Wszystkie mają API. W porównaniu do Midjurney czy Dall-e jakość generowanych obrazów w Stable Diffusion jest gorsza. To jednak Stable Diffusion stoi za sukcesem Lensa AI, najpopularniejszej appki do generowania avatarów.

  3. Powód jest prosty SD - jest open source. Mogę je ściągnąć, dostroić, wrzucić na swój serwer lub odpalić na własnym komputerze i nie płacić za każdy API call. Koszty CPU i GPU potrzebnego do generowania avatarów, przy skali lensy i tak są pewnie duże.

  4. Komercyjne użycie obrazu wygenerowanego w Midjurney kosztuje $600. To super dla Midjurney ale niekoniecznie dla użytkowników. Pewnie istnieją inne licencje i można się dogadać na inne ceny, ale to właśnie jest kluczowe w przewadze SD - nie trzeba się dogadywać, nie trzeba płacić, żeby się pobawić i pokombinować, można swobodnie tworzyć i szukać zastosowań dla tej technologii.

    1. I ludzie to robią.

  5. Szybko powstała masa stron, na których można generować swoje obrazy w SD, każda ma trochę inne podejście do cen i użycia, jeśli się chce, to można całymi dniami siedzieć i generować obrazy za darmo.

  6. Powstała również darmowa appka na iPhone / iPad, która pozwala generować obrazy w SD, która działa lokalnie na urządzeniu. Nie jest to może najpiękniejsza appka świata ale jest darmowa, demonstruje możliwości SD i działa lokalnie. Czyli koszt wygenerowania obrazu wynosi 0 zł jeśli masz iPhona.

    1. Co ciekawe Apple wypuściło specjalne optymalizacje dla Stable Diffusion do Core ML, które już są wydane w iOS 16.2 i macOS 13.1.

  7. To lokalne wykorzystanie SD jest bardzo ciekawe. Midjurney używa ponad 10 000 GPU, żeby odsłużyć generowanie obrazów dla swoich użytkowników. Średni koszt GPU od nvidia to około $600, czyli koszt samego procesora, który Midjurney potrzebuje by obsłużyć użytkowników to około $6M USD. Jeśli generowanie obrazu odbywałoby się po stronie klienta to ten koszt spada do zera.

    1. Zrobienie softu, który działa na lokalnej maszynie i ma możliwości standardowego SD plus rozszerzenia z różnego rodzaju strojeniem, jest możliwe. Już dziś można to zrobić, brakuje jednak ładnego interfacu użytkownika.

    2. Będzie można zrobić alternatywę dla Midjurney, z podobną jakością obrazów, z podobnym stylem uzyskanym przez strojenie, która działa lokalnie.

    3. Może od razu jako plugin do Photoshopa. Coś jak to.

  8. Wczoraj pisałem o OpenAI ich wzroście wartości. Myślę, że OpenAI to świetna firma, której wkład w obecną rewolucję AI trudno przecenić.  Mam poczucie, że ich biznes model sprawi, że ich technologie nie będą fundamentem i platformą dla większości projektów. Myślę, że niebawem pojawi się open sourcowy large language models, który może będzie nieco gorszy od GPT-3 lub GPT-4 ale będzie za darmo i wygra.

  9. OpenAI ma duże finansowanie i dużych partnerów z których największym jest Microsoft. Ale to tylko jedna firma. Jeśli powstanie open sourcowy LLM to będzie konkurowała z tysiącami niezależnych developerów (których wspierać będą inne duże firmy, takie jak Apple).

  10. Techniki i IP, które stoi za sukcesem ChatGPT są znane. Nawet jeśli OpenAI nie opublikuje opracowania na temat tego jak działa ChatGPT  to ta wiedza krąży. Ludzie, którzy pracują w OpenAI ją mają, istnieją inne duże modele językowe, między innymi w DeepMind i Google. Sekretny sos nie będzie długo sekretem.

  11. Przykład SD pokazuje, że open source “wygrywa masą”. Dall-E od OpenAI jest fajne, ale cały świat używa do swoich projektów darmowego i nieco gorszego SD.

  12. Trwają już prace nad open source wersją dużego modelu językowego InstructGPT. W projekt zaangażowane jest Stability.ai, które stoi za Stable Diffusion.

  13. Myślę, że projekt typu InstructGPT, czyli open souce, darmowy duży model językowy, będzie ważniejszym milestonem w rozwoju AI niż GPT-4.