2022 był przełomowy dla AI

Rzeczy, które wydarzyły się w tym roku w AI:
1. Generatory obrazów, text-to-image - zaczęło się od Dalle-2, ale najpopularniejszym projektem dla developerów zostało open-sourcowe Stable Diffusion.
2. ChatGPT, text-to-text - projekt od OpenAI, który dzięki konwersacyjnemu interfacowi i darmowemu dostępowi stał się hitem.
3. Lensa AI - pierwszy masowy hit wykorzystania Stable Diffusion do generowania avatarów. Prosty pomysł, który eksplorowało wielu ale najlepiej wyszedł Prisma Lab, którzy od dawna sprzedają appkę do poprawiania selfie i mieli najlepiej ogarniętą dystrybucję.
4. DreamBooth - metoda strojenia Stable Diffusion. Dzięki DreamBooth możliwe było stworzenie appek generujących avatary. Strojenie pozwala na osiąganie specyficznego stylu danej instancji SD. Na przykład Lexica Aperture generuje fotorealistyczne obrazy.
5. Optymalizacja Stable Diffusion pod Core ML na procesorach Apple - dzięki temu Stable Diffusion działa “bliżej metalu” na procesorach Apple i lepiej wykorzystuje ich możliwości, czyli działa szybciej na lokalnej maszynie (np macbooku z M2). To ważne bo generowanie obrazów wymaga dużo mocy procesora i zwykle firmy wybierały generowanie ich w chmurze. Dzięki takim optymalizacją generowanie może odbywać się lokalnie, daje więc większą prywatność i istotnie wpływa na koszt.
6. Make-a-video, text-to-video - pierwsze przymiarki do generowania video. Narazie jakość nie jest powalająca ale spodziewam się, że w przyszłym roku w text-to-video radykalnie się poprawi i spopularyzuje.
7. DreamFusion - text-to-3d - metoda generowania obiektów 3D
8. Whisper - rozpoznawanie mowy w języku angielskim, które działa lepiej niż Siri
9. Riffusion - text-to-music - ciekawy projekt, którego autorzy dostroili Stable Diffusion w oparciu o sonogramy piosenek, dzięki temu mogą generować muzykę z promptów, tworząc wizualną reprezentację dźwięku i konwertując ją na dźwięk do odtwarzania. Projekt jest ciekawy bo pokazuje, że Stable Diffusion to nie tylko generowanie obrazów ale można go kreatywnie używać w inny sposób.
10. Prompt Engineer - nowe stanowisko pracy, człowiek, który pisze prompty do GPT-3 lub jakiegoś generatora obrazu, żeby osiągnąć zamierzone efekty.
11. Reverse Prompt Engineering - nowa aktywność dla nerdów takich jak ja. Zabawa w odkrywanie jak dana firma zaimplementowała daną funkcję integrując się z GPT-3.
Działo się więcej, projektów jest więcej, ale lista pokazuje jak przełomowy był to rok.
AI to już nie tylko naukowe projekty, których nikt nie rozumie, albo budowanie botów do grania w kolejne gry planszowe, które mimo że imponujące są jednak nudne.
AI w 2022 to pobudzające wyobraźnie, twórcze projekty i pierwsze udane produkty.
W 2023 chciałbym więcej produktów.
Żeby ekosystem dobrze się rozwijał potrzebujemy masy eksperymentów produktowych. Możliwości już dziś są duże, a produktów, które je monetyzują jest jeszcze mało.
Od strony technologii szczególnie liczę na wszystko co open source, bo to pozwoli zmniejszać koszty eksperymentów, więc wygeneruje więcej innowacji.
Cieszy mnie też trochę fakt, że trudniej dziś o inwestycje i przejęcia. Czuję, że na tym etapie powstawania rynku potrzebne jest budowanie produktów i szybki darwinowska selekcja naturalna niskokosztowych projektów. Pompa i konsolidacja mogłaby go usztywnić. Timing tej fali AI wydaje się bardzo dobry.

Kuba Filipowski

2022 był przełomowy dla AI /December 29, 2022 by Kuba Filipowski