Jednym z ambitniejszych projektów nowej fali startupów wspieranych generatywnym AI jest Replit.
Replit to środowisko programistyczne (IDE) działające w przeglądarce i umożliwiające współpracę w czasie rzeczywistym nad kodem. Coś jak Google Docs dla programistów.
Replit jest świetnym produktem dla ludzi uczących się programować. Dzięki temu, że jest w przeglądarce i pozwala od razu uruchamiać napisany program na serwerze Replit, omija się cały etap konfiguracji i od razu można zacząć pisać kod.
W Replit wszystko co robimy jest publiczne, to sprawia, że możemy korzystać z projektów i kodu innych ludzi jako startu dla naszego projektu. Oczywiście na Githubie też jest masa gotowego open source kodu. Jednak w Replit brak konieczności konfiguracji bardzo ułatwia start zabawy w programowanie.
Jak uczyłem się HTMLa to moim głównym źródłem wiedzy była opcja “pokaż źródło”, która w tamtych czasach była dostępna w każdej przeglądarce. Podglądanie kodu napisanego przez innych i możliwość eksperymentowania z nim (“co się stanie jak to usunę?”) jest fundamentalne.
Siłą HTMLa jest to, że nic nie trzeba konfigurować, żeby wyświetlić stronę. Przeglądarka po prostu ją renderuje.
W przypadku języków programowania typu Python trzeba trochę poczytać i popracować, żeby uruchomić cokolwiek. Replit redukuje ten problem do kliknięcia.
Pod koniec października 2022 Replit dodał funkcję Ghostwriter, czyli narzędzie AI do uzupełniania, tworzenia, transformowania i wyjaśniania kodu.
Ghostwriter jest podobny do Githubowego Copilota z tą różnicą, że Copilot działa w oparciu o API OpenAI Codex, a Ghostwriter to autorski model Replit, którzy działa na ich serwerze, nad którym mają pełną kontrolę.
OpenAI Codex to płatne API, Github wydał Copilota zanim to API było dostępne w prywatnej becie dla klientów OpenAI. Github to spółka Microsoftu, a Microsoft ma specjalna relację z OpenAI.
Znalazłem rozmowę w której CEO Replit tłumaczy w jaki sposób zbudowali Ghostwriter. W skrócie:
Chcieli kontrolować doświadczenie użytkownika: szybkość działania i jakość wyników.
Chcieli też mieć możliwość poprawiania modelu w oparciu o feedback użytkowników. To sprawiło, że nie zdecydowali się na API OpenAI.
Znaleźli open sourcowy projekt Codegen od Salesforce, który stał się fundamentem pierwszej wersji Ghostwritera.
Do tego Ghostwriter korzysta z projektu FasterTransformer i Triton Inference Server (oba projekty to open source od NVIDIA)
Przez dwa tygodnie pracowali nad przyspieszeniem działania Codegen, dostrajaniem go i znalezieniem sposobu na poprawianie modelu w locie, w oparciu o feedback użytkowników.
Wydali pierwszą wersję, użytkownicy byli entuzjastyczni, stworzyli więc swoją własną wersję modelu i wytrenowali go od podstaw.
Dlaczego to jest ciekawe?
Replit to relatywnie mała firma, zatrudnia 100 osób. Ma dużo pieniędzy i wysoką wycenę, ale jest to dużo mniejsza firma niż OpenAI, Github i oczywiście Microsoft.
Wybrali drogę tworzenia swojego własnego modelu bo chcieli kontrolować doświadczenie użytkownika. Prawdopodobnie chcieli też być niezależni od decyzji biznesowych OpenAI i kosztów, które OpenAI dyktuje.
Droga, którą wybrali, czyli tworzenia własnego modelu, brzmi jak trudna droga, ale przebyli ją w czasie dwóch tygodni. Dzięki open source.
Ghostwriter ma więcej możliwości niż Copilot. Copilot uzupełnia kod i generuje kod w oparciu o język naturalny, Ghostwriter dodatkowo potrafi wyjaśnić kod (czyli tłumaczy naturalnym językiem co dany kod robi) i przepisywać kod (sugeruje jak osiągnąć ten sam efekt w bardziej elegancki sposób).
Ghostwriter powstał jako wewnętrzny projekt Replit bo mógł. Korzysta z open source jako fundamentu, bo wiele firm publikuje swoje modele jako open source i jest z czego wybierać. Ma też swoje własne dane, które dodatkowo “uszlachetniają” finalny produkt.
Wydaje się, że to słuszna decyzja zarówno technologiczna, produktowa jak i biznesowa. Niezależność od OpenAI to fosa produktowa, która zwiększa wartość Replit.
Replit to inspiracja jak można tworzyć zaawansowane projekty AI. Szybko przetestować koncept, wykorzystać open source i unikalne zbiory danych by poprawić działanie modelu, kontrolować całe doświadczenie użytkownika.
Myślę, że wielu CEO startupów wybierze ten kierunek. Może początkowo przetestują koncept w oparciu o płatne API OpenAI, ale jak tylko uzyskają potwierdzenie od rynku, że dany kierunek ma sens to zaczną tworzyć swoje własne IP w oparciu o open source.