Transformer do akcji czyli Siri na sterydach / by Kuba Filipowski

  1. Jedną z bardziej ekscytujących idei na którą trafiłem ostatnio jest transformer do akcji.

  2. GPT to skrót od “generative pre-trained transformer”. Transformer to fundament dzisiejszego giga trendu AI.

  3. Transformer to pomysł inżynierów z Google, którzy opisali go już w 2017 roku w publikacji o słynnym już tytule “Attention Is All You Need”. To transformer pozwolił na stworzenie dużych modeli językowych i umożliwił powstanie dynamicznej fali innowacji generatywnego AI.

  4. Okazało się, że jeśli nakarmimy transformer dużą (cały internet, wszystkie książki itd) ilością danych to dostajemy narzędzie, które może pisać racjonalnie brzmiący tekst, logicznie wnioskować, tworzyć podsumowania, pisać kod i parsować dokumenty.

  5. Co by się stało jeśli model typu GPT nakarmiłoby się nie tylko tekstem, ale również zapisem kliknięć w myszkę, pozycją kursora na ekranie, kliknięciami w klawisze i informacjami, które pojawiają się na ekranie?

  6. Jeśli transformer zapełnimy ogromną ilością danych na temat tego jak ludzie używają komputerów, to powinniśmy móc otrzymać w efekcie program komputerowy, który potrafi obsługiwać wszystkie programy komputerowe. Siri na sterydach.

  7. Tak podobno działa ACT-1.

  8. Transformer do akcji to pomysł firmy Adept, której jednym z założycieli jest Ashish Vaswani, jeden z autorów “Attention Is All You Need”, czyli jeden “ojców założycieli” dużych modeli językowych.

  9. Twórcy ACT-1 pokazują na stronie przykłady użycia tej technologii:

    1. Użytkownik wpisuje prompt: znajdź mi mieszkanie dla 4 osobowej rodziny w cenie 600k. ACT-1 klika po ekranie, wpisuje zapytanie do wyszukiwarki, nakłada filtry i wyświetla odpowiedni wynik.

    2. Użytkownik wpisuje prompt: dodaj lead imię nazwisko firma. ACT-1 klika po Salesforce i dodaje leada.

    3. Użytkownik wpisuje prompt: dodaj kolumnę profit i profit margin do Google Sheet. ACT-1 dodaje, rozumie co to profit i jaką formułę użyć, żeby go poprawnie policzyć w danym arkuszu, rozumie kontekst arkusza i dodaje odpowiednie kolumny.

    4. Użytkownik wpisuje prompt: znajdź lodówkę poniżej $1k. ACT-1 znajduje na Craigslist lodówkę. Użytkownik wpisuje prompt: “napisz maila do sprzedającego czy mogę odebrać ją jutro”. ACT-1 klika wysyłanie maili, otwiera okno Gmaila i piszę maila.

  10. Wizja Adept to stworzenie uniwersalnego interfejsu do oprogramowania, który pozwala każdemu zostać power userem dowolnego oprogramowania.

  11. Bez czytania dokumentacji i szkoleń będzie można zrobić dowolną rzecz w dowolnym oprogramowaniu używając języka naturalnego.

  12. Taka przynajmniej jest wizja. Narazie nie można przetestować ACT-1, twórcy informują też, że wszystkie filmy na stronie zostały przyspieszone, żeby dało się je oglądać. ACT-1 muli.

  13. Można jednak założyć, że będą kolejne wersję. Adept ma masę pieniędzy od inwestorów i mądrych ludzi na pokładzie.

  14. Transformer do akcji jest nam potrzebny. Marzy mi się Siri, która potrafi robić coś przydatnego. ACT-1 daje nadzieję na taką przyszłość.