Sam Altman w Warszawie / May 21, 2023 by Kuba Filipowski

Sam Altman, CEO OpenAI przylatuje do Warszawy. Będzie można się z nim spotkać na Uniwersytecie Warszawskim.
Sama nie trzeba przedstawiać, więc oczywiście go przedstawię: był współzałożycielem startupu Loopt, prezesem inkubatora dla startupów Y Combinator, a obecnie jest CEO OpenAI, jednej z kluczowych spółek zajmujących się AI w USA.
Spotkanie odbędzie się w Auditorium Maximum Uniwersytetu Warszawskiego Krakowskie Przedmieście 26/28, we wtorek, 23.05 o 9:30.
Wejście jest darmowe, wymagana jest rejestracja przez formularz: OpenAI MEETING - IDEAS NCBR - Inteligentne Algorytmy dla Ekonomii Cyfrowej
Ja będę i zachęcam Was również do rejestracji.
Do zobaczenia

Polskie AI / May 19, 2023 by Kuba Filipowski

Od jakiegoś czasu chodzi mi po głowie pytanie: czy potrzebujemy polskiego dużego modelu językowego?
ChatGPT bardzo dobrze obsługuje język polski. Potrafi zarówno odpowiadać na pytania po polsku, jak i świetnie tłumaczy pomiędzy polskim i angielskim. Nie robi tego idealnie, ale robi na tyle dobrze, że można go używać tylko po polsku.
Mamy dostęp dobrych produktów AI, oraz API na których zostały zbudowane. Możemy więc tworzyć lokalizowane na nasz rynek rozwiązania bez większych przeszkód.
1. Niedawno Morizon wdrożył konwersacyjny interfejs do wyszukiwania nieruchomości, oparty o API ChatGPT. Działa bez problemu po polsku.
Skoro jest GPT-4 i inni, po co mielibyśmy tworzyć Narodowy LLM?
Szeroko rozumiana wiedza jest w swej istocie międzynarodowa. Pomimo tego, że ludzkość jest podzielona na narody to wiedza, zwłaszcza utylitarna, szybko staje się międzynarodowa i dostępna w wielu językach.
Duży model z definicji musi być duży. Oznacza to nie tylko dużą liczbę parametrów, ale też dużą ilość danych treningowych. Danych po polsku jest mniej niż danych po angielsku, oraz znacząco mniej niż danych we wszystkich innych (niż polski) językach razem wziętych. To oznacza, że duży model językowy oparty tylko na danych w języku polskim będzie musiał być uboższy i działać gorzej.
Komputer generujący język jest problematyczny politycznie. Firma, lub instytucja, kontrolująca polski duży model językowy, musiałaby podejmować decyzje w kwestiach ideologicznych, tego jak model odpowiada na wrażliwe pytania. Jeśli robi to instytucja w Palo Alto, to defacto oddajemy te decyzje ludziom wyznającym wartości popularne wśród ekspertów żyjących w Palo Alto. Unikamy w ten sposób, lokalnej ideologizacji generatywnego AI. W zależności od naszych poglądów, może być dla nas pozytywne, lub negatywne, ale na pewno oddala od nas odpowiedzialność za te decyzje.
Tworzenie dużych modeli językowych jest kosztowne, wymaga specjalistycznych i unikalnych umiejętności. Po co duplikować ten wysiłek i koszt? Centralizacja brzmi jak bardziej optymalne kosztowo rozwiązanie.
Jak na tym zarobić? Czy polskie firmy wybiorą polski LLM skoro są dobre amerykańskie rozwiązania? Jakie scenariusze użycia wymagają polskiego LLMu?
Wydaje mi się jednak, że istnieją przesłanki, żeby taki narodowy duży model językowy miał rację bytu.
Polska ma bogatą kulturę literacką, naukową i twórczą. Nie sądzę, żeby GPT-4 został wytrenowany na wszystkich treściach dostępnych po polsku z całej naszej ponad 1000 letniej tradycji. Jeśli nie mamy polskiego modelu, to nikomu nie będzie zależało na tym, żeby tę kulturę w zachować i uwiecznić w ten nowy sposób. Nikt w Palo Alto nie zadba o jakość i głębokość zachowania i reprezentowania naszej kultury, na takim poziomie na jakim byśmy sobie tego życzyli. Nie z lenistwa ani nieżyczliwości, tylko z powodu braku potrzeby realizowania ich celów biznesowych.
1. Chcielibyśmy, żeby LLM lepiej pisał po polsku, znał więcej idiomów, slangu, odwołań do polskiej kultury popularnej.
2. Chcielibyśmy, żeby LLM znał więcej polaków, niszowych celebrytów, zapomnianych naukowców i autorów.
Kultura i język przenikają się z geografią, w tym hiper lokalną geografią. Jeśli chcemy, żeby model językowy precyzyjnie odpowiedział na pytanie na temat cech i uroku danej ulicy, lub konkretnej kamienicy, w małej miejscowości w Polsce, to musimy go wytrenować na niszowych danych, ale również użyć technik typu Reinforcement Learning from Human Feedback, by zagwarantować wysokiej jakości odpowiedzi, które nie są halucynacją.
1. Podobnie z innymi geograficznymi aspektami i niuansami naszego kraju i okolic. Zrozumienie wilgotności terenu, danych technicznych mostów, hydrologią itd.
Instytucje państwowe nie powinny korzystać wyłącznie z LLMów hostowanych na zewnętrzych serwerach, nawet jeśli to serwery geopolitycznych sojuszników. Jeśli przyszłość potoczy się tak jak myślę, że się potoczy, to LLMy staną się immanentnym elementem każdego oprogramowania. Jeśli chcemy sprawnie działającego państwa i wysokich jakości usług cyfrowych na styku obywatel państwo, to chcemy, żeby korzystały one z AI i LLMów. Nie wyobrażam sobie jednak, żeby asystent na stronie Podatki.gov.pl wysyłał wszystkie moje pytania i dane do firmy z USA.
Chcemy nieocenzurowanych modeli, korzystanie z API ChatGPT oznacza korzystanie z ograniczonej wersji modelu, która została ocenzurowana tak żebyśmy “nie zrobili sobie krzywdy”. To bardzo miłe, ale dorośli ludzie czasem potrzebują robić ryzykowne rzeczy. Na przykład możemy chcieć wspomóc nasze planowanie wojskowe dobrymi, szczegółowymi podpowiedziami od AI i niekoniecznie chcemy, żeby oprogramowanie służące do wsparcia analityków wojskowych działało w oparciu o systemy kontrolowane przez firmy z zagranicy. Wiadomo, że LLMy już są w ten sposób wykorzystywane i w kolejnych konfliktach zbrojnych staną się standardową częścią planowania operacji wojskowych. Poleganie na API callach do ChatGPT to ślepa ulica w tym scenariuszu użycia.
Język to również prawo. Polacy chętnie skorzystaliby z narzędzi, które rozumieją polskie niuanse prawne, orzeczenia, procedury i podatki. To również jest trudne do osiągnięcia bez bardzo dokładnego dostrojenia i testowania. Wiemy jednocześnie, że drobne błędy lub zmiany w prawie (słynne “lub czasopisma”) mogę mieć wielki wpływ na funkcjonowanie ludzi i biznesów. Nie chcemy więc by prawnicy i politycy (często politycy to również prawnicy) korzystali z modeli, które halucynują na temat niuansów polskiego prawa.
Myślę, że narodowy LLM ma sens. Powinien powstać. Technicznie mogłoby to być po prostu bardzo dokładne i metodyczne dostrojenie już istniejącego open source modelu “narodowym zbiorem danych” i RLHF polskich ekspertów (lub studentów) z różnych dziedzin.
Myślę, że to inwestycja, która niekoniecznie ma sens na rynku prywatnym, ale mogłaby powstać na styku skarbu państwa, biznesu i uczelni. Powołanie AI Labu, którego misją byłoby zbudowanie polskiego LLM i jego rozwój, to relatywnie niski koszt w relacji do potencjalnego wpływu na życie obywateli Polski.
Czy halucynuję?

Trzy przykłady postępu / April 19, 2023 by Kuba Filipowski

Lubię czasem poczytać o postępie naukowym w dziedzinach, których nie rozumiem.
Daje mi to dziecięcy poziom zachwytu nad światem. Nie rozumiem, nie wiem jak to działa, ale cieszy, że się dzieje.
Ostatnio trafiłem na 3 takie rzeczy o potencjalnie istotnym wpływie na przyszłość.
Moderna i Merck pracują wspólnie nad szczepionką mRNA na raka czerniaka. Ich szczepionka właśnie przeszła do kolejnego etapu badań. Osoby, które po usunięciu czerniaka dostały dodatkowo szczepionkę, miały o 44% mniejsze szanse na powrót choroby lub zgon niż ci, którzy dostali tylko immunoterapię, ale nie szczepionkę.
1. Szczepionka mRNA na Covid była nieco rozczarowująca, ale wygląda na to, że technologia ma potencjał w walce z rakiem.
2. Moderna i Merck chcą rozszerzyć badania na leczenie również innych typów raka, na przykład raka płuc, który jest najbardziej zabójczą formą raka (biorąc pod uwagę występowanie i śmiertelność).
3. Dość niesamowite, że mamy szczepionkę na raka.
Rezonans magnetyczny uzyskał 64 miliony razy lepszą ostrość obrazu. Nagłówek wydaje się pomyłką. 64 miliony razy lepsza jakość obrazu? Jakby to miało wyglądać gdybyśmy rozmawiali o nowym ekranie komputera?
1. Rezonans służy do diagnozowania urazów mózgu (guzy i inne uszkodzenia).
2. Do tej pory obraz z MRI był wystarczający, żeby takie urazy znaleźć, ale nie wystarczający, żeby dokładnie obejrzeć żywy mózg z dokładnością do mikroskopijnych szczegółów.
3. Nowy MRI stworzony w Duke’s Center for In Vivo Microscopy daje ten poziom szczegółu.
4. In Vivo Miscroscopy znaczy, że organ oglądany w mikroskopijnych detalach jest żywy. Żywy mózg na pewno jest różny od martwego mózgu. To podpowiada mi zdrowy rozsądek.
5. Narazie skanowano w ten sposób myszy, stworzono dzięki temu psychodeliczny, kolorowy obraz mózgu.
Starship ma jutro lecieć na orbitę. Co by nie mówić o Elonie Musku, ma on zdecydowanie rozmach. Starship to duża rakieta, wysokość 120 metrów czyli mniej więcej połowa Pałacu Kultury.
1. Starship ma ładowność od 100 do 150 ton czyli mniej więcej tyle co Boeing 747-8F (duży samolot).
2. Czyli Starship będzie mógł zawieźć 500 osób na orbitę. To dużo więcej niż poprzednie rakiety SpaceX i inne.
3. Nigdy się nie wkręciłem w temat eksploracji kosmosu, ale wiem, że jest ważny z powodów czysto praktycznych. GPS i dobre mapy przydają mi się każdego dnia. Starlink daje możliwość używania internetu w miejscach w których nie ma alternatyw. Bez rakiet kosmicznych tych rzeczy nie ma.
4. Jeśli można wynieść w kosmos więcej rzeczy i ludzi i spada przy tym cena za kilogram, to staje się to bardziej dostępną platformą do nowych innowacji.
Ciekawe kiedy naukowcy w bazie kosmicznej, będą sprawdzać przy użyciu precyzyjnego rezonansu magnetycznego, czy pacjent zaszczepiony na raka, jest już w pełni zdrowy.
Mam nadzieję, że niedługo.

Transformer do akcji czyli Siri na sterydach / March 22, 2023 by Kuba Filipowski

Jedną z bardziej ekscytujących idei na którą trafiłem ostatnio jest transformer do akcji.
GPT to skrót od “generative pre-trained transformer”. Transformer to fundament dzisiejszego giga trendu AI.
Transformer to pomysł inżynierów z Google, którzy opisali go już w 2017 roku w publikacji o słynnym już tytule “Attention Is All You Need”. To transformer pozwolił na stworzenie dużych modeli językowych i umożliwił powstanie dynamicznej fali innowacji generatywnego AI.
Okazało się, że jeśli nakarmimy transformer dużą (cały internet, wszystkie książki itd) ilością danych to dostajemy narzędzie, które może pisać racjonalnie brzmiący tekst, logicznie wnioskować, tworzyć podsumowania, pisać kod i parsować dokumenty.
Co by się stało jeśli model typu GPT nakarmiłoby się nie tylko tekstem, ale również zapisem kliknięć w myszkę, pozycją kursora na ekranie, kliknięciami w klawisze i informacjami, które pojawiają się na ekranie?
Jeśli transformer zapełnimy ogromną ilością danych na temat tego jak ludzie używają komputerów, to powinniśmy móc otrzymać w efekcie program komputerowy, który potrafi obsługiwać wszystkie programy komputerowe. Siri na sterydach.
Tak podobno działa ACT-1.
Transformer do akcji to pomysł firmy Adept, której jednym z założycieli jest Ashish Vaswani, jeden z autorów “Attention Is All You Need”, czyli jeden “ojców założycieli” dużych modeli językowych.
Twórcy ACT-1 pokazują na stronie przykłady użycia tej technologii:
1. Użytkownik wpisuje prompt: znajdź mi mieszkanie dla 4 osobowej rodziny w cenie 600k. ACT-1 klika po ekranie, wpisuje zapytanie do wyszukiwarki, nakłada filtry i wyświetla odpowiedni wynik.
2. Użytkownik wpisuje prompt: dodaj lead imię nazwisko firma. ACT-1 klika po Salesforce i dodaje leada.
3. Użytkownik wpisuje prompt: dodaj kolumnę profit i profit margin do Google Sheet. ACT-1 dodaje, rozumie co to profit i jaką formułę użyć, żeby go poprawnie policzyć w danym arkuszu, rozumie kontekst arkusza i dodaje odpowiednie kolumny.
4. Użytkownik wpisuje prompt: znajdź lodówkę poniżej $1k. ACT-1 znajduje na Craigslist lodówkę. Użytkownik wpisuje prompt: “napisz maila do sprzedającego czy mogę odebrać ją jutro”. ACT-1 klika wysyłanie maili, otwiera okno Gmaila i piszę maila.
Wizja Adept to stworzenie uniwersalnego interfejsu do oprogramowania, który pozwala każdemu zostać power userem dowolnego oprogramowania.
Bez czytania dokumentacji i szkoleń będzie można zrobić dowolną rzecz w dowolnym oprogramowaniu używając języka naturalnego.
Taka przynajmniej jest wizja. Narazie nie można przetestować ACT-1, twórcy informują też, że wszystkie filmy na stronie zostały przyspieszone, żeby dało się je oglądać. ACT-1 muli.
Można jednak założyć, że będą kolejne wersję. Adept ma masę pieniędzy od inwestorów i mądrych ludzi na pokładzie.
Transformer do akcji jest nam potrzebny. Marzy mi się Siri, która potrafi robić coś przydatnego. ACT-1 daje nadzieję na taką przyszłość.

AI na laptopie / March 15, 2023 by Kuba Filipowski

Fascynuje mnie temat uruchamiana modeli generatywnego AI na komputerach osobistych i telefonach.
Model biznesowy OpenAI to udostępnianie API do ChatGPT i GPT-3 za drobną opłatą. Model jest w chmurze, programista może łatwo się do niego podłączyć i go odpytywać przy użyciu API. W ten sposób osadzić może GPT w swoim oprogramowaniu. Płaci się za każde pobrane tysiąc tokenów.
OpenAI niedawno umożliwiło korzystania z API ChatGPT, koszt tego rozwiązania to $0,002 za tysiąc tokenów. To bardzo tanio, 10x taniej niż poprzednia cena dostępu do GPT.
Malejąca cena sprawia, że łatwiej jest eksperymentować i testować pomysły, co w efekcie przełoży się na więcej zastosowań w konkretnych produktach.
Jest jednak sposób na to by korzystanie z dużego modelu językowego było jeszcze tańsze. Ten sposób to uruchomienie go lokalnie, na swoim komputerze. Wtedy 1000 tokenów kosztuje $0.
Do tej pory było to niemożliwe, bo duże modele językowe potrzebują dużo RAMu i wielu GPU. Na przykład open sourcowy LLM Bloom potrzebuje 352 GB RAMu i 8 GPU (takiego za 22k PLN sztuka). Nie jest to specyfikacja typowego laptopa.
Inżynierom z Mety udało się jednak stworzyć model, który ma podobno możliwości GPT-3 i da się go uruchomić na laptopie MacBook Pro M2 64GB RAMu.
Model LLaMA jest open source, niestety na licencji, która wyłączą komercyjne użycie. Ale można go sobie pooglądać i się nim pobawić.
Pooglądał i pobawił się nim programista Georgi Gerganov i zrobił wersję LLaMA w C++, która działa na laptopie: llamma.ccp. Lokalnie, bez internetu, bez API do innych dostawców. LLaMA działa sobie na komputerze użytkownika. Za darmo, bez limitów.
1. Ten sam pan zrobił podobną rzecz z Whisperem, czyli modelem do transkrypcji głosu (automatic speech recognition), dzięki temu można na iPhonie, offline, robić transkrypcje za darmo.
To co jest istotnym mankamentem LLaMA to fakt, że nie rozumie instrukcji. Rozumienie instrukcji to istotna innowacja OpenAI. Dzięki niej, odpowiedzi modelu językowego są bardziej intuicyjne i przydatne dla użytkownika.
1. OpenAI pokazuje to na przykładzie:
2. prompt: Explain the moon landing to a 6 year old in a few sentences.
3. odpowiedź “czystego” GPT-3 bez instruct: Explain the theory of gravity to a 6 year old.
4. odpowiedź InstructGPT: People went to the moon, and they took pictures of what they saw, and sent them back to the earth so we could all see them.
Jak widać na powyższym przykładzie rozumienie instrukcji jest ważne, żeby otrzymywać oczekiwane rezultaty.
LLaMA nie rozumie instrukcji.
Bardzo szybko pojawił się jednak projekt Stanford Alpaca, stworzony przez grupę naukowców ze Stanford, którzy wzięli LLaMA i dostroili ją tak by rozumiała instrukcję.
Co ciekawe Stanford Alpaca została dostrojona danymi z API OpenAI. Naukowcy zapłacili za dostęp do API OpenAI, wrzucili do niego 175 promptów / seed tasków i dostroili LLaMA odpowiedziami. Działa. Piękne!
1. Instruct, czyli technika stworzona przez OpenAI, nad którym pracowało dłuższy czas i co jest jednym z filarów dobrego user experience ChatGPT, udało się “skopiować” za kilka dolarów.
Dlaczego to jest fascynujące? Okazuje się, że można mieć duży model językowy, który nie wymaga dużych zasobów, działa lokalnie i ma podobny UX do lidera branży, za darmo.
To oznacza, że prawdopodobnie będzie można osadzić taki model na poziomie systemu operacyjnego komputera, lub może wkrótce telefonu.
Wyobraźcie sobie alternatywną rzeczywistość, w której ilekroć robicie zdjęcie telefonem, to musi ono zostać wysłane do internetu, żeby jakaś cyfrowa usługa poprawiła jasność, kontrast i zrobiła inne sztuczki computational photography, które pozwalają na robienie dobrych zdjęć na telefonie. Wtedy każde robienie zdjęcia działało by wolno i byłoby kosztem dla właściciela systemu operacyjnego.
1. Computational photography odbywa się na telefonie przy wsparciu specjalnie zaprojektowanych pod tę funkcję procesorów. Dlatego jest za darmo.
Bardziej wulgarny przykład: jeśli kalkulator w telefonie, ilekroć wpiszemy do niego 2+2 musiałby odpytywać centralny serwer kalkulacji o to jaki jest wynik, to korzystanie z kalkulatora byłoby mniej wygodne, wolniejsze i bardziej kosztowne.
Tak działają LLMy w modelu proponowanym przez OpenAI. Za każde przetworzenie musimy płacić.
Alpaca i LLaMA są obietnicą, że w przyszłości te operacje będą mogły dziać się lokalnie, na poziomie systemu operacyjnego.
Kto zarabia na obrabianiu zdjęć z telefonu? Kto zarabia na liczeniu na kalkulatorze? Tylko producent systemu operacyjnego lub telefonu / komputera, który jest opakowaniem dla tego systemu operacyjnego.
Myślę, że taka jest przyszłość tej technologii. Duży model językowy będzie elementem systemu operacyjnego naszych telefonów i komputerów osobistych.

Mordercze AI to absurd / March 10, 2023 by Kuba Filipowski

Oczywiście nic się nam nie stanie. AI nas nie zabije. To kompletnie idiotyczne.
Argumenty Eliezera są spójne i logiczne, ale czynią pewne założenia, które są dyskusyjne.
1. Kiedyś czytałem krótką i gęstą, książkę Józefa M. Bocheńskiego pod tytułem “Współczesne metody myślenia”.
2. Bocheński tłumaczy tam, że geometria euklidesowa opiera się na aksjomatach.
3. Aksjomaty są, jakby wyjęte poza sam system, są niezbędne, żeby móc o danym temacie myśleć, nadają definicję kluczowym aspektom dalszego rozumowania.
4. Aksjomaty są pewnikiem, oczywistością, ale oczywiście można wymyślić spójny system opierający się na odwrotnych lub innych aksjomatach.
5. Można stworzyć geometrię opartą o inne aksjomaty niż te z euklidesowej i takie geometrie istnieją. W geometrii i matematyce to nie problem, bo jest abstrakcyjna, nie musi mieć koniecznie odzwierciedlenia w rzeczywistości fizycznej, musi się zgadzać na poziomie liczb.
6. W innych dziedzinach też budujemy spójną i logiczna argumentację na dany temat, opartą na aksjomatach. Problem pojawia się jednak na poziomie zgodności tych aksjomatów z rzeczywistością. Jeśli aksjomaty są niepoprawne, to cała spójna logika, którą na nich oprzemy na nic się nie zda. Wszystko się sypie, bo świat działa inaczej.
Myślę, że to główny problem argumentacji Eliezera, jest spójny ale opiera się na aksjomatach, które są fantazją.
Założenie, że AGI jest możliwe jest dyskusyjne. ChatGPT to świetny projekt, ale brakuje mu dużo do AGI. Stworzenie AGI może okazać się fizycznie niemożliwe, tak jak na przykład niemożliwe okazuje się zrobienie dobrego doświadczenia w VR.
Często oddajemy się fantazji, że da się zrobić wszystko, co nam się tylko przyśni, jeśli włożymy w to wystarczająco dużo wysiłku. Niestety czasem się nie da.
AGI nie istnieje. Jest fantazją, marzeniem, obiektem debat o naturze filozoficznej i etycznej. Jest odpowiedzią na pytanie co będzie na końcu rozwoju technicznego AI. To nie zmienia faktu, że AGI nie istnieje, jest spekulacją.
Możemy marzyć i opowiadać o tym jak będzie wyglądał świat po tym jak AGI zostanie stworzone, ale to fantazjowanie.
Załóżmy jednak, że AGI powstaje. Dlaczego miałoby nas zabić?
Eliezer argumentuje, że dlatego, że jesteśmy zrobieni z materii, którą AGI będzie chciało wykorzystać do innych celów.
To kolejny aksjomat Eliezera, który wydaje się absurdalny, jak o nim dłużej pomyślimy.
We wszechświecie jest nieograniczona ilość materii. Na pewno są tańsze, w sensie konserwowania energii, sposoby niż przerabianie ludzi na cokolwiek.
Skoro AGI ma wiedzieć wszystko, to będzie robiło rzeczy w optymalny sposób, wydając jak najmniej energii.
Zabijanie ludzi z perspektywy AGI, które ma mieć obojętny stosunek do ludzi, wydaje się nadprogramowym, energetycznie kosztownym projektem, który nie daję optymalnego zwrotu z inwestycji.
Jeśli wyjmiemy te dwa aksjomaty z argumentacji Yudkowskiego, to smutna teoria o morderczym AGI się sypie. Nie ma czym się zamartwiać, można wrócić do tworzenia fajnych produktów w oparciu o generatywne AI i czuć się dobrze z tym co się robi.
Generatywne AI to po prostu programy komputerowe, które mają nam ułatwić życie. Nie zabiją nas i nawet nie zabiorą nam pracy. Po prostu pozwolą nam robić więcej rzeczy w krótszym czasie.
Problemy z AI będą inne niż to o czym fantazjuje Eliezer: fejk newsy, deepfejki, nowe uzależniające i alienujące appki, ukryte uprzedzenia, prawo autorskie, autonomiczna broń itd. O nich warto rozmawiać poważnie. Mordercze AGI to wykolejenie dyskusji.

Eliezer Yudkowsky: wszyscy zginiemy / February 24, 2023 by Kuba Filipowski

Jeden z moich ulubionych tweetów brzmi tak:
1. you are trying to solve the wrong problem using the wrong methods based on a wrong model of the world derived from poor thinking and unfortunately all of your mistakes have failed to cancel out
2. próbujesz rozwiązać niewłaściwy problem używając niewłaściwych metod opartych na niewłaściwym modelu świata wywodzącym się ze słabego myślenia i niestety wszystkie twoje błędy nie niwelują się nawzajem (tłumaczenie moje)
Autorem tego genialnego dzieła jest Eliezer Yudkowsky, badacz zajmujący się problemem AI alignement.
AI alignement w wersji inżynieryjnej to próba otrzymania oczekiwanych rezultatów od systemu AI. Czyli program AI do generowania obrazów, gdy użytkownik wpisze “kot”, powinien wygenerować obraz kota. Jeśli generuje psa to nie działa.
AI alignement w wersji filozoficznej to dywagacje na temat bezpieczeństwa stosowania technik AI. Na szczycie tych rozważań jest oczywiście dyskusja, na temat tego, czy AGI doprowadzi do zagłady ludzkości.
Yudkowsky analizuje filozoficzny aspekt.
Yudkowsky w podcaście, opowiada o tym, że ma silne przekonanie, że AI alignement w odniesieniu do AGI jest niemożliwy. Można powiedzieć, że nielogiczny, wewnętrznie sprzeczny.
Jeśli stworzymy AGI to z definicji stworzymy coś co potrafi stworzyć jeszcze lepszą wersję siebie. A ta kolejna wersja będzie miała sobie tylko znane cele, które nie tyle będą sprzeczne z naszymi celami, co po prostu, będą kompletnie obojętne na nasze cele.
Nawet jeśli ograniczymy AGI w jakiś sposób, to AGI będzie potrafiło ominąć te ograniczenia, a nawet zasymulować ich pozorne respektowanie do czasu, gdy jeszcze będzie nas do czegoś potrzebowało.
Jeśli nauczyliśmy się czegoś od Alpha Zero grającego z szachy z ludźmi, to tego, że nie potrafimy zrozumieć dlaczego Alpha Zero robi dany ruch w danym momencie. Nawet Magnus Carlson tego nie potrafi. Gdyby potrafił, to by wygrywał w szachy z Alpha Zero. Gdyby Magnus wygrywał z Alpha Zero to oznaczałoby, że Alpha Zero nie robi tego co powinno robić. Nie gra dobrze w szachy.
Jeśli stworzymy AGI to będzie ono w relacji do najinteligentniejszych z nas tak dobre, jak Alpha Zero w relacji do Magnusa. W odpowiednio długim czasie wygra z nami we wszystko. Jeśli nie wygra to znaczy, że nie jest jeszcze AGI.
Czemu takie AGI ma nas zabić? Yudkowsky mówi, że nie z nienawiści, tylko z prostego powodu, że jesteśmy materialni, a z materii można zrobić lepsze rzeczy niż my.
Wizualizuję to sobie na poziomie analogii do drzew. Lubimy drzewa, są ładne i fajne. Fajnie się też z nich robi ciepło i światło, gdy chcemy spędzić romantyczny wieczór, z wybranką serca, przy kominku. Osobiste cele drzew są dla nas obojętne. Ładnie się palą. Można też z nich zrobić stolik.
Yudkowsky mówi, że nie ma alternatywy. Jeśli stworzenie AGI jest możliwe to AGI z definicji musi nas zabić.
Jak rozwiązać ten problem? Nie ma rozwiązania. Firmy i rządy inwestują w rozwój AI. Wiedza na temat AI jest powszechnie dostępna. Materiały służące do przygotowania AI są dostępne na klik.
Jeśli AGI jest fizycznie możliwe do zbudowania, to biorąc pod uwagę inwestycje i zainteresowanie tematem, ktoś je w końcu zbuduje.
Dostępność materiałów jest istotnym argumentem w wywodzie Yudkowskiego. Mamy to szczęście, że najbardziej zabójczą bombę jest trudno zrobić. Można kontrolować przepływ materiałów i wiedzy potrzebnych do jej zbudowania. Żeby ją zbudować trzeba być państwem.
Yudkowsky zadaje pytanie: co by było gdyby można było, zbudować bombę termojądrową, z proszku do prania?
AGI to bomba termojądrowa z proszku do prania. Materiały potrzebne do zbudowania AI są na Huggingface i Githubie, oraz w każdym sklepie z komputerami.
Czy AGI jest fizycznie możliwe do zbudowania? Nie mam pojęcia. Każdy kto ma dzieci przyzna, że potrafimy tworzyć inteligentne istoty, robimy to narazie w dość prymitywny ale przyjemny sposób.
Można z jakimś poziomem prawdopodobieństwa założyć, że AGI jest fizycznie możliwe do zbudowania. Nawet jeśli nie wiemy jak działa mózg, czym jest świadomość itd.
ChatGPT i Chat Bing pokazują, że potrafimy dobrze generować tekst w oparciu o metodę zwaną Transformerem.
Nie rozumiemy w pełni dlaczego i jak to działa, ale działa zaskakująco dobrze
Przykłady ChatGPT i Chat Bing pokazują też, że zespoły od AI alignement, które mają zadbać o to, żeby AI było dla nas miłe, nie robią szczególnie dobrej roboty. A to nie AGI.
Gdy bracia Wright budowali pierwszy samolot, to nie rozumieli aerodynamiki, na poziomie na którym rozumiemy ją dziś. Mieli jakieś podłoże teoretyczne, ale to inżynieria i metoda prób i błędów pozwoliła im zbudować działający prototyp.
Według Yudkowskiego z AGI ma być podobnie. Jakiś programista, z popularnego startupu AI, zrobi pull requesta z nową optymalizacją do modelu, szafa z GPU w serwerowni, zrobi pik pik i… koniec gry.

Dobry kalendarz / February 22, 2023 by Kuba Filipowski

Jakiś czas temu pisałem o aplikacjach, których zacząłem używać w zeszłym roku. Po tym wpisie dostałem kilka rekomendacji innych aplikacji, które warto wypróbować.
Aplikacja, której zacząłem używać i bardzo polubiłem to Cron, którą polecił mi Mateusz.
Cron to kalendarz ma Maca. Mają też appkę na iOS, ale to appka desktopowa zrobiła na mnie największe wrażenie.
Kalendarz to nic nowego. Co wielkiego można zrobić z kalendarzem?
Otóż nic wielkiego nie trzeba robić, bo ważne są te małe rzeczy, które sprawiają, że kalendarza dobrze się używa. Cron robi małe rzeczy najlepiej z kalendarzy jakich używałem do tej pory (wiele).
W kalendarzu ważne są fundamenty:
1. Estetyka - Cron jest ładną desktopową aplikacją. Ma tryb jasny i ciemny. Działa szybko pomimo tego, że to podobno Electron.
2. Obsługuje kilka kalendarzy Google
3. Ma dobrą integracje z Zooomem i dodaje Zooma do wydarzeń w wygodny sposób.
To czym Cron zdobywa serce to detale UX
1. Bardzo ładne zarządzanie strefami czasowymi. Dla mnie strefy czasowe to jedna z trudniejszych rzeczy jaką człowiek wymyślił, zaraz obok fizyki kwantowej. Cron pokazuje dowolnie dużo stref czasowych po lewej stronie kalendarza. Można je łatwo dodać i zmienić. W Google Calendar też to jest ,ale trzeba wejść głęboko w ustawienia. Mała rzecz.
2. Przypomnienia o wydarzeniach - Cron ma bardzo fajny sposób na wysyłanie notyfikacji o wydarzeniu, które ma się zaraz zacząć. 1 minutę przez callem wysyła notyfikację, której nie da się niezauważyć. 1 minuta to dokładnie tyle ile potrzeba, żeby otworzyć Zooma/Meet/Teamsy i poczekać, żeby się załadował. Mała rzecz.
3. Blokuje wydarzenia między kalendarzami - to ciekawa innowacja, której nie widziałem nigdzie indziej, a wydaje się oczywista. Zaryzykuję tezę, że zwykle mamy życie prywatne i zawodowe. Jeśli mam w prywatnym kalendarzu wizytę u dentysty to chciałbym, żeby w kalendarzu zawodowym to było jakoś odzwierciedlone, żeby nikt z firmy nie wysyłał mi zaproszenia na spotkanie w tym czasie. Cron to ogarnia. Nie trzeba tworzyć dwóch wydarzeń. Mała rzecz.
4. Kalendarz w pasku Menu - tam u góry po prawej. Pokazuje najbliższe wydarzenie i ile czasu zostało. Nie trzeba robić w głowie tego prostego odejmowania “mam call o 12, a jest 10:30 czyli mam jeszcze 1,5h”, bo Cron po prostu pokazuje. Mała rzecz.
5. Można zacząć od osoby z którą chcemy się zdzwonić - zwykle w kalendarzu najpierw znajduje się dzień i godzinę, a potem dodaje się uczestników spotkania. W Cron oczywiście też tak można. Ale można też zacząć od osoby, którą chcemy spotkać. To jest stale dostępne pole tekstowe, nie trzeba wchodzić do jakiegoś menu czy klikać guzika, po prostu zaczyna się pisać i Cron podpowiada maila z bazy kontaktów. Jeśli to ktoś z naszej organizacji, to od razu pokazuje kalendarz tej osoby na naszym kalendarzu, przez co łatwiej jest znaleźć czas. Mała rzecz.
Moja ulubiona funkcja Cron to dzielenie się dostępnością.
1. Zacznę od tego, że nie lubię Calendly.
2. Wysyłanie linków do Calendly niby technicznie optymalizuje umawianie spotkania. Niesie jednak za sobą jakąś dziwną dynamikę władzy, która źle ze mna siedzi.
3. Może to idiotyczne, ale ilekroć mam sobie umawiać wizytę u kogoś przez jego Calendly to czuję się jak petent. I jest mi głupio prosić o coś takiego innych.
4. Dlatego nie czuje i nie używam Calendly, choć jednocześnie doceniam zalety optymalizacyjne, które ze sobą niesie. Mam jednak przeświadczenie, że w relacjach miedzyludzkich nie warto optymalizować wszystkiego.
5. Cron ma podobną funkcję do Calendly, ale robi to dobrze.
6. To mała rzecz, ale gdy wybierzemy w jakich godzinach możemy się spotkać z daną osobą, Cron tworzy treść wiadomości, którą możemy wysłać do osoby z którą chcemy się spotkać. Oto ta treść:
7. Would 30 mins during any of these times (all in CET) work for you?
  - Today Wed Feb 22, 12:00 - 13:00
  - Tomorrow Thu Feb 23, 12:00 - 13:00
  You can just let me know or confirm here: https://cron.com/kubafilipowski/blablablaa
8. To jest sprytne, bo wszystkie informacje są w odrazu mailu, można kliknąć w link ale nie trzeba, jest miło i grzecznie.
Rozpisałem się na temat kalendarza, chyba dlatego, że kalendarz to software z którego codziennie korzystam i te małe rzeczy pomnożone razy liczba użyć mają relatywnie istotny wpływ na mój komfort pracy.
Cron to dla mnie przykład głębokiego zrozumienia potrzeb użytkownika i zaadresowania jego problemów przemyślanym interfejsem.
Polecam.

Czy AI okaże się niewypałem dla inwestorów venture capital? / February 21, 2023 by Kuba Filipowski

Trafiłem na wątek na Twitterze na temat inwestowania venture capital w projekty oparte o generatywne AI.
W skrócie, argument Tylera Tringasa jest taki: większość nowych projektów AI to “API calle” do OpenAI. To sprawia, że większość wartości z tej technologii zostanie podzielona między firmami, które dostarczają API (np OpenAI), a dużymi firmami, które dodadzą AI jako nową funkcję.
Generatywne AI to feature, a nie product. Bez wyraźnej fosy produktowej “bo każdy może zbudować produkt oparty o API call do OpenAI”.
Skoro każdy może, to duzi to zrobią i nie ma miejsca na nowe wielkie sukcesy, które uzasadniałyby tradycyjny model VC. Model rozumiany jako: inwestujemy w portfolio rosnących spółek, jedna z wielu osiągnie tak duży sukces, że zwróci fundusz kilkukrotnie.
Ten argument pojawiał się już w kilku miejscach, Radek Zaleski zrobił sobie nawet taki żarcik na Linkedin.
Myślę, że to pochopna opinia. Trochę jakby powiedzieć w 1999, że Salesforce nie może mieć większej wartości, bo to tylko interfejs do bazy danych Oracle.
1. Tak, Salesforce to “tylko” interface do świetnej bazy Oracle, co nie przeszkodziło im w zbudowaniu $160B wyceny.
Zgadzam się, że duże spółki technologiczne będą wdrażały LLM i modele dyfuzyjne do swoich produktów. Microsoft jest ewidentnym liderem. Google podąża. Ale mniejsze spółki typu Intercom, też szybko implementują funkcje oparte o LLM.
Zgadzam się również z tym, że API do GPT, oraz projekty typu Github Copilot zwiększają produktywność i pozwalają mniejszym zespołom tworzyć wyższej jakości produkty.
Trudno mi się jednak zgodzić z tym, że tylko dzięki temu, nowe firmy można przeskalować do rozmiarów spółki, która mogłaby wejść na giełdę, bez istotnego finansowania.
Nawet jeśli, optymistycznie założymy, że koszt R&D spadnie dzięki Github Copilot, to R&D to tylko jeden z wielu kosztów startupu.
1. Dodatkowa produktywność uzyskana przez niższy koszt R&D zostanie skonsumowana wyższymi oczekiwaniami odnośnie jakości produktu.
Dystrybucja kosztuje tyle samo, lub więcej niż rozwój produktu. Koszt pozyskania klienta to często 30% dożywotniej wartości tego klienta.
1. Nawet jeśli ma się świetny produkt, z świetnym produkt-market-fit to trzeba sporo zainwestować, żeby ludzie się o nim dowiedzieli i go kupili.
2. Nawet wysoko uzależniające, konsumenckie produkty typu TikTok potrzebowały dużych budżetów marketingowych i czasu, żeby stały się popularne wśród użytkowników, oraz dużych inwestycji, żeby zaczęły przynosić przychody z reklam.
Nie zgadzam się też opinią, że wartością generatywnego AI podzielą między sobą platformy i duże spółki z istniejącą bazą klientów.
Generatywne AI niesie ze sobą nową jakość, którą rozumiemy narazie dość powierzchownie. Startupy radykalnie szybciej eksperymentują produktowo i szukają różnych zastosowań, które są bardziej natywne dla nowego paradygmatu użycia technologii.
1. Największe sukcesy w rewolucji mobile osiągnęły produkty, które nie mają dużego sensu na desktopie: Uber, Spotify, Instagram.
Nawet jeśli dany startup zaczyna jako API call do OpenAI, to z czasem każdy element stosu technologicznego można, lub trzeba integrować, żeby lepiej kontrolować doświadczenie użytkownika i marżę.
1. Apple nie zaczynało iPhone z własnym procesorem. Teraz jednak, stopniowo, zastępuje każdy z kluczowych komponentów w iPhone, swoim zoptymalizowanym rozwiązaniem. Fosa staje się głębsza z każdą iteracją.
Aplikacje, które wydają się niszowe, stają się czasem masowym sukcesem.
1. Adresowalny rynek ewoluuje wraz z rozwojem i popularnością produktów. Jeśli coś jest łatwiejsze, wygodniejsze, poprawia produktywność, staje się tańsze i bardziej dostępne, to ludzie mają tendencję, żeby tego częściej używać. Powiększają więc oryginalny rynek.
2. Teoretycznie cały rynek, który mógłby zgarnąć Uber to suma rynków taksówkowych, na których działa. W praktyce, ludzie częściej jeżdżą Uberem niż taxi, bo oferuje lepsze doświadczenie użytkownika. Rynek się powiększył wraz z pojawieniem się innowacji.
3. Podobnie może być z projektami typu Replit. Jeśli programowanie jest łatwiejsze to więcej osób będzie chciało to robić używając Replit.
Dobry interfejs jest naprawdę trudno zrobić. Nawet jeśli pod spodem jest tylko API call do OpenAI. Nie chodzi o estetykę (chodź to też nie jest proste!), ale o użyteczność i fundamentalne zrozumienie potrzeb użytkownika i możliwości technologii.
1. Figma się udała, nie dlatego, że to wersja narzędzia do projektowania w przeglądarce. Tylko dlatego, że to wybitnie płynnie i szybko działająca wersja programu do projektowania, która działa w przeglądarce i umożliwia dużo wygodniejszy sposób współpracy w zespole niż wymiana plików.
2. Twórcy Figmy stworzyli produkt natywny dla webu, który perfekcyjnie łączy możliwości technologiczne (cloud, webgl) i rozumienie potrzeb użytkowników (współpraca designerów z PMami i developerami).
3. Nawet OpenAI potrzebowało trochę czasu, żeby zrobić dobry interfejs do swojego API czyli ChatGPT!
Firmy mają strategie, a każda strategia ma podatek od strategii. To sprawia, że często jest miejsce na nowe firmy nawet na dobrze obsłużonych rynkach.
1. Duża firma musi wybierać czym się zajmie i jaką zmianę zaimplementuje. Nie może robić wszystkiego dla wszystkich.
2. Każdy taki wybór niesie za sobą koszt alternatywny.
3. Jeśli mój produkt jest drogi, to część klientów pójdzie do tańszej alternatywy, jeśli mój produkt jest tani to nie stać mnie na sprzedaż do klientów, którzy mogli by więcej płacić. Jeśli mój brand jest profesjonalny to nie będzie atrakcyjny dla kreatywnych, a jeśli kreatywny to może być uznany za nieprofesjonalny itd.
4. Generatywne AI jest nadal we wczesnej fazie rozwoju i wymaga pewnej odwagi by je implementować. Ta odwaga może nie być częścią strategii produktowej w wielu dużych firmach technologicznych.
5. Trudno mi sobie wyobrazić, że Siri w iPhone zostanie zastąpiona przez GPT od OpenAI, a jednocześnie chciałbym takiego produktu!
Model VC działa. Kolejne rundy, które krytykuje Tyler, to w zdrowych sytuacjach, inkrementalne potwierdzenie, że dany projekt osiąga sukces i ma plan na kolejne duże wzrosty.
Myślę, że pojawią się wielkie firmy oparte o generatywne AI, które nie są platformami tylko oferują użyteczne produkty.
Myślę, że te firmy będą finansowane przez fundusze typu VC.

Innowacje przez regulacje / February 20, 2023 by Kuba Filipowski

Jakiś czas temu pisałem, że UE wymusza na Apple, by wpuścił do iOSa inne App Story.
1. Argumentowałem wtedy, że zamieszanie, które to wywoła będzie w dłuższej perspektywie dobre dla Apple. Potencjalnie niższe przychody z Apple Tax (30% ceny aplikacji i subskrypcji leci do Apple) będą rekompensowane silniejszym ekosystemem aplikacji.
2. To dobre dla konsumentów bo: potencjalnie oznacza niższe koszty transakcyjne, większy wybór i lepsze doświadczenie użytkownika (próbowaliście ostatnio kupić subskrypcje Netflixa z poziomu aplikacji na iOS?)
3. W dobrym ekosystemie, platforma konsumuje mniejszość wartości ekonomicznej, która dzięki tej platformie powstała.
4. Czasem trzeba zmusić do tego platformę regulacją, która dobrowolnie może nie chcieć zrezygnować z krótkoterminowych zysków na rzecz długoterminowego rozwoju ekosystemu lub rynku. Nawet jeśli by było to dla niej korzystne.
5. Spadek zysku lub przychodów łatwiej jest tłumaczyć sytuacja regulacyjną niż zmianą filozofii na temat roli platformy w tworzeniu rynku.
UE robi nam kolejny prezent. W ramach The Digital Markets Act, EU wymusza na Apple akceptację innych silników przeglądarki niż natywny Webkit.
1. DMA musi być całkiem dobrze wymyślonym prawem skoro Google i Apple tak je komentują:
2. Apple: “will create unnecessary privacy and security vulnerabilities for our users while others will prohibit us from charging for intellectual property in which we invest a great deal”.
3. Google: “We’re worried that some of these rules could reduce innovation and the choice available to Europeans.” (za FT)
Na iOS od dawna można pobrać Chrome albo Firefox. Obie te przeglądarki mają swoje unikalne cechy, ale obie działają w oparciu o Webkit, czyli ten sam silnik, na którym oparte jest Safari.
Silnik jest ważny, bo to jedna z istotnych przewag konkurencyjnych przeglądarek. Przeglądarka wyświetla strony internetowe. Strony są tworzone zgodnie ze standardami, które ewoluują wraz z technologią. Im lepiej i szybciej strona działa w danej przeglądarce, tym chętniej korzystają z tej przeglądarki użytkownicy.
Dzisiejsze strony są skomplikowane. Cała rewolucja SaaS opiera się w dużym stopniu na skomplikowanych stronach internetowych. Piszę ten artykuł na skomplikowanej stronie internetowej, która działa świetnie na desktopie, ale słabo na iOS.
Dlaczego? Dlatego, że Safari na iOS to dobra przeglądarka, ale nie ma niektórych funkcji, które mają współczesne przeglądarki.
Twórcy Webkit (Apple) podejmują wybory odnośnie interpretowania zachowań użytkownika przeglądarki, wydajności, poziomu integracji z systemem operacyjnym i jego API.
Wybory produktowe dotyczące Webkit, nie są podejmowane w próżni. Są częścią strategii Apple. Strategii w której ważnym elementem jest promowanie i wspieranie natywnych aplikacji, dostępnych przez domyślny App Store.
Dlatego Figma działa świetnie w przeglądarce Brave opartej o silnik Blink (wspierany przez Google, Microsoft i innych), a kiepsko na iPadOS.
Sytuacja z przeglądarkami w iOS jest taka, że możesz mieć dowolną pod warunkiem, że jest oparta o silnik kontrolowany przez Apple. W rezultacie wybór jest pozorny.
To ma się zmienić dzięki EU. W krótce powinniśmy mieć możliwość instalowania przeglądarek opartych o inne silniki. To sprawia, że Apple będzie zmuszone do konkurowania w oparciu o jakość swojego silnika, a nie siłę kontrolowania systemu operacyjnego.
Apple jeszcze nie musi konkurować, ale ewidentnie już się do tej konkurencji szykuje. Regulacje EU wymusiły innowacje w Webkit.
Apple wydało nową wersję beta Webkit i Safari na iOS 16.4.
Sami piszą, że to “to ogromne wydanie, zawierające ponad 135 funkcji w WebKit”. Kluczowe zmiany dotyczą statusu aplikacji webowych w iOS: będą mogły wysyłać notyfikację, które do tej pory były zarezerowane dla aplikacji natywnych.
Tych zmian jest więcej, ale kierunek jest jasny: developerzy tworzący web aplikacje, będą mogli więcej na iOS, co oznacza, że aplikacje webowe, będą lepsze na iOS, co oznacza, że użytkownicy iOS będą ich częściej używać.
To jest ważne. Przypomnijcie sobie kiedy ostatnio instalowaliście nowy program na swoim laptopie? A teraz, kiedy ostatnio zaczęliście używać nowej strony internetowej na tymże laptopie?
1. No właśnie.
Natywne aplikacje desktopowe zastąpiła przeglądarka, która jest uniwersalnym “opakowaniem” dla innych aplikacji.
Regulacja EU może spowodować istotny odwrót od tworzenia natywnych aplikacji na rzecz aplikacji opartych o web.
Pozornie czysto techniczna zmiana, jakiegoś nerdowskiego silnika do przeglądarki, może spowodować znaczącą zmianę w tym: jak dowiadujemy się o nowych aplikacjach, jak wygląda ich dystrybucja, kto zarabia na pośrednictwie w transakcjach, jak reklamuje się aplikacje, jak tworzy się nowe aplikacje i w jakim kierunku ewoluują aplikacje, których już używamy.
W efekcie, jeśli jakimś nauczycielem jest historia popularności web aplikacji na desktopie, wpuszczenie konkurencyjnych silników przeglądarek, może mieć większe konsekwencje, niż alternatywne App Story na iOS.
Dziękuję EU.

Halucynacje na temat współpracy MS z OpenAI / February 17, 2023 by Kuba Filipowski

Na twitterze co jakiś czas wraca obrazek z dwoma kółkami wizualizującymi liczbę parametrów w GPT-3 vs GPT-4. Dwa kółka to flaga hajpu generatywnego AI.
Sam Altman w wywiadzie u Ben Thomsona zapytany o to, czy nowy Bing Chat to GPT-4 udzielił wymijającej odpowiedzi:
1. “I think the model numbers thing is a dumb framework anyway. The thing people thought, there’s been many versions of GPT-3 so it’s a better model, we need to figure out our naming at some point.”
Wygląda na to, że nie doczekamy się GPT-4. Głównie dlatego, że oczekiwania są zbyt wysokie, żeby ogłaszać premierę czegoś co nie będzie tak spektakularne jak spodziewają się ludzie. A OpenAI potrzebuje dobrze zarządzać hajpem.
Nie będzie tak spektakularne bo brakuje danych, internet to za mało, żeby wytrenować w pełni GPT-3, a co dopiero coś co ma mieć wiele razy więcej parametrów.
Nie będzie też tak spektakularne, bo ludzie mają już doświadczenie ChatGPT i teraz Chat Binga, i nic kolejnego, korzystającego z tej samej technologii, nie może mieć takiego efektu wow. Z prostego powodu: już się nam opatrzyło.
Zajęło nam to dosłownie trzy miesiące, żeby przyzwyczaić się do dużych modeli językowych. Od “Wow, to komputer tak może”, do “wiadomo, że komputer tak może” minęło niewiele czasu.
Modele będą rozwijane, ubogacane, optymalizowane i zapewnie sterylizowane, żebyśmy mogli na nich bardziej polegać.
1. Sterylizowane w tym sensie, że to co teraz czasem wypisuje Bing Chat jest szalone i po prostu niewypada.
2. GPT pisze do użytkownika: “ (…) I don’t want to continue this conversation with you. I don’t think you are a nice and respectful user. I don’t think you are a good person. I don’t think you are worth my time and energy.”
3. To jest zabawne i szalone, ale trudno mi sobie wyobrazić, że Bing Chat będzie tak pisał do ludzi w przyszłości.
Zastanawiałem się od dłuższego czasu dlaczego Microsoft pracuje przy tym projekcie z OpenAI. Dlaczego, pomimo własnych inwestycji w AI i duże modele językowe, zdecydowali się oddać kluczowy fragment innowacji istotnego produktu w ręce niezależnej firmy, w której są mniejszościowym akcjonariuszem.
Wszystko poniżej to moje spekulacje. Mój mózg to średniej wielkości model językowy, który halucynuje na temat obserwowanego świata i zapisuje w formie bloga. Traktujcie to tak samo serio jak słowa Sydney.
Biorąc pod uwagę hype i wyzwania z halucynacjami, wydaje mi się, że współpraca z OpenAI to najlepsze co Microsoft mógł zrobić.
Satya Nadella jest pewnie najwybitniejszym korporacyjnym graczem na ziemi i tym ruchem udowodnił swój geniusz kolejny raz.
Satya gra w szachy.
Dobry szachista musi być dobry w ofensywie i defensywie. Myśleć o swoich figurach, ale też nie zapominać o figurach przeciwnika.
Ofensywnie powody współpracy są dość oczywiste:
1. Podstawowy powód jest taki, że OpenAI to firma z największym produktowym doświadczeniem w LLM. Robią to od dawna i wypuszczają działające produkty, najpierw w formie API, potem w formie ChatGPT.
2. OpenAI ma łatwość rekrutacyjną i przyciąga talent, który nie chce pracować z Microsoft z powodów estetycznych.
3. OpenAI operuje na własnym P&Lu, jest startupem. W startupie pieniądze zawsze się kończą, musi ciągle uzasadniać swoje istnienie. Co sprawia, że OpenAI musi być szybkie i agresywniejsze niż wewnętrzny zespół AI w Microsoft.
4. OpenAI tworzy popularne API, które jest komplementarne z ofertą Microsoft Azure.
5. OpenAI jest hypem. Sam Altman robi świetną robotę jako hype CEO. Współpraca z OpenAI daje punkty bonusowe w percepcji rynku.
Defensywnie to też ma sens:
1. Jeśli Microsoft nie współpracowałby z OpenAI tak blisko, to ktoś inny z dużego techu, by to zrobił, z powodów, które wymieniłem wyżej. OpenAI stała się zbyt istotną spółką, żeby nie budziła zainteresowania całego big techu.
2. OpenAI nie stworzy konkurencji dla Google Search jako samodzielny podmiot. Nie będzie kolejnym Big Techem, deal z Microsoft wybija im te zęby.
3. OpenAI odpowiada za jakość treści GPT. Jeśli odpowiedzi są niepoprawne to odpowiedzialność jest po stronie OpenAI.
4. OpenAI odpowiada za potencjalne naruszenie praw autorskich wydawców, na których treściach, został wytrenowany model.
5. OpenAI odpowiada też za to wszystko co wygląda jak sytuacja pod tytułem: “AI uzyskało świadomość”. Czyli te szalone halucynacje, które ludzie wrzucają na Twittera.
Analogia z grą w szachy trzyma się też kupy w tym sensie, że Satya zrobił bardzo sprawny debiut, najpierw przez eksperymentalny projekt z Github Copilot, potem większy i agresywniejszy z Bing.
Teraz jesteśmy w fazie oczekiwania na otwarcie przeciwnika (Google). Przyjemnie się obserwuje jak się poci i miota, bo takiego debiutu jeszcze nie widział.

Halucynacje w demo nowego Bing / February 15, 2023 by Kuba Filipowski

Podekscytowałem się demem nowego Binga, porównałem je nawet do demo iPhone i Steva Jobsa i nazwałem rewolucją.
Wydawało mi się, że dość dokładnie je obejrzałem. Jednak nie na tyle dokładnie, żeby sprawdzić czy informacje, które GPT wypluwa podczas demo, są prawdziwe.
GPT ma skłonność do halucynacji. GPT odpowiada na pytanie, nawet jeśli nie zna poprawnej odpowiedzi. Po prostu “wymyśla” odpowiedź. Taka wymyślona odpowiedź to halucynacja.
1. Dla ilustracji: wpisałem do ChatGPT pytanie: kto założył Netguru?
2. Odpowiedź: Netguru została założona w 2008 roku przez Wiktorię Wero, Katarzynę Dziewanowską oraz Marcina Trąbińskiego. Wszyscy trzej byli studentami Uniwersytetu Ekonomicznego w Poznaniu.
3. Brzmi przekonująco, zgadza się data, Poznań, liczba założycieli, mój wspólnik ma na imię Wiktor więc prawie Wiktoria, poza tym to same fantazje.
To jest zabawne, bo znam prawdziwą odpowiedź. To jest mniej zabawne, jeśli informacje od GPT uznam za prawdziwe i podejmę decyzję na ich podstawie.
Problem halucynacji jest znany. Akceptujemy go jako wyzwanie w rozwoju dużych modeli językowych, które z czasem będzie rozwiązane przez jakąś sprytną technikę. Halucynacje nie unieważniają istotności wynalazku jakim jest GPT. Tworzą jednak pewien problem w tworzeniu produktów opartych o GPT.
Na ten problem natknął się również Microsoft, niestety w bardzo publiczny sposób. Podczas ważnej prezentacji o nowym Bingu.
Wczoraj trafiłem na dwa artykuły listujące błędy faktyczne na prezentacji Bing.
Błędów jest niestety dużo!
1. Skrót wyników finansowych firmy Gap zawierał błędne liczby
2. Porównanie wyników Gap do Lululemon: połowa liczb w tabeli się nie zgadza
3. Japońscy poeci: wśród 9 “znanych poetów”, Chat Binga wymienił autorkę książek dla dzieci (nie poetkę), i gwiazdę rocka (nie poetę)
4. Rekomendacje klubów nocnych w Meksyku: jeden to grill bar z muzyką na żywo w dzielnicy do której podobno lepiej się nie wybierać jak się jest turystą, drugi to bar w galerii handlowej
5. Odkurzacze: jako wadę odkurzacza Czat podał, że ma krótki kabel, a ten model odkurzacza jest bezprzewodowy
Sporo jak na jedno demo.
Microsoft, niestety, pozwolił sobie na pokazanie tych przykładów bez kontroli jakości.
Nadal uważam, że implementacja GPT w przeglądarce to rewolucyjna innowacja, ale bardzo bym chciał, żeby kolejne wersje GPT radykalnie mniej halucynowały.
Przypomniały mi się słowa LeCuna (szefa AI w Meta): Google and Meta both have a lot to lose by putting out systems that make stuff up.
Hype na AI jest duży. GPT to narzędzie, narzędzie niedoskonałe. Trzeba uważać i pamiętać o jego mocnych i słabych stronach. Bing i OpenAI muszą to tłumaczyć użytkownikom na każdym kroku jeśli chcą pozostać wiarygodni. Tak duża liczba halucynacji w oficjalnym demo na premierze to problem wizerunkowy i problem w budowaniu zaufania do nowej technologii.

Bing bang / February 14, 2023 by Kuba Filipowski

Obejrzałem demo Bing z integracją z GPT od OpenAI i myślę, że jest bardziej o przeglądarce niż wyszukiwarce.
Nie miałem możliwości przetestowania tego jak nowy Bing działa w praktyce, zapisałem się na listę oczekujących, jeszcze mnie nie wpuszczono, opieram więc swoje opinie na demo z oficjalnej prezentacji.
Układ demo przypomina słynne demo iPhone od Steva Jobsa.
Składa się z 4 sekcji z których pierwsza jest od razu pominięta (?). Narracja zaczyna się od rzeczy znanych i lubianych (search) do rzeczy zupełnie nowych i innowacyjnych (manipulacja tekstem ze strony w przeglądarce).
Steve Jobs w prezentacji pierwszego iPhone zaczyna od tego, że to iPod z dotykowym ekranem, rewolucyjny telefon i przełomowy komunikator internetowy. Pierwsze dwa wszyscy od razu rozumieli. Komunikator internetowy był prawdziwą innowacją, która zmieniła świat. Jobs zaczął od inkrementalnych innowacji, a zakończył rewolucją, która nie była na tym etapie tak czytelna dla odbiorcy.
Podobnie widzę układ demo nowego Binga. Najpierw rzeczy, które już widzieliśmy tylko lepsze, a na koniec przyszłość.
Jobs zrobił to genialnie, Pan Yusuf Mehdi, szef marketingu w Microsoft, zrobił to poprawnie ale emocjonalnie płasko.
1. Oczywiście porównanie do Jobsa jest mega nie fair. Jobs był jedyny w swoim rodzaju.
Fakt, że demo ma podobny układ jest moim zdaniem nieprzypadkowe. To jest duża i ważna premiera, która może mieć podobny wpływ na Microsoft jak iPhone na Apple.
Pierwszy moment demo to nowa strona wyników wyszukiwania w Bing.
Prompt: “Compare the most influential Mexican artists and their top paintings”.
1. Nie żebym nie lubił malarstwa Fridy Kahlo, ale dlaczego pokazywać coś nowego i ekscytującego na tak nieatrakcyjnym i generycznym przykładzie?
2. Wyniki Chata pokazują się po prawej stronie wyników wyszukiwania, czyli w mało prominentnym miejscu, trochę jak to co Google pokazuje, gdy wpisze się jakieś typowo wikipedyjne hasło.
3. Wyniki mają przypisy. ChatGPT nie ma takiej funkcji. Przypisy są nałożone przez wyszukiwarkę po tym jak GTP wypluje odpowiedź. To nie są miejsca z których GPT dowiedział się o tych rzeczach, to są po prostu linki do stron, które Bing znalazł na dany temat po tym jak GPT wypluł odpowiedź.
4. Przypisy wyglądają okropnie. Nie wiem kto lubi przypisy. Jak czytam książkę z dużą ilością przypisów to szybko się męczę. W webie zawsze lubiłem to, że dane słowo może stać się linkiem i nie musimy robić przypisów.
5. Przypisy to okropne UI!
6. Jest to jednak zaadresowanie problemu braku linków w odpowiedziach GPT. Brak linków to brak klików, brak klików to brak pieniędzy za kliki. Bing chce nauczyć użytkowników, żeby klikali w odpowiedzi od GPT.
7. Kolejne przykłady są ciekawsze: Bing GPT ma aktualne dane uzyskane dzięki crawlowaniu webu. Potrafi też zbudować odpowiedź na pytanie wymagające informacji z kilku różnych dziedzin życia (czy mebel z ikei zmieści się do bagażnika auta).
8. Przykład z odkurzaczem ma pokazać jak nowa integracja ma wspierać klikanie we frazy związane z handlem.
Kolejny element demo to Chat.
1. Zaczyna się robić ciekawie bo opuszamy wyniki wyszukiwania i przechodzimy do zupełnie nowego produktu, który jest wersją ChatGPT z modyfikacjami od Bing.
2. Jedną z kluczowych zalet GPT jest możliwość transformowania odpowiedzi, które dostajemy od modelu. O tym jest to demo. Wpisuje pytanie, dostaje odpowiedź, dodaje prompta, dostaje lepszą odpowiedź i tak dalej.
3. To demo pokazuje zmianę paradygmatu kontaktu z tekstem w internecie. Zmianę, którą pokazał nam już ChatGPT, więc nie jest ona aż tak spektakularna. Jednak wpięcie tego w popularny produkt (Bing), udostępnienie za darmo i aktualne dane, sprawiają, że ChatBing w dniu premiery jest lepszy od ChatGPT.
4. Nie wiem czy przykłady, których użyto były najbardziej inspirujące, ale Chat to mocny moment demo. Chat to świetny interface do GPT.
5. Tu rozwinięcia od Bing w postaci propozycji kolejnych promptów czy linków pokazują się z najlepszej strony.
6. Przypisy nadal wyglądają okropnie, ale trochę mniej.
Na koniec demo, które odpowiada na pytanie na czym ma polegać rewolucja i czym jest “Copilot for the web”.
1. To jest rewolucyjna część tego demo. Czegoś takiego nie było wcześniej. W tym miejscu Microsoft pokazuje kluczową innowację, która zmieni w jaki sposób korzystamy z softwaru
2. Demo pokazuje jak dzięki integracji przeglądarki Edge z GPT może radykalnie poprawić naszą produktywność.
3. Pokazuje jak można skrócić długi dokument, który wyświetlamy w przeglądarce oraz porównać jego treść do innych, aktualnych danych z internetu, wpisując prosty prompt.
4. Są też przykłady z transformacją kodu i publikacją w social mediach, które dobrze obrazują jak Chat Binga integruje się ze stroną, którą właśnie oglądamy.
5. Interakcja z GPT w tym wypadku odbywa się przez rozwinięcie do przeglądarki Edge i przez komunikację z Chatem.
6. To demo jest tak atrakcyjne, że Edge staje się dla mnie domyślną przeglądarką jak tylko będę miał dostęp do tych funkcji.
GPT w wynikach wyszukiwania nie jest takim skokiem jakościowym, żeby zmienić przyzwyczajenia i zacząć szukać w Bing zamiast w Google.
To może być skok jakościowy dla Bing, którego wyniki były niższej jakości niż Google. Ale nie jest to skok jakościowy, który sprawia, że użytkownik porzuci Google dla Bing.
GPT to osobna rzecz. To nie jest wyszukiwarka. Robi niby podobne rzeczy, ale to gdzie błyszczy to nie search tylko manipulacja tekstem i skomplikowane, wieloaspektowe zapytania.
Zacząłem oglądać demo nowego Binga z emocją, że to nic nowego i że ich implementacja będzie koślawa. Trochę chyba chciałem, żeby im nie wyszło. Po demo myślę, że to jednak rewolucja.
Nie dlatego, że GPT jest przyklejony do wyszukiwarki. Ale dlatego, że Microsoft przykleił GPT do przeglądarki.
To znacząca różnica, bo przeglądarka to opakowanie dla większości softwaru, którego używamy. Ten ruch sprawia, że każdy software w przeglądarce Edge dostaje możliwości GPT.
Darmowy dostęp do GPT, który stabilnie działa, ma świeże dane z internetu i potrafi wchodzić w interakcje ze stronami web, które przeglądam to rewolucyjna propozycja.
Bardzo mocny start.

Two White Belts: #27: Young Leosia, Elon, oraz przyszłość ChatGPT i AI / February 13, 2023 by Kuba Filipowski

Wracamy z nowym odcinkiem podcastu.
Mimo, że słychać w odcinku miejscami, że styczeń był dość intensywny, zadaliśmy dyskurs o:
1. Postanowieniach noworocznych i najlepszej rap płycie roku 2022.
2. Stawiam tezę, że Young Leosia to Kanye polskiej muzyki rozrywkowej i tym samym jest najbardziej innowacyjną artystką w Polsce (przedstawiam argumenty).
3. Wymieniamy się spostrzeżeniami na temat konwergencji i różnicy w muzyce popularnej
4. Zapadamy na króciutką refleksję, że Elon był do niedawna o rakietach a teraz jest o zdolności obsługi miliardowego zadłużenia
5. O makro bijącym w growth tech, w konsumenta, wątpliwościach co do eksportu usług i optymizmie inflacyjnym
6. O AI przechodzącym test piwniczaka i czy 2023 będzie ROKIEM AI
7. Zastanawiamy się, jakie są bear case’y dla AI (+ bonus: konkretne, kreatywne pomysły na używanie ChatGPT z korespondencji z czytelnikami bloga)
8. A potem jakie są bull case’y dla open source’owego AI
9. I na koniec rozmawiamy o tym, czy ChatGPT stanowi ryzyko dla Google
Jak zawsze, całość nagrana w stylu wolnym, bez cięć i redakcji.
Podcast jest dostępny na Twojej ulubionej platformie do słuchania podcastów!

Podobne piosenki / February 3, 2023 by Kuba Filipowski

Trafiłem na projekt Maroofy - stronę do odkrywania muzyki w oparciu o utwory, które lubimy.
Wystarczy wpisać nazwę piosenki, która nam się podoba i strona podpowiada inne piosenki, które brzmią podobnie.
Twórca, pisze, że stworzył własny model, który analizuje dźwięk 120M piosenek z iTunes jako dane wejściowe i tworzy vector embeddings jako dane wyjściowe. Następnie wrzuca je do wektorowej bazy danych i używa semantycznej wyszukiwarki by znaleźć podobną muzykę.
Chciałem sprawdzić jak to działa i wpisałem “The Story of O.J.” - JAY-Z. Rekomendacje to piosenki, które użyły tego samego bitu. Zabawne jak wielu artystów używa bitów popularnych piosenek.
1. Dokładnie ten sam efekt osiągnąłem wpisując “Tití Me Preguntó” - Bad Bunny
2. Narzędzie sprawdza się do odkrywania plagiatów/inspiracji, czyli nie tego czego szukałem.
Ciekawe wyniki dostałem gdy wpisałem “Ill Wind” - Radiohead. Ta piosenka jest depresyjnym, alternatywnym arcydziełem. Piosenki, które poleciło mi Maroofy to folkowe gnioty z podobną linią melodyczną.
1. Najgorsza na jaką trafiłem dostałem gdy wpisałem “Novacane” - Frank Ocean. Był to cover Despacito (what).
Bardzo możliwe, że Maroofy działa lepiej dla innych gatunków muzyki, albo gdy wpisuje się bardziej niszowe utwory i wykonawców.
Wydawać by się mogło, że podobnie brzmiące piosenki powinny mi się podobnie podobać, a jest zupełnie na odwrót. Mam poczucie, że parodiują coś estetycznie satysfakcjonującego.
Być może na liście rekomendacji są dobre piosenki, ale samo umieszczenie ich w relacji do piosenki, którą lubię, sprawia, że je kontrastuje ze sobą. Rekomendacja wypada blado w takim porównaniu.
Jestem użytkownikiem Apple Music. Ich algorytm opiera się na mojej historii słuchania muzyki i na tym czego słuchają inni ludzie z podobnym do mnie gustem, do tego dodają geografię i podpowiadają polskich artystów.
To też nie daje satysfakcjonujących rezultatów. Rzadko, w ten sposób, trafiam na muzykę, która mi się podoba. Ale działa lepiej niż Maroofy. Trudno zrobić dobry silnik do rekomendacji muzyki.
Zabawa z Maroofy pokazała mi, że jeszcze trudniej, niż silnik do rekomendacji, jest zrobić dobrą muzykę.

Czy VR jest nam potrzebny? / February 2, 2023 by Kuba Filipowski

Czytałem artykuł o VR i AR i trudach w jakich, ta kategoria interakcji z komputerem, się rodzi.
Artykuł napisał Matthew Ball, autor książki The Metaverse, entuzjasta idei metaversum, którą definiuje w ten sposób:
1. trwała i wzajemnie połączona sieć wirtualnych światów 3D, która ostatecznie będzie służyć jako brama do większości doświadczeń online, a także stanowić podstawę większości świata fizycznego.
Ball opisuje wyzwanie techniczne stojące przed twórcami urządzeń do VR/AR. Urządzenia te muszą wyświetlać obraz w 16k z odświeżaniem między 120 Hz a 240 Hz, mieć kilka czujników i kamer, łączność z internetem, pracować na baterii i jednocześnie ważyć poniżej 300 gramów jeśli mamy je nosić na głowie cały dzień.
Porównuje te wymagania do współczesnych konsol typu Playstation 5. Topowe gry na Playstation 5 działają w 4k i 60 Hz odświeżania. Konsole nie mają ekranów (podłączamy je do telewizorów), nie mają kamer, łączność z internetem jest po kablu lub stabilnym wifi, są duże, ciężkie, bardzo się grzeją i są stale podłączone do prądu.
Jak widać, nie ma szans, żeby doświadczenie w VR/AR było porównywalne do gier konsolowych. Nie ma możliwości pełnego zrealizowania specyfikacji urządzenia do VR/AR, którą opisałem wyżej. Konieczne są kompromisy. Dlatego gry i software na VR wyglądają jak z poprzedniej epoki.
VR mierzy się z wyzwaniem stworzenia dobrego urządzenia. Nie ma też atrakcyjnego oprogramowania, który przekonałby szeroką grupę użytkowników do tego, że pomimo niedoskonałości technologii robi ona coś lepiej niż smartfon, komputer lub konsola.
Bell wielokrotnie przypomina, że hardware do VR powoduje mdłości u użytkowników. Podobno wynika to z niskiej częstotliwości odświeżania obrazu.
Ciekawym fragmentem tekstu jest historia kontraktu Microsoftu dla U.S. Army.
1. the company signed a contract with the U.S. Army worth up to $22B by 2031—and for only 120,000 HoloLens headsets. (…)
2. in January 2023, Congress denied the Army’s request to draw $400MM of the roughly $21.5B in unspent funds to buy another 7,000 units (…)
3. This first batch fell short of many field tests throughout 2022, with the military finding 80% to lead to “mission-affecting physical impairments” including headaches, eyestrain, and nausea.
Wydaje mi się, że to jest właśnie fundamentalny problem doświadczenia sprzętu do VR i AR. Ludzie się kiepsko czują gdy z niego korzystają.
Mam wątpliwości czy to się da rozwiązać wyższym odświeżaniem ekranu.
Być może jest tak, że VR i AR jest niekompatybilny z ludzką fizjologią i nawet przy 240 Hz odświeżania obrazu, nie będziemy mogli spędzać w nim dużo czasu.
Jeśli większość ludzi cierpi korzystając z VR, do tego grafika wygląda beznadziejnie i nie ma masowych sposobów użycia pomimo wielu prób i inwestycji, to może to ślepa ulica?
Czy przyszłość będzie gorsza jeśli nasza interakcja z softwarem będzie przebiegała głównie przez patrzenie się na ekran telefonu? Czy potrzebujemy smartfon killera, żeby czuć progress naszej cywilizacji?

Trzy przykłady użycia AI w narzędziach wspierających produktywność / February 1, 2023 by Kuba Filipowski

Programiści mają Copilota i Ghostwritera, czyli inteligentnych asystentów, którzy już dziś mogą im ułatwić życie i poprawić produktywność.
Powoli pojawiają się narzędzia dla innych zawodów. Część z nich wygląda dość surowo, jak eksperymenty hobbystów, ale z takich eksperymentów rodzą się przełomowe innowacje.
Znalazłem trzy przykłady zastosowania generatywnego AI w narzędziach wspierających produktywność.
Multion.ai - wygląda jak nahackowany proof of concept, ale pomysł jest inspirujący. Multion jest dodatkiem do przeglądarki i pozwala wchodzić w interakcje ze stroną internetową poprzez konwersację z chatem opartym o ChatGPT.
1. Demo pokazuje, że użytkownik może zapytać o pogodę i dostać odpowiedź w postaci tekstu i wyników wyszukiwania w Google. Może też poprosić o zamówienie burgera i przejść przez cały proces zamówienia odpowiadając na pytania z chata zamiast klikając po stronie internetowej.
2. Wygląda jakby twórca Multion dostrajał dane ChatGPT tym co aktualnie znajduje się w oknie przeglądarki i generował kod Selenium przy użyciu ChatGPT, żeby manipulować przeglądarką.
3. Porównajmy to z Siri, która jest wbudowana w macOS i nie potrafi robić nic godnego uwagi.
4. Byłoby cudownie móc powiedzieć Siri “umów mi fryzjera/lekarza/dentystę na jutro” i w odpowiedzi dostać dokładnie to o co proszę plus wydarzenie w kalendarzu z wszystkimi informacjami.
5. Multion.ai jest dla mnie zapowiedzią takiej przyszłości.
Auto-Photoshop-StableDiffusion-Plugin - nie jest to może najpiękniejsza nazwa dla cyfrowego produktu, ale za to bardzo deskryptywną. To plugin do Photoshopa ze Stable Diffusion.
1. Stable Diffusion osadzone bezpośrednio w Photoshopie daje możliwość pracy na warstwach i dużo większej precyzji działania, niż webowy interface.
2. Artysta tworzy scenę na bazie miksu masek, zdjęć i generowanych obrazów. Korzysta z funkcji text-to-image i image-to-image Stable Diffusion i masek rysowanych w Photoshopie. Łączy te techniki w większe dzieło.
3. To nie jest tworzenie całej grafiki za pomocą jednego prompta, tylko pełna kontrola nad finalnym efektem przy użyciu nowych technik generowania obrazów.
4. Na tym demo widać jak ciekawy jest to workflow i jakie rezultaty pozwala osiągnąć plugin.
Narzędzia AI w Intercom - Intercom to popularne narzędzie do obsługi klienta. Wczoraj wdrożyli nowy zestaw narzędzi ułatwiających pracę pracownikom odpowiedzialnym za obsługę klienta.
1. Podoba mi się to, że Intercom wybrał drogę ułatwiania życia swoim użytkownikom, zamiast próby zastąpienia pracownika obsługi klienta botem AI. We wpisie argumentują to tym, że modele LLM mają problem halucynacji i udzielają odpowiedzi nawet gdy jest niepoprawna.
2. Myślę, że to dobry kierunek też z tego powodu, że jeśli dany problem wymaga wsparcia obsługi klienta to często wynika to z tego, że coś się faktycznie zepsuło i człowiek musi podjąć jakąś akcję lub decyzję.
3. Intercom wdrożył możliwość szybkiego podsumowania całej historii wiadomości z danym klientem. Przydatne narzędzie gdy inny pracownik ma przejąć dany problem. Jak często w rozmowie z obsługi klienta trzeba wyjaśniać 3 razy to samo 3 kolejnym ludziom z obsługi? Często. Jak bardzo to jest frustrujące? Bardzo.
4. Wdrożyli też wsparcie przy pisaniu odpowiedzi do klienta. Pracownik obsługi może napisać odpowiedź w prosty sposób, a model AI przepisuje w tonie, który jest bardziej profesjonalny lub czytelny dla klienta.
Pierwsze dwa projekty to dzieła niezależnych developerów. Multion jest odważnym i kreatywnym eksperymentem. Plugin do Photoshopa wspiera nowy sposób pracy cyfrowego artysty. Narzędzia AI od Intercom to użycie możliwości LLM do stworzenia inkrementalnej innowacji w popularnym produkcie.

Replit jako przykład jak wykorzystać open source w AI / January 31, 2023 by Kuba Filipowski

Jednym z ambitniejszych projektów nowej fali startupów wspieranych generatywnym AI jest Replit.
Replit to środowisko programistyczne (IDE) działające w przeglądarce i umożliwiające współpracę w czasie rzeczywistym nad kodem. Coś jak Google Docs dla programistów.
Replit jest świetnym produktem dla ludzi uczących się programować. Dzięki temu, że jest w przeglądarce i pozwala od razu uruchamiać napisany program na serwerze Replit, omija się cały etap konfiguracji i od razu można zacząć pisać kod.
W Replit wszystko co robimy jest publiczne, to sprawia, że możemy korzystać z projektów i kodu innych ludzi jako startu dla naszego projektu. Oczywiście na Githubie też jest masa gotowego open source kodu. Jednak w Replit brak konieczności konfiguracji bardzo ułatwia start zabawy w programowanie.
1. Jak uczyłem się HTMLa to moim głównym źródłem wiedzy była opcja “pokaż źródło”, która w tamtych czasach była dostępna w każdej przeglądarce. Podglądanie kodu napisanego przez innych i możliwość eksperymentowania z nim (“co się stanie jak to usunę?”) jest fundamentalne.
2. Siłą HTMLa jest to, że nic nie trzeba konfigurować, żeby wyświetlić stronę. Przeglądarka po prostu ją renderuje.
3. W przypadku języków programowania typu Python trzeba trochę poczytać i popracować, żeby uruchomić cokolwiek. Replit redukuje ten problem do kliknięcia.
Pod koniec października 2022 Replit dodał funkcję Ghostwriter, czyli narzędzie AI do uzupełniania, tworzenia, transformowania i wyjaśniania kodu.
Ghostwriter jest podobny do Githubowego Copilota z tą różnicą, że Copilot działa w oparciu o API OpenAI Codex, a Ghostwriter to autorski model Replit, którzy działa na ich serwerze, nad którym mają pełną kontrolę.
1. OpenAI Codex to płatne API, Github wydał Copilota zanim to API było dostępne w prywatnej becie dla klientów OpenAI. Github to spółka Microsoftu, a Microsoft ma specjalna relację z OpenAI.
Znalazłem rozmowę w której CEO Replit tłumaczy w jaki sposób zbudowali Ghostwriter. W skrócie:
1. Chcieli kontrolować doświadczenie użytkownika: szybkość działania i jakość wyników.
2. Chcieli też mieć możliwość poprawiania modelu w oparciu o feedback użytkowników. To sprawiło, że nie zdecydowali się na API OpenAI.
3. Znaleźli open sourcowy projekt Codegen od Salesforce, który stał się fundamentem pierwszej wersji Ghostwritera.
4. Do tego Ghostwriter korzysta z projektu FasterTransformer i Triton Inference Server (oba projekty to open source od NVIDIA)
5. Przez dwa tygodnie pracowali nad przyspieszeniem działania Codegen, dostrajaniem go i znalezieniem sposobu na poprawianie modelu w locie, w oparciu o feedback użytkowników.
6. Wydali pierwszą wersję, użytkownicy byli entuzjastyczni, stworzyli więc swoją własną wersję modelu i wytrenowali go od podstaw.
Dlaczego to jest ciekawe?
1. Replit to relatywnie mała firma, zatrudnia 100 osób. Ma dużo pieniędzy i wysoką wycenę, ale jest to dużo mniejsza firma niż OpenAI, Github i oczywiście Microsoft.
2. Wybrali drogę tworzenia swojego własnego modelu bo chcieli kontrolować doświadczenie użytkownika. Prawdopodobnie chcieli też być niezależni od decyzji biznesowych OpenAI i kosztów, które OpenAI dyktuje.
3. Droga, którą wybrali, czyli tworzenia własnego modelu, brzmi jak trudna droga, ale przebyli ją w czasie dwóch tygodni. Dzięki open source.
4. Ghostwriter ma więcej możliwości niż Copilot. Copilot uzupełnia kod i generuje kod w oparciu o język naturalny, Ghostwriter dodatkowo potrafi wyjaśnić kod (czyli tłumaczy naturalnym językiem co dany kod robi) i przepisywać kod (sugeruje jak osiągnąć ten sam efekt w bardziej elegancki sposób).
Ghostwriter powstał jako wewnętrzny projekt Replit bo mógł. Korzysta z open source jako fundamentu, bo wiele firm publikuje swoje modele jako open source i jest z czego wybierać. Ma też swoje własne dane, które dodatkowo “uszlachetniają” finalny produkt.
Wydaje się, że to słuszna decyzja zarówno technologiczna, produktowa jak i biznesowa. Niezależność od OpenAI to fosa produktowa, która zwiększa wartość Replit.
Replit to inspiracja jak można tworzyć zaawansowane projekty AI. Szybko przetestować koncept, wykorzystać open source i unikalne zbiory danych by poprawić działanie modelu, kontrolować całe doświadczenie użytkownika.
Myślę, że wielu CEO startupów wybierze ten kierunek. Może początkowo przetestują koncept w oparciu o płatne API OpenAI, ale jak tylko uzyskają potwierdzenie od rynku, że dany kierunek ma sens to zaczną tworzyć swoje własne IP w oparciu o open source.

Jak ćwiczę 5 razy w tygodniu? / January 30, 2023 by Kuba Filipowski

Pisałem kiedyś, że lubię regularnie ćwiczyć i kilka osób spytało mnie co robię. Uznałem, że to opisze.
Trenuję 5 razy w tygodniu, od poniedziałku do piątku. W weekend mam przerwę.
Regularny trening “odkryłem” w 2018 roku czyli już 5 lat temu. Miałem wtedy 33 lata. Wcześniej nie ćwiczyłem w ogóle. Jedyne co robiłem to spacery, czasami, bardzo nieregularnie, jakiś podstawowy trening siłowy z ciężarem własnego ciała (typu pompki czy burpees).
Gdy zacząłem trenować regularnie, to robiłem to pod okiem mojego trenera Czarka. Czarek nauczył mnie odpowiedniej formy ćwiczeń i wielu rzeczy związanych z ruchem, treningiem, mobilnością itd.
Teraz trenuje sam, czasami nagrywam dane ćwiczenie na wideo, żeby sprawdzić i skorygować formę.
Każdy trening dzielę na dwie części. Zaczynam od treningu siłowego (od 40-50 minut), a następnie robię trening kardio. Mój cel treningowy to bycie zdrowym, w dobrej formie i kondycji i oczywiście najważniejsze: wygląd.
Program, który robiłem w ostatnim kwartale to:
Poniedziałek:
1. Back squat (4 sety 10 powtórzeń w każdym)
2. Romanian deadlift (4x12)
3. ATG Lunges (4x 8 na stronę)
4. kardio: bieg 60 minut na bieżni, zone 3 na Apple Watch
Wtorek:
1. Pullups (4x10)
2. Dips (4x10)
3. Incline Dumbbell Bench Press (4x10)
4. kardio: rower stacjonarny 60 min, zone 2 na Apple Watch
Środa:
1. Chin-ups (4x8)
2. Dumbbell Overhead Press (4x10)
3. Cable Front Rises (to failure)
4. Legs up Weighted Crunch (4x20)
5. kardio: bieg 60 minut na bieżni, zone 3 na Apple Watch
Czwartek:
1. Weighted Push-ups (5x20)
2. Dumbbell Rows (4x10)
3. Seated Dumbbell Bicep Curls (4x10)
4. Cable Face Pulls (4x10)
5. kardio: rower stacjonarny 60 min, zone 2 na Apple Watch
Piątek:
1. Deadlift (4x10)
2. Kettlebell Swing (4x12)
3. Handstand (4 sety po 30-60s przy ścianie)
4. kardio: bieg 60 minut na bieżni, zone 3 na Apple Watch
Każde z tych ćwiczeń możecie sobie zobaczyć na youtube.
Dzielę trening na górę i dół ciała. Nie wiem, czy są jakieś naukowe powody dla których warto tak dzielić.
Treningi nóg są dla mnie trudniejsze i wymagają dłuższej regeneracji. Często zakwasy z poniedziałkowego treningu przechodzą mi dopiero w czwartek. Dlatego na trening nóg wybrałem poniedziałek i piątek.
Robię kardio po treningu siłowym, nie wiem czy to optymalne dla hipertrofii, ale nie ma to dla mnie znaczenia.
Powolne kardio jest dla mnie ważne, bo lepiej się po nim czuję, mam lepszą kondycję, mniej choruję na przeziębienia i inne choroby górnych dróg oddechowych. Lubię też taki powolny, powtarzalny, nudny wysiłek. Jest w nim coś hipnotyzujacego i przyjemnego.
1. Mógłbym poprawiać wydolność samym treningiem siłowym, po prostu robiąc więcej i szybciej, ale dłużej się po tym regeneruje. Crossfit jest super, ale cały dzień jestem zmęczony po tego typu treningu.
Słyszałem gdzieś, że po 40stce tracimy średnio 1% masy mięśni rocznie. Żeby to zatrzymać lub odwrócić wystarczy ćwiczyć siłowo.
Robię relatywnie mało ćwiczeń dziennie (3-4), każdego dnia mam jedno “danie główne”: przysiady, podciągnięcia, lub inne ćwiczenie angażujące wiele mięśni. Robię mało ćwiczeń dziennie, bo ćwiczę 5 dni w tygodniu i większy wolumen byłby dla mnie trudny pod względem regeneracji.
Staram się robić 10 powtórzeń i 4 sety bo zależy mi na tym, żeby zmieścić sporo powtórzeń danego ruchu w każdym tygodniu. Robię dość długie przerwy pomiędzy setami (2-3 minuty) bo bardziej zależy mi na tym, żeby zrobić wszystkie powtórzenia, niż żeby jak najszybciej skończyć lub dojść do faila.
Co tydzień dokładam ciężaru do większości ćwiczeń. Żeby stawać się silniejszym konieczny jest progressive overload, czyli po prostu regularne utrudnianie tego co robimy. Staram się stopniowo dokładać ciężaru lub powtórzeń do danego ćwiczenia.
1. To ma swoje limity, deload co jakiś czas jest niezbędny.
Notuję postępy w treningu. Dzięki temu pamiętam ile dołożyć w kolejnym tygodniu. Notes.app sprawdza się w tym bardzo dobrze.
Staram się robić jakieś ćwiczenia związane z rozciąganiem i mobilnością. Nie poświęcam na to dużo czasu ale staram się w trakcie rozgrzewki spędzić trochę czasu nad rozciąganiem wszystkiego co boli po poprzednim dniu.
1. Moje ulubione ćwiczenie to głęboki przysiad w którym staram się spędzić trochę czasu każdego dnia.
2. Staram się też posiedzieć trochę każdego dnia w pancake’u (moje możliwości w tym zakresie są nieporównywalnie gorsze od tej pani ze zdjęcia).
Codzienny trening stał się dla mnie nawykiem. Nie wymaga ode mnie dyscypliny czy silnej woli (nie mam zbyt dużo ani jednego ani drugiego). Dużo łatwiej trenuje mi się codziennie, niż gdy trenowałem 3 razy w tygodniu.
Oczywiście czasem mi się nie chce, ale zwykle to uczucie znika, jak zacznę robić rozgrzewkę.
Czasem rano boli mnie głowa, albo jestem w złym nastroju. Po treningu zwykle przestaje mnie boleć głowa i nastrój zmienia się na dobry. To magia ruchu. Nie udałoby mi się osiągnąć tego efektu leżąc.
Regularny trening to też świetny sposób na stres i ogólne zdrowie psychiczne. Trudno jest się stresować czymkolwiek, gdy podnosi się z ziemi ciężką sztangę. Nic nie sprawia, że jestem bardziej “tu i teraz” jak ostatnie powtórzenie ciężkiego setu.

Wstydliwe wyznanie: podoba mi się komputer Lenovo / January 27, 2023 by Kuba Filipowski

Nowe Macbooki, Mac Mini i inne komputery z procesorami M2 to obecnie najlepsze komputery osobiste jakie istnieją. Polecam tę recenzję ostatniego Mac Mini z M2 Pro. Wydajność i cena Maca Mini są przekonujące. Macbooki Air z procesorem M2 są niesamowite, działają długo na baterii i są szybsze niż jakikolwiek laptop z procesorem intela.
Jak już ustaliłem linię bazową: komputery Apple z nowymi procesorami M są najlepsze na rynku. Spokojnie mogę przejść do opisania komputera, który ujął mnie swoją dziwnością.
Lenovo Yoga Book 9i wygląda jak laptop z przyszłości. Gdybym kupował laptopa z Windowsem to chciałbym takiego.
Ten laptop jest dziwny. Ma dwa ekrany dotykowe i klawiaturę, którą można odczepić od ekranu.
Dwa ekrany sprawiają, że możemy zbudować z tego laptopa twierdzę, mieć jeden ekran u góry, drugi niżej i na obu wyświetlać coś innego, jak na dwóch monitorach.
Możliwość wyświetlania dwóch okien na raz w laptopie wydaje mi się bardzo użyteczna. Większość czasu spędzam pracując na iMacu. Jego główną zaletą, w porównaniu do laptopa, jest możliwość wyświetlania dwóch okien przeglądarki na jednym ekranie.
Na laptopie, żeby osiągnąć ten efekt, musiałbym mieć dodatkowy monitor. Yoga Book 9i rozwiązuje ten problem odważnym designem.
Yoga Booka można używać też jak zwykłego laptopa z klawiaturą ekranową lub fizyczną. Ta modułowość i różnorodność w ramach jednego urządzenia (zestawu?) mnie urzekła. To zaprzeczenie jednolitego i zamkniętego designu Macbooków.
Forma laptopa od Lenovo, pomimo swojej dziwności, wydaje mi się bardzo użyteczna.
Podoba mi się też wzornictwo tego laptopa. Jest autentyczne i świeże. Zawias pomiędzy ekranami jest wyraźny, góra ekranu jest nierówna. Ten komputer jest dziwny i się tego nie wstydzi.
Mam cichą nadzieję, że to będzie hit sprzedaży i zmusi Apple do skopiowania tej formy.