Polskie AI / by Kuba Filipowski

  1. Od jakiegoś czasu chodzi mi po głowie pytanie: czy potrzebujemy polskiego dużego modelu językowego?

  2. ChatGPT bardzo dobrze obsługuje język polski. Potrafi zarówno odpowiadać na pytania po polsku, jak i świetnie tłumaczy pomiędzy polskim i angielskim. Nie robi tego idealnie, ale robi na tyle dobrze, że można go używać tylko po polsku.

  3. Mamy dostęp dobrych produktów AI, oraz API na których zostały zbudowane. Możemy więc tworzyć lokalizowane na nasz rynek rozwiązania bez większych przeszkód.

    1. Niedawno Morizon wdrożył konwersacyjny interfejs do wyszukiwania nieruchomości, oparty o API ChatGPT. Działa bez problemu po polsku.

  4. Skoro jest GPT-4 i inni, po co mielibyśmy tworzyć Narodowy LLM?

  5. Szeroko rozumiana wiedza jest w swej istocie międzynarodowa. Pomimo tego, że ludzkość jest podzielona na narody to wiedza, zwłaszcza utylitarna, szybko staje się międzynarodowa i dostępna w wielu językach.

  6. Duży model z definicji musi być duży. Oznacza to nie tylko dużą liczbę parametrów, ale też dużą ilość danych treningowych. Danych po polsku jest mniej niż danych po angielsku, oraz znacząco mniej niż danych we wszystkich innych (niż polski) językach razem wziętych. To oznacza, że duży model językowy oparty tylko na danych w języku polskim będzie musiał być uboższy i działać gorzej.

  7. Komputer generujący język jest problematyczny politycznie. Firma, lub instytucja, kontrolująca polski duży model językowy, musiałaby podejmować decyzje w kwestiach ideologicznych, tego jak model odpowiada na wrażliwe pytania. Jeśli robi to instytucja w Palo Alto, to defacto oddajemy te decyzje ludziom wyznającym wartości popularne wśród ekspertów żyjących w Palo Alto. Unikamy w ten sposób, lokalnej ideologizacji generatywnego AI. W zależności od naszych poglądów, może być dla nas pozytywne, lub negatywne, ale na pewno oddala od nas odpowiedzialność za te decyzje.

  8. Tworzenie dużych modeli językowych jest kosztowne, wymaga specjalistycznych i unikalnych umiejętności. Po co duplikować ten wysiłek i koszt? Centralizacja brzmi jak bardziej optymalne kosztowo rozwiązanie.

  9. Jak na tym zarobić? Czy polskie firmy wybiorą polski LLM skoro są dobre amerykańskie rozwiązania? Jakie scenariusze użycia wymagają polskiego LLMu?

  10. Wydaje mi się jednak, że istnieją przesłanki, żeby taki narodowy duży model językowy miał rację bytu.

  11. Polska ma bogatą kulturę literacką, naukową i twórczą. Nie sądzę, żeby GPT-4 został wytrenowany na wszystkich treściach dostępnych po polsku z całej naszej ponad 1000 letniej tradycji. Jeśli nie mamy polskiego modelu, to nikomu nie będzie zależało na tym, żeby tę kulturę w zachować i uwiecznić w ten nowy sposób. Nikt w Palo Alto nie zadba o jakość i głębokość zachowania i reprezentowania naszej kultury, na takim poziomie na jakim byśmy sobie tego życzyli. Nie z lenistwa ani nieżyczliwości, tylko z powodu braku potrzeby realizowania ich celów biznesowych.

    1. Chcielibyśmy, żeby LLM lepiej pisał po polsku, znał więcej idiomów, slangu, odwołań do polskiej kultury popularnej.

    2. Chcielibyśmy, żeby LLM znał więcej polaków, niszowych celebrytów, zapomnianych naukowców i autorów.

  12. Kultura i język przenikają się z geografią, w tym hiper lokalną geografią. Jeśli chcemy, żeby model językowy precyzyjnie odpowiedział na pytanie na temat cech i uroku danej ulicy, lub konkretnej kamienicy, w małej miejscowości w Polsce, to musimy go wytrenować na niszowych danych, ale również użyć technik typu Reinforcement Learning from Human Feedback, by zagwarantować wysokiej jakości odpowiedzi, które nie są halucynacją.

    1. Podobnie z innymi geograficznymi aspektami i niuansami naszego kraju i okolic. Zrozumienie wilgotności terenu, danych technicznych mostów, hydrologią itd.

  13. Instytucje państwowe nie powinny korzystać wyłącznie z LLMów hostowanych na zewnętrzych serwerach, nawet jeśli to serwery geopolitycznych sojuszników. Jeśli przyszłość potoczy się tak jak myślę, że się potoczy, to LLMy staną się immanentnym elementem każdego oprogramowania. Jeśli chcemy sprawnie działającego państwa i wysokich jakości usług cyfrowych na styku obywatel państwo, to chcemy, żeby korzystały one z AI i LLMów. Nie wyobrażam sobie jednak, żeby asystent na stronie Podatki.gov.pl wysyłał wszystkie moje pytania i dane do firmy z USA.

  14. Chcemy nieocenzurowanych modeli, korzystanie z API ChatGPT oznacza korzystanie z ograniczonej wersji modelu, która została ocenzurowana tak żebyśmy “nie zrobili sobie krzywdy”. To bardzo miłe, ale dorośli ludzie czasem potrzebują robić ryzykowne rzeczy. Na przykład możemy chcieć wspomóc nasze planowanie wojskowe dobrymi, szczegółowymi podpowiedziami od AI i niekoniecznie chcemy, żeby oprogramowanie służące do wsparcia analityków wojskowych działało w oparciu o systemy kontrolowane przez firmy z zagranicy. Wiadomo, że LLMy już są w ten sposób wykorzystywane i w kolejnych konfliktach zbrojnych staną się standardową częścią planowania operacji wojskowych. Poleganie na API callach do ChatGPT to ślepa ulica w tym scenariuszu użycia.

  15. Język to również prawo. Polacy chętnie skorzystaliby z narzędzi, które rozumieją polskie niuanse prawne, orzeczenia, procedury i podatki. To również jest trudne do osiągnięcia bez bardzo dokładnego dostrojenia i testowania. Wiemy jednocześnie, że drobne błędy lub zmiany w prawie (słynne “lub czasopisma”) mogę mieć wielki wpływ na funkcjonowanie ludzi i biznesów. Nie chcemy więc by prawnicy i politycy (często politycy to również prawnicy) korzystali z modeli, które halucynują na temat niuansów polskiego prawa.

  16. Myślę, że narodowy LLM ma sens. Powinien powstać. Technicznie mogłoby to być po prostu bardzo dokładne i metodyczne dostrojenie już istniejącego open source modelu “narodowym zbiorem danych” i RLHF polskich ekspertów (lub studentów) z różnych dziedzin.

  17. Myślę, że to inwestycja, która niekoniecznie ma sens na rynku prywatnym, ale mogłaby powstać na styku skarbu państwa, biznesu i uczelni. Powołanie AI Labu, którego misją byłoby zbudowanie polskiego LLM i jego rozwój, to relatywnie niski koszt w relacji do potencjalnego wpływu na życie obywateli Polski.

  18. Czy halucynuję?