Internet to za mało — Kuba Filipowski

Wkręcam się coraz bardziej w temat AI. Zafascynowały mnie praktyczne użycia generowania treści. Czytam i piszę o tym z typowym zapałem neofity.
1. Jedną z rzeczy, którą kiedyś przeczytałem i od tego momentu powtarzam regularnie (mówiłem o tym w odcinku podcastu, pisałem tutaj), to że duże modele językowe są tak dobre bo okazało się, że im model ma więcej parametrów tym lepsze daje wyniki. Można wytrenować model na nieustrukturyzowanych z internetu i jeśli skala jest odpowiednia to zaczniemy dostawać jakościowe odpowiedzi od wytrenowanego w ten sposób modelu. Jest wykładnicza relacja między liczbą parametrów a jakością modelu.
2. Istnieje teza, że może się okazać, że fakt powstania internetu był niezbędny do tego by powstało AGI. Żeby wytrenować model, który docelowo miałby być AGI musiał powstać internet bo w przeciwnym wypadku nie mielibyśmy wystarczającej ilości danych. AGI nie istnieje bez żywego i popularnego internetu, w którym duża część komunikacji odbywa się tekstowo.
3. Super, mamy internet, jest bardzo popularny, więc wystarczy zrobić bardzo sprytny model z ogromną liczbą parametrów, policzyć to na bardzo dużym i szybkim komputerze i gotowe. Mamy AGI (lub przynajmniej bardzo dobrej jakości duży model językowy)
4. Naukowcy z DeepMind to policzyli i wygląda na to, że być może internet to za mało.
5. DeepMind stworzyło dwa modele: Gopher i Chinchilla.
  1. Gopher jest “tłusty”, ma 280B parametrów, ale wytrenowano go na 300B tokenów danych.
  2. Chinchilla jest “szczupła”, ma 70B parametrów, ale wytrenowano ją na 1.4T tokenów danych.
  3. Do treningu użyto tej samej mocy obliczeniowej.
  4. Do oceny jakości modelu używa się parametru “pre-training loss” (strata przedtreningowa). Im niższa liczba tym lepiej.
  5. Okazało się, że szczupła Chinchilla jest lepsza niż tłusty Gopher. Co więcej, okazało się, że Chinchilla jest lepsza niż każdy inny model LLM wytrenowany na danych, na których wytrenowano Gophera, niezależnie od tego jak wiele miał parametrów.
6. Ćwiczenie, które wykonał DeepMind nie jest czysto teoretycznym rozważaniem na temat granic możliwości LLM.
7. Czekamy na GTP-4, który miał mieć 100T parametrów i dzięki temu miał być niesamowity. Moja fantazja była taka, że przy 100T parametrów GTP-4 będzie gigantycznym skokiem jakościowym.
8. Liczba tokenów danych w obliczeniach DeepMind również nie jest przypadkowa. 300B tokenów to dane treningowe GPT-3.
9. Z publikacji DeepMind wynika jednak, że 100T parametrów nie da wyższej jakości jeśli nie będziemy trenować modelu na znacznie większej ilości danych.
10. Co więcej: GPT-3 mogłby już teraz działać lepiej jeśli zostałoby wytrenowane na znacząco większym zbiorze danych.
11. Znalazłem świetny artykuł na LessWrong w którym autor próbuje oszacować ile danych mamy. MassiveWeb, niewiadomego pochodzenia web scrape, na którym DeepMind trenował swoje modele ma około 500B tokenów. Autor szacuje, że być może mamy ~3,2T tokenów danych w ogóle, na których moglibyśmy wytrenować model LLM.
12. Oczywiście z każdym nową stroną, komentarzem i blogpostem liczba teoretycznie dostępnych danych rośnie. Nie wiadomo jednak czy rośnie wystarczająco szybko, oraz czy mamy infrastrukturę i narzędzia pozwalające na dostosowanie danych z internetu w czasie rzeczywistym do takiej formy, która umożliwiłaby trening modelu.
13. Wygląda na to, że możemy docierać do granicy skalowania LLM i ograniczeniem są dane, a nie wielkość modelu.

Internet to za mało /November 29, 2022 by Kuba Filipowski