Zmniejszające się zwroty postępu AI

Fakt, że komputer potrafi wygenerować koherentny tekst, który zawiera fakty, dobrze posługuje się językiem i konstruuje wypowiedzi, które brzmią autorytatywnie jest imponujące.
Podobnie z generowaniem obrazów. W wielu przypadkach ich jakość jest tak wysoka, że trudno wyjść ze zdumienia, że autorem jest model AI.
Jednak to nie jest jeszcze AGI. Brakuje ostatnich 10%, które sprawiają, że można na czymś polegać lub nie.
1. Pisałem ostatnio o wyzwaniach w Stable Diffusion 2.0 związanych z generowaniem anatomii, ale wszystkie modele dyfuzyjne mają problem z dłońmi.
2. ChatGPT wymyśla nieistniejące publikacje i ich autorów, oraz autorytatywnie pisze nieprawdę.
  1. Pisałem ostatnio o tym jak ChatGPT super tłumaczy skomplikowane wyrażenie regularne na normalny język. Okazuje się, że tłumaczy je błędnie.
3. W 2018 w moim newsletterze pisałem o tym, że disengagement rate w autonomicznych taksówkach Waymo wynosiło 5600 mil. W 2021 było to 8000 mil. Wynik byłby lepszy ale Waymo zaczęło testować swoje usługi w San Francisco, które po prostu jest trudniejsze do ogarnięcia dla robota.
  1. Chińskie DiDi raportuje 41 000 mil ale co wiemy o sterylności środowiska testowego?
  2. Według predykcji disengagement rate powinien być na poziomie ponad 60 000 mil.
  3. Myślę, że wielu z nas 2018 myślało, że 2023 będzie można kupić auto bez kierownicy i z pełną autonomią. Nope. Mamy co prawda FSD beta w Tesli, ale niestety nie radzi sobie z prostymi skrzyżowaniami równorzędnymi.
4. Pamiętacie niedawne odkrycie AlphaFold związane z predykcyjnym generowaniem struktury białek? Badanie DeepMind zostało opublikowane w Nature. Nie będę udawał, że to rozumiem, ale historia była nagłośniona bo wydawało się, że naukowcy ze spółki córki Google odkryli coś na temat biologii czego do tej pory nie wiedzieliśmy i czego konsekwencje mogą być bardzo duże.
  1. Dziś dowiedziałem się o innym badaniu, które sprawdziło predykcje AlphaFold i okazuje się, że większość z nich jest błędna. Część jest poprawna, ale większość nie jest. W abstrakcie piszą: “Prognozy AlphaFold mogą być bardzo dokładne, ale należy je traktować jako hipotezy, ponieważ nawet te o wysokim stopniu pewności mogą być niespójne z danymi eksperymentalnymi.”
5. Ostatnio pisałem również o problemie szynszyli. To dość techniczny tekst ale wniosek w nim jest następujący: dotykamy granic możliwości dużych modeli językowych bo brakuje nam danych.
  1. To znaczy, że dużo lepszy produkt (kilka rzędów wielkości lepszy) niż ChatGPT może nie nadejść tak szybko jak wielu komentatorów mówi, że nadejdzie.
  2. Po prostu nie ma tylu danych.
  3. Modele typu GPT-3 już dziś są “zagłodzone”, mogłby być dużo lepsze gdybyśmy mieli więcej danych.
  4. Nie mówimy tu o jakiś specyficznych, domenowych danych. Mówimy tu ogólnie o całym tekście, który został kiedykolwiek wyprodukowany przez ludzką cywilizację.
  5. Dlatego to nie jest łatwy do ogarnięcia problem.
Oczywiście wszystko o czym pisze może być nieaktualne za rok a może nawet miesiąc, bo może zaraz ktoś wyda jakiś dokument opisujący inną, sprytną metodę budowania modelu, lub jego strojenia.
Ale jeśli historia autonomicznych aut jest jakimś nauczycielem, to oczekiwany postęp napotyka zwykle barierę w postaci “diminishing returns”. Te ostatnie 10% wymaga ogromnego wysiłku, czasu i inwestycji.
Nie zrozumcie mnie źle: hype jest prawdziwy w tym sensie, że dostaliśmy narzędzia, które kreatywnie zastosowane zwiększą naszą produktywność i pozwolą zbudować nowe biznesy i usługi. To dużo, ale podchodzę sceptycznie do proroków szybko nadchodzącej techno utopii.

Kuba Filipowski

Zmniejszające się zwroty postępu AI /December 7, 2022 by Kuba Filipowski