Unikanie ryzyka w systemach AI

Istnieje nagranie z konferencji z 2019 roku, gdzie Sam Altman odpowiada na pytania dotyczące OpenAI, firmy której jest CEO.
Pani, która przeprowadza wywiad, pyta Sama w jaki sposób OpenAI zamierza zarabiać pieniądze. Sam odpowiada, że nie ma pojęcia, że nigdy nie mieli przychodów i nie wie. Mówi też, że obiecał inwestorom, że jak już zbudują AGI to zapytają je jak mają wygenerować zwrot z inwestycji:
1. Once we build a generally intelligent system, that basically we will ask it to figure out a way to make an investment return for you. (youtube)
Publiczność się śmiała. Dziś prywatna wycena OpenAI jest na poziomie $20B.
Ta historia mówi trochę na temat tego jaką organizacją jest OpenAI. Wydaje się, że oni rzeczywiście wierzą, że to co robią to nowy Manhattan Project, a Sam Altman to nowy Robert Oppenheimer, który nie może się doczekać, żeby powiedzieć “Now I am become Death, the destroyer of worlds”, bo oznaczałoby to, że stworzył AGI i na zawsze zmienił bieg historii.
Jeśli wierzymy, że tworzymy coś z potencjalnym wpływem na rzeczywistość o skali bomby atomowej, to chcemy upewnić się, że myślimy również o złych scenariuszach.
Gdy budowaliśmy web 2.0, blogi i social media, to szybko natknęliśmy się na problem moderacji. Finalnie okazało się, że moderacja jest fundamentalną cechą usług User Generated Content, oraz, że decyzje podejmowane przez firmy, dotyczące moderacji, są emocjonujące i kontrowersyjne, niezależnie od tego jakie są.
Moderacja to problem pierwszego rzędu, którego nie da się rozwiązać samą inżynierią. Trzeba mieć opinię, kulturę, przemyślenia filozoficzne na temat wolności słowa, oraz prawne na temat zgodności tego co robimy z przepisami różnych państw. Jest to jednak problem jakości produktu.
1. Mogę zrobić social media bez moderacji. Wtedy powstanie 4chan.
2. Mogę zrobić social media z dość restrykcyjną moderacją, wtedy powstanie Tiktok.
Social media wygenerowały jednak problemy drugiego i trzeciego rzędu, o których nikt nie myślał na poziomie tworzenia samej technologii: uzależnienie, problemy ze zdrowiem psychicznym, poczucie alienacji, misinformacja, cyberbulling, zanik umiejętności społecznych itd.
1. Te problemy mogą być dużo istotniejsze w długim horyzoncie czasowym bo zmieniają nas w innych ludzi, zmieniają społeczeństwo, normy kulturowe, lub w przypadku wpływu na zdrowie psychiczne: wpływają na naszą percepcje rzeczywistości na poziomie neurologicznym.
2. Mogą też w długim terminie być bez znaczenia, bo krok po kroku się z nimi uporamy, dzięki kulturze, legislacji i inżynierii.
Zanim mieliśmy popularne systemy AI typu ChatGPT powstała cała gałąź badań, która nazywa się AI alignment. Jest to obszar badań dotyczący tego, żeby systemy AI działały zgodnie z intencją i wartościami twórców, a nie tylko dążyły do efektywnego rozwiązania problemu.
1. Chodzi o to, żeby systemy AI nie miały wbudowanych błędów poznawczych. Na przykład, żeby generator obrazów w odpowiedzi na prompt “portrait of english professor” nie wyświetlał tylko zdjęć przedstawiających siwych białych mężczyzn.
2. Chodzi też o problemy niepełnego zrozumienia, na przykład jeśli damy cel systemowi AI by wygrał wyścig, AI może wybrać taki sposób wygrania wyścigu w którym niszczy wszystkich konkurentów, zamiast dobrać optymalną trasę i technikę pokonania toru. AI nie rozumie, że naszą intencją nie jest wygranie wyścigu za wszelką cenę, bo nie ma naszego systemu wartości. Jeśli chcemy, żeby poprawnie działał musimy zadbać by lepiej rozumiał o co nam chodzi.
Alignement w tej postaci jest uzupełnieniem inżynierii samego systemu. Chcemy, żeby system działał poprawnie, musimy wiec narzucić mu pewne zasady, które do tego doprowadzą. Budzi emocje i konflikty, ale jest problemem produktowym. Rozwiązujemy problemy pierwszego rzędu.
Oczywiście szybko zaczynamy rozszerzać nasze zainteresowania o bardziej abstrakcyjne problemy. Problemy drugiego i trzeciego rzędu.
1. Na przykład “rozwój własny AI”, czyli ograniczenie tego w jaki sposób AI samo się poprawia, żeby nie wymknęło się pod kontroli twórców.
2. Lub problem “złego aktora”. Co jeśli ktoś stworzy “złe AI” i będzie je kontrolował, a nasza grupa będzie miała tylko “dobre AI” i przegramy.
Ostatnie dwa przykłady to już nie alignment w rozumieniu “niech system działa zgodnie z naszą intencją”. Zaczynamy się ocierać o science fiction i spekulację. Przestajemy skupiać się na problemach pierwszego rzędu, a zaczynamy snuć rozważania antycypujące problemy drugiego i trzeciego rzędu.
Jeśli poważnie wierzymy, że OpenAI to nowy Manhattan Project to pamiętajmy, że Manhattan Project stworzył bombę atomową, czyli narzędzie do zabijania milionów ludzi w krótkim czasie. Twórcy bomby wiedzieli co zrobić, żeby bomba działała, i jakie działania podjąć, żeby nie wysadzić bombą samych siebie w trakcie jej konstruowania. Po cytacie z Oppenheimera, który wstawiłem wyżej, można zakładać też, że antycypowali problemy drugiego i trzeciego rzędu, które ich wynalazek może wygenerować. Uznali jednak, że ich zespół powinien zrobić bombę i tak, bo inny zespół, może zrobić ją pierwszy.
Nie sądzę jednak, że zakładali, że bomba i fakt, że wiele zespołów na całym świecie ją w końcu zbudowało, przyczyni się do długotrwałego pokoju i braku kolejnej wojny światowej przez następne 77 lat.
Antycypowanie problemów pierwszego rzędu to dobra inżynieria. Antycypowanie problemów drugiego i trzeciego rzędu jest teoretyczną aktywnością, której użyteczność jest nieoczywista.
Wydaje się, że OpenAI wybrało drogę budowania i korekt, a nie drogę antycypowania wszystkich możliwych problemów trzeciego rzędu, która może prowadzić do paraliżu.
Jesteśmy nieźli w generowaniu pomysłów jakie ryzyka i problemy może przynieść nowy wynalazek. Jesteśmy średni w przewidywaniu tego jakie jest prawdopodobieństwo tego, że dane ryzyko wystąpi i bardzo słabi w antycypowaniu tego jak będzie wyglądał świat po tym gdy dane ryzyko wystąpi.
Przesadna optymalizacja w kierunku “unikania ryzyka” jest ryzykiem samym w sobie.

Kuba Filipowski

Unikanie ryzyka w systemach AI /December 27, 2022 by Kuba Filipowski