Halucynacje w demo nowego Bing / by Kuba Filipowski

  1. Podekscytowałem się demem nowego Binga, porównałem je nawet do demo iPhone i Steva Jobsa i nazwałem rewolucją.

  2. Wydawało mi się, że dość dokładnie je obejrzałem. Jednak nie na tyle dokładnie, żeby sprawdzić czy informacje, które GPT wypluwa podczas demo, są prawdziwe.

  3. GPT ma skłonność do halucynacji. GPT odpowiada na pytanie, nawet jeśli nie zna poprawnej odpowiedzi. Po prostu “wymyśla” odpowiedź. Taka wymyślona odpowiedź to halucynacja.

    1. Dla ilustracji: wpisałem do ChatGPT pytanie: kto założył Netguru?

    2. Odpowiedź: Netguru została założona w 2008 roku przez Wiktorię Wero, Katarzynę Dziewanowską oraz Marcina Trąbińskiego. Wszyscy trzej byli studentami Uniwersytetu Ekonomicznego w Poznaniu.

    3. Brzmi przekonująco, zgadza się data, Poznań, liczba założycieli, mój wspólnik ma na imię Wiktor więc prawie Wiktoria, poza tym to same fantazje.

  4. To jest zabawne, bo znam prawdziwą odpowiedź. To jest mniej zabawne, jeśli informacje od GPT uznam za prawdziwe i podejmę decyzję na ich podstawie.

  5. Problem halucynacji jest znany. Akceptujemy go jako wyzwanie w rozwoju dużych modeli językowych, które z czasem będzie rozwiązane przez jakąś sprytną technikę. Halucynacje nie unieważniają istotności wynalazku jakim jest GPT. Tworzą jednak pewien problem w tworzeniu produktów opartych o GPT.

  6. Na ten problem natknął się również Microsoft, niestety w bardzo publiczny sposób. Podczas ważnej prezentacji o nowym Bingu.

  7. Wczoraj trafiłem na dwa artykuły listujące błędy faktyczne na prezentacji Bing.

  8. Błędów jest niestety dużo!

    1. Skrót wyników finansowych firmy Gap zawierał błędne liczby

    2. Porównanie wyników Gap do Lululemon: połowa liczb w tabeli się nie zgadza

    3. Japońscy poeci: wśród 9 “znanych poetów”, Chat Binga wymienił autorkę książek dla dzieci (nie poetkę), i gwiazdę rocka (nie poetę)

    4. Rekomendacje klubów nocnych w Meksyku: jeden to grill bar z muzyką na żywo w dzielnicy do której podobno lepiej się nie wybierać jak się jest turystą, drugi to bar w galerii handlowej

    5. Odkurzacze: jako wadę odkurzacza Czat podał, że ma krótki kabel, a ten model odkurzacza jest bezprzewodowy

  9. Sporo jak na jedno demo.

  10. Microsoft, niestety, pozwolił sobie na pokazanie tych przykładów bez kontroli jakości.

  11. Nadal uważam, że implementacja GPT w przeglądarce to rewolucyjna innowacja, ale bardzo bym chciał, żeby kolejne wersje GPT radykalnie mniej halucynowały.

  12. Przypomniały mi się słowa LeCuna (szefa AI w Meta): Google and Meta both have a lot to lose by putting out systems that make stuff up.

  13. Hype na AI jest duży. GPT to narzędzie, narzędzie niedoskonałe. Trzeba uważać i pamiętać o jego mocnych i słabych stronach. Bing i OpenAI muszą to tłumaczyć użytkownikom na każdym kroku jeśli chcą pozostać wiarygodni. Tak duża liczba halucynacji w oficjalnym demo na premierze to problem wizerunkowy i problem w budowaniu zaufania do nowej technologii.