"Text prompt to image" to nie koniec historii / by Kuba Filipowski

  1. “Text prompt to image” to dominujący sposób tworzenia obrazków przy pomocy generatywnego AI. Wpisujemy tekst, klikamy generuj, czekamy, AI wypluwa obrazek. Poprawiamy prompt, czekamy, AI wypluwa obrazek. Jest to magiczne jak widzi się to pierwsze 10 razy. Jednak dość czasochłonne i wymagające szerokiego leksykonu słów kluczowych, żeby wygenerować coś atrakcyjnego wizualnie.

    1. Mam poczucie, że to nie jest najbardziej przyjazny sposób, żeby generować obrazy i że inny rodzaj interface’u wygra.

    2. Na przykład Lexica.

      1. Wyszukiwarka obrazów wygenerowanych przez Stable Diffusion

      2. Pozwala klikając, eksplorować różne prompty i style obrazów, oraz szukać podobnych obrazów do tego, który wgramy (image-to-image search).

      3. Lexica rozwija również swój własny model, który wygląda bardzo dobrze.

      4. Lexica jest interesująca bo nie wymaga wymyślania promptów, pozwala się zainspirować i szybko działa, bo obrazy są już wygenerowane i leżą na serwerze. Wygenerowali je inni użytkownicy Lexica.

      5. Interakcja z Lexica bardziej przypomina klikanie i szukanie niż wymyślanie skomplikowanego prompta.

    3. Innym sposobem, który ma moim zdaniem przyszłość, to konwersacyjne UI. Czyli piszę sobie z botem, który poprawia mój obrazek. Zamiast pisać jeden długi prompt, dziele go i zaczynam od ogółu do szczegółu.

      1. Wydaje się, że jest to bardziej naturalny i wygodny sposób pisania promptu niż kopiowanie i dokładanie kolejnych słów, żeby osiągnąć oczekiwany efekt.

    4. Jesteśmy dosłownie w stadium “linii komend”, a docelowy interface będzie bardziej wizualny i intuicyjny. Analogia przejścia z systemu operacyjnego typu DOS na Windowsa nasuwa się sama.

    5. Dzięki temu, że generatywne AI jest albo open source (stable diffusion) albo API first (Dall-e) to możemy spodziewać wielu innowacji na poziomie interfejsu użytkownika.