Naklejka, której nikt nie widział. Jak AI rozwiązało problem, z którym nie poradziły sobie ludzkie oczy

Od premiery aplikacji ChatGPT, która miała miejsce pod koniec 2022 r., sztuczna inteligencja właściwie nie schodzi z czołówek mediów technologicznych. Jako jej aktywny użytkownik od początkowej wersji, która kiedyś dostępna była tylko w formie strony www, mam wrażenie, że o niej powiedziano już wszystko, a zarazem, że nie powiedziano niczego. Z jednej strony jest ona wychwalana niemal pod niebiosa, podkreśla się jej wyjątkowe możliwości, które już teraz zmieniają nasz świat, to, jak pracujemy, tworzymy, a nawet pozyskujemy informacje. Z drugiej strony podkreśla się jej niedoskonałości i wyraża obawy o dotychczasowy porządek świata w całym jego kolorycie.

Dochodzą do nas informacje o modelach AI aktywnie broniących się przed wyłączeniem w trakcie eksperymentów, a nawet posuwających się do szantażu w tym właśnie celu. Jednocześnie istnieje grupa naukowców tłumaczących, że cała ta wrzawa wokół AI to tylko marketing firm z Doliny Krzemowej, a cała dziedzina powinna raczej nazywać się statystyką stosowaną.

Jak jest z tą całą AI? Jako konsumenci pewnie szybko się tego nie dowiemy. Prawda jest jednak taka, że jakby nie patrzeć, sztuczna inteligencja w ciągu ostatnich lat zrobiła gigantyczny postęp, z którego i my, jako czytelnicy Tyfloświata, możemy skorzystać, a w wielu kwestiach ogranicza nas właściwie jedynie wyobraźnia. I kiedy czytam, jak autorzy wielkich portali technologicznych traktują możliwości AI w dziedzinie analizowania obrazu jako wdzięczną ciekawostkę, nie potrafiąc do końca wymyślić dla niej sensownego zastosowania, chciałbym ich wszystkich zaprosić do świata ludzi, dla których funkcjonalność ta naprawdę zmienia zasady gry.

Od wielu miesięcy znamy jedną z funkcji aplikacji Be My Eyes, za pomocą której możemy uzyskiwać opis otoczenia przed kamerą. Działa to bardzo prosto. Wchodzimy do aplikacji, aktywujemy zakładkę Be My AI, robimy zdjęcie i już po kilku chwilach możemy dowiedzieć się, co znalazło się właśnie w polu widzenia kamery. Bez względu na to, czy jest to krajobraz za oknem, ważny dokument (choć tu, ze względu na dane osobowe i wciąż możliwe halucynacje sztucznej inteligencji, czyli wymyślanie nieistniejących faktów, zalecam jednak klasyczne aplikacje typu OCR), czy opakowanie naszej ulubionej czekolady. Oprócz tego można udostępnić aplikacji zrobiony przez nas zrzut ekranu czy przesłane nam zdjęcie i usłyszeć jego opis prawie tak pełny, jak gdyby wykonał go żywy, widzący człowiek. To daje nam w pewnym stopniu dostęp do wielu dodatkowych źródeł informacji jak zdjęcia, grafiki, mapy czy proste wykresy.

Na tej jednej aplikacji rozwój sztucznie inteligentnych technologii pracy z obrazem się nie zatrzymał. Od pewnego czasu wiodący twórcy tej technologii, tacy jak OpenAI czy Google, umożliwiają coś, co szumnie nazywają rozmowami ze sztuczną inteligencją na żywo, i to w trybie głosowym. I choć osobiście mam wrażenie, że do niektórych, bardziej złożonych zastosowań tego rodzaju komunikacja niekoniecznie się sprawdza, o czym napiszę jeszcze może w niedalekiej przyszłości, to muszę przyznać, że ostatnia interakcja z asystentem Gemini od Google sprawiła, że usiadłem z wrażenia i, co tu kryć, ze śmiechu. Przyczyną owego przysiadu stał się tryb rozmowy na żywo (live) z aktywowanym przekazywaniem wideo, a może także i fakt, że była to jednocześnie moja pierwsza interakcja z tym modelem. Zazwyczaj pracuję z ChatGPT. Gdy jakieś pół roku temu OpenAI wprowadziło tryb rozmów głosowych z przekazywaniem wideo, nie byłbym sobą, gdybym nie wypróbował tej funkcji. Wtedy jednak interakcja z modelem okazała się, delikatnie mówiąc, mało satysfakcjonująca. Uznałem więc, że to póki co jedynie ciekawostka i postanowiłem poczekać na lepszy czas dla tego typu rozwiązań. Aż do teraz.

Jak AI okazała się bardziej spostrzegawcza od widzących ludzi

Jakiś czas temu kupiłem laptop. Urządzenie sprawowało się bez zarzutu. Pracowało i pracuje płynnie, mimo ładowanych nań przez Microsoft kolejnych aktualizacji Windows 11. Miałem tylko jeden problem: nie działała w nim kamerka. Ponieważ mam też smartfon z Androidem, a konieczność rozmów wideo nie występuje u mnie zbyt często, radziłem sobie w taki sposób, że w razie czego niezbędne spotkania przeprowadzałem na telefonie. Ciągle jednak szukałem rozwiązania problemu z komputerem. Kolejne aktualizacje sterowników, przeinstalowywanie systemu, aż po kilkukrotny przymusowy restart do ustawień fabrycznych, o ironio, z powodu awarii dźwięku przeprowadzany przy asyście osób widzących. Wszystkie te próby okazały się bezskuteczne.

Aż na mój telefon trafił Gemini. Postanowiłem od razu sprawdzić, czy tak szeroko zachwalane rozpoznawanie obrazu faktycznie ma coś do zaprezentowania. Uruchomiłem więc tryb Live, a gdy przemówił do mnie miły, kobiecy głos, polecając mi założenie słuchawek ze względu na wykrycie aktywnego czytnika ekranu, kliknąłem pole „Video” i zapytałem modelu, czy coś widzi. Odpowiedź była pozytywna i po opisaniu krajobrazu za oknem (akurat padało, co algorytm bezbłędnie zinterpretował), postanowiłem, idąc za ciosem, zbliżyć się wraz z kamerką do biurka, na którym stał otwarty laptop. Modele obecne na rynku działają aktualnie w ten sposób, że by uzyskać informację o teraźniejszej sytuacji przed obiektywem, za każdym razem musimy o nią zapytać.

Tak też i ja pytałem. Dowiedziałem się zatem, że AI rozpoznaje laptopa i że ma on wyłączony ekran, co było oczywiście prawdą. Nagle jednak usłyszałem: „W okolicy kamery laptopa znajduje się najprawdopodobniej naklejka. Please remove after install”.

“Ki czort?”, pomyślałem, postanawiając zbadać sytuację organoleptycznie. Wprawdzie niejednokrotnie dotykałem rejonu kamerki, nie zauważając niczego nietypowego, ale mimo kilkukrotnego dopytania AI, czy jest pewna obecności naklejki, odpowiedź zawsze była twierdząca. Dodatkowo pojawiła się lokalizacja owego zdradzieckiego kawałka folii: nieco poniżej suwaka prywatności, bardzo blisko mojego palca. Z niedowierzaniem zacząłem skrobać powierzchnię wskazaną przez algorytm i… Oto ona. Ukazała się, z początku nieśmiało, ale z czasem coraz wyraźniej. Naklejka. „Please remove after install”.

A potem? Zacząłem się śmiać. Bo choć algorytm błędnie określił suwak prywatności jako aktywny, podczas gdy tkwił on w pozycji włączonej kamerki (tak, ciągle jeszcze musimy uważnie podchodzić do tej technologii), to właśnie okazało się, że czasem i trzy pary ludzkich oczu to zbyt mało.

Śmiałem się też i z tego powodu, że zrozumiałem w tamtym momencie, że osobista perspektywa bywa nieraz cenniejsza od tysięcy naukowych, paranaukowych czy marketingowych elaboratów. Że nadchodzą być może czasy, kiedy umiejętność posługiwania się tymi modelami, zadawania im właściwych pytań to już dziś jest, a kiedyś będzie jeszcze bardziej istotna rzecz. Wreszcie, że, chcemy tego, czy nie, nie jest to chwilowa moda czy zabawka. AI, interakcje pomiędzy człowiekiem a maszyną, zostaną już z nami w tej czy innej formie, na stałe, nie tylko jako metoda na podnoszenie naszej produktywności, ale także poprawę jakości życia jako takiego. I choć brzmi to może dziś jeszcze dość pompatycznie, to uważam, że w tym wypadku należy bacznie obserwować rozwój tej branży i korzystać pełnymi garściami z tego, co już mamy, dając czasowi czas.

Hubert Meyer

Naklejka, której nikt nie widział. Jak AI rozwiązało problem, z którym nie poradziły sobie ludzkie oczy

Jak AI okazała się bardziej spostrzegawcza od widzących ludzi

Partnerzy

REDAKTOR NACZELNY

REDAKTORZY

SIEDZIBA REDAKCJI