O asystentach głosowych, sztucznej inteligencji i maszynach, z którymi można porozmawiać, z okazji dziesiątej rocznicy premiery Alexy i Amazon Echo, z Rafałem Charłampowiczem rozmawia Damian Przybyła.
Dziś już nikogo nie dziwi mówienie do asystentów głosowych, dyktowanie czy wymiana wiadomości z różnymi chatbotami. Maszyny zachowują się w sposób coraz bardziej przypominający człowieka. Czy nadejdzie dzień, gdy odróżnienie robota od człowieka stanie się czymś trudnym? Jak bardzo zbliżyliśmy się do tej granicy? O teście Turinga słyszeli chyba wszyscy, którzy zadają sobie to pytanie.
– Damian Przybyła: Jeszcze przed pojawieniem się Alexy istniały inne asystenty głosowe. Google, Apple i Microsoft opracowywały swoje rozwiązania. Wadą ich wszystkich było jednak bardzo sztywne, ograniczone do niewielkiej liczby komend, reagowanie na mowę. Alexa miała dokonać rewolucji, rozpocząć wielką rywalizację, a tymczasem nic takiego się nie stało. Jak to oceniasz?
– Rafał Charłampowicz: Rzecz jest bardziej skomplikowana, to znaczy zgadzam się, ale nie do końca, czyli może się nie zgadzam. Zacznijmy od tego, że mam osobisty stosunek do Amazon Echo, bo pracowałem w IVONA Software, gdy Echo powstawało. Ba, tajemnicą poliszynela jest, że Amazon kupił IVONA Software właśnie po to, by mieć świetne głosy do Echa. Polecam dziesiąty odcinek podcastu „Alexa Stage”, w którym ludzie z Amazona (sami znajomi) fajnie mówią o tamtym czasie i atmosferze związanej z projektem. To był dla mnie bardzo ciekawy okres w życiu. Mnóstwo się wtedy nauczyłem, dużo z siebie dałem, a przede wszystkim poznałem świetnych ludzi. Ale nie ma być sentymetalnie i już wracam do Twojego pytania.
Echo przede wszystkim pokazało, że taki głosowy interfejs się sprawdza. Urządzenie, które słyszy i słucha staje się częścią domowego ekosystemu i mówienie w powietrze, np. by spytać o pogodę lub puścić piosenkę, staje się najnormalniejszą rzeczą w świecie. W podcaście, o którym już wspomniałem, jest mowa o dziecku, które próbuje rozmawiać z tramwajem, bo myśli że to Alexa, ale moim zdaniem rzecz dotyczy wszystkich. Gdy jestem poza domem, np. na jakimś wyjeździe, irytuje mnie to, że muszę brać komórkę do ręki, by czegoś się dowiedzieć. To bardzo nienaturalne. Oczywiście możesz zapytać, ale wtedy znaczenie ma odległość oraz to, że wyniki i tak pewnie ukażą ci się na ekranie. Używanie Echa jest po prostu naturalne. Natomiast zgadzam się, że nie mamy takiego rozwoju, jakiego się spodziewaliśmy, szczególnie w Polsce, gdzie pewne rzeczy po prostu nie są dostępne. Czasem mamy wręcz regres i niektóre funkcjonalności Alexy znikają. Inne firmy też niespecjalnie rozwijają interfejsy głosowe podobne do Echa. Niedawno czytałem, że Amazon nie zarabia na Echu tyle, ile się spodziewał, czyli ludzie nie robią zakupów za pomocą Echa. W tej sytuacji zrozumiałe jest, że nie mamy rozwoju. Moim zdaniem Echo się sprawdziło.
– D. P.: A zatem Porażka? A może historia podobna do tej ze słynną bańką internetową z początku wieku?
– R. CH: Nie. Z pewnością nie. Nie mam dostępu do twardych danych, ale nie zdziwię się, jeśli Amazon Echo to wciąż najlepiej sprzedający się asystent głosowy. Inna rzecz, że wśród tych wielkich konkurencja nie jest duża, a większość asystentów działa na smartfonach, których używa się inaczej.
– D. P.: Jednak zgodzisz się z tezą, że wpływ tych rozwiązań na nasze zachowania w świecie cyfrowym jest póki co dużo mniejszy niż mogliśmy się spodziewać?
– R. CH: Nie mam danych, więc nie wiem. Ciągle jednak spotykam ludzi, którzy korzystają z asystentów głosowych. Taksówkarze głosowo wybierają adres w GPS, starsi ludzie głosowo wybierają kontakty w telefonie, wiele osób głosowo robi notatki lub pisze posty w mediach społecznościowych. Sądzę, że jesteśmy tak przyzwyczajeni do interfejsów głosowych, że już ich nie zauważamy. W przypadku Alexy jest ten problem, że nie działa po polsku, więc jej użycie jest oczywiście ograniczone, ale też jest używana. Z ciekawostek mam znajomego, który tak skonfigurował Alexę ze Skype, że sama mu zamawia taksówkę. Ale to już trochę wyższa szkoła jazdy.
Jeszcze co do asystentów, to rewolucję może zrobić generatywna AI. Tyle że znów wchodzimy w kwestie wygody używania i funkcjonalności. Co z tego, że Gemini odpowie mi na różne pytania, jeśli jednocześnie na samym telefonie zrobi mniej niż Google Now, czyli np. nie włączy mi trybu „nie przeszkadzać”, a to jest to, co na telefonie przełączam najczęściej. Ally od Envision jest świetna, ale poza okularami, najlepiej sprawdzałaby się właśnie na urządzeniu typu Echo.
– D. P.: Osoby z dysfunkcją wzroku wiązały spore nadzieje ze stworzeniem asystentów głosowych. Oczekiwaliśmy na przełom, na wynikającą z pojawienia się takich rozwiązań istotną poprawę jakości życia. Okazało się jednak, że wpływ ten nie jest tak wielki, jak moglibyśmy się spodziewać. Dlaczego tak jest?
– R. CH: Chatboty, z którymi można było porozmawiać na wybrany temat, pojawiły się na długo przeD. P.owstaniem Alexy. W Polsce najsłynniejszy był chyba dowcipny chatbot PKP. Natomiast chatboty w kontekście dostępności cyfrowej, czy projektowania uniwersalnego, to nowość. Pamiętam, że w grupie pracującej nad WCAG 2.2 dość długo dyskutowaliśmy, czy automat należy umieścić na liście mechanizmów pomocy w kryterium sukcesu 3.2.6 „Spójna pomoc”. Technooptymiści, do których należałem i należę, postulowali, że lepiej uwzględnić możliwość, że kiedyś chatboty (a było to dawno, dawno, czyli kilka lat temu) będą w stanie udzielać pełnej pomocy użytkownikom. Grupa została przekonana i tak mamy na liście „fully automated contact mechanizm” (w pełni automatyczny mechanizm kontaktu), czyli po ludzku automat do udzielania pomocy. Rewolucja w AI dowiodła, że warto być przewidującym.
Wracając do Alexy, to ona, i inne rozwiązania, nie była projektowana dla niewidomych. To miało być rozwiązanie dla wszystkich, a nie dla osób z niepełnosprawnościami. No i przydaje się wszystkim, w tym niepełnosprawnym, czasem podobno ratując ludziom życie. Brak ekranu (oczywiście są też Echa z ekranami, ale mówimy o standardowym Echu) jednak wymusza komunikację przyjazną dla niewidomych. Spójrz na Google Now, które zapytane o coś, często mówi, że wyniki masz na ekranie. Alexa odpowie ci głosowo. Rewolucyjność Alexy polegała też na tym, że mogłeś do niej mówić w języku naturalnym. Przy generatywnej AI to już teraz nie robi wrażenia, ale kiedyś to była duża rzecz.
– D. P.: Czy alexa to już sztuczna inteligencja?
– R. CH: Są różne definicje sztucznej inteligencji. Wszystko zależy od tego, jaką przyjmiesz. Dla jednych rozpoznawanie mowy i umiejętność odpowiedzenia na nieskomplikowane pytania oraz wyszukanie odpowiedzi w bazach to już inteligencja, a dla drugich cuda, które robi generatywna AI to po prostu statystyka.
– D. P.: A co z przełamywaniem granic między światem cyfrowym i realnym? Alexa chyba od zawsze miała wbudowaną możliwość zrobienia listy zakupów i, przynajmniej w sklepie Amazona, zrobienia zakupów. Mówiło się o asystencie głosowym rezerwującym stolik w restauracji czy dzwoniącym by umówić nas do fryzjera. Czy możliwości Alexy lub innych asystentów głosowych są rozwijane w tym kierunku?
– R. CH: Problem jest taki, że funkcjonalności czy umiejętności asystentów głosowych pojawiają się i znikają. Google demonstrowało kiedyś możliwość rezerwowania stolika w restauracji. Nie obserwowałem potem tego dalej. Jak wspominałem, mój znajomy za pomocą Alexy zamawia taksówkę. Z drugiej strony Alexa miała kiedyś możliwość robienia tłumaczeń na żywo, czyli tłumaczyła wypowiedzi w dwóch językach, w teorii umożliwiając rozmowę z kimś, kto był z tobą w tym samym pomieszczeniu. Ta możliwość jakiś czas temu zniknęła. Za pomocą Alexy możesz sobie przestawić ogrzewanie w domu, włączyć i wyłączyć światło, włączyć pranie i zrobić jeszcze wiele innych rzeczy. Kiedyś nie mogłem się dodzwonić do żony, więc zdalnie włączyłem jej radio na domowej Alexie i to zwróciło jej uwagę, że ma wyciszony telefon. Możliwości techniczne są duże. Ograniczenia są raczej prawne i kulturowe. Ostatnio mówię trochę o rewolucji w technologiach asystujących, z którą mamy teraz do czynienia. W prezentacji mam slajd z tekstem „Rozwiązania dobre dla społeczeństwa bywają okropne dla jednostek.”. Rozwiązania, które mają nas chronić, są beznadziejne dla niewidomych: brak możliwości rozpoznawania ludzi (takiej praktycznej), cenzura w opisach automatycznych, brak dostępu do rozwiązań, które nie spełniają wymagań Unii Europejskiej, a które przydałyby się niewidomym. Zatem problem nie leży w możliwościach technicznych.
Może podam przykład tych ograniczeń. Do moich prezentacji robię testy sprawdzające, jak AI dostępna w screenreaderach opisuje różne obrazki. Jak wiesz, działa to teraz niesamowicie. Tylko że jeśli spróbujesz dostać opis zdjęcia o charakterze erotycznym, dostaniesz albo ogólny opis, który absolutnie nie oddaje charakteru zdjęcia (pani w wannie może przecież po prostu reklamować mydło), albo info, że to treść dla dorosłych i zdjęcie nie zostanie opisane. Niedawno słyszałem opowieść o kimś, komu AI odmówiła opisania filmu z YouTube. Okazało się, że był to filmik z wyborem najbrutalniejszych scen z jakiegoś popularnego filmu. Z kolei Facebook kiedyś identyfikował ludzi. Od lat nie ma już tej możliwości, więc nawet się nie dowiesz, czy na zdjęciu jest twój znajomy, który wrzucił posta, czy może ktoś zupełnie inny.
Odrębną rzeczą jest umiejętność lub chęć wykorzystania możliwości AI przez samych jej twórców i dostawców. Copilot byłby bardziej przydatny, gdyby potrafił zrobić więcej na komputerze. O Gemini, które nie potrafi zmienić ustawień w telefonie już wspominałem. Na tym polu jest wciąż dużo do zrobienia.
– D. P.: We wrześniowym numerze Tyfloświata ukazał się twój artykuł, poświęcony nowościom technologicznym w obszarze wspomagania mobilności osób niewidomych. Większość tych rozwiązań wyposażono w sztuczną inteligencję. Czy Alexa także jest rozwijana w tym kierunku?
– R. CH: Nie wiem, w jakim kierunku będzie rozwijana Alexa. Ja jestem typem, który zawsze widzi potencjał dla technologii asystujących i zawsze ma pomysły, natomiast nie wiem, jakie plany ma Amazon. Teraz pracuję gdzieindziej [śmiech]. Tyle że rzecz nie dotyczy rozwoju AI pod kątem mobilności czy generalnie wspomagania, a raczej tego, co wykorzystują twórcy technologii asystujących. Jeśli np. jakiś serwis wprowadzi nowe możliwości, które przydadzą się niewidomym, to twórcy technologii asystujących z pewnością je zaimplementują. Teraz takim przykładem są możliwości rozumienia filmów. Pojawia się coraz więcej narzędzi i wszystkie one są testowane przez twórców pomocy dla niewidomych.
– D. P.: A czy przypadkiem nie jest tak, że wprowadzanie tych wszystkich coraz bardziej zaawansowanych technologicznie rozwiązań i następujące wraz z nim zmiany kulturowe nasilają zjawisko wykluczenia społecznego osób z niepełnosprawnościami? Czy technologia nie obnaża przypadkiem naszej inności?
– R. Ch: Nie wydaje mi się. Lem napisał w „Powrocie z gwiazd” zdanie, które teraz jest bardzo aktualne. Pozwól, że zacytuję i nie zrobię tego z pamięci, bo tę akurat mam taką sobie. A więc Lem pisze „Zauważyłem już, że z robotami rozmawia mi się doskonale, ponieważ absolutnie niczemu się nie dziwiły.”. Gdy interesuje mnie, jak wygląda jakaś osoba publiczna, czy w ogóle cokolwiek, do czego dostęp ma Copilot, pytam. Copilot się nie dziwi. Często dodaję zdanie, że jestem niewidomy, więc chcę, że tak powiem, bardziej opisowy opis i ani ja, ani Copilot nie czujemy się niezręcznie. Dla mnie to zmniejszanie wykluczenia. To właśnie nowe technologie pozwalają niwelować różnice. Już choćby to że dzięki AI dowiaduję się, co jest na zdjęciach pozwala mi lepiej funkcjonować w środowisku, gdzie informacja graficzna jest podstawą. A odchodząc od niepełnosprawnych, czyli mówiąc o wszystkich, ciekawe i fajne jest to, że dzięki temu, że coraz bardziej wchodzimy w interakcje z maszynami i światem cyfrowym, granica między tzw. Wirtualem i tzw. Realem rozmywa się. Mówię o „tzw. Wirtualu” i „realu”, bo nie lubię takich podziałów. Rzeczywistość jest jedna.
Ludzie są coraz bardziej otwarci na maszyny, a generatywna AI chyba przyśpieszyła ten proces. Podam przykład. Google Glass wyprzedziło swój czas. Ludzie nie patrzyli na to,co dają im okulary Google’a, ale bali się, że ktoś będzie ich podglądał i nagrywał. Google Glass funkcjonowało zatem jako urządzenie do zastosowań specjalistycznych, np. w magazynach, gdzie pozwalało szybciej odnajdywać i katalogować produkty. Były też zastosowania eksperymentalne i tak np. stworzono pomoc w rozpoznawaniu emocji przeznaczoną dla dzieci, które mają problem z rozpoznawaniem wyrazu twarzy drugiej osoby.
Dla mnie Google Glass to Okulary Envision. Były przydatne od samego początku, ale gdy dostały dostęp do AI, ich przydatność jeszcze wzrosła. Tyle że Google Glass nie zdążyło załapać się na rewolucję AI, bo Google zakończył produkcję. A teraz przyjrzyjmy się okularom Ray-Ban Meta. Funkcjonowały raczej jako ciekawostka lub gadget. Ich sprzedaż gwałtownie skoczyła, gdy dostały AI i mówię tutaj o tzw. Zwykłych ludziach. Zainteresowanie Ray-Ban Meta wśród niewidomych też oczywiście wzrosło i rośnie. Już spotyka się niewidomych, którzy używają tych okularów na co dzień.
– D. P.: No dobrze, ale co to wszystko ma wspólnego z Alexą?
– R. Ch: Alexa pokazała, że komunikacja z urządzeniem może być wygodna. To był ten pierwszy krok. Teraz mamy kolejną rewolucję i jestem przekonany, że Alexa do niej dołączy, a przynajmniej bardzo bym chciał. Nie z sentymentu, ale dlatego że Echo to właśnie bardzo wygodne urządzenie. A co do przemian, o których cały czas rozmawiamy, to teraz kluczem jest maksymalna personalizacja. Tu już nie tylko chodzi o rozpoznawanie użytkownika po głosie, co np. robi Alexa, ale o dobre rozumienie potrzeb użytkownika i dopasowywanie, a może wręcz wpasowywanie się w jego potrzeby i otoczenie. To np. próbuje robić Ally i pewnie inni pójdą podobną drogą. Wyobrażam sobie, że kiedyś ludzie będą mówić różnym narzędziom (choćby komputerowi czy smartfonowi), co chcą osiągnąć, a interfejs zrobi to za nich. To już się dzieje. Jesteśmy na początku tej drogi i do ostatniego słowa wypowiedzianego przez maszyny jeszcze bardzo daleko.