O rozpoznawaniu obrazu
Jestem przekonany, że rozpoznawanie obrazu jest technologią, która będzie miała największy wpływ na rozwój pomocy w codziennym funkcjonowaniu niewidomych. Właściwie należałoby powiedzieć, że użycie czasu przyszłego w tym miejscu nie jest w pełni uzasadnione, bo jeden wielki przełom rozpoznawaniu obrazu już zawdzięczamy. Tym przełomem, który nastąpił jeszcze w ubiegłym wieku, był OCR, czyli optyczne rozpoznawanie znaków, dzięki któremu niewidomi zyskali dostęp do książek i innych materiałów czarnodrukowych. W dzisiejszych czasach, gdy każdą popularną książkę można kupić jako e-booka, łatwo zapomnieć, jakim dobrodziejstwem był OCR. Był i wciąż jest, bo co prawda coraz rzadziej, poza specyficznymi potrzebami, skanujemy książki, ale już możliwość szybkiego odczytania tekstu np. pisma z urzędu lub opisu produktu, jest ceniona przez większość niewidomych użytkowników smartfonów.
OCR powstał w zamierzchłych, przedsmartfonowych, a nawet przedinternetowych czasach. Ze smartfonami (tymi lepszymi) pojawiły się aplikacje na smartfony, w tym takie, które miały pomagać niewidomym. Z czasem opracowano proste rozpoznawanie obrazu, np. koloru lub banknotów, lepiej lub gorzej działające, często bardziej ciekawostka niż funkcjonalność, na której można by polegać. Wreszcie usługi rozpoznawania obrazu zaczęły oferować wielkie światowe korporacje, a jakość rozpoznawania nie tylko tekstu, ale obiektów i scen bardzo wzrosła i wciąż rośnie. Wzrosła też zarówno popularność, jak i ilość aplikacji opisujących świat niewidomym. Jeszcze jakiś czas temu, gdy rozmawiało się o aplikacjach rozpoznających obraz, każdy użytkownik iPhone’a mówił o Vision AI Microsoftu. Na Androidzie (nie, nie wszyscy niewidomi używają IPhone’ów) sytuacja miała się trochę inaczej, bo Vision AI nie było i wciąż nie jest dostępne na smartfonach z systemem od Google’a. Gdy jednak niedawno rozmawiałem ze znajomym o rozwoju Vision AI, ten słusznie stwierdził „dobra aplikacja, ale teraz te same funkcjonalności można mieć też dzięki innym narzędziom”. Tak, teraz do pewnego stopnia możemy wybierać, co nam pasuje. Przyszłość pomocy w orientacji i codziennym funkcjonowaniu należy właśnie do rozpoznawania obrazu. Inne pomoce, jak choćby detektory przeszkód, nadal będą przydatne lub, jak biała laska, niezbędne, ale coraz więcej informacji o tym, co jest dookoła będziemy czerpać z rozwiązań rozpoznających obraz. W końcu nawet biała laska przestanie być potrzebna, bo zastąpi ją robot – przewodnik, czyli znowu rozwiązanie wykorzystujące rozpoznawanie obrazu, ale to jeszcze trochę potrwa, bo od prototypów do końcowych produktów w tym przypadku droga daleka.
Wróćmy do teraźniejszości. Fantastycznie jest dowiadywać się, co właśnie mijamy lub przed czym stoimy, odczytywać napisy na sklepach, rozpoznawać znajomych, drzwi, samochody i inne obiekty na zewnątrz lub w budynkach, wykrywać sygnalizację świetlną i jeszcze wiele więcej, tylko że w praktyce to się nie sprawdza. Oczywiście zaraz odezwą się osoby, którym się sprawdza i chwała im za to. Mnie też zdarzyło się kiedyś przechodzić ruchliwą jezdnię z trzema słuchawkami w dwóch uszach, więc jak się człowiek uprze, można wszystko, ale pozostaję przy swoim. Rozpoznawanie obrazu w wielu sytuacjach nie sprawdza się, bo większość narzędzi to aplikacje na smartfon, a trudno iść bez przerwy trzymając komórkę w ręku. Szybkie odczytanie nadruku lub orientacja w pokoju hotelowym to jedno, a rozpoznawanie przestrzeni przez dłuższy czas i podczas przemieszczania się to drugie. Dodatkowo machanie smartfonem w ruchliwym miejscu nie tylko jest niewygodne, ale grozi utratą urządzenia. Nie, nie mam obsesji na punkcie kradzieży, choć i takie przypadki się zdarzają. Raczej spodziewałbym się, że ktoś nam zupełnym przypadkiem wytrąci telefon z dłoni.
Okulary
Będąc entuzjastą rozpoznawania obrazu, który jednocześnie nie lubi manipulowania smartfonem, po długim namyśle zdecydowałem się na Okulary Envision. Poza powodami, które przedstawiłem w poprzednim akapicie, liczyłem na rozwiązanie dwóch konkretnych problemów.
Pierwszy był dość banalny. Mam bieżnię. Biegać nie lubię, ale bieżnia to świetne narzędzie do chodzenia, co uwielbiam. Bieżnia wyświetla przebytą odległość i czas. Za pomocą aplikacji na smartfona mogłem odczytać te dane, ale gdy widzi się, że np. do 10 km, brakuje 400 m, chce się jeszcze przejść ten kawałek. Przy szybkim marszu trudno jest jednak obserwować komórką zmniejszającą się odległość. Wręcz grozi to wywrotką. Zakładałem, że w okularach czytanie na bieżąco wyświetlacza nie będzie trudne.
Drugi problem był ważniejszy i bardziej istotny. W pracy, którą wykonuję, spotykam się z niedostępnymi interfejsami. Czasem muszę zorientować się w tym, co dzieje się na ekranie komputera lub smartfona, a nie zawsze mam kogo zapytać. Zależało mi na możliwości komunikacji video bez konieczności trzymania telefonu. Z moich doświadczeń z prototypem urządzenia o nazwie „Zdalny Asystent” opracowanego kiedyś na Politechnice Łódzkiej, wiedziałem też, jak bardzo podczas drogi lub w obcym miejscu przydaje się możliwość skonsultowania sytuacji z kimś, kto widzi, co się dzieje.
Możliwość komunikacji video była tą funkcją, która przekonała mnie do Okularów Envision, bo brałem też pod uwagę inne produkty.
Czym są, a właściwie były Okulary Envision?
Okulary Envision, tworzone I sprzedawane przez firmę o tej samej nazwie, są zbudowane na bazie Google Glass Enterprise Edition 2. Tak, tak, na tych słynnych okularach Google’a, które spotkały się z takim oporem, że Google szybko wycofał je z rynku detalicznego. Same okulary jako Google Glass Enterprise były jednak oferowane firmom i było na nie zapotrzebowanie. Sytuacja zmieniła się w bieżącym, czyli 2023 roku, bo Google ogłosił, że kończy sprzedaż Google Glass. I tu, droga czytelniczko/drogi czytelniku, zastanawiasz się pewnie, po co czytać dalej o urządzeniu, które znika z rynku. Powody są dwa: producent Okularów Envision ma jeszcze zapas okularów od Google’a, a także szuka ich następcy. Oznacza to, że choć samo urządzenie się zmieni, oprogramowanie będzie to samo. Dowiesz się też, jakie są wady i zalety takich okularów i na co zwrócić uwagę, kupując podobne urządzenie.
Okulary kupowałem bezpośrednio od Envision mniej więcej w połowie 2022 r. Co ciekawe, to producentowi, bardziej niż mi, zależało, bym przed zakupem wziął udział w zdalnej prezentacji. Ponieważ nad kupnem okularów zastanawiałem się długo, wiele już o nich wiedziałem, ale i tak spotkanie było przydatne. Przede wszystkim moja żona, która również brała udział w prezentacji, mogła zobaczyć, co i jak widać przez okulary, ja z kolei dowiedziałem się, jak dokładnie wygląda kwestia oprawek i ich braku. Na okulary czekałem kilka tygodni, właśnie z powodu oprawek, które długo docierały do Holandii, gdzie Envision ma siedzibę. Poza tym zakup był bezproblemowy.
Jak wyglądają okulary Envision?
Cała elektronika Okularów Envision jest zawarta w prawym zauszniku plastikowych oprawek. Można by powiedzieć, że to klasyczne okularowe oprawki, ale są dwie różnice. Tylna część prawego zausznika nie opada w dół za uchem, jak to jest w zwykłych oprawkach, ale ciągnie się dalej na kilka centymetrów. W tej części jest głośnik i gniazdo USB-C, będące zakończeniem zausznika. Z kolei z przodu na zauszniku znajduje się dodatkowy element, który po założeniu okularów w niewielkim stopniu zasłania górną część prawej tarczy okularowej. Ten element to mały wyświetlacz i kamera. Wyświetlacz jest nam oczywiście niepotrzebny, ale tak właśnie skonstruowane jest Google Glass. Wyświetlacz jest na zewnątrz, tj. za soczewką, patrząc od strony nosiciela, więc w niczym nie przeszkadza. Można go też oczywiście wyłączyć.
Na zewnętrznej stronie zausznika w przedniej części znajduje się podłużny panel dotykowy, który służy do sterowania okularami. Na prawym zauszniku mamy też dwa fizyczne przyciski. Jeden nad zawiasem łączącym zausznik z resztą oprawek, a drugi na końcu zausznika po wewnętrznej stronie. Pierwszy służy do włączania poleceń głosowych, a drugi do wyłączania i włączania okularów oraz do ich usypiania i wybudzania.
Pisałem o soczewce i oprawkach, ale same okulary nie mają żadnych soczewek i oprawek, o ile się na nie nie zdecydujemy. Domyślnie okulary to druciana górna część frontu okularowego ze standardowym zausznikiem po lewej stronie i odłączalnym zausznikiem z elektroniką po prawej stronie. Najłatwiej wyobrazić to sobie jako okulary bez soczewek i dolnej części tarcz, tylko mostek i górna część. Podczas prezentacji dowiedziałem się, że okulary są sprzedawane w ten sposób, ponieważ większość niewidomych nie nosi okularów i chce mieć tylko coś, na czym utrzyma się kamera. Ja okulary noszę, więc zdecydowałem się na oprawki. Do wyboru były bodajże trzy wzory. Oprawki trzeba kupić u producenta, ponieważ z prawej strony muszą mieć specjalny element pozwalający na wymianę zausznika, czyli nie możemy kupić sobie dowolnych oprawek w dowolnym sklepie. Dostałem zatem zarówno metalowe półoprawki, jak i oprawki z soczewkami zerowymi. Po wymianie soczewek na ciemniejsze u lokalnego optyka mogłem wreszcie odłączyć zausznik od drucianych półoprawek i dołączyć je do nowych oprawek. Demontaż i montaż były proste i nie wymagały żadnych narzędzi. Kończąc temat oprawek dodam tylko, że są plastikowe i nie sprawiają wrażenia solidnych, ale przez ponad rok nic się im nie stało. Solidne jest natomiast etui, w którym okulary dostajemy. Etui jest ważne, bo pozwala bezpiecznie nosić okulary w plecaku, gdy nie są potrzebne na nosie. Co do nosa i uszu, to o ile po założeniu okulary nie wydają się niewygodne, po dłuższym czasie prawy zausznik, który jest cięższy od lewego, trochę zaczyna uwierać. Nie jest to duży problem, ale odczuwalny. Okulary ważą około 46 gramów, czyli generalnie nie są ciężkie. Inną niewygodą, która daje o sobie znać w niektórych sytuacjach, jest przedłużony prawy zausznik. Ponieważ, jak pisałem, ciągnie się on za uchem na kilka centymetrów, w okularach nie da się wygodnie oprzeć głowy o zagłówek fotela.
Jak działają okulary?
Do korzystania z okularów niezbędna jest aplikacja Envision AI. Aplikacja jest dostępna zarówno na system iOS, jak i na Androida. Niektóre funkcje okularów dostępne są również bez WiFi i bez smartfona, ale aplikacja jest niezbędna już na etapie pierwszego uruchomienia i konfiguracji okularów. Aplikacja Envision AI była pierwszym produktem Envision. Choć jest już na rynku ładnych parę lat, użytkownikom iOS może być mniej znana, ponieważ na iOS dostępne było Vision AI Microsoftu. Dla Androida Envision AI była jedną z ciekawszych propozycji. Envision AI przez pewien czas była płatna. Później producent zaczął udostępniać ją za darmo i tak jest do dzisiaj.
Envision AI to zestaw aplikacji do rozpoznawania: rzeczy, ludzi, scen, tekstów i co tam jeszcze producent doda. Od samego początku producent podkreślał, że tworząc Envision AI nie jest przywiązany do żadnego konkretnego rozwiązania. Większość narzędzi dostępnych w aplikacji opierała się na wysyłaniu obrazu do zewnętrznej usługi, np. u któregoś ze światowych gigantów. Plusem tego rozwiązania, jest według producenta to, że w każdej chwili mogą przełączyć się na usługę, która jest w danym czasie najlepsza. Aktualnie część narzędzi działa bez konieczności dostępu do sieci, więc ta wymienność usług musiała ulec ograniczeniu.
Piszę tyle o Envision AI, bo okulary działają podobnie. Przede wszystkim w okularach nie mamy żadnego domyślnego oprogramowania Google’a, oczywiście z wyjątkiem Androida. Nie ma żadnych narzędzi i aplikacji, których spodziewalibyśmy się na urządzeniu z Androidem, np. kamera, mapy, telefon (inna rzecz, że okulary nie mają gniazda karty SIM), czy np. YouTube. Całe oprogramowanie pochodzi od Envision. Kiedyś wydawało mi się to słabym rozwiązaniem, ale teraz, gdy Google zakończył sprzedaż Google Glass, ta decyzja Envision okazała się bardzo słuszna. Na nowych okularach będą mogli oferować te same usługi, co na aktualnie sprzedawanym urządzeniu.
Nawigacja i całe sterowanie okularami odbywa się za pomocą panelu dotykowego, znajdującego się, jak to już było powiedziane, na prawym zauszniku okularów. Podstawowe gesty to przesunięcie palcem w prawo/lewo i podwójne tapnięcie, znane z VoiceOver i TalkBack, oraz przesunięcie palcem w dół, które służy do wychodzenia z aplikacji czy opcji, czyli funkcja analogiczna do smartfonowego „Wróć” lub „Wstecz”. Mamy jeszcze tapnięcie jednym palcem (wstrzymuje i wznawia, np. czytanie), tapnięcie jednym palcem i przytrzymanie (dodatkowa informacja, np. o aplikacji) oraz trzy gesty wykonywane dwoma palcami:
- pojedyncze tapnięcie (menu kontekstowe),
- przesunięcie w dół (przejście na element o nazwie „strona główna”, czyli po prostu główne menu) i
- przesunięcie w górę (regulacja głośności).
W okularach dostępne są też polecenia głosowe, ale działają one po angielsku. Za ich pomocą można np. szybko otworzyć jakąś aplikację lub skorzystać z funkcji „Ask Envision”, o której napiszę w dalszej części artykułu. Polecenie głosowe uruchamia się naciskając przycisk znajdujący się nad prawym zawiasem. Słyszymy sygnał dźwiękowy, po którym możemy mówić, np. „Open cash detection”. Co ważne, aby polecenia głosowe działały, nie musimy przestawiać okularów na angielski. Interfejs może pozostać w języku polskim.
Interfejs
Nawigacja po okularach jest dość wygodna, ale może być kłopotliwa, gdy ma się dłuższe włosy. Włosy nachodzące na panel dotykowy po prostu przeszkadzają. Okulary mają polski interfejs, ale tłumaczenie jest automatyczne z niewielkimi ludzkimi interwencjami, co niestety słychać, szczególnie w instrukcjach. Czasem zdarzają się dość niesamowite łamańce językowe. Instrukcje do elementów, które nie działają po polsku, czyli np. polecenia głosowe, nie są tłumaczone, co właściwie ma sens. Zdarza się też, że jakiś komunikat lub nazwa obiektu nie są przetłumaczone, ale takie przypadki są rzadkie i szybko poprawiane, jeśli tylko ktoś zgłosi błąd. Jakość polskiego głosu jest znośna, choć ja sam wolę niższe głosy. Wbudowany głośnik sprawdza się w stosunkowo cichych miejscach. W hałasie lub gdy chcemy zachować dyskrecję, lepiej użyć słuchawki bluetooth.
Wyłączanie i włączanie okularów jest średnio wygodne, bo wymaga przytrzymania przycisku znajdującego się na tylnej części prawego zausznika po wewnętrznej stronie. Z powodów oczywistych trzeba to robić dwoma palcami. Tym samym przyciskiem wprowadzamy okulary w tryb uśpienia oraz wybudzamy, ale akurat tu obsługa jest wygodna, bo chodzi o krótkie naciśnięcie. Okulary wybudzane są też tapnięciem w panel dotykowy. Ponieważ okulary są dość energożerne, usypianie i wyłączanie jest czymś, o czym warto pamiętać. Szybka całkowita utrata energii nam nie grozi, bo urządzenie samo przejdzie w stan uśpienia po pewnym czasie nieaktywności, ale bywa, że liczy się każda minuta, a śpiące okulary też zużywają prąd, choć znacznie wolniej. Producent podaje, że bateria wystarcza na cztery do sześciu godzin działania urządzenia. Nie mierzyłem dokładnie, ale mam wrażenie, że w przypadku niektórych funkcji bateria wystarcza na krócej – może to być jednak tylko moje wrażenie.
Aplikacje
Na Okularach Envision mamy cały zestaw aplikacji, które przydają się w różnych sytuacjach. Następne zdanie chciałem zacząć od „jest to przede wszystkim”, ale właśnie, w przypadku technologii asystujących czasem trudno wymienić najważniejszą funkcjonalność, bo każdy potrzebuje czegoś innego.
Mamy więc rozpoznawanie tekstu, rozpoznawanie obiektów i scen, wykrywanie obiektów, kontakt z pomocnikiem (własnym i płatnym), rozpoznawanie gotówki, kolorów i światła, a to pewnie nie jest koniec, bo okulary są wciąż rozwijane. Najnowszym dodatkiem jest Ask Envision, które ułatwia wyszukiwanie informacji. Niżej opisuję aplikacje zgodnie z ich kolejnością w interfejsie, pomijając „Ustawienia”, „Wsparcie” i tzw. „Stronę Główną”, na której dostajemy info o czasie i dacie, poziomie naładowania baterii i połączeniu z siecią. Dla większej przejrzystości przy polskich nazwach aplikacji, podaję angielskie odpowiedniki.
Natychmiastowy tekst (Instant Text)
Aplikacja pozwala na szybkie rozpoznawanie tekstu i dla języka polskiego działa zarówno online, jak i offline. Zaletą Natychmiastowego Tekstu jest to, że wynik mamy praktycznie natychmiast. Producent opisuje Natychmiastowy Tekst jako dobre narzędzie do czytania krótkich tekstów. To prawda, choć jakość jest różna. Jest to raczej narzędzie do szybkiego zapoznania się z treścią, np. nadrukiem na kopercie lub paczce, napisem na opakowaniu itp., niż do dokładnego czytania. Natychmiastowy Tekst ma taką zaletę, że sam wykrywa teksty, czyli po przeczytaniu jednego tekstu aplikacja od razu szuka następnego. Ja najczęściej korzystam z Natychmiastowego Tekstu do rozpoznawania opakowań i odczytywania informacji na nich oraz do orientowania się, co pokazuje mój komputer, gdy nie mogę skorzystać ze screenreadera (etap bitlockera). Natychmiastowy Tekst może też przydać się podczas chodzenia. Aplikacja całkiem nieźle rozpoznaje szyldy na sklepach i inne teksty w przestrzeni publicznej. Tu jednak problemem może być orientacja w tym, co słyszymy, bo niektóre napisy mogą być rozpoznawane z bardzo daleka. Wracając do domowego użycia, najgorzej rozpoznawane są nadruki na foliowych opakowaniach. Zwykle daje się dowiedzieć, co to za produkt, ale odczytanie informacji o składzie, np. gotowej potrawy, bywa trudne. Generalnie Natychmiastowy Tekst jest bardzo wygodny, a to, że korzystając z niego ma się wolne ręce, jest dodatkową zaletą. Niedawno Natychmiastowy Tekst przydał mi się w dość nietypowy, a może raczej nieoczywisty sposób. Poszedłem z żoną na film, co do którego nie byłem pewien, czy jest po angielsku, czy po koreańsku. Ponieważ koreańskiego nie znam, trochę jako eksperyment zabrałem Okulary Envision. Ku mojemu zdziwieniu okazało się, że okulary całkiem nieźle poradziły sobie z czytaniem napisów. Nie wszystko udało mi się odczytać (nasze miejsca nie były optymalne), ale odczytywałem wystarczająco dużo, by łapać sens i podążać za akcją filmu. Test wyszedł na tyle dobrze, że nie zamierzam już się ograniczać do chodzenia na filmy polsko- i angielskojęzyczne.
Zeskanuj tekst (Scan Text)
Jeżeli mamy do przeczytania tekst wymagający większej uwagi, odpowiednią aplikacją jest „Zeskanuj tekst”. OCR na smartfonie to już standard, ale tu znowu jest wygodniej, bo mamy okulary. OCR działa online i offline, ale offline nie wszystkie funkcje są dostępne (nie ma np. rozpoznawania układu tekstu).
Przed zrobieniem zdjęcia tekstu możemy otrzymać wskazówki. Są to albo komunikaty głosowe typu „przesuń dokument w prawo”, albo sygnały oznaczające ilość wykrytych słów. Im częstsze sygnały, tym więcej wykrytego tekstu, czyli najlepsze warunki do zrobienia zdjęcia. Możemy wybrać, czy i jakie chcemy mieć wskazówki. Podpowiedzi aplikacji są przydatne, ale mogą też wprowadzać w błąd. Zdarzało mi się, że robiłem zdjęcie mimo komunikatu, że nie wykryto dokumentu i efekt był świetny. Rozpoznawanie jest dobre, ale nie idealne, tj. nie można go porównać do jakości rozpoznawania tekstu zeskanowanego za pomocą skanera. Tekst na pogniecionej kartce lub tekst w różnych kolorach może być gorzej rozpoznawany. Problemem może być też gruba książka, której nie daje się porządnie otworzyć. Ja z jakości rozpoznawania jestem zwykle zadowolony. Ostatnio bardzo zaskoczyła mnie dokładność rozpoznawania opisów wiszących na ścianach w muzeum. Opisy były po łotewsku i angielsku. Aplikacja rozpoznała dwa bloki, więc łotewską część mogłem łatwo pominąć. O łotewskim nie mogę się wypowiedzieć, bo nie znam (dla znających istotna może być informacja, że na okularach nie ma łotewskiego syntezatora mowy), ale anglojęzyczna część była rozpoznawana praktycznie idealnie. Tekst rozpoznany przez okulary jest dzielony na akapity, po których można nawigować. Rozpoznawane też są i oznaczane nagłówki. Aplikacja nie ma nawigacji po nagłówkach, ale już samo słowo „nagłówek” pozwala szybko zorientować się, że mamy początek bloku. Działa to genialnie np. podczas czytania menu w restauracji, gdzie każda potrawa to zwykle oddzielny nagłówek.
Nawigowanie i czytanie to nie wszystko. Rewolucyjną nowością jest usługa „Ask Envision”, która pozwala na wyszukiwanie informacji w tekście za pomocą głosu. „Ask Envision” wykorzystuje moduł językowy GPT-4 od Open AI. Na razie pytania trzeba zadawać po angielsku i po angielsku dostajemy odpowiedzi, ale sam tekst, o który pytamy, może być w dowolnym języku obsługiwanym przez okulary. Ostatnio czytałem informację, że zbliża się kontrola wentylacji w moim bloku. Po przeczytaniu całości nie pamiętałem już dokładnej daty i czasu, szczególnie, że polski syntezator odczytał godzinę jako ułamek dziesiętny. Zapytałem więc Envision po angielsku „When the event will take place?” i po chwili dostałem odpowiedź, że „September 15th between 8 AM and 4 PM”. Pytać można o różne sprawy. Ja pytałem o dania wegetariańskie w menu, numer siedzenia podany na papierowym bilecie, nazwisko kandydatki w październikowych wyborach, której ulotkę znalazłem w skrzynce, i jeszcze kilka innych rzeczy. Odpowiedzi były zaskakująco precyzyjne. Oczywiście angielski bywa kłopotem, gdy pytamy o coś bardzo polskiego, jak nazwisko lub nazwę potrawy. bardzo uważnie słuchać, by zrozumieć, co angielski głos do nas mówi. Obecnie Envision pracuje nad Ask Envision w językach innych niż angielski, więc zadawanie pytań po polsku powinno być za jakiś czas również możliwe.
Zeskanowany tekst za pomocą funkcji Skanuj Tekst można też wyeksportować do aplikacji Envision AI na smartfonie. Nigdy nie miałem potrzeby korzystania z tej możliwości, więc tylko zaznaczam jej istnienie.
Zadzwoń do Pomocnika (Call an Ally)
To jedna z najczęściej używanych przeze mnie aplikacji. Zadzwoń do Pomocnika pozwala na połączenie video z naszym prywatnym pomocnikiem. Wystarczy, że ktoś znajomy pobierze aplikację „Envision Ally” (IOS, Android) i założy konto. Po połączeniu z pomocnikiem obraz z kamery i dźwięk z mikrofonu jest przekazywany na smartfon pomocnika. To bardzo wygodne narzędzie, gdy trzeba zorientować się w przestrzeni czy sytuacji lub generalnie rozwiązać problem wymagający wzroku. Moim pierwszym takim problemem było dotarcie do kwiaciarni, która zmieniła lokalizację na dość skomplikowaną. Skorzystałem z pomocy członka rodziny, który, choć sam nie znał mojej okolicy, otworzył mapy Google’a i prowadził mnie w oparciu o to, co widzi, porównując informacje z kamery z mapami. I tu wychodzi pierwsze ograniczenie Zadzwoń do Pomocnika. Dawno temu opisywałem w „Tyfloświecie” prototyp urządzenia opracowanego na Politechnice Łódzkiej o nazwie „Zdalny Asystent” (patrz „Naviton”, Tyfloświat 1 (10) 2011), który miał umożliwiać zdalną pomoc niewidomemu. Zdalny Asystent, poza tym, że był noszony na szyi, więc często się bujał, miał wszystko, czego nie ma Zadzwoń do Pomocnika, a co by się bardzo przydało. Zacznijmy od wspomnianych map. Okulary Envision nie mają GPS, więc nie wysyłają żadnej informacji o lokalizacji. Nasz zdalny pomocnik może tylko domyślać się, gdzie jesteśmy w oparciu o obraz z kamery, który, gdy nie znamy terenu, może być mało przydatny. Lokalizację można oczywiście wysyłać za pomocą jakiejś innej aplikacji, ale to już dodatkowa komplikacja. Interfejs łódzkiego Zdalnego Asystenta cały czas pokazywał pozycję użytkownika na mapie. Kolejną kwestią jest rozdzielczość. Niestety w przekazywaniu obrazu wciąż może być albo szybko, albo dokładnie. Dlatego łódzki Zdalny Asystent umożliwiał przekazywanie obrazu w trzech prędkościach z różnymi rozdzielczościami. Gdy szedłem, potrzebna była transmisja o najwyższej prędkości, co oznaczało najniższą dokładność. Nie było opóźnień, ale widok był raczej surrealistyczny. Z kolei, gdy potrzebowałem pomocy w odczytaniu jakiegoś dokumentu, obraz był bardzo dokładny, ale transmisja trwała długo. W Zadzwoń do Pomocnika zdecydowano się na uśrednienie. Obraz mamy dość dokładny, ale nie na tyle, by pomocnik mógł swobodnie odczytać tekst na ekranie komputera lub smartfona (chyba, że z bardzo bliska), z kolei opóźnienie transmisji raczej nie przekracza sekundy. Oznacza to, że idąc musimy pamiętać, że obiekt, o którym ostrzega nas pomocnik jest tuż przed nami, a nie te kilka metrów, które widzi pomocnik. Może brzmieć to źle, ale w praktyce nie miałem większych problemów z opóźnieniem. Szybko nauczyłem się robić na nie poprawkę. Jednak w Zdalnym Asystencie, gdzie asystent mógł dobierać prędkość transmisji, było to lepiej przemyślane. Oczywiście twórcy Envision Glasses mają tu też ograniczone możliwości, bo w przeciwieństwie do łódzkich inżynierów, muszą pracować na gotowym sprzęcie.
Kwestią, która nie została rozwiązana ani w Zdalnym Asystencie, ani w Okularach Envision jest światło, a raczej jego brak. Wieczorem zdalny pomocnik niewiele widzi przez okulary. Problem dotyczy wszystkich aplikacji na okularach, może z wyjątkiem czujnika światła. Komunikat „wykryliśmy, że jest za ciemno” w półmroku jest częsty.
Jest jeszcze jeden problem, który wynika z samej konstrukcji okularów. Kamera to nie oczy, którymi możemy patrzeć w dół lub górę bez ruszania głową. Już podczas mojej przechadzki po kwiaty dowiedziałem się, że by mój pomocnik mógł odczytać napis nad sklepem, muszę głowę zadrzeć tak wysoko, jakbym patrzył w słońce. Podobnie jest, gdy chcemy uchwycić kamerą coś, co mamy pod stopami. Twarz trzeba skierować w dół. Jest to dość niewygodne. Na szczęście takie zadzieranie lub opuszczanie głowy jest rzadko potrzebne.
Kolejnym ograniczeniem podczas korzystania z okularów w marszu jest brak możliwości efektywnego używania smartfona. To nie jest problem wyłącznie Okularów Envision. Projektanci jakoś nie myślą całościowo o użytkownikach. Chodzi o to, że jeśli do okularów podłączymy słuchawkę bluetooth, a warto, bo w miejskim hałasie, głośnik może być za cichy, to już nie mamy jak słuchać smartfona i np. korzystać z nawigacji GPS. Słuchawka z multipoint sprawdza się wyłącznie w zastosowaniach statycznych, np. rozpoznanie napisu, a potem powrót do smartfona, ale nie podczas marszu, gdy mamy częste komunikaty, nie wspominając o połączeniu z pomocnikiem. Idealna byłaby możliwość miksowania komunikatów z różnych urządzeń.
Wracając do mojego pierwszego wspomaganego marszu, poszło mi znakomicie. Droga zajęła mi dużo mniej czasu niż gdybym szedł wyłącznie z laską. Zdążyłem wrócić do domu przed żoną, która tego dnia miała urodziny. Przy okazji dowiedziałem się ciekawej rzeczy, która nie była dla mnie oczywista. Mój pomocnik, zresztą również z zaskoczeniem, stwierdził, że nikt z mijających mnie przechodniów nie zwraca na mnie uwagi. Nie powiem, ucieszyło mnie to.
Zdarzało mi się jeszcze potem chodzić ze zdalnym pomocnikiem i muszę przyznać, że czułem się o wiele pewniej lub może raczej bardziej komfortowo, choć ogólnie nie mam problemu z samodzielnym poruszaniem się. Musiałem tylko nauczyć moich pomocników, by nie ostrzegali mnie o najbliższych przeszkodach, bo te wykrywam detektorem przeszkód i laską, ale by skupili się na rzeczach bardziej istotnych, jak np. gdzie jest przejście, czy mam już skręcać, gdzie jest wejście itp.
Aplikacja Envision Ally, której używa nasz pomocnik, nie jest specjalnie dopracowana i przez pewien czas był nawet z nią spory problem na niektórych Samsungach (problem rozwiązany), ale działa i dobrze pełni swoją funkcję. Tyle piszę o Zadzwoń do Pomocnika, bo to ważna aplikacja. Możliwość zdalnej pomocy czasem niesamowicie się przydaje. Chodzi nie tylko o jakieś skomplikowane prowadzenie, ale o tak proste rzeczy, jak np. odnalezienie punktu odprawy na lotnisku, gdzie możemy poprosić o dalszą asystę czy znalezienie czegoś w mieszkaniu, co ktoś odłożył w nietypowe miejsce.
Zadzwoń do Agenta AIRA (Call an AIRA Agent)
O tej aplikacji, a właściwie usłudze, napiszę najmniej, bo nie korzystałem. AIRA to płatny serwis, w którym możemy uzyskać zdalną pomoc. Serwis jest popularny m.in. w Stanach Zjednoczonych. Konsultanci są anglojęzyczni. Nie jestem pewien, czy z Polski można wykupić dostęp. Mamy tu więc takiego zdalnego pomocnika, ale płatnego. Może raczej powinienem napisać „częściowo płatnego”, bo każdy użytkownik AIRA (wymagane jest założenie konta w serwisie) ma do dyspozycji pakiet bezpłatnych minut.
Opisz Scenę (Describe Scene)
Działa tylko online. Robimy zdjęcie, które wysyłane jest do analizy przez automat i dostajemy ogólny opis sceny, np. „laptop leżący na stole” lub „widok na balkon z rosnącymi roślinami”. Opisywanie scen na razie jakoś specjalnie mi się nie przydało, poza zaspokojeniem ciekawości. Może być np. przydatne do opisu pokoju hotelowego (choć Envision ma do tego lepsze narzędzie), ale problem jest taki, że nigdy nie wiadomo, czy jakiś ważny detal nie został pominięty. Brakuje mi też możliwości uszczegółowiania opisów. Ta sytuacja zmieni się pewnie za jakiś czas, bo Envision pracuje nad opisami generowanymi przez GPT4, czyli będą one dokładniejsze i będzie można zadawać pytania o szczegóły.
Rozpoznaj gotówkę (Recognize Cash)
Ponieważ unikam noszenia gotówki (gotówka jest brudna i passé) nigdy nie korzystałem z tej funkcji. Spróbowałem na potrzeby tego artykułu i za pierwszym razem niczego nie udało mi się rozpoznać. Po konsultacji z producentem, który zapewnił mnie, że rozpoznawanie gotówki działa, zrobiłem kolejną próbę i poszło świetnie. Aplikacja szybko rozpoznawała nominał banknotu. Okazało się, że za pierwszym razem trzymałem banknot zbyt centralnie, a trzeba trochę bardziej po prawej. No cóż, człowiek uczy się całe życie…
Znajdź Obiekt (Find Object)
Potencjalnie użyteczna funkcja, ale różnie działająca. Mamy do wyboru listę obiektów. Są tam tak przydatne rzeczy, jak drzwi, schody, sygnalizacja świetlna, czy plecak oraz raczej nieprzydatne, jak filiżanka kawy. Na liście jest też pies i kot. Wybieramy jaki obiekt ma być wyszukiwany i rozglądamy się. Gdy i jeśli obiekt zostanie wykryty, otrzymujemy informację o jego pozycji w systemie zegarowym. Czasem działa dobrze, a czasem gorzej, jak to z rozpoznawaniem. Nieźle rozpoznawane są drzwi i krzesła. Jednak często nie korzystam z rozpoznawania obiektów, więc nie mogę miarodajnie napisać, jak bardzo rozpoznawanie obiektów jest przydatne. Pies i kot mogą dziwić, ale podczas prezentacji przedstawiciel producenta opowiadał, że w Indiach psy często leżą na chodniku i jeden z ich klientów korzysta z wykrywania psów, by je omijać. Sam spotkałem się z psami na ulicach w Tbilisi, więc rozumiem problem.
Znajdź ludzi (Find People)
Działa podobnie do Znajdź Obiekt, ale dotyczy ludzi. Do tego, jeśli zdjęcie osoby jest w naszej bazie, aplikacja poda nazwę tej osoby przypisaną do zdjęcia. Same zdjęcia robi się za pomocą aplikacji na smartfonie. O ile identyfikacja osób, które wcześniej trzeba sfotografować, jest średnio przydatna (nad czym ubolewam, bo raczej słabo rozpoznaję ludzi po głosie) to samo wyszukiwanie ludzi jest fajne i przydatne. Czasem w pustym miejscu trzeba znaleźć człowieka, którego można zapytać o drogę lub jakiś inny szczegół.
Odkrywaj (Explore)
Jedna z moich ulubionych aplikacji. Po jej włączeniu bez przerwy dostajemy informacje o tym, co jest dookoła i na której godzinie. Lista rozpoznawanych obiektów cały czas rośnie. Odkrywaj ma praktyczne zastosowanie, np. podczas marszu dobrze jest rozpoznawać samochody parkujące na chodniku lub z wyprzedzeniem wiedzieć, że będziemy mijali się z człowiekiem.
Skanowania QR Code (Scan QR Code)
„Skanowania” to nie moja literówka, ale błąd w samej nazwie. Skaner kodów QR jest przewidziany do odczytywania tekstu zakodowanego za pomocą kodu. Zastosowanie jest podobne, jak w naszym Seeing Assistant Home. Wydrukowaną etykietę z kodem możemy nakleić na dowolny produkt, a potem odczytać za pomocą okularów. Skaner kodów QR przydaje się też do szybkiego łączenia z siecią WiFi i ja właśnie korzystałem z niego w tym celu.
Inne funkcje
W Okularach Envision mamy jeszcze detektor światła, detektor kolorów oraz możliwość skanowania wielu stron, które kryje się pod tajemniczą nazwą „skanowanie grupowe”. Pierwsze dwie aplikacje są oczywiste, więc ich nie opisuję. Ostatnia to to samo, co Skanuj Tekst, ale pozwala na czytanie wielostronicowych dokumentów.
Kończąc opis możliwości okularów dodam tylko, że poszczególne aplikacje można chować lub wyciągać do menu głównego, tak by były bardziej lub mniej dostępne.
Podsumowanie
W podsumowaniu każdy zwykle oczekuje odpowiedzi czy produkt jest wart wydatku i jaki jest stosunek jakości do ceny. Odpowiedź jest dość trudna. Okulary są drogie. Standardowy zestaw, czyli tzw. Home Edition kosztuje prawie 12000 zł. Aktualizacje gwarantujące działanie okularów dostajemy dożywotnio, ale już za aktualizacje funkcji i nowe funkcje po roku musimy zapłacić (planowana cena to 299 dolarów rocznie) lub pozostać przy tym, co mamy. Każdy musi ocenić, na ile potrzebuje takiego urządzenia.
Jak już pisałem, ja długo zastanawiałem się nad kupnem okularów. Po roku korzystania wciąż jestem zadowolony ze swojej decyzji. Staram się mieć je zawsze przy sobie, bo przydają się w nieoczekiwanych sytuacjach. Owszem, przy takiej cenie spodziewałbym się wyższej jakości samych okularów, ale zalety i wygoda używania powodują, że przymykam oko na mankamenty. Jak pisałem, wierzę w rozpoznawanie obrazów i Okulary Envision mnie w tej wierze umacniają. Liczę, że będzie coraz lepiej, a moje liczenie nie odnosi się tylko do Okularów Envision, ale generalnie do technologii asystujących opartych na przetwarzaniu obrazu.
A co z bieżnią?
Na koniec wypada wrócić do bieżni. Jeśli czytelniczko/czytelniku myślisz, że napiszę, iż mój problem został rozwiązany, ponieważ bieżnia mi się znudziła, mylisz się zupełnie. Na bieżni dalej chodzę, ale bez okularów. Jak wspominałem, aby uchwycić kamerą coś, co jest bardzo nisko, trzeba tak opuścić głowę, by twarz była skierowana w dół. W takiej pozycji nie da się chodzić. O ile okulary rozwiązały mój problem z orientacją w niedostępnych interfejsach (mimo konieczności zbliżania nosa do ekranu), wskaźnika bieżni nadal nie mogę czytać idąc.
Rafał Charłampowicz