[fot. bury-osiol, Zdjęcie przedstawia stary model kamery wideo]
W „Tyfloświecie” nr 2 (8) 2010 opisywałem „Asystenta” – system pozwalający na przekazywanie obrazu z kamery noszonej przez niewidomego do jego zdalnego przewodnika. W grudniu 2010 roku miałem przyjemność brać udział w fascynujących testach Navitonu, kolejnego urządzenia powstającego na Politechnice Łódzkiej.
Naviton (nazwa robocza) to prototyp urządzenia, które ma pomóc niewidomemu zauważyć rozmaite obiekty na jego drodze, zwiększając orientację i oczywiście pozwalając omijać przeszkody. Właśnie na znajdowaniu i omijaniu przeszkód polegały grudniowe testy Navitonu. Od razu jednak pragnę podkreślić, że nie chodzi tutaj o detektor przeszkód, ale o zaawansowany system analizujący informacje o przestrzeni.
Na prototyp składają się dwie zintegrowane kamery, komputer i słuchawki. Jednak najważniejsze jest oczywiście oprogramowanie. Podstawą działania Navitonu jest stereowizja. Mamy dwie kamery obserwujące tę samą przestrzeń. Każda z kamer patrzy jednak pod nieco innym kątem. Obraz z obu kamer jest porównywany, a pojawiające się różnice pozwalają na określenie głębi obrazu, czyli rozróżnienie, które obiekty znajdują się bliżej, a które dalej. Ludzki mózg (zresztą nie tylko ludzki) również korzysta ze stereowizji do prawidłowej oceny odległości.
ISTOTA RZECZY
W teorii brzmi to prosto, ale w rzeczywistości sprawa jest bardzo skomplikowana. W przeciwieństwie do ludzkich oczu, kamery mają dość ograniczoną możliwość adaptacji do warunków świetlnych oraz muszą matematycznie porównywać podobieństwo lewego i prawego obrazu. Oświetlenie może się znacząco zmieniać, zależnie od tego, w którą stronę skierujemy wzrok kamer, na co pada cień, czy powierzchnia mniej lub bardziej odbija światło itp. Dodatkowo świat pełen jest dużych, jednolitych obszarów, takich jak gładkie ściany i powierzchnie, które uniemożliwiają komputerowi podjęcie jednoznacznej decyzji, które fragmenty obrazu lewego odpowiadają fragmentom obrazu prawego. Ta wrażliwość na zmienne warunki świetlne i brak obecności wyraźnych tekstur w wielu scenach rzeczywistych jest wciąż dużym ograniczeniem stereowizji i dlatego obok jej zwolenników znajdziemy też uczonych uważających, że jej szerokie, uniwersalne zastosowanie prawdopodobnie nigdy nie będzie możliwe.
Wróćmy jednak do samego Navitonu. Zadaniem, jakie postawili twórcy swojemu systemowi, było wykrywanie dużych obiektów na drodze i informowanie niewidomego o tym, co się przed nim znajduje. Najważniejszą sprawą było opracowanie skutecznego interfejsu przekazywania użytkownikowi informacji o przestrzeni. Aby móc przetestować stworzony interfejs w warunkach rzeczywistych, tj. nie podczas symulacji komputerowej, ale z prawdziwymi przeszkodami, zdecydowano się na dodatkowe wsparcie stereowizji poprzez wyraźne kolorystyczne oznaczenie przeszkód. Przeszkodami były pudła kartonowe, ustawiane czasem pojedynczo, a czasem jedno na drugim. Ułatwienie polegało na tym, że wzory, w jakie pomalowane były pudła, umożliwiały oprogramowaniu pewniejsze odróżnienie ich od reszty korytarza. Takie rozwiązanie pozwalało uniknąć potencjalnych fałszywych sygnałów i skupić się na testowaniu samego interfejsu dźwiękowego.
Interfejs, czyli sposób w jaki system komunikuje się z użytkownikiem, jest w przypadku Navitonu bardzo unikatowy. Zadaniem systemu jest poinformowanie użytkownika o położeniu przeszkód. Użytkownik ma wiedzieć, po której stronie (względem jego twarzy) znajduje się dany obiekt oraz w jakich odległościach ulokowane są przeszkody (zwykle trzy lub cztery), czyli co jest bliżej, a co jest dalej. Wszystkie te informacje mają być przekazane w sposób zwięzły, intuicyjny i niemęczący.
Stali czytelnicy „Tyfloświata” być może pamiętają artykuł Henryka Lubawego o K-Sonarze. Ten ultradźwiękowy detektor przeszkód (właściwie coś więcej niż detektor) również dźwiękiem opisuje przestrzeń, w tym wiele obiektów naraz. Dźwięki K-Sonara można jednak opisać jako szum lub piski, których wysokość i barwa niesie informacje. Twórcy Navitonu chcieli czegoś bardziej naturalnego, miłego dla ucha, dodatkowo niosącego łatwą w interpretacji zapowiedź przeszkody.
DŹWIĘKOWY INTERFEJS
Po wielu testach, wliczając konsultacje z niewidomymi, powstał przedmiotowy interfejs. System wykorzystuje dźwięki instrumentów muzycznych, a dokładniej specjalnie zaszumiane dźwięki standardu MIDI. Domyślnie mamy do wyboru flet, pianino i syntezator. Użytkownik sam decyduje, który instrument najbardziej mu odpowiada. Opisywanie przestrzeni odbywa się co dwie sekundy. Czas opisywania można zmniejszyć lub zwiększyć, zależnie od możliwości i wprawy użytkownika. Odległość do obiektów oznaczana jest głośnością i wysokością dźwięku. Im bliżej, tym głośniej i wyżej. W przeciwieństwie jednak do wspominanego już K-Sonara i kilku innych rozwiązań, w Navitonie mamy do czynienia z harmonią tonalną, a więc z dźwiękami, do których przywykło ucho Europejczyka. Zatem zamiast dość abstrakcyjnych wyższych i niższych tonów, słyszymy swoistą muzykę. W tle słychać również swego rodzaju cichnące tykanie. Na jedno opisywanie sceny przypada pięć tyknięć. Mają one dodatkowo pomóc zorientować się w odległościach, gdyż czas między tyknięciami odpowiada odległości około jednego metra. Jeśli dźwięk przeszkody przypada np. na ostatnie tyknięcie, użytkownik wie, że ten obiekt jest odległy o około pięć metrów.
[fot. Politechnika Łódzka, Zdjęcie przedstawia autora tekstu i pomieszczenie z torem przeszkód utworzonym z kolorowych kartonów, wykorzystywane do testów Navitonu, podpis: Autor tekstu w czasie testów urządzenia]
[fot. Politechnika Łódzka, Zdjęcie przedstawia tor przeszkód utworzony z kartonowych pudeł, wykorzystywany do testów Navitonu oraz jego wyobrażenie, przygotowane w oparciu o pracę kamer Navitonu, podpis: Generowane dzięki analizie obrazu z kamer wyobrażenie przestrzeni]
Położenie obiektu przedstawiane jest w sposób przestrzenny. Aby uzyskać jak najlepsze wrażenie przestrzenności, mierzy się tzw. charakterystyki akustyczne słuchacza (ang. „Head-Related Transfer Function” – HRTF), to znaczy sprawdza się, w jaki sposób dźwięki płynące z różnych kierunków docierają do uszu badanej osoby. Taki pomiar przeprowadzany jest w komorze bezpogłosowej. Wizyta w niej jest sama w sobie ciekawym doświadczeniem dla niewidomego. Nie ma tam praktycznie odbicia dźwięków, więc ludzie przywykli do stałego, wręcz odruchowego korzystania z echolokacji mogą czuć się w takim miejscu dość dziwnie. Badanego sadza się na obrotowym krześle pod głośnikami biegnącymi od samej góry aż do podłogi. Głośniki tworzą niemal 180-stopniowy łuk. W uszach osoby poddawanej pomiarowi instalowane są małe mikrofony. Z głośników odtwarzany jest dźwięk, zaczynający się na górze, a kończący na samym dole. Dźwięk rejestrują mikrofony i komputer, do którego są podłączone. Następnie krzesło obraca się o kilka stopni i znów słychać „dźwiękowy łuk”. Badanie kończy się po wykonaniu pełnego obrotu. Jeśli nie mamy czasu lub możliwości badania charakterystyki, możemy skorzystać z gotowej bazy danych HRTF i metodą prób i błędów dobrać najbardziej pasujący wzorzec. W moim przypadku świetnie sprawdziły się charakterystyki akustyczne profesora Strumiłło.
TESTY
Przejdźmy wreszcie do samego testu. Wszystko odbyło się w korytarzu Instytutu Elektroniki Politechniki Łódzkiej. Na czoło włożono mi dwie całkiem spore kamery, a na uszy słuchawki. Wszystko było połączone kablami z komputerem stojącym na boku, w bezpiecznym miejscu (teoretycznie można było użyć plecaka z przenośnym laptopem, ale jako że badanie trwało kilka godzin, wygodniej było zrobić badanie „na uwięzi”). W bezpiecznym miejscu leżał też mój pies. W użyciu była laska, ale poinstruowano mnie, żebym używał jej tylko w zasięgu ręki, trzymając ją pionowo przed sobą . Najpierw moim zadaniem było zlokalizowanie pojedynczego pudła. Miałem wskazać kierunek, z którego słyszę przeszkodę, zbliżyć się na minimalną odległość i dotknąć obiektu ręką. Ważne było to, bym świadomie dotknął przeszkody, a nie wpadł na nią laską. Technicznie wyglądało to tak, że stawałem na początku trasy i starałem się „zobaczyć” obiekt. Gdy system wykrył przeszkodę (zwykle działo się to natychmiast – tylko czasem trzeba było zatoczyć bardzo lekki łuk głową, czyli rozejrzeć się), w słuchawkach słyszałem dźwięk fletu. Bez problemu mogłem odróżnić kierunek, z którego płynie dźwięk. Nie było to tylko lewo/prawo, ale także bardziej lub mniej w lewo/prawo. Mogłem też w przybliżeniu ocenić odległość. Tykanie nie przydawało mi się, ale dobrze sprawdzał się czas (czy dźwięk pojawiał się natychmiast czy z lekkim opóźnieniem) i siła dźwięku. Ruszałem, a co dwie sekundy znów słyszałem, gdzie jest przeszkoda, więc na bieżąco mogłem korygować swój kierunek. Szło mi całkiem dobrze (chyba tylko raz, na początku wpadłem laską na pudło), więc szybko przeszliśmy do następnych testów.
Tym razem miałem wskazywać, ile przeszkód jest na drodze i jak są ułożone. Doszliśmy do czterech. Pokazywanie polegało na tym, że ruchem ręki opisywałem układ obiektów, np. najpierw jedna blisko, pośrodku, potem dwie po lewej i prawej i jedna na końcu po lewej. Do wskazywania ilości i układu doszedł jeszcze tor przeszkód. Miałem przejść korytarz, omijając przeszkody bez dotykania ich laską i zawrócić robiąc dokładnie tak samo. Ostatni test w największym stopniu pozwalał ocenić i docenić przydatność Navitonu. Oglądanie drogi dźwiękiem przypominało trochę prawdziwe patrzenie. Mogłem usłyszeć, gdzie co stoi i z góry wybrać najmniej kolizyjny kurs. Słyszałem, że pierwsza przeszkoda jest z lewej, a następna z prawej, więc szedłem w prawo, a potem w lewo Każdy obiekt w zasięgu kamery anonsowany był dźwiękiem, a gdy zbliżałem się do czegoś (np. wymijałem) dźwięk był głośniejszy i wyższy. Jednocześnie słyszałem kilka obiektów, więc mogłem ustalić swoją pozycję wobec różnych przeszkód. W moim przypadku system sprawdził się bardzo dobrze. Kilka razy miałem problemy, ale większość prób wypadła znakomicie. Te problematyczne (gdy kilka obiektów było bardzo blisko siebie) po powtórce także wypadały dobrze.
WRAŻENIA
Naviton mnie zaskoczył. Czytając o systemie i oglądając prezentacje byłem sceptyczny. Jadąc na testy, nie spodziewałem się wiele. Wyniki dalece przeszły moje oczekiwania. Nie dość, że mogłem omijać przeszkody bez stykania się z nimi i chodzenia od punktu do punktu, to nie wymagało to specjalnej koncentracji, a po kilku godzinach nie czułem się zmęczony. Dźwięki są wybrane dobrze. Po dłuższym czasie człowiek ma uczucie lekkiego transu, ale bardziej relaksu niż odurzenia. Może najlepszym określeniem tego stanu jest lekkie odrealnienie.
Od Michała Bujacza wiem, że testy na innych osobach także wypadły dobrze. Wprawdzie nie wszyscy słyszeli dźwięk przestrzennie, czyli nie doświadczyli iluzji tego, że dźwięki dochodzą od strony obiektów, ale wszystkie osoby potrafiły wskazać kierunek na podstawie zwykłych różnic stereo i bez większych problemów omijać przeszkody.
W okresie wakacyjnym planowane są następne testy, już w terenie i chyba z większą ilością wykrywanych obiektów. Jestem bardzo ciekaw wyników i bardzo liczę na rozwój Navitonu.
Naviton powstaje w Zakładzie Elektroniki Medycznej w Instytucie Elektroniki Politechniki Łódzkiej. Projektem zarządzają prof. Andrzej Materka i prof. Paweł Strumiłło. Głównymi wykonawcami systemu są mgr Michał Bujacz i dr Piotr Skolimowski. Nad projektem pracują też dr Paweł Pełczyński i mgr Bartek Ostrowski. Twórcy systemu uzyskali środki na dalsze prace z Narodowego Centrum Badań i Rozwoju, a zatem Naviton będzie rozwijany.
Zainteresowanych szczegółami zapraszam do zapoznania się z informacjami na stronie http://www.naviton.pl, w szczególności z pracą doktorską Michała Bujacza (obrona wkrótce).
*Autor jest pracownikiem Uniwersytetu Gdańskiego i współpracownikiem firmy IVONA Software. Zajmuje się tyflotechniczną obsługą studentów z dysfunkcją wzroku. Od pewnego czasu do jego szczególnych zainteresowań należą urządzenia wspomagające orientację przestrzenną niewidomych.