Artykuł: Skuteczne skanowanie tekstu

Skanowanie tekstuSkaner_fot. QiLux

Osoby z dysfunkcją wzroku od wielu lat korzystają z różnorodnych dobrodziejstw technologicznych, gdyż na wielu płaszczyznach użytkowania mniej lub bardziej skutecznie, kompensują one brak wzroku. Niezależnie jednak od tego, czy mówimy o najprostszych elektronicznych czujnikach poziomu cieczy w naczyniu, czy też o zaawansowanych rozwiązaniach, łączących w sobie wyspecjalizowane wykorzystanie komputerów i oprogramowania, cechą wspólną technologicznych ułatwień rehabilitacyjnych jest dostarczanie osobie niewidomej lub słabowidzącej informacji z otoczenia, które w inny sposób byłyby dla niej trudno lub całkowicie niedostępne.Patrząc na sprawę z tej perspektywy, można śmiało zaryzykować twierdzenie, że technologia, którą przedstawię w niniejszym artykule, należy do klasyki narzędzi, umożliwiających samodzielny odczyt przez osobę niewidomą tekstu zapisanego czarnym drukiem na papierze, a zatem książek, czasopism, ulotek itp.

Skanowanie tekstu, bo o nim tu mowa, odbywa się w dwóch etapach. Pierwszy z nich, to wprowadzenie do komputera elektronicznego obrazu tekstu drukowanego, które dokonywane jest za pomocą skanera. Urządzenie to, przetwarzając obraz kartki na sekwencję bitów, które mogą być przechowane w pamięci komputera lub zapisane na jego dysku twardym, wykonuje więc pracę analogiczną do ludzkiego oka.

Od cyfrowego obrazu daleka droga do jego odczytu przez program czytający ekran , gdyż aby stało się to możliwe, konieczne jest przetworzenie tego obrazu na zestaw rozumianych przez maszynę znaków, czyli tzw. tekst edytowalny. Tym etapem zajmuje się wyspecjalizowane oprogramowanie typu OCR (z ang. optical character recognition, czyli optycznego rozpoznawania znaków). Rolę skanera porównałem wcześniej do pracy ludzkiego oka, kontynuując to porównanie - program OCR, pełni w tym procesie rolę analogiczną do ludzkiego mózgu, który widziany obraz musi zinterpretować jako drukowany tekst.

Stosując inne porównanie, skanowanie i rozpoznawanie tekstu, jeżeli chodzi o efekt końcowy, jest podobne do przeczytania tego tekstu przez człowieka z kartki papieru i jego ręcznego wpisania z klawiatury w programie edycji tekstu np. MS Word. Są jednak conajmniej dwie istotne różnice między tymi metodami wprowadzania tekstu do komputera: czas trwania i dokładność.

Człowiek czytający tekst z kartki i wpisujący go z klawiatury będzie najprawdopodobniej dokładny, czyli nie popełni zbyt wielu błędów podczas przepisywania tekstu, jednak czas trwania tej operacji, nawet dla kilku stron, będzie długi.

Podczas gdy ręczne wpisywanie tekstu będzie trwało godzinę, komputerowe skanowanie i rozpoznawanie tego samego dokumentu odbędzie się w kilka minut, choć w procesie rozpoznawania tekstu mogą pojawić się pewne błędy.

Maszyna nie podlega zmęczeniu, nie ulega zmiennym nastrojom i nie doświadcza spadków formy w zależności od pogody i osobistych problemów, poza kosztami energii elektrycznej i konserwacji nie generuje żadnych innych, ponadto jest zawsze gotowa do pracy już w kilka sekund lub najwyżej minut od włączenia.

Oczywiście współpraca z człowiekiem ma wiele plusów i bynajmniej nie próbuję w tym miejscu udowodnić, że żywy lektor nie jest lepszy od komputera, warto jednak zauważyć ogromne zasługi maszyn cyfrowych w procesie rehabilitacji i samodzielnego dostępu do tekstu drukowanego.

Jak to działa?

Skaner jest płaskim urządzeniem o wymiarach nieco większych od maksymalnego formatu dokumentu, który może wczytywać, obecnie najczęściej formatu A4, i wysokości kilku centymetrów.

Wskazówka praktyczna: Skaner formatu A4 jest wygodnym i relatywnie niewielkim rozwiązaniem, jednak skanowanie książek, które po rozłożeniu mają większy od A4 rozmiar, wymagać będzie skanowania osobno każdej pojedynczej strony, zamiast dwóch stron jednocześnie, co oczywiście wydłuża czas tej operacji.

Pod pokrywą, znajdującą się w górnej płaszczyźnie urządzenia, umieszczona jest szyba, na której kładziemy dokument do zeskanowania.

Proces skanowania dokonywany jest przez przesuwającą się pod szybą głowicę o szerokości całego dokumentu, składającą się z lampy, emitującej równomierny strumień światła, oraz elementów przechwytujących odbite od skanowanego dokumentu promienie. Badając jakość i natężenie odbitych od dokumentu impulsów świetlnych, procesor skanera buduje na tej podstawie cyfrowy obraz skanowanego dokumentu, który następnie przesyłany jest do komputera.

Wskazówka praktyczna: skanując dokument ,warto dokładnie zamykać pokrywę skanera, aby uniknąć docierania do jego elementów światłoczułych promieni z zewnętrznych źródeł, takich jak oświetlenie w pomieszczeniu lub światło słoneczne.

Przy opisanej metodzie odwzorowania obrazu napotkamy na problemy w przypadku skanowania dokumentów drukowanych na papierze świecowym - właściwości tego nośnika powodują bowiem zaburzenia w odbiciu światła.

Skaner_fot.Pablo Eder Warto również zadbać o równomierne rozłożenie dokumentu na szybie skanera - w przypadku zwykłej kartki jest to dość proste do osiągnięcia, jednak w przypadku książki zwłaszcza nowej lub wielostronicowej, druk znajdujący się w pobliżu grzbietu może odchylać się od szyby skanera, przez co dokładność jego zeskanowania będzie mniejsza. Istnieją jednak na rynku skanery o kształcie szyby specjalnie profilowanym dla skanowania książek.

Technologia użyta do budowy skanera (CIS - tańsza i bardziej miniaturowa, CCD - droższa i dokładniejsza lub PMT - stosowana w drogich skanerach o zastosowaniach profesjonalnych) to kolejny czynnik, mający wpływ na jakość skanu, czyli cyfrowego odwzorowania obrazu analogowego.

A skoro o jakości skanu mowa, nie sposób pominąć rozdzielczości skanowanego obrazu, która jest jej najistotniejszym czynnikiem. Rozdzielczość skanu wyrażana jest w jednostkach DPI (ang. dots per inch, czyli plamki na cal). Oprogramowanie rozpoznawania tekstu wymaga rozdzielczości 300 DPI - zbyt mała rozdzielczość, ale uwaga - również zbyt duża - może negatywnie wpłynąć na jakość rozpoznawania tekstu. Im większa rozdzielczość, tym dłuższy jest czas skanowania pojedynczej strony dokumentu.

Jeszcze jednym czynnikiem wpływającym na dokładność skanu, jest jakość odwzorowania kolorów - dla potrzeb rozpoznawania tekstu drukowanego jest to jednak sprawa drugorzędna, a sugerowana optymalna jakość to, w tym przypadku, odcienie szarości.

Dlaczego warto dołożyć starań dla osiągnięcia optymalnej jakości obrazu skanowanego dokumentu? Ma to kluczowe znaczenie na etapie rozpoznawania tekstu.

Wskazówka praktyczna: często, mimo ustawienia prawidłowych parametrów skanera, jakość skanu okazuje się niewystarczająca. Może to wynikać z samego materiału źródłowego, więc np. słabej jakości druku, lecz także zabrudzeń, które w toku użytkowania mogą się pojawić na szybie skanera. Warto więc dbać o czystość szyby skanera, zamykać jego pokrywę po zakończonym skanowaniu, konserwować szybę urządzenia według wskazówek podanych w jego instrukcji obsługi. Należy również unikać bezpośredniego kontaktu palców z szybą skanera, co jednak w przypadku osób niewidomych może okazać się trudne, a zatem przed rozpoczęciem skanowania warto dokładnie umyć ręce, co powinno wykluczyć powstawanie na szybie zanieczyszczeń, które pogorszą jakość skanu.

Całkowicie niedopuszczalne jest także stawianie jakichkolwiek przedmiotów, zwłaszcza ciężkich lub posiadających ostre kanty lub krawędzie, bezpośrednio na szybie skanera - o ile ślady opuszków palców relatywnie łatwo da się z tej szyby usunąć, to jej trwałe mechaniczne uszkodzenia i zarysowania są w praktyce, bez naprawy serwisowej, nieusuwalne.

Rozpoznawanie tekstu, dokonywane jak już wspomniano, przez oprogramowanie typu OCR, to złożony proces, na który składa się badanie ogólnej struktury każdej zeskanowanej strony, wyodrębnienie z niej fragmentów tekstowych i graficznych, następnie podział obrazu tekstu na pojedyncze znaki i zamiana każdego takiego znaku na jego numeryczny odpowiednik w komputerowej tabeli znaków.

Czasem na tym właśnie etapie pojawia się problem, jeżeli tekst źródłowy wydrukowany jest bardzo nietypową czcionką, mocno odbiegającą od przyjętych standardów, program OCR nie będzie potrafił prawidłowo identyfikować rozpoznawanych znaków. Kłopot może rozwiązać mechanizm tzw. douczania wzorców, które polega na jednorazowym wskazaniu przez użytkownika jakiegoś błędnie rozpoznawanego elementu i określeniu, jaki to na prawdę znak. Rozwiązanie to, choć skuteczne, jest niestety całkowicie niedostępne dla osób niewidomych, gdyż wymaga precyzyjnego zaznaczenia obszaru jakiegoś znaku, co przy pomocy oprogramowania czytającego ekran jest niemożliwe.

Innym wbudowanym w OCR mechanizmem eliminacji błędów w rozpoznawanym tekście są słowniki, które pozwalają programowi wprowadzać korekty źle rozpoznanych słów.

Program Finereader, stanowiący obecnie najskuteczniejsze i z każdą wersją coraz bliższe doskonałości narzędzie OCR, posiada wbudowane słowniki dla ponad 100 języków w tym sztucznych, takich jak np. języki programowania.

Każdy dokument, skanowany i rozpoznawany w programie Finereader, nazywany jest wiązką. Pojęcie to, często zniechęcające początkujących użytkowników do rozpoczęcia pracy z aplikacją, oznacza serię ułożonych w określonej kolejności stron skanowanego dokumentu, np. książki. Każda strona przechowywana jest w wiązce pod dwoma postaciami: jako zeskanowany obraz dokumentu i, rozpoznany na podstawie tego obrazu, tekst.

Skanowanie pierwszej i każdej następnej strony dokumentu oznacza dodanie tej strony na końcu wiązki. Każda strona w wiązce może być następnie edytowana - zarówno w warstwie graficznej, gdzie edycji można poddać zeskanowany obraz, jak również w warstwie tekstowej.

Wskazówka praktyczna: screenreadery mają czasem problem z odczytywaniem tekstowej zawartości strony wiązki w oknie Finereadera. By podglądnąć rozpoznany tekst, można posłużyć się metodą ?zaznacz wszystko, kopiuj, wklej?, co pozwoli na dostęp do zawartości z poziomu Worda czy Notatnika. Taką operację warto wykonać na kilku pierwszych stronach skanowanego dokumentu, aby ustalić, czy rozpoznaje się on w stopniu wystarczająco dokładnym.

Po zeskanowaniu i rozpoznaniu całego interesującego nas dokumentu - np. książki, istnieje kilka możliwości przetworzenia tekstu na postać wygodniejszą i bardziej uniwersalną w użytkowaniu od wiązki, np. dokumentu Word lub pliku tekstowego.

W Finereaderze służy do tego narzędzie Kreatora Eksportu, które pozwala zapisać rozpoznany tekst w pliku (obsługiwane jest wiele formatów dokumentów) lub wykonać inne czynności, np. wysłać go do aplikacji Word.

Na etapie zapisu do pliku rozpoznanego tekstu, można ustalić, w jakim formacie ma być on zapisany (txt, doc i wiele innych), czy obiekty graficzne, jak zdjęcia i rysunki, mają być także zapisywane oraz, jak dalece program ma odwzorowywać formatowanie oryginału.

Zapisywanie grafiki w eksportowanym dokumencie nie oznacza zapisywania skanu każdej strony wraz z jej tekstowym odpowiednikiem, choć na podstawie powyższego opisu możnaby wysnuć taki wniosek. Istotnym wstępnym etapem rozpoznawania tekstu jest - jak wspomniano ? ustalenie, co w obrazie strony jest tekstem, a co grafiką np. zdjęciem. Próba rozpoznawania zdjęcia jako tekst, co czasem zdarzało się w starszych programach OCR, prowadziła do powstania w tekście serii całkowicie niezrozumiałych i nielogicznych znaków - program Finereader w najnowszych wersjach nie popełnia już jednak takich błędów lub zdarzają się one sporadycznie.

Optymalnym dla osób niewidomych ustawieniem kreatora eksportu jest pomijanie grafiki w eksportowanym dokumencie - zmniejsza to znacznie objętość końcowego dokumentu.

Docelowy poziom odzwierciedlenia formatowania jest już zależny od charakteru skanowanego dokumentu, ale najczęściej dla zmniejszenia objętości eksportowanego tekstu można je pominąć, co powinno również ustrzec nas przed, mogącymi się czasem pojawić, problemami z czytaniem przez screenreadery tekstu o zbyt bogatym formatowaniu.

Skanowanie to proces tworzenia elektronicznego obrazu dokumentu, a OCR to proces jego rozpoznawania. Co jednak, jeżeli posiadamy już elektroniczny obraz dokumentu, który chcemy przeczytać mową syntetyczną, a który ze względu na swój graficzny charakter jest dla programów odczytu ekranu niedostępny? Mam tu na myśli np. dokument w postaci graficznego pliku .pdf lub serię obrazu stron zapisanych jako obrazy np. JPEG.

Program Finereader umożliwia import takich obrazów do wiązki - zamiast mechanicznej czynności skanowania kolejnych stron. Funkcja "Otwórz obraz" pozwala wczytać jeden lub więcej plików zapisanych na dysku. Proces rozpoznawania i eksportu tekstu z takich obrazów odbywa się analogicznie do dokumentów skanowanych.

Problemem może się okazać zbyt niska, mniejsza niż 300 DPI, rozdzielczość obrazu dokumentu. Do pewnego stopnia można sobie z tym poradzić, korzystając z narzędzia konwersji rozdzielczości obrazu, wbudowanego w aplikację, które automatycznie przetworzy obrazy w wiązce do wskazanej rozdzielczości. Warto zauważyć, że program Finereader posiada wiele wbudowanych mechanizmów poprawy jakości obrazu, jak wykrywanie orientacji obrazu, usuwanie zabrudzeń tła, prostowanie linii tekstu, konwersja do odcieni szarości, które można stosować automatycznie.

Inne często spotykane utrudnienie, to pytanie o hasło dostępu do pliku PDF. Pytanie to pojawia się w przypadku, gdy program próbuje wydobyć tekstową warstwę z zabezpieczonego dokumentu PDF. Rozwiązaniem może okazać się wówczas włączenie w opcjach programu funkcji "Wczytaj PDF jako obraz".

A jeśli nie Finereader, to co?

Poza programem Finereader, istnieją oczywiście również inne alternatywy skanowania i rozpoznawania tekstu - na uwagę zasługują także programy i urządzenia lektorskie.

Programy lektorskie to aplikacje przygotowane specjalnie dla niewidomych użytkowników, zoptymalizowane pod kątem powiększania i/lub czytania tekstu mową syntetyczną. Zaletą takich rozwiązań jest prostota obsługi, dzięki czemu program może być używany nawet przez bardzo początkujących użytkowników komputera, oraz fakt, iż aplikacja lektorska posiada wbudowany syntezator mowy, który w pełni udźwiękawia, zarówno jego obsługę, jak i czytany tekst, nie wymaga zatem dodatkowego czytnika ekranu.

Wady to mniejsza od profesjonalnych aplikacji OCR funkcjonalność oraz możliwość konfiguracji, a także wyższa od OCR cena.

Przykładem programu lektorskiego jest np. Cicero Text Reader firmy Dolphin Computer Access.

Urządzenia lektorskie to rozwiązania integrujące komputer, skaner, program rozpoznawania tekstu i syntezę mowy w jednym urządzeniu. Rozwiązanie to posiada maksymalnie uproszczoną obsługę, a w związku z tym mniejszą od komputera funkcjonalność, choć na ogół daje się przełączyć w tryb pracy, w którym zachowuje się jak zwykły komputer PC - przy zamiarze korzystania w przyszłości z tej funkcji, warto zorientować się, jakich dodatkowych komponentów wymaga urządzenie, dla w pełni dostępnej dla niewidomych pracy w trybie PC. Oprogramowanie czytające tekst, zainstalowane w urządzeniu, może być zintegrowane z programem rozpoznawania znaków i nie oferować możliwości pełnego udźwiękowienia systemu operacyjnego. Warto także zwrócić uwagę na parametry sprzętowe takie, jak ilość pamięci, procesor i dostępna przestrzeń dysku twardego, oraz możliwość ewentualnej rozbudowy.

Ze względu na prostotę obsługi urządzenie lektorskie nadaje się dla osób starszych, które nie zamierzają poznawać tajników obsługi komputera, a jednocześnie chcą korzystać z możliwości automatycznego, bezwzrokowego odczytu tekstów drukowanych.

Poważną wadą tego rozwiązania jest jednak bardzo wysoka cena, sięgająca kilku lub kilkunastu tys. zł.

Przykładami, dostępnych w Polsce, urządzeń lektorskich mogą być: Autolektor firmy Harpo, Multilektor firmy Altix, Poet Compact firmy Baum Retec AG lub Sara firmy Freedom Scientific.

Na zakończenie warto wspomnieć o interesującym rozwiązaniu, które niedawno pojawiło się na polskim rynku - programie KNFB Reader. Jest to aplikacja na telefony komórkowe z systemem Symbian trzeciej edycji, umożliwiająca mobilny odczyt materiałów drukowanych, jak zapewnia producent - nie tylko książek, ale także np. etykiet na opakowaniach, kart menu i innych. Więcej na temat tego rozwiązania możecie przeczytać w Tyfloświecie nr 1 (3) 2009

Grzegorz Złotowicz

 

Projekt współfinansowany ze środków Państwowego Funduszu Rehabilitacji Osób Niepełnosprawnych oraz Gminy Miejskiej Kraków