Digitalizacja materiałów bibliotecznych – Aleksandra Bohusz

Jeszcze kilkanaście lat temu osoba niewidoma, chcąca zapoznać się z tekstem napisanym w zwykłym druku, potrzebowała lektora, który przeczytałby daną książkę, czasopismo, rachunek, receptę czy ulotkę – „na żywo” lub nagrywając ją na kasetę magnetofonową. Obecnie, w dobie nowoczesnych technologii, wystarczy interesujący nas materiał zeskanować, rozpoznać przy użyciu programu OCR, zapisać w odpowiednim formacie i odczytać na komputerze za pomocą screenreadera wykorzystującego potencjał syntezy mowy czy monitora brajlowskiego.

Aleksandra Bohusz*

Przetwarzanie materiałów drukowanych do postaci elektronicznej nazywamy digitalizacją. Jest ona przydatna nie tylko osobom niewidomym i słabowidzącym, ale także instytucjom publicznym, archiwom czy bibliotekom, chcącym uchronić przed zniszczeniem bądź udostępnić szerszemu gronu odbiorców zgromadzone dokumenty i księgozbiory.

Ponieważ spora grupa ludzi z dysfunkcją wzroku, czy to ze względu na podejmowane studia, czy osobiste zamiłowania, wyraża zainteresowanie dostępem do książek i prasy, warto przyjrzeć się bliżej procesowi digitalizacji materiałów bibliotecznych. Pozwoli to choć częściowo odpowiedzieć na pytanie, dlaczego jest ona wdrażana tak powoli, a jej efekty często nas nie zadowalają.

Terminologia

Słowo „digitalizacja” bądź „dygitalizacja” pochodzi od angielskiego terminu „digitali- sation”. Według autorów Wielkiego Słownika PWN obydwie polskie formy tego wyrazu są poprawne językowo. „Digitalizacja” ma uzasadnienie informatyczne, ponieważ jest bardziej zbliżona do formy angielskiej, a nowoczesne technologie importujemy z reguły z krajów anglojęzycznych. Zwolennicy używania terminu „dygitalizacja”, czyli formy spolszczonej, argumentują swój wybór troską o czystość naszego języka. W środowisku bibliotekarskim większym powodzeniem cieszy się jednak słowo „digitalizacja”. Będziemy go więc również używać w niniejszym tekście, jako bardziej powszechnego.

Trudności nastręcza też określenie, czym jest digitalizacja, gdyż nie ma jednej, ogólnie stosowanej definicji tego procesu. Każda z wykorzystujących go nauk, jak telekomunikacja, informatyka czy bibliotekoznawstwo określa go nieco inaczej.

Najprościej mówiąc, digitalizacja to proces zamiany danych analogowych na cyfrowe. W szerszym ujęciu jest ona procesem przetwarzania sygnałów (tekstu, dźwięku, obrazu bądź innych danych) analogowych, zmieniających się w sposób ciągły, na postać cyfrową za pomocą przetwornika analogowo-cyfrowego.

Z bibliotekoznawczego punktu widzenia polega na zamianie danych (na przykład bibliotecznych) z postaci analogowej na cyfrową, tak, aby powstała możliwość przechowywania ich na komputerze.

W literaturze spotykamy też niekiedy termin „retrodigitalizacja” albo inaczej: „digitalizacja retrospektywna”. Jest on w zasadzie tożsamy ze słowem „digitalizacja”, a przedrostek „retro” oznacza jedynie, że pierwotną wersją zdigitalizowanego dokumentu była forma analogowa i że jego wersja elektroniczna nie ukazała się jednocześnie z drukowaną. Retrodigitalizacja prowadzona jest przez i dla bibliotek w celu ochrony dzieł zniszczonych oraz poprawy dostępu do księgozbiorów. Dlatego w procesie digitalizacji tak istotną rolę odgrywa obróbka cyfrowa przetwarzanych materiałów, między innymi przy użyciu programów OCR. Bez niej udostępnienie zdigitalizowanych zbiorów bibliotecznych byłoby bowiem niemożliwe.

Inne, mniej lub bardziej rozbudowane definicje digitalizacji można znaleźć na portalu: www.digipedia.pl

Dokumenty występujące w formie elektronicznej dzielimy na: zdigitalizowane, cyfrowe i elektroniczne. Czasami dwóch ostatnich pojęć używa się zamiennie, co nie jest jednak do końca zgodne z ich definicją. Dokumenty digitalne powstają w wyniku przetworzenia wersji analogowej do cyfrowej. Cyfrowe to takie, które powstały jedynie w wersji cyfrowej (Digital born). Mamy z nimi do czynienia, gdy na przykład wydawnictwo od razu udostępnia swoją publikację w postaci pliku komputerowego. Natomiast dokumentami elektronicznymi mogą być zarówno zdigitalizowane, jak i cyfrowe, pod warunkiem, że można z nich korzystać w sposób zdalny, za pośrednictwem serwerów.

Cele digitalizacji

Biblioteki digitalizują swoje zbiory przede wszystkim dla zarchiwizowania oraz ochrony dziedzictwa naukowego i kulturowego. Wiadomo bowiem, że materiały drukowane, zwłaszcza te z poprzednich stuleci, jak starodruki, z czasem ulegają zniszczeniu. Digitalizacja pozwala zatem zachować je na przyszłość w formie elektronicznej.

Duże znaczenie ma również doprowadzenie do efektywniejszego udostępniania kulturowego i naukowego dorobku ludzkości, stworzenie cyfrowych kopii dokumentów życia społecznego i udostępnienie szerszemu gronu odbiorców skryptów, podręczników oraz innych materiałów dydaktycznych. Działania te mają prowadzić do podniesienia jakości kształcenia, rozwoju e-learningu (edukacji elektronicznej), zwiększenia dostępu do twórczości naukowej, a także sprawić, że wzrośnie promocja potencjału naukowego.

Digitalizacja to proces pracochłonny i drogi, gdyż wysokie są koszty przeszkolenia mających się nią zajmować pracowników – do digitalizowania materiałów bibliotecznych nie wystarczy umiejętność pracy z komputerem, zwykłym skanerem i prostym programem OCR. Niezbędne jest jeszcze opanowanie profesjonalnej obsługi złożonych urządzeń, oprogramowania oraz technologii internetowych. Ceny sprzętu do masowej digitalizacji wahają się w granicach 200 000 – 400 000 złotych, a oprogramowania – od 15 000 do 30 000 złotych. Droga jest również archiwizacja zdigitalizowanych materiałów, konserwacja sprzętu i naprawy introligatorskie skanowanych publikacji. Mimo to digitalizowanie zbiorów bibliotecznych powoduje spadek kosztów ich udostępniania. Jednak, z powodu dużego nakładu pracy i wysokich kosztów, biblioteki nie zawsze digitalizują we własnym zakresie. Bywa, że zlecają to zadanie firmom zewnętrznym na zasadzie outsourcingu

Niekiedy digitalizacja jest również prowadzona w ramach współpracy międzybibliotecznej. Przykładami tego typu inicjatyw mogą być opisywana w poprzednim numerze Akademicka Biblioteka Cyfrowa oraz Federacja Bibliotek Cyfrowych. Taki model prowadzenia digitalizacji jest najlepszy i powinien być stosowany powszechnie, gdyż uniknęłoby się wtedy powielania tej samej pracy oraz niepotrzebnego digitalizowania tego samego dokumentu po kilkakroć.

Biblioteczne pracownie digitalizacyjne umieszczane są zwykle w strukturach działów o charakterze informatycznym bądź reprograficznym. Wyjątek w tym zakresie stanowi wspomniana wyżej Akademicka Biblioteka

Cyfrowa, mieszcząca się na Uniwersytecie Warszawskim. Ze względu na specyfikę swoich działań podlega ona Biuru do Spraw Osób Niepełnosprawnych UW. Pracownie digitalizacyjne współpracują w swoich bibliotekach głównie z działami: opracowywania i udostępniania zbiorów, informacji naukowej oraz pracownią konserwatorską bądź introligatorską, gdyż, mimo ostrożnego obchodzenia się z digitalizowanymi oryginałami, po skanowaniu wymagają one zwykle naprawy.
Prawne aspekty digitalizacji

Zagadnieniami prawnymi dotyczącymi bibliotek cyfrowych, w tym digitalizacji, zajmuje się Ustawa o bibliotekach z dnia 27 czerwca 1997 r. (Dz. U. nr 85, poz. 539). W art. 4 pkt 1 znajdujemy informacje o zadaniach najważniejszych w działalności bibliotek. Do podstawowych zadań biblioteki należy gromadzenie, opracowywanie, przechowywanie, ochrona i udostępnianie danych bibliotecznych.

Ponieważ ustawa zawiera również zapis mówiący, że przepisy dotyczące bibliotek tradycyjnych mają zastosowanie także w przypadku bibliotek cyfrowych, zdigitalizowane wersje utworów stanowią materiał biblioteczny, a ich rozpowszechnianie on-line jest formą udostępniania zbiorów. Z tego względu powinno ono być bezpłatne i z reguły tak jest.

Dla procesu digitalizacji i tworzenia bibliotek cyfrowych znaczenie ma także Ustawa o prawie autorskim i prawach pokrewnych z dnia 4 lutego 1994 r. oraz jej nowelizacje. Ze względu na status prawny materiały biblioteczne dzielimy na: niepodlegające ochronie z tytułu praw autorskich, podlegające ochronie częściowej oraz całkowitej.

Do pierwszej kategorii należą cymelia (najstarsze i najcenniejsze dokumenty, często pisane odręcznie lub zawierające autograf autora, najtrudniejsze do digitalizacji, którą można przeprowadzić wyłącznie przy pomocy specjalnych skanerów) i kanon literatury pięknej, którego stopień digitalizacji jest średni (niezwykle istotna jest tu dobra obróbka OCR, gdyż główny cel stanowi wydobycie tekstu). Część materiałów posiadających wartość historyczną można jednak skanować przy użyciu zwykłych skanerów. Gdy wygasną autorskie prawa majątkowe do danego utworu, jego treść, pozbawiona współczesnej obróbki edytorskiej, może być udostępniana on-line (wyjątek w tym zakresie stanowią tłumaczenia, które zawsze są prawnie chronione).

Zbiory podlegające ochronie częściowej to dokumenty regionalne (regionalia), unikatowe dla pewnych jednostek administracyjnych. Stopień trudności ich digitalizacji jest średni, skanuje się je na różnego typu skanerach, a ich digitalizacja zazwyczaj nie przynosi dochodów, ponieważ ma na celu udokumentowanie życia regionu i państwa. Ochronie częściowej podlegają też mikroformy, mikrofilmy, mikrofisze i mikrokarty, których digitalizacja jest dość trudna, wymaga bowiem zastosowania specjalistycznego skanera i dobrej jakości programu OCR dla wydobycia tekstu.

Materiały podlegające całkowitej ochronie z tytułu praw autorskich ukazały się w ciągu ostatnich kilkudziesięciu lat. Mogą być skanowane na zwykłych skanerach, ale koniecznie z użyciem programu OCR. Wybierając je do digitalizacji, warto zadać sobie pytanie o ich przydatność, czyli jak często będą z nich korzystali użytkownicy biblioteki, gdyż konieczne jest pozyskanie zgody autora i wydawcy, co bywa procesem długotrwałym. Część zbiorów, które ukazały się po 1985 r. (zarówno publicystycznych, jak regionalnych) nie wymaga przetwarzania do postaci cyfrowej, ponieważ wraz z ich wersjami analogowymi powstały również wersje zdigitalizowane.

Metody digitalizacji

Rozróżniamy następujące metody digitalizacji:
– ręczne przeniesienie tekstu do pamięci komputera (metoda ta powstała, zanim odkryto inne możliwości digitalizowania zbiorów, została użyta między innymi w projekcie Guttenberg, obecnie z powodu rozwoju technologicznego właściwie nie jest stosowana),
– zwykłe skanowanie,
– skanowanie z użyciem programów do rozpoznawania pisma (OCR) – jest ono od dwóch do czterech razy droższe od zwykłego skanowania,
– zastosowanie kamer cyfrowych,
– digitalizowanie materiałów za pomocą cyfrowych aparatów fotograficznych.

Digitalizacja w praktyce – kwestie techniczne

Przed rozpoczęciem procesu digitalizacji należy dokonać wyboru odpowiedniej metody, sprzętu, oprogramowania oraz formatu pliku, w którym chcemy zapisać zdi- gitalizowany dokument. Wybór zależy między innymi od tego, jaki materiał poddajemy digitalizacji i czy uzyskana wersja cyfrowa ma mieć charakter archiwalny, czy użytkowy, tzn. czy ma zostać udostępniona czytelnikom.

Istota procesu digitalizacji polega na zero- jedynkowym zapisie sygnału. Jest on najpierw próbkowany i kwantowany, a następnie kodowany jako dyskretny, będący, w odróżnieniu od analogowego, ciągiem liczbowym.

Próbkowanie (ang. Sampling) następuje poprzez pobieranie próbek wartości sygnału analogowego w pewnych odstępach czasu, a kwantowanie – przez przyporządkowanie każdej próbce skończonej liczby poziomów amplitudy odpowiadających dyskretnym wartościom od zera do pełnego zakresu. Podczas kodowania uzyskana wartość dyskretna jest wyrażana za pomocą odpowiednio dobranego kodu cyfrowego. Oprócz próbkowania w procesie digitalizacji niezwykle ważną rolę odgrywa konwersja sygnału analogowego do postaci cyfrowej, jednak produktem końcowym nie są zakodowane dane binarne, (zapisywane tak, jak są reprezentowane w systemie komputerowym – w postaci zer i jedynek), ale plik zawierający, oprócz reprezentacji obrazu, elementy jego wewnętrznej struktury bądź części składowe tego obrazu. Te elektroniczne reprezentacje obiektów rzeczywistych (obrazy cyfrowe – Digital images) powstają w wyniku zastosowania cyfrowego aparatu fotograficznego, kamery cyfrowej lub skanera. O ich jakości decyduje zagęszczenie pikseli wyrażone w rozdzielczości skanowania, która zależy od rodzaju poddawanego obróbce materiału i jego docelowego przeznaczenia. Zastosowanie zbyt niskiej rozdzielczości powoduje pikselację – powstanie nieostrego i rozmytego obrazu, zbyt wysoka zwiększa natomiast rozmiar pliku, wydłużając czas drukowania bądź przesyłania obrazów. Jednak dzięki wyższej rozdzielczości są one wyraźniejsze i bardziej czytelne (niekiedy przewyższają pod tym kątem oryginał), dlatego zdecydowanie lepiej ustawić rozdzielczość wysoką, niż niską (przy skanowaniu optymalna wynosi 300-400 DPI). Piksel to nie tylko punkt w określonym miejscu. Każdy ma konkretny kolor, tak więc obraz cyfrowy jest liczbowym zapisem barw. Jako jeden z ważnych jego parametrów występuje głębia bitowa (bit deph) określająca liczbę barw możliwych do odwzorowania w obrazie oraz ilość bitów pamięci przydzielonych do zapisania informacji o barwie każdego piksela. 1 bit oznacza obraz czarnobiały, 8 bitów – 256 kolorów lub odcieni szarości, 16 – 65000 kolorów, a 24 bity to tzw. kolor rzeczywisty, prawdziwy (true color).

Na podstawie tych danych definiowane są wartości kolorystyczne poszczególnych pikseli w konkretnym obrazie. Ich reprezentacja to tryby kolorów (skala szarości, przestrzeń barwna RGB, CMYK). O wyborze trybu kolorów decyduje przeznaczenie obrazów i sposób ich udostępniania (na przykład do odtwarzania w komputerze najbardziej optymalnym trybem jest RGB, a do drukowania – CMYK).

Na przebieg procesu digitalizacji bardzo duży wpływ wywiera stan materiału źródłowego. Oryginały, zwłaszcza te znajdujące się w bibliotekach, często są pokryte kurzem, porysowane, pomazane ołówkiem, rozmazane bądź zawierają odciski palców. Przed rozpoczęciem digitalizacji należy koniecznie wyeliminować te usterki. Można tego dokonać również w trakcie skanowania. Obecnie wiele urządzeń digitalizacyjnych automatycznie dobiera parametry zależnie od typu przetwarzanego materiału. Gdy mimo to mankamenty pozostają, należy skorzystać z technik retuszowania obrazów po skanowaniu. W przypadku materiałów bibliotecznych są to najczęściej: usuwanie kurzu i zanieczyszczeń, łączenie fragmentów obrazu w całość, korekta naświetlenia oraz eliminowanie przebarwień.

Istnieje techniczna możliwość zabezpieczenia zdigitalizowanego dokumentu przed wprowadzaniem zmian, na przykład zakładanie znaków wodnych (format PDF), uniemożliwiających wydruk pliku.

Poszczególne biblioteki digitalizują głównie materiały charakterystyczne dla ich księgozbiorów, a także regionalia. Zdigitalizowane materiały są z reguły przechowywane na płytach CD, rzadziej DVD. Jest to podyktowane względami finansowymi oraz faktem, że w razie użycia dysków optycznych należy stosować się do zaleceń ISO 18925 – grupy norm, zawierającej standardy ich przechowywania. Biblioteki wolą więc stosować nośniki, których gromadzenie nie jest obwarowane żadnymi odgórnymi uregulowaniami. Zdigitalizowane dane gromadzi się również na serwerach (zewnętrznych i wewnętrznych macierzach dyskowych).

Z powodu starzenia się technologii, nośników i formatów zapisu ciągle nierozwiązanym problemem pozostaje trwałość zdigitalizowa- nych dokumentów.

Do digitalizacji materiałów drukowanych i rękopiśmiennych używa się skanerów, urządzeń hybrydowych bądź cyfrowych aparatów fotograficznych.

Skanery dokonują zamiany obrazów analogowych, utrwalonych na fizycznie istniejących mediach, na ich elektroniczną reprezentację zapisaną następnie w jednym z formatów plików lub jako wydruk. Istnieje kilka rodzajów tych urządzeń: płaskie skanery biurowe; do dokumentów wielkoformatowych; używane przy skanowaniu książek (dziełowe); do mikroform i rolkowe. Skanery są produkowane przez takie firmy, jak: Plustek, Mustek czy Canon.

Hybrydy to urządzenia zawierające w jednej obudowie skaner oraz cyfrowy aparat fotograficzny. Stosują je instytucje tworzące wtórniki na mikrofilmach i w postaci elektronicznej. Najpopularniejszym przykładem urządzenia hybrydowego jest DGBook.

Cyfrowych aparatów fotograficznych używa się stosunkowo rzadko ze względu na ich wysoką cenę. Odpowiednik kliszy stanowi w nich matryca światłoczuła (na przykład CCD, CMOS, LBCAST). Jakość fotografii zależy od przetwornika optycznego, obiektywu, algorytmów i typów procesorów. Najbardziej znani producenci aparatów to między innymi Kodac i Olympus.

W poszczególnych fazach obróbki zdigitalizowanych dokumentów stosuje się różnego rodzaju programy. Na uwagę zasługują szczególnie: Abby FineReader – chyba naj- powszechniej używany program OCR, mający duże znaczenie dla osób z dysfunkcją wzroku ze względu na dobre jakościowo rozpoznawanie tekstu; Corel – służy do obróbki grafiki; Adobe Reader – powiązany z formatem PDF; Express Editor Professional Edition – umożliwia pracę z plikami typu DJVU.

Odrębną grupę stanowi oprogramowanie do zarządzania zasobami cyfrowymi. Jeśli posiadamy mniej niż sto dokumentów, nie ma potrzeby tworzenia biblioteki cyfrowej, wystarczy udostępnić materiały na prostym serwerze. Gdy liczba zebranych materiałów jest większa, istnieją dwie możliwości: wykorzystanie oprogramowania służącego danej bibliotece do tworzenia katalogów cyfrowych (na przykład Horison czy Libra) lub wprowadzenie takiego, które pozwoli na utworzenie osobnej platformy, jak system de Libra, wykorzystywany między innymi przez Federację Bibliotek Cyfrowych.

Rodzaje prezentacji danych

Dane powstałe w wyniku digitalizacji można przedstawić na trzy sposoby:
Grafika rastrowa to rodzaj bitmapy (grafiki bitmapowej), w której reprezentacja obrazu oddawana jest za pomocą pionowo-poziomej siatki pikseli, jak na monitorze czy w drukarce. Grafikę tę cechują: ilość pikseli w poziomie i pionie, rozdzielczość, czyli ilość pikseli na jednostkę długości, określająca szczegółowość grafiki, głębia barwy. Grafika rastrowa służy do prezentacji wszelkiego rodzaju obrazów. Jej główną wadą jest utrata jakości podczas skalowania wskutek konieczności ponownego przeliczania wartości każdego składowego piksela. Do stosowania jej mogą również zniechęcać duże rozmiary wynikowych (powstałych po digitalizacji i obróbce cyfrowej) plików.
Grafika wektorowa oddaje obraz za pomocą tzw. poligonów i krzywych (w przypadku grafiki dwuwymiarowej są to figury geometryczne, a trójwymiarowej – bryły geometryczne) umieszczone w matematycznie zdefiniowanej przestrzeni, tj. układzie współrzędnych. W przeciwieństwie do bitmap, grafikę wektorową cechuje skalowalność i niewielkie rozmiary uzyskiwanych plików. Otrzymany obraz można dowolnie powiększać lub zmniejszać bez utraty jakości. Stosuje się ją przede wszystkim przy tworzeniu niezróżnicowanych kolorystycznie i formalnie ilustracji, jak również w oprogramowaniu typu CAD, używanym przede wszystkim przez architektów. W procesie digitalizacji jest natomiast praktycznie bezużyteczna, gdyż wprowadzany do komputera druk prymarny (oryginalny) jest zawsze obrazem rastrowym, a przekształcenie grafiki rastrowej w wektorową jest bardzo trudne. Dość łatwo można za to wykonać proces odwrotny.
Tekst edytowalny, czyli ciąg znaków, które, niezależnie od formy typograficznej, są jednoznacznie identyfikowane jako nośnik konkretnej informacji. Prezentacja obrazu odbywa się w tym wypadku przy użyciu czcionek ułożonych w odpowiednich sekwencjach. Dla użytkowników bibliotek mających problemy wzrokowe ta forma jest najbardziej przydatna. Chodzi nam przecież o możliwość pracy ze zdigitalizowanym dokumentem przy użyciu programu udźwiękawiającego bądź monitora brajlowskiego, którą daje jedynie tekst edytowalny. Przy braku dodatkowych zabezpieczeń da się go bowiem dowolnie edytować, przeszukiwać i kopiować. Natomiast ogólnie rzecz biorąc, trudno jednoznacznie stwierdzić, czy lepiej wybrać do prezentacji grafikę rastrową czy tekst. Wszystko zależy od tego, jaki cel przyświeca digitalizacji danego materiału. Bitmapa sprawdza się na przykład, gdy istotne jest zachowanie wyglądu dokumentu prymarnego oraz jak najdokładniejsze przekazanie jego treści. Grafikę rastrową stosuje się więc przy digitalizacji cymeliów, zbiorów specjalnych takich, jak mapy, nuty, obrazy bądź plakaty oraz wydawnictw ciągłych (dzięki nowoczesnemu sprzętowi obróbka grafiki rastrowej sprowadza się często do drobnego retuszu, niekiedy dokonywanego automatycznie, co pozwala oszczędzać czas). Formaty tekstowe, w wyniku zastosowania których powstają niewielkie pliki dające możliwość szybkiej nawigacji mają zastosowanie przy digitalizacji materiałów, których treść jest znacznie ważniejsza od formy (na przykład dzieł literackich). W przypadku materiałów współczesnych i regionaliów nie ma jednoznacznej odpowiedzi, który sposób prezentacji jest lepszy, każdy dokument należy analizować pod tym kątem indywidualnie. Niestety, wciąż brak sposobu digitalizacji, który łączyłby w sobie zalety grafiki rastrowej i edytowalnego tekstu.

Formaty zapisu zdigitalizowanych dokumentów

Istnieje kilka ich podziałów. Ze względu na przeznaczenie zdigitalizowanych materiałów formaty dzielimy na archiwalne i prezentacyjne. Zadaniem pierwszych jest przechowywanie wysokiej jakości informacji o dokumencie prymarnym. Stanowią też bazę do tworzenia dokumentów prezentacyjnych. Ich zapis przybiera najczęściej formę graficzną, a ponieważ tego typu pliki są bardzo duże, trudno o ich udostępnianie. Jednak jeśli dane przeznaczone do archiwizacji zapiszemy w pliku tekstowym, należy je chronić przed wprowadzeniem przypadkowych zmian.

Zadaniem archiwów jest bowiem przechowywanie cennych materiałów i, w razie potrzeby, przetwarzanie ich do postaci dokumentów prezentacyjnych. Z tego powodu pliki archiwalne powinny być wielkoformatowe, tzn. takie, które można otwierać oraz dokonywać ich obróbki na różnego typu komputerach i we wszystkich istniejących systemach operacyjnych.

W formatach prezentacyjnych zapisujemy dane do udostępnienia czytelnikom. Mogą to być zarówno pliki graficzne, jak i tekstowe, z tym, że te drugie sprawdzają się lepiej ze względu na mniejsze rozmiary. Wielkość plików prezentacyjnych ma spore znaczenie, gdyż muszą być one udostępniane w Internecie, a łącza wciąż nie są w stanie „udźwignąć” dużej ilości danych. Konieczność redukcji rozmiaru sprawia, że przy plikach prezentacyjnych stosuje się kompresję stratną, czyli powodującą utratę części informacji, których brak nie wpływa jednak ujemnie na treść zapisanych w ten sposób dokumentów. Plików prezentacyjnych nie powinno się konwertować, ponieważ każda kolejna ingerencja pociąga za sobą dalszą utratę jakości i oddala wersję cyfrową od oryginalnej. Mimo pewnych niedoskonałości pliki prezentacyjne są znacznie bardziej funkcjonalne od archiwalnych, przy których stosowana jest kompresja bezstratna.

W większości bibliotek cyfrowych do przechowywania dokumentów stosuje się głównie formaty: TIFF, JPG, PDF, a do udostępniania służą: JPG, TIFF, DJVU, PDF, HTML, GIF. Jak widać, część formatów posiada funkcję archiwalną i prezentacyjną.

Istnieje również podział formatów zeskanowanych dokumentów ze względu na rodzaj ich zapisu. Wyróżniamy tutaj formaty: graficzne (na przykład TIFF, JPG, JPG2000, DJVU, BMP, GIF), dźwiękowe (WAV, MP3, MP4), filmowe (MOVE MPEG), tekstowe i mieszane (ASCII, XML, PDF, XHTML, HTML, TXT, RTF, DOC). Podobnie jak przy poprzednim podziale, wybór formatu również w tym przypadku zależy od celu digitalizacji danego materiału bibliotecznego.

Dla czytelników niewidomych i słabowidzą- cych w pełni dostępne są jedynie zbiory zapisane w formatach tekstowych, dźwiękowych oraz filmowych (jedynie dźwięk). W pewnym stopniu możliwe jest także korzystanie z plików PDF, jeżeli nie są „przeładowane” grafiką, zostaną otwarte w programie Adobe Reader lub przekonwertowane do Worda przy pomocy narzędzia wbudowanego w Abby FineReader. Używając specjalnej wtyczki, można niekiedy przygotować do odczytu przez screenreadery dokumenty DJVU, możliwe jest również ich przetworzenie na czytelny format za pomocą FineReadera.

Z naszego punktu widzenia najlepiej byłoby, gdyby biblioteki cyfrowe udostępniały swoje księgozbiory w postaci plików tekstowych bądź dźwiękowych (audiobooków).
Podsumowanie

Digitalizacja materiałów bibliotecznych to proces bardzo złożony, przebiegający wieloetapowo, wymagający niekiedy zastosowania skomplikowanych technik oraz wyspecjalizowanego sprzętu i oprogramowania. Warto o tym pamiętać, gdyż łatwiej wtedy zrozumieć, dlaczego biblioteki tak rzadko przygotowują materiały w formie dostępnej dla osób z problemami wzrokowymi. Nie wynika to z ich złej woli, ale z braku środków finansowych, czasu, jak również z faktu, że wymagałoby dodatkowych zabiegów prawnych. Także używane podczas digitalizacji materiałów bibliotecznych formaty w większości nie są takie, jakich potrzebują czytelnicy niewidomi oraz słabowidzący.

Być może wraz z dalszym rozwojem techniki sytuacja ta ulegnie poprawie. Póki co, pozostaje nam jednak korzystać z oferty pojedynczych bibliotek oraz innych instytucji przygotowujących dokumenty w formach dostępnych dla screenreaderów, a także dokonywać digitalizacji samodzielnie przy użyciu zwykłych skanerów i prostych programów OCR.

* Autorka straciła wzrok zaraz po urodzeniu w wyniku retinopatii wcześniaczej. Ukończyła studia magisterskie z historii oraz podyplomowe z informacji naukowej i bibliotekoznawstwa na Uniwersytecie Łódzkim. Obecnie pracuje w bibliotece jednego z okręgów PZN. W czasie wolnym pisze teksty publikowane w czasopismach zajmujących się tematyką związaną z niewidzeniem. Jej zainteresowania to: literatura, publicystyka, historia (głównie Kościoła i społeczna), teatr, muzyka, podróże, język francuski.

Digitalizacja materiałów bibliotecznych – Aleksandra Bohusz

Partnerzy

REDAKTOR NACZELNY

REDAKTORZY

SIEDZIBA REDAKCJI