Historia digitalizacji
Krzysztof Opaliński, Patrycja Potoniec

Historia digitalizacji
Krzysztof Opaliński, Patrycja Potoniec

Na przełomie XX i XXI w. techniki komputerowe coraz szerzej wkraczały do badań humanistycznych, otwierając nowe możliwości przetwarzania danych. Początkowo komputery dokonały rewolucji w przygotowaniu publikacji do druku i przez wiele lat w humanistyce wykorzystywane były wyłącznie jako zaawansowana maszyna do pisania. Podobnie w Pracowni Słownika Polszczyzny XVI w. tradycyjne maszyny do pisania zostały wyparte przez komputery, które pozwalały na przygotowanie haseł słownika w formacie wykorzystywanym w poligrafii. Pod koniec lat dziewięćdziesiątych zaawansowanie techniki komputerowej pozwoliło na snucie planów bardziej zaawansowanego ich użycia w odniesieniu do słownika. W środowisku naukowym pojawiły się dość radykalne postulaty dotyczące słowników naukowych, w tym także Słownika polszczyzny XVI wieku – „słowniki dokumentacyjne mogłyby bez większych strat dla nauki zostać zastąpione elektronicznymi korpusami tekstów” (Żmigrodzki 2005, s. 9). Realizacja tego postulat, który nawet jego autorowi jawił się jako nadmiernie radykalny (Żmigrodzki 2005, s. 12), nie wymagała jednak wcale „złożenia ofiary” ze słownika (czyli zastąpienia go), a digitalizacja (a także udostępnienie) bazy źródłowej mogła tylko mu się przysłużyć.

Początki idei cyfrowej wersji słownika sięgają lat 90-tych ubiegłego wieku. Komputery jednak przez długie lata były wykorzystywane wyłącznie do edycji haseł, a priorytetem była praca nad kolejnymi tomami Słownika w wersji drukowanej. Dynamicznie rozwijająca się branża komputerowa tworzyła tymczasem kolejne możliwości wyrafinowanego wykorzystania nowych technologii. Myśl o udostępnieniu SPXVI w internecie sięga roku 2001. Z inicjatywą wystąpili wtedy Janusz S. Bień i Krzysztof Szafran, którzy za pośrednictwem Zygmunta Saloniego skontaktowali się z prof. Franciszkiem Pepłowskim ówczesnym kierownikiem pracowni i nieformalnym, acz faktycznym redaktorem naczelnym Słownika. O potrzebie i ewentualnej metodzie digitalizacji SPXVI wspomniał także T. Piotrowski na konferencji w Budapeszcie w 2005 r. (Piotrowski, Szafran 2005). Istotny zwrot nastąpił 21 lutego 2006 r., kiedy to w siedzibie Instytutu Badań Literackich PAN odbyło się zebranie Komitetu Redakcyjnego SPXVI z gościnnym udziałem J.S. Bienia, na którym zapadły dwie decyzje. Pierwsza o udostępnieniu w internecie I tomu, który został przygotowany w pracowni (skany i konwersja na format DjVu) oraz przez prof. Bienia (strona internetowa wyposażona w prosty indeks), i który opublikowano w sieci 9 kwietnia 2006 r. pod niedziałającym już adresem www.mimuw.edu.pl/polszczyzna/SpXVIw/. Druga – o tworzeniu w przyszłości wersji elektronicznej równolegle z papierową.

Kopia cyfrowa Słownika polszczyzny XVI wieku w bibliotece cyfrowej i związane z nią narzędzia

IBL PAN podpisał z Kujawsko-Pomorską Biblioteką Cyfrową umowę dotyczącą digitalizacji i opublikowania w internecie pozostałych wydanych drukiem tomów. Wszystkie opublikowane tomy Słownika wraz z zeszytem próbnym od 2008 r. udostępniane są pod adresem kpbc.umk.pl/dlibra/publication?id=17781. Skany wykonane przez KPBC z różnym (raczej miernym) skutkiem poddano optycznemu rozpoznaniu tekstu OCR. Głównym argumentem przemawiającym za takim sposobem digitalizacji była szybkość realizacji tego projektu – dzięki niemu Słownik wzbogacił się o wersję dostępną przez Internet w ciągu kilku miesięcy, jednocześnie od razu zakładano, że jest to tylko pierwszy krok na drodze do stworzenia słownika elektronicznego.

Warstwa tekstowa Słownika została później skonwertowana do formatu korpusu przez Jakuba Wilka (tomy 1-34) i Krzysztofa Szafrana (tom 35). Korpusem tym zarządza wyszukiwarka Poliqarp przystosowana do tego zadania w Katedrze Lingwistyki Formalnej UW szukajwslownikach.uw.edu.pl/slownik-polszczyzny-xvi-wieku/. Dzięki niej możliwe stało się efektywne przeszukiwanie zawartości udostępnionych w formacie DjVu materiałów o objętości około 3,5 tysiąca arkuszy wydawniczych (17,5 tysiąca stron wydruku dwuszpaltowego w formacie zbliżonym do A4). Korpus liczy ok. 33 mln segmentów, a ostatni raz aktualizowany był 20 marca 2012 r. i nie zawiera danych od 36 tomu.

Pierwsza koncepcja elektronicznej wersji Słownika polszczyzny XVI wieku (koncepcja K. Szafrana)

Niezmiernie ważnym faktem była publikacja w 2007 r. pracy K. Szafrana Analiza i formalny opis struktury „Słownika polszczyzny XVI wieku (Szafran 2007). Autor przedstawił spójną koncepcję digitalizacji artykułów hasłowych SPXVI za pomocą powszechnie dostępnych, darmowych narzędzi informatycznych. Zaprezentowany formalizm opiera się na opisie danych słownikowych przez tagi języka XML (eXtensible Markup Language). Praca Szafrana dała impuls do podjęcia prób zastosowania tego formalizmu w praktyce. Próby praktycznego zastosowania zaproponowanego przez autora rozwiązania pozwoliły bardziej precyzyjnie zastanowić się nad założeniami wersji elektronicznej SPXVI. Stosując stopniowanie typów digitalizacji wyróżnione przez P. Żmigrodzkiego (Żmigrodzki 2008, s. 102-103), wydaje się, że najbardziej pożądanym efektem prac cyfryzacyjnych jest zbiór plików tekstowych z możliwie najpełniej opisanymi danymi zawartymi w artykułach hasłowych, które później można poddać wyrafinowanym kwerendom. Zastosowanie języka XML do opisu struktury artykułu hasłowego Słownika wydaje się naturalne, gdyż jest to obecnie najpowszechniej stosowany język opisu danych tekstowych, a w szczególności danych leksykograficznych. XML jest elastyczny i można dowolnie tworzyć jego subkody. Takim zunifikowanym subkodem języka XML, służącym do opisu danych w humanistyce w ogóle, jest formalizm opracowany przez TEI (Text Encoding Initiative). W zbiorze zaleceń TEI (TEI Guidelines) poświęcono miejsce również opisowi danych leksykograficznych. Jednak – co dowodzi K. Szafran – zastosowanie znaczników TEI w przypadku haseł Słownika polszczyzny XVI wieku jest problematyczne. Zestaw zdefiniowanych elementów sprawdza się jednakże w przypadku słowników o dość prostej strukturze artykułu hasłowego, dla haseł o rozbudowanej i zmiennej w zależności od frekwencji i funkcji strukturze jest on niewystarczający (por. Szafran 2007, s. 21).

Szafran w swojej pracy zrezygnował z proponowanego przez TEI zestawu znaczników XML jako zbyt ograniczonego dla zróżnicowanej i skomplikowanej struktury artykułu hasłowego i w oparciu o własne studia nad Słownikiem i instrukcją redakcyjną (Wilczewska 1976) na przykładzie kilku haseł opracował dla haseł SPXVI oryginalny formalizm zapisany w formacie DTD (Document Type Definition) (Szafran 2007). Zaletą takiego rozwiązania jest możliwość opisania (otagowania) wszystkich elementów bardzo złożonego artykułu hasłowego. Rezultatem pracy Szafrana jest zbiór 252 elementów XML i licznych ich atrybutów oraz zestaw encji znakowych zdefiniowanych w DTD o listingu liczącym ponad 1000 wierszy. Przy tym poziom zagnieżdżenia niektórych elementów jest dość znaczny. Autor dążył do formalnego opisu najdrobniejszych szczegółów artykułu hasłowego, jednakże zasady redakcyjne Słownika pozostawiają autorom haseł pewną dowolność w tworzeniu grup semantycznych, składniowych, frazeologicznych czy funkcjonalnych, co zwykle podyktowane jest szczególnymi właściwościami opracowywanego leksemu (odnosi się to zwłaszcza do leksemów formalnych: przyimków, spójników, partykuł itp.). Powoduje to w zasadzie brak możliwości określenia z góry wszystkich elementów hasła. Próby zastosowania tego DTD w praktyce okazały się w związku z tym mało efektywne. W pracowni powstał specjalny edytor stosujący formalizm Szafrana, ale próby kodowania w nim haseł okazały się skomplikowane i czasochłonne. Badano zarówno możliwości kodowania już istniejących haseł, jak i przydatność w procesie przygotowywania artykułu hasłowego do druku. W szczególności problematyczne okazało się tworzenie mocno zagnieżdżonych grup znaczeniowych i ich numerowanie, które w schemacie Szafrana odgrywa porządkującą rolę, na co zwrócił uwagę Z. Saloni w recenzji tej pracy (Saloni 2009, s. 359). W wyniku tych prób zapadła decyzja o uproszczeniu schematu XML dla artykułu hasłowego, by dało się go zastosować do haseł różnego typu i objętości. Zdecydowano również, że próbny edytor będzie rozwijany, a jego obsługa zostanie maksymalnie uproszczona – mając w planach retrodigitalizację opublikowanych w wersji papierowej haseł, zakładano zatrudnianie osób spoza pracowni nawet mało doświadczonych w leksykografii.

Spis treści