Potęga ponownego wykorzystania danych. DraCor
Wedle zasad FAIR dla otwartych danych (zobacz rozdział: Analiza danych o kulturze), jedną z kluczowych cech jest “ponowne wykorzystanie [danych]” (resuable). W przypadku naukowych edycji cyfrowych można odnaleźć opisy, dla kogo dana edycja jest projektowana i kto z niej skorzysta (Frankenstein, POET IN MAKING) lub co można osiągnąć podczas jej tworzenia (RAFF). Rzadziej natomiast pojawiają się przykłady, jak dane te mogą zostać wykorzystane w kolejnych cyfrowych projektach humanistycznych (niekoniecznie edytorskich). Stąd przykład DraCoru (skrótowiec od drama corpora, korpusu dramatów) jest tak ważny w kontekście kuracji danych z naukowych edycji cyfrowych. Zespół tworzący DraCor zbiera cyfrowe edycje dramatów oznaczonych w TEI w wielu językach, umożliwiając potem pozyskanie, porównywanie, przeszukiwanie i inne operacje na utworzonym korpusie (zobacz rozdział o NLP) za pomocą jednego, wspólnego API. („What Is DraCor?” 2019).
Na stronie tego narzędzia można przeglądać podzbiory dramatów w danym języku oraz tworzyć wizualizacje.
Utwory i osoby autorskie otrzymują dodatkowo połączenie z identyfikatorami WikiData, co dodatkowo zwiększa przeszukiwalność i interoperacyjność danych (findable, interoperable), pozwala bowiem zidentyfikować konkretne byty w skali międzynarodowej i na poziomie różnych języków.
DraCor umożliwia badania porównawcze tekstów dramatycznych, tworząc sieci zależności za pomocą dodatkowego narzędzia Shiny DraCor, wypracowanego w ramach finansowania CLS-Infra[1].
Warto zwrócić uwagę na wykorzystane znaczniki TEI w tekstach dramatów. Są one stosunkowo “proste”, podstawowe, co ma zagwarantować interoperacyjność i współpracę między różnymi zbiorami, ale też jest możliwy do wzbogacania w przyszłości (Fischer i in. 2019, 1-2). DraCor jest gotów na rozbudowę o kolejne teksty, o ile będą one oznaczone w TEI. Dodatkowo, miejscem “przechowywania” wszystkich korpusów jest GitHub, bezpłatna platforma do hostowania, wersjonowania, rozwijania kodu programistycznego. Cały projekt zbudowany jest z myślą o dalszej analizie z wykorzystaniem na przykład języka R lub narzędzi wspierających trwałe i zastane w cyfrowych praktykach formaty danych, takie jak JSON i CSV (Fischer i in. 2019, 2). Pełne korzystanie z możliwości projektu DraCor wymaga nabycia dodatkowych kompetencji z zakresu humanistyki cyfrowej związane z “dalekim czytaniem” (distant reading) czy budowaniem sieci relacji, niemniej jest to też zbiór na tyle dokładnie przygotowany przez jego twórców i twórczynie, że będzie on doskonałym uzupełnieniem (lub podstawowym źródłem) dla wielu pytań badawczych o europejskie teksty dramatyczne. Jest to również przykład infrastrukturalnego zwrotu w humanistyce cyfrowej i komunikacji naukowej (zobacz rozdział: Infrastruktura):
“Projekty takie jak DraCor poszukują pewnych i możliwych do rozbudowy infrastruktur dla cyfrowych badań literaturoznawczych, aby społeczność akademicka mogła skupić się na pytaniach badawczych”[2].
DraCor w praktyce realizuje też podejście modularne do schematów pracy (workflows) w humanistyce cyfrowej. Zakłada różne scenariusze pracy z danymi oraz wykorzystanie wielu narzędzi, stara się także współpracować ze sporą liczbą formatów danych.
Na uwagę zasługuje również oprawa graficzna strony projektu. Spoglądając choćby na podstronę do pobierania danych, widać spójnie zaprojektowane ikony dla każdego z formatów.
Przypisy
- Computational Literary Studies Infrastructure (CLS INFRA) – czteroletni projekt mający na celu zbudowanie wspólnych zbiorów wysokiej jakości danych, narzędzi i wiedzy do wsparcia cyfrowych metod badania literatury. Jednym z partnerów jest Instytut Języka Polskiego PAN: clsinfra.io/
- “Projekty takie jak DraCor dążą do dostarczenia cyfrowych badań literaturoznawczych wraz ze stabilną i elastyczną infrastrukturą badawczą po to, aby społeczność akademicka mogła skupić się na swoich pytaniach badawczych podczas korzystania z platformy.” (“Projects like DraCor seek to provide the digital literary studies with a reliable and extensible infrastructure so that the research community can focus on research questions” tłumaczenie własne, Fischer i in. 2019, 4)