Wiele narzędzi, jeden standard?
Istnieje jeszcze jeden “kierunkowskaz” dla tworzenia naukowych edycji cyfrowych. Niezmiennie dominujący w przestrzeni cyfrowej w humanistycznych projektach mimo licznych transformacji narzędzi i warstwy wizualnej czy poszerzaniu pola danych. Mowa o standardzie kodowania TEI, Text Encoding Initative, opracowywanym przez konsorcjum od roku 1994. Jest to zbiór znaczników XML dostosowany typowo dla danych humanistycznych – słowników, korpusów, tekstów administracyjnych czy filozoficznych, a przede wszystkim naukowych edycji.
O jego wszechobecności i trwałości mogą zaświadczyć choćby poniższe wyliczenia:
- cykliczne wydarzenia jak TEI Conference;
- szeroki wachlarz narzędzi i serwisów zaprojektowanych do pracy z tym standardem, takie jak TEI Publisher, CETEIcean, Oxygen, LEAF-writer, FairCopy;
- bazy danych i korpusy wymagające danych w tym formacie: DraCor, CorrespSearch
kursy i szkolenia, takie jak Text encoding and the Text Encoding Initiative and Digital Scholarly Editions: Manuscripts, Texts and TEI Encoding na platformie dariahTeach - społeczności takie jak E-editiones i Specjalne Grupy Zainteresowań asygnowane przy konsorcjum TEI, dotyczące na przykład korespondencji, rękopisów, ontologii
- Czasopismo “The Journal of the Text Encoding Initiative” w otwartym dostępie na platformie OpenEdition
- i oczywiście liczne artykuły wokół tego standardu: przykładowo, według portalu do odkrywania zasobów humanistycznych GoTriple.eu, w samym 2020 opublikowano w otwartym dostępie 36 artykułów zawierających wyrażenie “Text Encoding Initative”[1]
Choć trudno polemizować ze stanowiskiem (De Keyser et al. 2017: 114) o niemożności wybrania tylko jednego standardu czy uniwersalnej dobrej praktyki dla wszystkich projektów edytorsko-cyfrowych, nie sposób zaprzeczyć też, że TEI odniosło sukces. James Cummings, wieloletni członek konsorcjum TEI, mówi wprost, że można wytykać temu standardowi niedociągnięcia[2], ale jego pozycja jest na tyle silna, że potencjalny “następca” będzie musiał zakładać integrację z TEI lub łatwy sposób konwersji danych z jednego standardu na drugi, a całkowicie odejście od TEI wymaga właściwie wytłumaczenia się z tej decyzji (Cummings 2023: 147-148)
Wybór standardu dla danych to pierwsze wymaganie dla przyszłych edytorów cyfrowych. Kolejnym jest decyzja, jakimi narzędziami, oprogramowaniem, bazami zbudować i zaprezentować naukową edycję cyfrową.
Przydatne będzie tutaj określenie “skrzynki z narzędzia” (toolbox) stosowane w humanistyce cyfrowej. Oznacza propozycję narzędzi stosowanych często lub szczególnie polecanych w danego typu projektach. Jak wspomniano wyżej, coraz częściej mówi się o wymogu modularności w stosunku do nich, a więc aby od razu łączyć różne rozwiązania w jeden ciąg badawczy i aby uzupełniały się one w stosowaniu. Zarzut Pierazzo co do braku standaryzacji w tym miejscu należałoby zestawić z tendencją, by “customizować” narzędzia i schematy pracy (workflows) względem konkretnych grup tekstów i związanych z nimi potrzeb. Przykładowo, wyszukiwarka CorrespSearch[3] może gromadzić dane z naukowych edycji korespondencji, a jej filtry wyszukiwania opierają się o substandard TEI ‘correspDesc’. Warto więc na wczesnym etapie tworzenia cyfrowych edycji listów tak zaplanować schemat pracy, aby po opracowaniu dołączyć je też do wyżej wymienionego zbioru.
Choć sporządzanie listy narzędzi uniwersalnych dla naukowych edycji cyfrowych jest w zasadzie niemożliwe. Stąd poniższa lista narzędzi mogących znaleźć zastosowanie w polskich naukowych edycjach cyfrowych nie jest ostateczna, a elementy listy wybrano na podstawie częstotliwości pojawiania się w projektach zagranicznych (TEI Publisher, Transkribus), stopnia otwartości w zastosowaniu w komunikacji badawczej (Pundit, EVT) lub “przyjazności” osobom rozpoczynającym rozwijanie swoich kompetencji cyfrowych (katalogi edycji cyfrowych):
- Transkribus – narzędzie pozwalające na automatyczne rozpoznanie tekstu pisanego odręcznie. Promowane jako wspierające edycje tekstów historycznych pomoże każdemu projektowi wykorzystującemu rękopisy.
- TEI Publisher – otwarte narzędzie do publikowana naukowych edycji cyfrowych wypracowane w ramach społeczności e-editiones, wspierające także dokumenty nieoznakowane w TEI.
- Catalogue of Digital Editions pod red. Franzini oraz a catalog of: Digital Scholarly Editions pod red. Sahle’a – katalogi (naukowych) edycji cyfrowych – zarówno zakończonych, jak i w trakcie powstawania, będące cennym źródłem dużej liczby danych o edycjach (takich jak język źródłowy czy tematyka edycji, czy edycja była recenzowana lub używa standardu TEI). Zbiory te otwierają możliwości badania naukowych edycji cyfrowych przez pryzmat metadanych.
- Pundit – wtyczka do anotowania treści tekstowych w sieci. Po założeniu bezpłatnego konta, można na dowolnej stronie internetowej podświetlać, komentować i opatrywać własnymi tagami wybrane fragmenty tekstowe. Anotacje mogą być widoczne dla wszystkich osób posiadających Pundit (przez funkcję notatników otwartych) lub tylko dla anotującego (notatniki prywatne). Pundit ma spory potencjał w naukowych edycjach cyfrowych, szczególnie dla użytkowniczek i użytkowników chcących analizować i zaznaczać interesujące ich elementy edycji.
- Edition Visualisation Technology – otwarte narzędzie do tworzenia naukowych edycji cyfrowych, opierające się przede wszystkim o możliwość porównywania wersji, posiadające też jednak wsparcie dla cyfrowego aparatu krytycznego oraz możliwości dopasowania wyglądu do potrzeb projektu.
Inne przykłady narzędzi – DraCor i TEI Panorama – znajdują się w sekcji wybranych studiów przypadków, gdzie są opisane szerzej.
Przypisy
- Tłumaczenie własne na podstawie: “(…) annual conferences like TEI Conference; a wide range of tools and services designed to work with and enhance TEI standard, including the TEI Publisher, CETEIcean, Oxygen, LEAF-writer, FairCopy; databases and corporas with requirement of data in TEI: DraCor, CorrespSearch; coursers like Text encoding and the Text Encoding Initiative and Digital Scholarly Editions: Manuscripts, Texts and TEI Encoding on #dariahTeach; communities such as E-editions and Special Working Groups at TEI Consortium, like Correspondence, Manuscripts, Ontologies;, The Journal of the Text Encoding Initiative on OpenEdition, edited by the Text Encoding Initiative Consortium; and of course textual outputs e.g. articles about TEI: for instance, according to the GoTriple#, a discovery portal for open SSH resources, 36 open documents with “Text Encoding Initiative” were published in open access only in 2020. (Szleszyński, Szulińska i Błaszczyńska 2022, tekst zaakceptowany do druku
- O części z nich pisze Agnieszka Szulińska w Szleszyński, Szulińska i Błaszczyńska 2022, tekst zaakceptowany do druku
- Stefan Dumont, Sascha Grabsch, Jonas Müller-Laackman, Ruth Sander and Steven Sobkowski (eds.): correspSearch – Connect Scholarly Editions of Correspondence (2.2.0) [Webservice]. Berlin-Brandenburg Academy of Sciences and Humanities 2022. correspSearch.ne