Literatura i statystyka
Anna Mędrzecka-Stefańska

Literatura i statystyka
Anna Mędrzecka-Stefańska

Wykorzystanie narzędzi komputerowych w badaniach nad językiem i literaturą, choć samo ma stosunkowo niedługą historię, nie stanowi radykalnego zerwania z tradycjami badawczymi tych dyscyplin. Metody statystyczne były od dawna z sukcesami wykorzystywane w językoznawstwie, gdzie zadomowiły się na dobre (Köhler, Altmann, i Piotrowski 2005), i gdzie nastąpiło nie do końca płynne, a jednak naturalne przejście od metod kwantytywnych, polegających na zastosowaniu metod ilościowych w badaniu języka, w stronę językoznawstwa cyfrowego, wykorzystującego szeroki repertuar narzędzi komputerowych (Pawłowski 2020).

Nieco mniej oczywiste wydaje się wykorzystanie statystyki, a następnie narzędzi komputerowych, w badaniu literatury. „Zestawienie takich terminów jak matematyka i poetyka jest w stosunku do szeregowego obserwatora witryn księgarskich kokieterią zalecającą się niezwykłością, w stosunku do wielu zawodowych krytyków – nieprzyjemną prowokacją” – pisała już w 1965 roku Maria Renata Mayenowa (Mayenowa 1965, 5), otwierając tom Poetyka i matematyka. Badania statystyczne nad literaturą mają jednak swoją tradycję, w Polsce obecną głównie za sprawą prac dotyczących stylu pisarzy, takich jak przełomowa praca Jadwigi Sambor dotycząca słownictwa Pana Tadeusza (Sambor 1969) czy publikacje Witolda Kuraszkiewicza (Kuraszkiewicz 1953; 1958; Kuraszkiewicz i Łukaszewicz 1951). Z refleksji zagranicznej warto przywołać propozycję Johna Burrowsa, który w rozprawie poświęconej powieściom Jane Austen opisał wykorzystanie obliczeń komputerowych jako wsparcia dla krytyki literackiej (Burrows 1987), a także sztandarową propozycję distant deading (czytanie z daleka), którą opisał Franco Moretti (Moretti 2013). Opiera się ona na założeniu, że możliwa jest taka „lektura” tekstu artystycznego, która traktuje go wyłącznie jako zbiór danych, widziany „z daleka”; w odróżnieniu od close reading, wyczulonego na literacki detal i na uważną, drobiazgową lekturę, metoda proponowana przez Morettiego zakłada całkowite odejście od analizy szczegółów treści danego tekstu. W odróżnieniu od badań opartych o przetwarzanie języka naturalnego, metoda Morettiego wykorzystuje też przede wszystkim dane zewnętrzne wobec tekstu, takie jak miejsce i rok wydania, autor, język itp., aby wychwytywać zależności statystyczne na dużych grupach tekstów.

Niniejszy rozdział ma za zadanie przybliżyć metody i narzędzia wykorzystywane w badaniach statystycznych nad językiem, ze szczególnym uwzględnieniem tych, które mogą być wykorzystywane przez literaturoznawców.

Moduł Stylometria prezentuje metodę stanowiącą najważniejszy dziś nurt badań statystycznych na materiale literackim. Metoda ta, wykorzystująca skomplikowane narzędzia informatyczne, pozwala na wyszukiwanie podobieństw i różnic między tekstami i w założeniu ma umożliwiać rozstrzyganie wątpliwości dotyczących autorstwa tekstów. Niewolna od słabości, może być jednak z powodzeniem wykorzystywana przez badaczy także w innych sytuacjach, w których ustalenie podobieństwa stylu tekstów ma znaczenie. Ciekawym nurtem w ramach stylometrii jest stylochronometria, pozwalająca na ustalanie chronologii powstania dzieł literackich.

Il. 1 Analiza stylometryczna korpusu dramatów Juliusza Słowackiego – drzewo, źródło: WebSty, oprac. własne

Il. 1 Analiza stylometryczna korpusu dramatów Juliusza Słowackiego – drzewo, źródło: WebSty, oprac. własne

Moduł Przetwarzanie języka naturalnego opisuje podstawowe założenia tego podejścia, ukazując proces przetwarzania tekstu od momentu stworzenia dokumentu lub korpusu, mogącego być przedmiotem badania, aż po skomplikowane analizy semantyczne i formalne.

Humanistyka cyfrowa to specyficzna dziedzina, w której bardzo duże znaczenie ma opracowanie odpowiedniej infrastruktury badawczej. Dlatego też osobny moduł Infrastruktura został przeznaczony na przedstawienie dwóch największych konsorcjów opracowujących infrastrukturę badawczą, która może być wykorzystywana przez przedstawicieli nauk humanistycznych – CLARIN oraz DARIAH.

W module Narzędzia i serwisy opisano natomiast przykładowe narzędzia informatyczne, które mogą być wykorzystane przez badacza, niekoniecznie biegłego w obsłudze skomplikowanych programów komputerowych. Wybrane narzędzia są otwarte, ich wykorzystanie jest darmowe, a obsługa nie wymaga specjalistycznych umiejętności. Interpretacja wyników uzyskanych dzięki użyciu tych narzędzi wymaga jednak odpowiednich kompetencji.

 

Następny fragment

Spis treści