Opracowanie tekstu
Anna Mędrzecka-Stefańska

Opracowanie tekstu
Anna Mędrzecka-Stefańska

Pierwszym etapem opracowania tekstu jest jego segmentacja, czyli podział na jednostki – zależnie od tego, jaki jest cel segmentacji, mogą być to tokeny, zdania, chunki etc.

Każdy tekst korpusu może zostać podzielony na tokeny, to znaczy najmniejsze wydzielane jednostki znaczące. Tokenem najczęściej jest słowo, jednak może to być też np. znak przestankowy lub końcówka ruchoma. Większość narzędzi jako osobny token oznacza też tzw. aglutynant „być”, czyli końcówkę osobową czasownika. Tak więc słowo „pisałem” zostanie zinterpretowane jako trzy tokeny: [pisał][by][m]. Następnie słowo zostanie opisane jako dwa lematy: „pisać”, partykuła „by” i aglutynant być w formie „-m”.

Chunk, czyli całostka, to określenie używane podczas podziału tekstu na segmenty takie jak frazy rzeczownikowe czy czasownikowe. Oto przykładowy podział na chunki pierwszej oktawy poematu Juliusza Słowackiego Beniowski, przeprowadzony przez Chunker opracowany w ramach infrastruktury CLARIN-PL:

Il. 9 Chunki pierwszej oktawy poematu Juliusza Słowackiego „Beniowski", źródło: Chunker opracowany w ramach infrastruktury CLARIN-PL, oprac. własne

Il. 9 Chunki pierwszej oktawy poematu Juliusza Słowackiego „Beniowski”, źródło: Chunker opracowany w ramach infrastruktury CLARIN-PL, oprac. własne

 

Narzędzie, dokonujące podziału tekstu na całostki – chunker – rozpoznaje podstawowe powiązania syntaktyczne i semantyczne. Segmenty te mogą być następnie wykorzystywane przez parser do dalszej analizy składniowej, na przykład na poziomie zdania lub całego wypowiedzenia.

Lematyzacja

Aby możliwa była analiza badawcza, tokeny wydzielone w procesie tokenizacji poddawane są kolejnym działaniom, mającym na celu przyporządkowanie ich do określonej jednostki słownikowej i formy gramatycznej – są to lematyzacja (proces przypisywania określonych jednostek tekstowych do danego lematu) i tagowanie (proces przypisywania jednostkom tekstowym interpretacji morfosyntaktycznej).

Lemat (lemma) to określenie zbliżone do lingwistycznego pojęcia leksemu. Lemat jest jednostką słownikową, podstawową formą słowa, do którego przyporządkowywane są wszystkie wystąpienia danego słowa – dla czasownika będzie to bezokolicznik, dla rzeczownika mianownik liczby pojedynczej, dla przymiotnika mianownik liczby pojedynczej rodzaju męskiego etc. W procesie lematyzacji wyrazy zapisane w tekście przyporządkowywane są do odpowiednich lematów. Oznacza to, że każde wystąpienie danego słowa, niezależnie od formy, będzie przyporządkowane do odpowiedniego lematu. Na przykład, wszystkie wystąpienia słowa „poeta”, niezależnie od przypadka, będą przyporządkowane do tego samego lematu; osobnym lematem będzie słowo „poetka”. Jeśli zaś mamy do czynienia z przymiotnikiem, np. „romantyczny”, pod jednym hasłem zgromadzone zostaną wszystkie wystąpienia tego przymiotnika, także w rodzaju żeńskim. Tak więc w mikrokorpusie złożonym z następujących fragmentów poematu Podróż do Ziemi Świętej z Neapolu Juliusza Słowackiego:

1)       Muzo mdlejąca z romantycznych cierpień!

2)       Turkot powozów z Pauzylipy lochów

Woła pod tobą hymnem romantycznym

3)       Jeżeliś nie był w romantycznych spiskach,

A jesteś przyszłych wulkanów malarzem

lemat „romantyczny” oznaczony zostanie trzykrotnie: „romantycznych”, „romantycznym” i ponownie „romantycznych”. Na liście frekwencyjnej – czyli liście występujących w danym korpusie słów uporządkowanej pod kątem liczebności ich występowania – znajdzie się lemat „romantyczny” i liczba 3.

Proces lematyzacji jest kluczowy w przypadku polszczyzny, podobnie jak w przypadku wszystkich języków fleksyjnych, jest bowiem warunkiem odpowiedniego przyporządkowania słów mających różne brzmienie w różnych przypadkach (jak np. „jestem”, „są” i „być”; „rok” i „lata”  etc.).

Tagowanie morfosyntaktyczne

Kolejnym – po formowaniu i segmentacji – etapem analizy tekstu jest opracowanie, w ramach którego należy wymienić operacje lematyzacji, tagowania morfosyntaktycznego, dezambiguacji (ujednoznaczniania) oraz zarządzania metadanymi. Te operacje mogą stanowić cel sam w sobie, i wówczas można do ich przeprowadzenia wykorzystać proste narzędzie, np. Tager (Piasecki 2014) albo analizator fleksyjny Morfeusz2 (Kieraś i Woliński 2017). Najczęściej jednak opracowanie jest wstępem do dalszych badań i wykonywane jest przez narzędzia stanowiące elementy bardziej złożonych serwisów służących do analizy korpusu.

Forma, w jakiej występuje słowo w tekście, opisywana jest za pomocą tagów morfosyntaktycznych, czyli zestawu znaczników opisujących wartości przyjmowane przez odpowiednie dla danej części mowy kategorie gramatyczne. Proces tagowania odbywa się zazwyczaj w dwóch etapach – w pierwszym każdemu słowu przypisywane są wszystkie możliwe interpretacje morfosyntaktyczne, w drugim przeprowadzana jest dezambiguacja (ujednoznacznianie), czyli wybór spośród możliwych interpretacji tej właściwej.

W efekcie tych czynności każdemu wyrazowi tekstowemu przypisany zostaje odpowiedni tag morfosyntaktyczny. Ma on zwykle powtarzalną strukturę. Pierwsze miejsce zajmuje najczęściej określenie klasy gramatycznej, odpowiadającej w przybliżeniu temu, co w powszechnej świadomości funkcjonuje jako „części mowy” – są one jednak uporządkowane w liczne klasy na podstawie cech morfologicznych i tylko w niektórych przypadkach pokrywają się z powszechnie używanym podziałem Klemensiewicza. Najczęściej stosowanym przez narzędzia opracowane dla języka polskiego tagsetem jest zestaw przygotowany dla Narodowego Korpusu Języka Polskiego. Zawiera on ponad 30 klas gramatycznych, którym można następnie przyporządkować odpowiednie spośród 13 kategorii gramatycznych (takich jak rodzaj, osoba, liczba, czas, ale i aspekt, negacja, formy akcentowane i nieakcentowane itp.), z których każda może przybierać określone wartości (możliwych wartości jest łącznie 36).

Zatem najpierw określana jest forma tekstowa (na przykład [mam]), a następnie przyporządkowywane są jej wszystkie formy wszystkich leksemów, których wykładnikiem może ona być. Dla przykładowego wyrazu tekstowego [mam] będzie to zarówno dopełniacz liczby mnogiej rzeczownika „mama” (tag subst:pl:gen:f, gdzie „subst” oznacza rzeczownik, „pl” liczbę mnogą, „gen” jest oznaczeniem dopełniacza, a „f” – rodzaju żeńskiego), druga osoba trybu rozkazującego czasownika „mamić” (tag: impt:sg:sec:imperf), jak i pierwsza osoba liczby mnogiej czasu teraźniejszego czasownika „mieć” (tag: fin:sg:pri:imperf)43. Następnie dokonywana jest analiza kontekstu i na tej podstawie program przyporządkowuje do danego wyrazu odpowiedni tag. W przypadku, gdy dany wyraz nie został rozpoznany, analiza kontekstu niejednokrotnie pozwala na przybliżone określenie jego formy gramatycznej (np. wyraz o budowie przymiotnikowej pozostający w związku zgody z pobliskim rzeczownikiem zostanie zakwalifikowany jako przymiotnik w odpowiedniej liczbie, rodzaju i przypadku).

Powstaje w ten sposób lista występujących w tekście tagów, która może być podstawą analiz statystycznych, w tym analiz czasownikowych czy ogólnych analiz stylu. Pozwalają one na opisanie gramatycznego kształtu danego utworu bądź grupy utworów, porównanie ich między sobą lub prowadzenie dalszych badań.

Spis treści