Czym jest NLP
Przetwarzanie Języka Naturalnego (Natural Language Processing, NLP) to szerokie określenie, obejmujące wszelkie działania związane z cyfrowymi badaniami nad tekstem. Obejmuje zarówno tworzenie tekstów (wypowiedzeń), przetwarzanie tekstów i korpusów, w tym analizowaniem ich struktury czy znaczenia w sposób automatyczny. Termin ten określa więc w zasadzie całą dziedzinę zajmującą się cyfrowym badaniem tekstu, zarówno na poziomie analizy formalnej, jak i na poziomie – w miarę dostępnych możliwości – analizy semantycznej wypowiedzeń.
W ramach całego NLP można wyróżnić dwie główne gałęzie – pierwszą, zajmującą się badaniem tekstów z wykorzystaniem narzędzi komputerowych, i drugą, której głównym zadaniem jest tworzenie i dostarczanie tychże narzędzi. Pierwszą z nich, za Magdaleną Derwojedową, nazwać możemy lingwistyką komputerową, drugą zaś – inżynierią lingwistyczną (Derwojedowa 2017). W niniejszym module interesuje nas przede wszystkim opis samego procesu przetwarzania tekstu i jego analizy.
Infrastruktury badawcze
Literaturoznawcy cyfrowi często nie są – i nie muszą być – biegli w obsłudze skomplikowanych narzędzi informatycznych. Mogą jednak wzbogacać swoje badania, korzystając z infrastruktury przygotowanej w ramach konsorcjów cyfrowych. Dla opisywanych tu zagadnień najistotniejsze są usługi dostarczane przez polskie konsorcja europejskich infrastruktur badawczych CLARIN (Common Language Resources and Technology Infrastructure) oraz DARIAH (Digital Research Infrastructure for the Arts and Humanities). Narzędzia te nie wymagają umiejętności programowania, jednak aby poprawnie ich używać, konieczne są odpowiednie kompetencje. Uzyskane wyniki wymagają umiejętnej interpretacji, aby mogły stanowić rzetelne uzupełnienie badań prowadzonych innymi metodami i by wspomagały pracę badaczy.
Dostawcy infrastruktury badawczej przygotowują narzędzia cyfrowe, które mogą następnie być połączone i udostępnione w formie serwisów, z których korzystać mogą badacze. Rozróżnienie na narzędzia i serwisy nie jest niezbędne z praktycznego punktu widzenia, ale istotne dla klarowności wywodu i opisu. Narzędzie zwykle służy do wykonywania jednej określonej czynności, np. tagowania czy lematyzacji. Kilka narzędzi może zostać połączonych w ramach serwisu, oferującego szerszy zakres działania i umożliwiającego korzystanie z narzędzi przez użytkownika. Większość bardziej skomplikowanych operacji przetwarzania tekstu wymaga najpierw przeprowadzenia operacji podstawowych – na przykład niemożliwe jest stworzenie listy frekwencyjnej bez uprzedniego przeprowadzenia procesów tokenizacji, lematyzacji i tagowania. Aby nie było każdorazowo konieczne przeprowadzanie każdej z tych czynności osobno, serwisy łączą kilka narzędzi, działających po kolei w ramach zadanego algorytmu.
Do przeprowadzania poszczególnych operacji wykorzystywane są narzędzia i serwisy, współpracujące w ramach infrastruktury badawczej. Pracownicy CHC IBL PAN współpracują w ramach tworzenia infrastruktur badawczych CLARIN (Common Language Resources and Technology Infrastructure) oraz DARIAH (Digital Research Infrastructure for the Arts and Humanities).
CLARIN-PL jest częścią struktury europejskiego konsorcjum naukowego CLARIN ERIC. Jest ono utrzymywane ze składek i inwestycji państw członkowskich oraz organizacji międzyrządowych, a podstawowym celem jego istnienia jest właśnie tworzenie infrastruktury badawczej, utrzymywanie jej i zarządzanie nią. Działanie konsorcjum zapoczątkowane zostało dzięki finansowemu wsparciu Komisji Europejskiej. Na strukturę CLARIN składają się tzw. węzły wiedzy, z których polski rozwijany jest na Politechnice Wrocławskiej.
DARIAH tworzy infrastrukturę cyfrową z myślą o naukach humanistycznych i naukach o sztuce. Konsorcjum wspiera rozwój lokalnych infrastruktur i dąży do rozszerzania ich działania na skalę europejską, jednocześnie dając podstawy tworzenia nowych narzędzi i serwisów. Aktualnie europejskie konsorcjum DARIAH ERIC ma 20 członków, jednego członka-obserwatora i kilku partnerów niebędących członkami struktury, ale współpracujących z konsorcjum. W Polsce infrastrukturę Dariah.Lab rozwija projekt DARIAH-PL, który dostarcza narzędzi dla badaczy z dziedzin humanistyki i nauk o sztuce. W ramach konsorcjum DARIAH-PL działa 15 członków (w tym IBL PAN) oraz Politechnika Poznańska. Liderem projektu jest Poznańskie Centrum Superkomputerowo-Sieciowe. Infrastruktura Dariah.Lab nie jest jeszcze udostępniona naukowcom.
Narzędzia można pogrupować zależnie od pełnionej przez nie funkcji i fazy badań, na której mogą zostać wykorzystane. Najważniejsze fazy to formowanie (tworzenie materiału tekstowego), opracowanie, analiza, na końcu zaś interpretacja uzyskanych działań.