30.5.06

Pierwsza wersja plików słownika morfologika

Na stronie projektu do pobrania są już pierwsze pliki: tekstowy i binarny plik słownika (ten drugi w formacie fsa_morph). Wersja na razie 0.1 alpha, bo nie zdążyłem przygotować odpowiednio ładnie skomentowanych skryptów (są w systemie Subversion, też na stronie projektu).

Nowa wersja biblioteki stempelator

Na stronie projektu Lametyzator Dawid Weiss udostępnił oficjalnie wersję 1.0.1, z obsługą pola anotacji morfologicznych w słownikach w formacie fsa_morph.

23.5.06

About the project

This project has three goals:
  1. to create a comprehensive open-source morphological (POS-tagged) dictionary of Polish;
  2. to create libraries that support the dictionary;
  3. to create a set of Polish rules for Daniel Naber's LanguageTool, an open-source grammar checker for OpenOffice.org.
Most contents are in Polish for quite obvious reasons ;)

Korpus błędów językowych

Zgromadzenie materiału językowego, w którym błędy językowe są statystycznie istotne, nie jest najłatwiejsze: normę językową definiuje się zwykle jako pewną idealizację najczęściej używanych form językowych wśród wykształconej części użytkowników języka. Innymi słowy, normą w polszczyźnie jest język wykształconych elit.
To jednak nie znaczy, że np. wszystkie wyrażenia gwarowe automatycznie kwalifikują się jako błędy. Błędem językowym jest podzbiór tych form językowych, które są rzadko używane przez wykształconych użytkowników języka i które oni uznają powszechnie za błędy. Dodatkowym kryterium może być uznanie za błąd przez odpowiednie ciało (np. Radę Języka Polskiego), lecz takie kryterium jest czysto konwencjonalne i nie sposób go uchwycić w czysto ilościowej analizie danych lingwistycznych z korpusu.
Problemem dla lingwistyki komputerowej jest więc zebranie materiału najeżonego częstymi błędami językowymi. Obecnie istniejące korpusy języka polskiego (korpus PWN, korpus IPI PAN, korpus frekwencyjny polszczyzny lat 60.) ograniczają się do poprawnych form językowych. Wyszukanie w korpusie wyrażeń dotyczących błędów (np. „nie mówi się...”) nie da zbyt interesujących rezultatów, gdyż istniejące korpusy są zbyt małe. Innymi słowy, nie można liczyć na czysto językowe wskaźniki błędu językowego.
Można jednak zastosować, przynajmniej w ograniczonym zakresie, wyszukiwarki internetowe w roli wyszukiwarek korpusu kolokwialnej i najeżonej błędami polszczyzny. Odpowiednie zapytanie do wyszukiwarki Google brzmi tak:

pytanie site:blog.onet.pl

W odpowiedzi choćby na takie pytanko Google podaje interesujące liczby. I tak forma „po za tym” występuje 47 tysięcy razy, zlepek „pozatym” prawie 70 tysięcy razy, a poprawna „poza tym” - 279 tysięcy razy. Innymi słowy, błędy stanowią bardzo widoczny statystycznie odsetek w blogach pisanych na tym portalu. Nie jest to regułą dla blogów w ogóle, gdyż dla domeny blogspot.com liczby kształtują się zgoła inaczej – 11 tysięcy wystąpień formy poprawnej, 34 wystąpienia formy błędnej „po za tym”, 388 wystąpienia zlepku „pozatym”. (W wypadku poza tym reguła korektora gramatycznego powinna wyszukiwać tylko „po za tym”, gdyż formę pozatym wyłapie już zwykły korektor pisowni).
Podsumowując, pewna podgrupa najpopularniejszych blogów może stanowić ciekawy materiał do badań językoznawczych nad błędami językowymi. Można też nie wybierać różnych blogów, tylko dać takie zapytanie:

inurl:blog pytanie

Inną metodą gromadzenia częstych błędów jest współpraca z redakcją dużej gazety (tak robili m.in. szwedzcy lingwiści): korektorzy oznaczaliby błędy wychwycone z tekstów przed drukiem. Podobnie mogą czynić np. korektorzy dużych biur tłumaczeń. Może uda się z kimś takim nawiązać współpracę przy tworzeniu reguł dla naszego korektora.
Warto przy okazji wspomnieć publikacje, które zawierają specjalnie wybrane typowe błędy z prasy – tu klasyczną pozycją jest książka Walerego Pisarka Słownik języka niby-polskiego, czyli błędy językowe w prasie. To jednak dziełko z lat 70. Prowadzone były w Polsce później badania nad błędami językowymi wśród młodzieży (prof. Edward Polański) w ramach grantu KBN „Błędy językowe a współczesna polszczyzna”, ale oddzielna, zwarta publikacja na ten temat, o ile mi wiadomo, nie powstała.

22.5.06

Morfologik - pierwsze informacje

Morfologik to:
  • słownik morfologiczny, który może służyć także do anotacji części mowy (tzw. POS tagger);
  • biblioteki Lametyzatora do obsługi słownika morfologicznego;
  • reguły korektora gramatycznego, który korzysta ze słownika morfologicznego.

Za projektem stoją Marcin Miłkowski (słownik morfologiczny, reguły korekty gramatycznej) i Dawid Weiss (biblioteka Stempelator).

Parę słów więcej: słownik morfologiczny jest generowany ze słownika ortograficznego w formacie ispell - słownika alternatywnego, który jest pielęgnowany na stronie kurnik.pl. Wygenerowana wersja tekstowa oraz skrypty potrzebne do jej utworzenia (wraz z bazą danych, która zawiera konieczne przyporządkowania anotacji morfologicznych flagom ispella i końcówkom wyrazów) zostaną udostępnione wraz ze słownikiem w formacie FSA (który można obsługiwać za pomocą programów Jana Daciuka i biblioteką stempelator). Docelowo planujemy tworzenie conocnych wersji słownika morfologicznego – w miarę aktualizacji słownika ortograficznego.

Anotacje w słowniku morfologicznym są wzorowane na zbiorze znaczników korpusu IPI PAN (nie są jednak wierną ich kopią). Anotacje niektórych wyrazów w korpusie różnią się od anotacji w słowniku morfologicznym morfologik.

Na stronie będą się też znajdować reguły korektora gramatycznego – polskiego modułu programu LanguageTool. Marcin pracuje aktualnie nad modyfikacją DTD dla plików gramatyki LanguageTool. Prototypy reguł jednak działają świetnie i współpracują ze stempelatorem 1.0.1.