Przejdź do głównej zawartości

Posty

Wyświetlanie postów z maj, 2006

About the project

This project has three goals: to create a comprehensive open-source morphological (POS-tagged) dictionary of Polish; to create libraries that support the dictionary; to create a set of Polish rules for Daniel Naber's LanguageTool, an open-source grammar checker for OpenOffice.org. Most contents are in Polish for quite obvious reasons ;)

Korpus błędów językowych

Zgromadzenie materiału językowego, w którym błędy językowe są statystycznie istotne, nie jest najłatwiejsze: normę językową definiuje się zwykle jako pewną idealizację najczęściej używanych form językowych wśród wykształconej części użytkowników języka . Innymi słowy, normą w polszczyźnie jest język wykształconych elit. To jednak nie znaczy, że np. wszystkie wyrażenia gwarowe automatycznie kwalifikują się jako błędy. Błędem językowym jest podzbiór tych form językowych, które są rzadko używane przez wykształconych użytkowników języka i które oni uznają powszechnie za błędy. Dodatkowym kryterium może być uznanie za błąd przez odpowiednie ciało (np. Radę Języka Polskiego), lecz takie kryterium jest czysto konwencjonalne i nie sposób go uchwycić w czysto ilościowej analizie danych lingwistycznych z korpusu. Problemem dla lingwistyki komputerowej jest więc zebranie materiału najeżonego częstymi błędami językowymi. Obecnie istniejące korpusy języka polskiego (korpus PWN, korpus IPI PAN, korp

Morfologik - pierwsze informacje

Morfologik to: słownik morfologiczny, który może służyć także do anotacji części mowy (tzw. POS tagger); biblioteki Lametyzatora do obsługi słownika morfologicznego; reguły korektora gramatycznego, który korzysta ze słownika morfologicznego. Za projektem stoją Marcin Miłkowski (słownik morfologiczny, reguły korekty gramatycznej) i Dawid Weiss (biblioteka Stempelator). Parę słów więcej: słownik morfologiczny jest generowany ze słownika ortograficznego w formacie ispell - słownika alternatywnego, który jest pielęgnowany na stronie kurnik.pl. Wygenerowana wersja tekstowa oraz skrypty potrzebne do jej utworzenia (wraz z bazą danych, która zawiera konieczne przyporządkowania anotacji morfologicznych flagom ispella i końcówkom wyrazów) zostaną udostępnione wraz ze słownikiem w formacie FSA (który można obsługiwać za pomocą programów Jana Daciuka i biblioteką stempelator). Docelowo planujemy tworzenie conocnych wersji słownika morfologicznego – w miarę aktualizacji słownika ortograficzneg