Morfologik

Posty

Wyświetlanie postów z maj, 2006

Pierwsza wersja plików słownika morfologika

Na stronie projektu do pobrania są już pierwsze pliki: tekstowy i binarny plik słownika (ten drugi w formacie fsa_morph). Wersja na razie 0.1 alpha, bo nie zdążyłem przygotować odpowiednio ładnie skomentowanych skryptów (są w systemie Subversion, też na stronie projektu ).

Czytaj więcej

Nowa wersja biblioteki stempelator

Na stronie projektu Lametyzator Dawid Weiss udostępnił oficjalnie wersję 1.0.1, z obsługą pola anotacji morfologicznych w słownikach w formacie fsa_morph.

Czytaj więcej

About the project

This project has three goals: to create a comprehensive open-source morphological (POS-tagged) dictionary of Polish; to create libraries that support the dictionary; to create a set of Polish rules for Daniel Naber's LanguageTool, an open-source grammar checker for OpenOffice.org. Most contents are in Polish for quite obvious reasons ;)

Czytaj więcej

Korpus błędów językowych

Zgromadzenie materiału językowego, w którym błędy językowe są statystycznie istotne, nie jest najłatwiejsze: normę językową definiuje się zwykle jako pewną idealizację najczęściej używanych form językowych wśród wykształconej części użytkowników języka . Innymi słowy, normą w polszczyźnie jest język wykształconych elit. To jednak nie znaczy, że np. wszystkie wyrażenia gwarowe automatycznie kwalifikują się jako błędy. Błędem językowym jest podzbiór tych form językowych, które są rzadko używane przez wykształconych użytkowników języka i które oni uznają powszechnie za błędy. Dodatkowym kryterium może być uznanie za błąd przez odpowiednie ciało (np. Radę Języka Polskiego), lecz takie kryterium jest czysto konwencjonalne i nie sposób go uchwycić w czysto ilościowej analizie danych lingwistycznych z korpusu. Problemem dla lingwistyki komputerowej jest więc zebranie materiału najeżonego częstymi błędami językowymi. Obecnie istniejące korpusy języka polskiego (korpus PWN, korpus IPI PAN, korp...

Czytaj więcej

Morfologik - pierwsze informacje

Morfologik to: słownik morfologiczny, który może służyć także do anotacji części mowy (tzw. POS tagger); biblioteki Lametyzatora do obsługi słownika morfologicznego; reguły korektora gramatycznego, który korzysta ze słownika morfologicznego. Za projektem stoją Marcin Miłkowski (słownik morfologiczny, reguły korekty gramatycznej) i Dawid Weiss (biblioteka Stempelator). Parę słów więcej: słownik morfologiczny jest generowany ze słownika ortograficznego w formacie ispell - słownika alternatywnego, który jest pielęgnowany na stronie kurnik.pl. Wygenerowana wersja tekstowa oraz skrypty potrzebne do jej utworzenia (wraz z bazą danych, która zawiera konieczne przyporządkowania anotacji morfologicznych flagom ispella i końcówkom wyrazów) zostaną udostępnione wraz ze słownikiem w formacie FSA (który można obsługiwać za pomocą programów Jana Daciuka i biblioteką stempelator). Docelowo planujemy tworzenie conocnych wersji słownika morfologicznego – w miarę aktualizacji słownika ortograficznego....

Czytaj więcej