Przejdź do głównej zawartości

Posty

Wyświetlanie postów z luty, 2013

Morfologik 2.0 RC2

I mamy wersję RC2, w której poprawiłem kilka drobiazgów: poprawnie wygenerowałem plik polish.dict z pliku polimorfologik.txt; poprawiłem daty, dodałem numery wersji; usunąłem wadliwy opis wyrazu „bardziej” i wstawiłem poprawny; usunąłem prefiksy i sufiksy, bo one i tak nie są rozpoznawane przez naszą bibliotekę, więc tylko psuły dane; usunąłem formy archaiczne z SGJP. Pliki nadal tam, gdzie poprzednio .

Morfologik 2.0 PoliMorf (RC1)

Długo ociągałem się z nowym wydaniem Morfologika, bo zmian w procesie generowania słownika było na tyle dużo, że jest to obecnie zupełnie nowa jakość. Dziś udostępniam wersję wstępną, bo być może występują w plikach tak duże niezgodności, że coś się komuś popsuje. Największe zmiany w skrócie: Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN. Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość ( nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie). Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev ), które nadal dodawane są osobno. W tym wydaniu udostępniam pliki, w których jedna forma występuj