26.2.13

Morfologik 2.0 RC2

I mamy wersję RC2, w której poprawiłem kilka drobiazgów:


  • poprawnie wygenerowałem plik polish.dict z pliku polimorfologik.txt;
  • poprawiłem daty, dodałem numery wersji;
  • usunąłem wadliwy opis wyrazu „bardziej” i wstawiłem poprawny;
  • usunąłem prefiksy i sufiksy, bo one i tak nie są rozpoznawane przez naszą bibliotekę, więc tylko psuły dane;
  • usunąłem formy archaiczne z SGJP.
Pliki nadal tam, gdzie poprzednio.

22.2.13

Morfologik 2.0 PoliMorf (RC1)

Długo ociągałem się z nowym wydaniem Morfologika, bo zmian w procesie generowania słownika było na tyle dużo, że jest to obecnie zupełnie nowa jakość.

Dziś udostępniam wersję wstępną, bo być może występują w plikach tak duże niezgodności, że coś się komuś popsuje. Największe zmiany w skrócie:

  • Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN.
  • Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość (nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie).
  • Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev), które nadal dodawane są osobno.
W tym wydaniu udostępniam pliki, w których jedna forma występuje w słowniku tylko raz, a jeśli ma wiele znaczników, to są one połączone znakiem „+”. Oczywiście prostym skryptem można rozpakować te formy na inną postać, ale słyszałem, że kiedy wykorzystuje się Morfologika do sprowadzania wyrazu do formy podstawowej, to jest to wygodne.


Pliki dostępne są na sourceforge.net. Czekam na komentarze. Planowane ostateczne wydanie: w ciągu dwóch tygodni.