22.2.13

Morfologik 2.0 PoliMorf (RC1)

Długo ociągałem się z nowym wydaniem Morfologika, bo zmian w procesie generowania słownika było na tyle dużo, że jest to obecnie zupełnie nowa jakość.

Dziś udostępniam wersję wstępną, bo być może występują w plikach tak duże niezgodności, że coś się komuś popsuje. Największe zmiany w skrócie:

  • Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN.
  • Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość (nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie).
  • Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev), które nadal dodawane są osobno.
W tym wydaniu udostępniam pliki, w których jedna forma występuje w słowniku tylko raz, a jeśli ma wiele znaczników, to są one połączone znakiem „+”. Oczywiście prostym skryptem można rozpakować te formy na inną postać, ale słyszałem, że kiedy wykorzystuje się Morfologika do sprowadzania wyrazu do formy podstawowej, to jest to wygodne.


Pliki dostępne są na sourceforge.net. Czekam na komentarze. Planowane ostateczne wydanie: w ciągu dwóch tygodni.

4 komentarze:

Łukasz pisze...

czy jest szansa, aby nastepne wersje LanguageTool, byly jako osobne jezyki? ja i tak uzywam tylko polski, a reszta po co mi.

Marcin Miłkowski pisze...

Szansa jest i rośnie.

Marcin Miłkowski pisze...

Uwaga: wersja binarna słownika (polish.dict) jest niepoprawna.

Łukasz pisze...

dobra, no to czekam.