Przejdź do głównej zawartości

Posty

Wyświetlanie postów z marzec, 2013

morfologik-stemming 1.6.0

10 marca opublikowaliśmy nową wersję biblioteki morfologik-stemming. Nowa wersja zawiera nowy słownik Morfologik 2.0 PoliMof. Wycofaliśmy też słownik SGJP, gdyż jest on w dużej mierze uwzględniony w nowym słowniku, a jego zawartość tak czy inaczej nie odpowiadała ortograficznej segmentacji (tzn. uznaniu, że podstawowe jednostki to tzw. wyrazy ortograficzne), a innego rodzaju segmentacji biblioteka morfologik-stemming nie obsługuje. Jeśli będzie jednak takie zapotrzebowanie, możemy zaimplementować segmentację w stylu Morfeusza. Najnowsze pliki dostępne są w repozytoriach Mavena i na sourceforge.net .

Morfologik 2.0 PoliMorf

Dziś udostępniłem ostateczną wersję słownika morfosyntaktycznego Morfologik 2.0 PoliMorf. Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN. Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość ( nonrefl  niezwrotny,  refl  zwrotny, a  nonrefl.refl  taki, który może być raz zwrotny, a raz nie). Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem  brev ), które nadal dodawane są osobno. Skrypt poprawia też błędny wpis wyrazu „bardziej”. W stosunku do wydania RC2 poprawiono oznaczenie wyrazu „się” (brakowało form ze znacznikiem siebie), uzupełniono brakujące znaczniki kilku rzadkich nieodmiennych rzeczowników (toto, wasze, niecoś, śmo, wsio). Najwię