12.3.13

morfologik-stemming 1.6.0

10 marca opublikowaliśmy nową wersję biblioteki morfologik-stemming. Nowa wersja zawiera nowy słownik Morfologik 2.0 PoliMof. Wycofaliśmy też słownik SGJP, gdyż jest on w dużej mierze uwzględniony w nowym słowniku, a jego zawartość tak czy inaczej nie odpowiadała ortograficznej segmentacji (tzn. uznaniu, że podstawowe jednostki to tzw. wyrazy ortograficzne), a innego rodzaju segmentacji biblioteka morfologik-stemming nie obsługuje. Jeśli będzie jednak takie zapotrzebowanie, możemy zaimplementować segmentację w stylu Morfeusza.

Najnowsze pliki dostępne są w repozytoriach Mavena i na sourceforge.net.

8.3.13

Morfologik 2.0 PoliMorf

Dziś udostępniłem ostateczną wersję słownika morfosyntaktycznego Morfologik 2.0 PoliMorf.

Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN.
  • Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość (nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie).
  • Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev), które nadal dodawane są osobno. Skrypt poprawia też błędny wpis wyrazu „bardziej”.
  • W stosunku do wydania RC2 poprawiono oznaczenie wyrazu „się” (brakowało form ze znacznikiem siebie), uzupełniono brakujące znaczniki kilku rzadkich nieodmiennych rzeczowników (toto, wasze, niecoś, śmo, wsio).
  • Największą zmianą jest rezygnacja z oznaczania form przypuszczających (takich jak „ujadłbym”) jako pot:praet. Znacznik praet był tu nadmiarowy i jego występowanie psuło pozycyjność tagsetu.

W tym wydaniu udostępniam pliki, w których jedna forma występuje w słowniku tylko raz, a jeśli ma wiele znaczników, to są one połączone znakiem „+”. Oczywiście prostym skryptem można rozpakować te formy na inną postać, ale słyszałem, że kiedy wykorzystuje się Morfologika do sprowadzania wyrazu do formy podstawowej, to jest to wygodne.

Przy okazji dziękuję Adamowi Radziszewskiemu za komentarze i rady oraz Janowi Szejko za wsparcie przy zmianie działania eksportu w Kuźni. Sam słownik nie istniałby też w obecnej formie, gdyby nie realizowany w Zespole Inżynierii Lingwistycznej IPI PAN projekt CESAR, kierowany przez Adama Przepiórkowskiego i Macieja Ogrodniczuka; i gdyby nie udało się połączyć słownika SGJP (którzy stworzyli Zygmunt Saloni, Włodzimierz Gruszczyński, Marcin Woliński i Robert Wołosz) z poprzednim Morfologikiem). Dzięki Marcinowi Wolińskiemu Morfologik zaczął powstawać w sposób sensowniejszy lingwistycznie; lingwiści pracujący w IPI PAN (m.in. Łukasz Szałkiewicz i Anna Andrzejczuk) poprawiają pozostałe w słowniku usterki. Jednak zmiana jest naprawdę ogromna.

Pliki dostępne są na serwerach w systemie Sourceforge.