Przejdź do głównej zawartości

Posty

Wyświetlanie postów z kwiecień, 2010

morfologik-stemming 1.4.0

Dziś wydaliśmy nową wersję biblioteki morfologik-stemming. Największą zmianą jest możliwość tworzenia automatów FSA bezpośrednio w Javie. Służy do tego narzędzie wiersza poleceń fsa_build. Aby tworzyć słowniki do lematyzacji można też wykorzystać narzędzie tab2morph, które implementuje funkcje skryptów morph_data z pakietu FSA, ale zawsze poprawnie obsługuje kodowanie UTF-8, z którym skrypty w Perlu i AWK nie zawsze dobrze sobie radziły. Zmiany w API widoczne są w dokumentacji . Jednocześnie zmieniliśmy słownik zamieszczony w pakiecie na najnowszy. Dzięki temu cały pakiet ma też inne licencje: kod ma BSD, a słownik LGPL lub Creative Commons ShareAlike.

Morfologik 1.6

Dzisiaj wydałem nową wersję (1.6) leksykonu morfosyntaktycznego Morfologik. Zmiany są niewielkie - głównie poprawki zauważonych błędów, takich jak niewłaściwe znaczniki, bzdurne formy (np. usunąłem wyraz "ca", który był połową wyrazu "z-ca") czy literówki. Usunąłem też zbędny znacznik "indecl", teraz stosowany jest wszędzie "qub". Mówiąc krótko, są tu głównie drobne poprawki różnych błędów. Większą zmianą jest podwójne licencjonowanie: słownik może być wykorzystywany na licencji LGPL v3, tak jak wcześniej, albo Creative Commons ShareAlike.