26.1.11

morfologik-stemming 1.5.0

Dziś udostępniliśmy nową wersję biblioteki morfologik-stemming. Najważniejsze zmiany:

  • Nowy format binarny, CFSA2, który pozwala zmniejszyć objętość automatów wynikowych. W wypadku polskiego słownika redukcja z 2.811.345 do 1.806.661 bajtów.
  • Aktualizacja słownika w dystrybucji do Morfologika 1.7.
  • Opcja serializacji słownika bezpośrednio do formatów CFSA2 lub fsa w narzędziu fsa_build.
  • CFSA jest obecnie już formatem niezalecanym (ale nadal obsługiwanym).
  • Przyspieszenie konstrukcji automatu o 30%, mniejsze wykorzystanie pamięci.
  • Możliwość budowania automatów z danych posortowanych (opcja --sorted).
  • Domyślne sortowanie zgodne jest z "LC_ALL=C", tak jak w fsa (i narzędziach uniksowych), co ułatwia zastosowanie zewnętrznego sortowania.
  • Dodane procedury wyliczania doskonałej funkcji mieszającej (jak w fsa z opcją NUMBERS).
  • Zmiana uporządkowania serializowanych łuków automatu FSA5 na porządek leksykograficzny (tak jak na wejściu).
  • Usunięto automaty znakowe.
  • Zmiany w API (na razie nie zamieszczam dokumentacji na stronie projektu z powodu awarii serwera sourceforge.net).
  • Drobne poprawki, testy modułów.

Brak komentarzy: