12.6.12

morfologik-stemming 1.5.3

Skoro jest nowy słownik, to jest i nowa biblioteka morfologik-stemming. Poza zmianą słownika (i licencji!) znalazły się w niej tylko dwie zmiany: poprawka drobnego błędu oraz prosty algorytm korekty pisowni (przeniesiony z fsa_spell, czyli implementacja algorytmu Kemala Oflazera).

11.6.12

Morfologik 1.9

Właśnie pojawił się nowiutki Morfologik 1.9. Jest to prawdopodobnie ostatnie wydanie Morfologika osobno od słownika PoliMorf, który powstaje na bazie Słownika Gramatycznego Języka Polskiego i starej bazy Morfologika. W tym wydaniu mamy wiele zmian, przede wszystkim wynikających z połączenia zasobów.

  • Kodowanie zmieniono na UTF-8, bo niektóre nazwiska obce, odmieniane po polsku, inaczej nie dałyby się poprawnie zapisać.
  • Z PoliMorfa do słownika przejęto wszystkie formy rzeczownikowe, przymiotnikowe, rzeczowniki odsłowne, imiesłowy i formy deprecjatywne. Pozostawiono jedynie formy czasownikowe (a to tylko w oczekiwaniu na możliwość eksportu z narzędzia służącego do tworzenia PoliMorfa, a mianowicie z Kuźni, czasowników w notacji nieposegmentowanej wewnętrznie). Jedynym wyjątkiem jest wyraz „Pablo”, który był analizowany także jako nieodmienny. To nie było zgodne z regułami LanguageToola, więc w Morfologiku Pabla trzeba odmieniać.
  • Zmiana licencji. Przyjęto najprostszą możliwą 2-klauzulową licencję BSD.
Cóż to oznacza dla użytkowników Morfologika? Otóż można już rozpocząć powolne przechodzenie na PoliMorfa. W następnym wydaniu PoliMorfa prawdopodobnie uda się już mieć też wariant tagsetu bez segmentacji wewnątrzywyrazowej, przez co samodzielnego wydania Morfologika 2.0 może już nie być. To wydanie ma tylko ułatwić przejście na porządniejszy tagset PoliMorfa.