Przejdź do głównej zawartości

Posty

morfologik-stemming 1.7 released

We just released a new version of morfologik-stemming library to Maven. Most changes are related to the new module morfologik-speller, which can now use spelling dictionaries configured with property files. In particular, it introduces support for character classes, i.e., you can introduce equivalent characters as with hunspell's MAP feature. It also supports replacement patterns (just like the ones defined by REP command in hunspell). A short description of new properties is given in the LanguageTool wiki .

O Morfologiku w zastosowaniu praktycznym...

Na blogu Oracle Gridwise Tech można poczytać o wykorzystaniu Morfologika do analizy danych tekstowych na dużą skalę ( text mining ). Od siebie dodam, że warto nierozpoznany tekst poddać testowi ortograficznemu, do czego przyda się klasa Speller. W wersji obecnie dostępnej Speller nie potrafi uzupełniać polskich liter, ale już niedługo, za momencik będzie wersja, która sobie z tym radzi.

morfologik-stemming 1.6.0

10 marca opublikowaliśmy nową wersję biblioteki morfologik-stemming. Nowa wersja zawiera nowy słownik Morfologik 2.0 PoliMof. Wycofaliśmy też słownik SGJP, gdyż jest on w dużej mierze uwzględniony w nowym słowniku, a jego zawartość tak czy inaczej nie odpowiadała ortograficznej segmentacji (tzn. uznaniu, że podstawowe jednostki to tzw. wyrazy ortograficzne), a innego rodzaju segmentacji biblioteka morfologik-stemming nie obsługuje. Jeśli będzie jednak takie zapotrzebowanie, możemy zaimplementować segmentację w stylu Morfeusza. Najnowsze pliki dostępne są w repozytoriach Mavena i na sourceforge.net .

Morfologik 2.0 PoliMorf

Dziś udostępniłem ostateczną wersję słownika morfosyntaktycznego Morfologik 2.0 PoliMorf. Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN. Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość ( nonrefl  niezwrotny,  refl  zwrotny, a  nonrefl.refl  taki, który może być raz zwrotny, a raz nie). Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem  brev ), które nadal dodawane są osobno. Skrypt poprawia też błędny wpis wyrazu „bardziej”. W stosunku do wydania RC2 poprawiono oznaczenie wyrazu „się” (brakowało form ze znacznikiem siebie), uzupełniono brakujące znaczniki kilku rzadkich nieodmiennych rzeczowników (toto, wasze...

Morfologik 2.0 RC2

I mamy wersję RC2, w której poprawiłem kilka drobiazgów: poprawnie wygenerowałem plik polish.dict z pliku polimorfologik.txt; poprawiłem daty, dodałem numery wersji; usunąłem wadliwy opis wyrazu „bardziej” i wstawiłem poprawny; usunąłem prefiksy i sufiksy, bo one i tak nie są rozpoznawane przez naszą bibliotekę, więc tylko psuły dane; usunąłem formy archaiczne z SGJP. Pliki nadal tam, gdzie poprzednio .

Morfologik 2.0 PoliMorf (RC1)

Długo ociągałem się z nowym wydaniem Morfologika, bo zmian w procesie generowania słownika było na tyle dużo, że jest to obecnie zupełnie nowa jakość. Dziś udostępniam wersję wstępną, bo być może występują w plikach tak duże niezgodności, że coś się komuś popsuje. Największe zmiany w skrócie: Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN. Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość ( nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie). Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev ), które nadal dodawane są osobno. W tym wydaniu udostępniam pliki, w których jedna forma występuj...

LanguageTool 2.0 na nowy rok

Na nowy rok wydaliśmy nową wersję korektora LanguageTool. Zmiany są w większości kosmetyczne, a większość poprawek dotyczy innych języków niż polski. Instrukcja instalacji znajduje się na polskiej stronie korektora LanguageTool . Większą nowością jest dodatek LanguageTool do przeglądarki Firefox . Jego użycie wymaga albo lokalnej instalacji korektora LanguageTool (jako osobnego programu, nie dodatku do LibreOffice) i uruchomienia serwera, albo użycia serwera, który udostępniamy w Internecie. Instrukcje znajdują się na stronie rozszerzenia. Szczęśliwego Nowego Roku 2013!