Morfologik

Posty

Wyświetlanie postów z 2013

LanguageTool 2.4 na Nowy Rok!

Dzisiaj wydaliśmy nową wersję korektora gramatycznego LanguageTool 2.4 . Ta wersja zawiera sporo poprawek i nowych reguł dla różnych języków, w tym wiele reguł wykrywających błędy w użyciu dywizu (łącznika) i myślnika w języku polskim. Korzysta także ze słownika frekwencyjnego przy generowaniu proponowanych poprawek podczas sprawdzania pisowni. Poza tym można zobaczyć przykłady wykrywanych błędów w interfejsie samodzielnym Program wymaga zainstalowania środowiska Java co najmniej w wersji 7 . Instalacja w programach OpenOffice i LibreOffice Dwukrotnie kliknij pobrany plik LanguageTool-2.4.oxt . Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora. W razie problemów Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 7. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Oracle. Ta wersja ś...

Czytaj więcej

Korekta pisowni z wykorzystaniem częstości wyrazów

W wydanej niedawno wersji 1.8.2 biblioteki morfologik-stemming (dostępna w repozytoriach Mavena) wprowadziliśmy możliwość wykorzystywania frekwencji wyrazów przy generowaniu podpowiedzi. Dzięki temu proponowane są najpierw wyrazy częstsze, co może być ułatwieniem zwłaszcza wtedy, gdy wyraz z literówką jest dosyć krótki. Np. wyraz „ kótki ” w obecnej wersji słownika będzie poprawiany na: kotki; Kutki; krótki; skutki; kostki; kulki; kurtki (jest jeszcze kilkanaście innych propozycji o takiej samej odległości edycyjnej, tj. z taką samą liczbą zmienionych liter w stosunku do wyrazu z błędem). Uporządkowanie, jak widać, jest dosyć sensowne. Jako źródło danych frekwencyjnych wykorzystać można dane z projektu Mozilla Gaia dostępne na licencji Apache (część z danych pochodzi z danych klawiaturowych Androida). Słownik frekwencyjny będzie wykorzystany w najnowszej wersji LanguageTool. Polecam skorzystanie z korektora pisowni bezpośrednio z LT we własnych aplikacjach w Javi...

Czytaj więcej

morfologik-stemming 1.7 released

We just released a new version of morfologik-stemming library to Maven. Most changes are related to the new module morfologik-speller, which can now use spelling dictionaries configured with property files. In particular, it introduces support for character classes, i.e., you can introduce equivalent characters as with hunspell's MAP feature. It also supports replacement patterns (just like the ones defined by REP command in hunspell). A short description of new properties is given in the LanguageTool wiki .

Czytaj więcej

O Morfologiku w zastosowaniu praktycznym...

Na blogu Oracle Gridwise Tech można poczytać o wykorzystaniu Morfologika do analizy danych tekstowych na dużą skalę ( text mining ). Od siebie dodam, że warto nierozpoznany tekst poddać testowi ortograficznemu, do czego przyda się klasa Speller. W wersji obecnie dostępnej Speller nie potrafi uzupełniać polskich liter, ale już niedługo, za momencik będzie wersja, która sobie z tym radzi.

Czytaj więcej

morfologik-stemming 1.6.0

10 marca opublikowaliśmy nową wersję biblioteki morfologik-stemming. Nowa wersja zawiera nowy słownik Morfologik 2.0 PoliMof. Wycofaliśmy też słownik SGJP, gdyż jest on w dużej mierze uwzględniony w nowym słowniku, a jego zawartość tak czy inaczej nie odpowiadała ortograficznej segmentacji (tzn. uznaniu, że podstawowe jednostki to tzw. wyrazy ortograficzne), a innego rodzaju segmentacji biblioteka morfologik-stemming nie obsługuje. Jeśli będzie jednak takie zapotrzebowanie, możemy zaimplementować segmentację w stylu Morfeusza. Najnowsze pliki dostępne są w repozytoriach Mavena i na sourceforge.net .

Czytaj więcej

Morfologik 2.0 PoliMorf

Dziś udostępniłem ostateczną wersję słownika morfosyntaktycznego Morfologik 2.0 PoliMorf. Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN. Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość ( nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie). Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev ), które nadal dodawane są osobno. Skrypt poprawia też błędny wpis wyrazu „bardziej”. W stosunku do wydania RC2 poprawiono oznaczenie wyrazu „się” (brakowało form ze znacznikiem siebie), uzupełniono brakujące znaczniki kilku rzadkich nieodmiennych rzeczowników (toto, wasze...

Czytaj więcej

Morfologik 2.0 RC2

I mamy wersję RC2, w której poprawiłem kilka drobiazgów: poprawnie wygenerowałem plik polish.dict z pliku polimorfologik.txt; poprawiłem daty, dodałem numery wersji; usunąłem wadliwy opis wyrazu „bardziej” i wstawiłem poprawny; usunąłem prefiksy i sufiksy, bo one i tak nie są rozpoznawane przez naszą bibliotekę, więc tylko psuły dane; usunąłem formy archaiczne z SGJP. Pliki nadal tam, gdzie poprzednio .

Czytaj więcej

Morfologik 2.0 PoliMorf (RC1)

Długo ociągałem się z nowym wydaniem Morfologika, bo zmian w procesie generowania słownika było na tyle dużo, że jest to obecnie zupełnie nowa jakość. Dziś udostępniam wersję wstępną, bo być może występują w plikach tak duże niezgodności, że coś się komuś popsuje. Największe zmiany w skrócie: Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN. Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość ( nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie). Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev ), które nadal dodawane są osobno. W tym wydaniu udostępniam pliki, w których jedna forma występuj...

Czytaj więcej

LanguageTool 2.0 na nowy rok

Na nowy rok wydaliśmy nową wersję korektora LanguageTool. Zmiany są w większości kosmetyczne, a większość poprawek dotyczy innych języków niż polski. Instrukcja instalacji znajduje się na polskiej stronie korektora LanguageTool . Większą nowością jest dodatek LanguageTool do przeglądarki Firefox . Jego użycie wymaga albo lokalnej instalacji korektora LanguageTool (jako osobnego programu, nie dodatku do LibreOffice) i uruchomienia serwera, albo użycia serwera, który udostępniamy w Internecie. Instrukcje znajdują się na stronie rozszerzenia. Szczęśliwego Nowego Roku 2013!

Czytaj więcej