30.12.13

LanguageTool 2.4 na Nowy Rok!

Dzisiaj wydaliśmy nową wersję korektora gramatycznego LanguageTool 2.4. Ta wersja zawiera sporo poprawek i nowych reguł dla różnych języków, w tym wiele reguł wykrywających błędy w użyciu dywizu (łącznika) i myślnika w języku polskim. Korzysta także ze słownika frekwencyjnego przy generowaniu proponowanych poprawek podczas sprawdzania pisowni. Poza tym można zobaczyć przykłady wykrywanych błędów w interfejsie samodzielnym

Program wymaga zainstalowania środowiska Java co najmniej w wersji 7.

Instalacja w programach OpenOffice i LibreOffice
Dwukrotnie kliknij pobrany plik LanguageTool-2.4.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora.

W razie problemów

Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 7. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Oracle. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę. Uwaga: OpenOffice ani LibreOffice nie obsługują 64-bitowej maszyny Javy w środowisku Mac OSX.

Instalacja wersji samodzielnej

Należy rozpakować plik .zip. Interfejs graficzny można uruchomić, klikając plik LanguageTool.jar.

27.12.13

Korekta pisowni z wykorzystaniem częstości wyrazów

W wydanej niedawno wersji 1.8.2 biblioteki morfologik-stemming (dostępna w repozytoriach Mavena) wprowadziliśmy możliwość wykorzystywania frekwencji wyrazów przy generowaniu podpowiedzi. Dzięki temu proponowane są najpierw wyrazy częstsze, co może być ułatwieniem zwłaszcza wtedy, gdy wyraz z literówką jest dosyć krótki. Np. wyraz „kótki” w obecnej wersji słownika będzie poprawiany na:

kotki; Kutki; krótki; skutki; kostki; kulki; kurtki

(jest jeszcze kilkanaście innych propozycji o takiej samej odległości edycyjnej, tj. z taką samą liczbą zmienionych liter w stosunku do wyrazu z błędem). Uporządkowanie, jak widać, jest dosyć sensowne. Jako źródło danych frekwencyjnych wykorzystać można dane z projektu Mozilla Gaia dostępne na licencji Apache (część z danych pochodzi z danych klawiaturowych Androida).

Słownik frekwencyjny będzie wykorzystany w najnowszej wersji LanguageTool. Polecam skorzystanie z korektora pisowni bezpośrednio z LT we własnych aplikacjach w Javie (mamy też interfejs HTTP, a nawet publiczne API HTTP).

15.7.13

morfologik-stemming 1.7 released

We just released a new version of morfologik-stemming library to Maven. Most changes are related to the new module morfologik-speller, which can now use spelling dictionaries configured with property files. In particular, it introduces support for character classes, i.e., you can introduce equivalent characters as with hunspell's MAP feature. It also supports replacement patterns (just like the ones defined by REP command in hunspell).

A short description of new properties is given in the LanguageTool wiki.

21.5.13

O Morfologiku w zastosowaniu praktycznym...

Na blogu Oracle Gridwise Tech można poczytać o wykorzystaniu Morfologika do analizy danych tekstowych na dużą skalę (text mining). Od siebie dodam, że warto nierozpoznany tekst poddać testowi ortograficznemu, do czego przyda się klasa Speller. W wersji obecnie dostępnej Speller nie potrafi uzupełniać polskich liter, ale już niedługo, za momencik będzie wersja, która sobie z tym radzi.

12.3.13

morfologik-stemming 1.6.0

10 marca opublikowaliśmy nową wersję biblioteki morfologik-stemming. Nowa wersja zawiera nowy słownik Morfologik 2.0 PoliMof. Wycofaliśmy też słownik SGJP, gdyż jest on w dużej mierze uwzględniony w nowym słowniku, a jego zawartość tak czy inaczej nie odpowiadała ortograficznej segmentacji (tzn. uznaniu, że podstawowe jednostki to tzw. wyrazy ortograficzne), a innego rodzaju segmentacji biblioteka morfologik-stemming nie obsługuje. Jeśli będzie jednak takie zapotrzebowanie, możemy zaimplementować segmentację w stylu Morfeusza.

Najnowsze pliki dostępne są w repozytoriach Mavena i na sourceforge.net.

8.3.13

Morfologik 2.0 PoliMorf

Dziś udostępniłem ostateczną wersję słownika morfosyntaktycznego Morfologik 2.0 PoliMorf.

Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN.
  • Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość (nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie).
  • Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev), które nadal dodawane są osobno. Skrypt poprawia też błędny wpis wyrazu „bardziej”.
  • W stosunku do wydania RC2 poprawiono oznaczenie wyrazu „się” (brakowało form ze znacznikiem siebie), uzupełniono brakujące znaczniki kilku rzadkich nieodmiennych rzeczowników (toto, wasze, niecoś, śmo, wsio).
  • Największą zmianą jest rezygnacja z oznaczania form przypuszczających (takich jak „ujadłbym”) jako pot:praet. Znacznik praet był tu nadmiarowy i jego występowanie psuło pozycyjność tagsetu.

W tym wydaniu udostępniam pliki, w których jedna forma występuje w słowniku tylko raz, a jeśli ma wiele znaczników, to są one połączone znakiem „+”. Oczywiście prostym skryptem można rozpakować te formy na inną postać, ale słyszałem, że kiedy wykorzystuje się Morfologika do sprowadzania wyrazu do formy podstawowej, to jest to wygodne.

Przy okazji dziękuję Adamowi Radziszewskiemu za komentarze i rady oraz Janowi Szejko za wsparcie przy zmianie działania eksportu w Kuźni. Sam słownik nie istniałby też w obecnej formie, gdyby nie realizowany w Zespole Inżynierii Lingwistycznej IPI PAN projekt CESAR, kierowany przez Adama Przepiórkowskiego i Macieja Ogrodniczuka; i gdyby nie udało się połączyć słownika SGJP (którzy stworzyli Zygmunt Saloni, Włodzimierz Gruszczyński, Marcin Woliński i Robert Wołosz) z poprzednim Morfologikiem). Dzięki Marcinowi Wolińskiemu Morfologik zaczął powstawać w sposób sensowniejszy lingwistycznie; lingwiści pracujący w IPI PAN (m.in. Łukasz Szałkiewicz i Anna Andrzejczuk) poprawiają pozostałe w słowniku usterki. Jednak zmiana jest naprawdę ogromna.

Pliki dostępne są na serwerach w systemie Sourceforge.

26.2.13

Morfologik 2.0 RC2

I mamy wersję RC2, w której poprawiłem kilka drobiazgów:


  • poprawnie wygenerowałem plik polish.dict z pliku polimorfologik.txt;
  • poprawiłem daty, dodałem numery wersji;
  • usunąłem wadliwy opis wyrazu „bardziej” i wstawiłem poprawny;
  • usunąłem prefiksy i sufiksy, bo one i tak nie są rozpoznawane przez naszą bibliotekę, więc tylko psuły dane;
  • usunąłem formy archaiczne z SGJP.
Pliki nadal tam, gdzie poprzednio.

22.2.13

Morfologik 2.0 PoliMorf (RC1)

Długo ociągałem się z nowym wydaniem Morfologika, bo zmian w procesie generowania słownika było na tyle dużo, że jest to obecnie zupełnie nowa jakość.

Dziś udostępniam wersję wstępną, bo być może występują w plikach tak duże niezgodności, że coś się komuś popsuje. Największe zmiany w skrócie:

  • Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN.
  • Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość (nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie).
  • Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev), które nadal dodawane są osobno.
W tym wydaniu udostępniam pliki, w których jedna forma występuje w słowniku tylko raz, a jeśli ma wiele znaczników, to są one połączone znakiem „+”. Oczywiście prostym skryptem można rozpakować te formy na inną postać, ale słyszałem, że kiedy wykorzystuje się Morfologika do sprowadzania wyrazu do formy podstawowej, to jest to wygodne.


Pliki dostępne są na sourceforge.net. Czekam na komentarze. Planowane ostateczne wydanie: w ciągu dwóch tygodni.

1.1.13

LanguageTool 2.0 na nowy rok

Na nowy rok wydaliśmy nową wersję korektora LanguageTool. Zmiany są w większości kosmetyczne, a większość poprawek dotyczy innych języków niż polski. Instrukcja instalacji znajduje się na polskiej stronie korektora LanguageTool.

Większą nowością jest dodatek LanguageTool do przeglądarki Firefox. Jego użycie wymaga albo lokalnej instalacji korektora LanguageTool (jako osobnego programu, nie dodatku do LibreOffice) i uruchomienia serwera, albo użycia serwera, który udostępniamy w Internecie. Instrukcje znajdują się na stronie rozszerzenia.

Szczęśliwego Nowego Roku 2013!