30.12.13

LanguageTool 2.4 na Nowy Rok!

Dzisiaj wydaliśmy nową wersję korektora gramatycznego LanguageTool 2.4. Ta wersja zawiera sporo poprawek i nowych reguł dla różnych języków, w tym wiele reguł wykrywających błędy w użyciu dywizu (łącznika) i myślnika w języku polskim. Korzysta także ze słownika frekwencyjnego przy generowaniu proponowanych poprawek podczas sprawdzania pisowni. Poza tym można zobaczyć przykłady wykrywanych błędów w interfejsie samodzielnym

Program wymaga zainstalowania środowiska Java co najmniej w wersji 7.

Instalacja w programach OpenOffice i LibreOffice
Dwukrotnie kliknij pobrany plik LanguageTool-2.4.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora.

W razie problemów

Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 7. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Oracle. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę. Uwaga: OpenOffice ani LibreOffice nie obsługują 64-bitowej maszyny Javy w środowisku Mac OSX.

Instalacja wersji samodzielnej

Należy rozpakować plik .zip. Interfejs graficzny można uruchomić, klikając plik LanguageTool.jar.

27.12.13

Korekta pisowni z wykorzystaniem częstości wyrazów

W wydanej niedawno wersji 1.8.2 biblioteki morfologik-stemming (dostępna w repozytoriach Mavena) wprowadziliśmy możliwość wykorzystywania frekwencji wyrazów przy generowaniu podpowiedzi. Dzięki temu proponowane są najpierw wyrazy częstsze, co może być ułatwieniem zwłaszcza wtedy, gdy wyraz z literówką jest dosyć krótki. Np. wyraz „kótki” w obecnej wersji słownika będzie poprawiany na:

kotki; Kutki; krótki; skutki; kostki; kulki; kurtki

(jest jeszcze kilkanaście innych propozycji o takiej samej odległości edycyjnej, tj. z taką samą liczbą zmienionych liter w stosunku do wyrazu z błędem). Uporządkowanie, jak widać, jest dosyć sensowne. Jako źródło danych frekwencyjnych wykorzystać można dane z projektu Mozilla Gaia dostępne na licencji Apache (część z danych pochodzi z danych klawiaturowych Androida).

Słownik frekwencyjny będzie wykorzystany w najnowszej wersji LanguageTool. Polecam skorzystanie z korektora pisowni bezpośrednio z LT we własnych aplikacjach w Javie (mamy też interfejs HTTP, a nawet publiczne API HTTP).