27.3.16

Walery Pisarek — Słownik języka niby-polskiego

Małopolska Biblioteka Cyfrowa udostępnia książkę profesora Walerego Pisarka Słownik języka niby-polskiego w formacie PDF.  Co prawda, opisane w niej błędy w większości pochodzą z prasy z lat siedemdziesiątych, ale wiele błędów typowych dla napuszonego i pretensjonalnego języka niestety trzyma się nadal w polszczyźnie.

15.2.16

polimorfologik 2.1

Od ostatniego wydania słowników morfosyntaktycznych z serii Morfologik minęło trochę czasu, a warto było wprowadzić trochę kosmetycznych poprawek, m.in. usunąć niepotrzebne formy (takie jak czasowniki „dzienić”, „bożyć” czy „cienić”) oraz dodać trochę geograficznych nazw własnych. Nowe wydanie dostępne jest na githubie: Polimorfologik 2.1. W pliku opis zmian plus wersje tekstowe i binarne słowników.

5.4.14

Słownik poprawnej polszczyzny Stanisława Szobera online

Cyfryzacja polskich zasobów przynosi czasem bardzo interesujące efekty. Jednym z nich jest pojawienie się nieco już starego, ale nadal przydatnego Słownika poprawnej polszczyzny Stanisława Szobera w Repozytorium Cyfrowym Instytutów Naukowych. Cały słownik jest dostępny w formacie PDF, który można przeszukiwać. Wiele porad się zdezaktualizowało (potępiane błędy czy formy zanikły – kiedyś np. Szober potępiał formę posełka stosowaną zamiast poprawnej „posłanka”), ale niektóre nadal są dorzeczne.

31.3.14

LanguageTool 2.5

Dzisiaj wydaliśmy nową wersję LanguageTool 2.5. W języku polskim sporo zmian, co widać na odpowiedniej stronie podsumowującej. Krótko mówiąc: wykrywa więcej błędów, jest mniej fałszywych alarmów. Sporo zmian także w części angielskiej i ukraińskiej, stabilnie rozwija się też obsługa katalońskiego i rosyjskiego.

Użytkownicy Libre/OpenOffice mogą po prostu zaktualizować rozszerzenie: Narzędzia > Menedżer rozszerzeń > Sprawdź aktualizacje.


30.12.13

LanguageTool 2.4 na Nowy Rok!

Dzisiaj wydaliśmy nową wersję korektora gramatycznego LanguageTool 2.4. Ta wersja zawiera sporo poprawek i nowych reguł dla różnych języków, w tym wiele reguł wykrywających błędy w użyciu dywizu (łącznika) i myślnika w języku polskim. Korzysta także ze słownika frekwencyjnego przy generowaniu proponowanych poprawek podczas sprawdzania pisowni. Poza tym można zobaczyć przykłady wykrywanych błędów w interfejsie samodzielnym

Program wymaga zainstalowania środowiska Java co najmniej w wersji 7.

Instalacja w programach OpenOffice i LibreOffice
Dwukrotnie kliknij pobrany plik LanguageTool-2.4.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora.

W razie problemów

Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 7. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Oracle. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę. Uwaga: OpenOffice ani LibreOffice nie obsługują 64-bitowej maszyny Javy w środowisku Mac OSX.

Instalacja wersji samodzielnej

Należy rozpakować plik .zip. Interfejs graficzny można uruchomić, klikając plik LanguageTool.jar.

27.12.13

Korekta pisowni z wykorzystaniem częstości wyrazów

W wydanej niedawno wersji 1.8.2 biblioteki morfologik-stemming (dostępna w repozytoriach Mavena) wprowadziliśmy możliwość wykorzystywania frekwencji wyrazów przy generowaniu podpowiedzi. Dzięki temu proponowane są najpierw wyrazy częstsze, co może być ułatwieniem zwłaszcza wtedy, gdy wyraz z literówką jest dosyć krótki. Np. wyraz „kótki” w obecnej wersji słownika będzie poprawiany na:

kotki; Kutki; krótki; skutki; kostki; kulki; kurtki

(jest jeszcze kilkanaście innych propozycji o takiej samej odległości edycyjnej, tj. z taką samą liczbą zmienionych liter w stosunku do wyrazu z błędem). Uporządkowanie, jak widać, jest dosyć sensowne. Jako źródło danych frekwencyjnych wykorzystać można dane z projektu Mozilla Gaia dostępne na licencji Apache (część z danych pochodzi z danych klawiaturowych Androida).

Słownik frekwencyjny będzie wykorzystany w najnowszej wersji LanguageTool. Polecam skorzystanie z korektora pisowni bezpośrednio z LT we własnych aplikacjach w Javie (mamy też interfejs HTTP, a nawet publiczne API HTTP).

15.7.13

morfologik-stemming 1.7 released

We just released a new version of morfologik-stemming library to Maven. Most changes are related to the new module morfologik-speller, which can now use spelling dictionaries configured with property files. In particular, it introduces support for character classes, i.e., you can introduce equivalent characters as with hunspell's MAP feature. It also supports replacement patterns (just like the ones defined by REP command in hunspell).

A short description of new properties is given in the LanguageTool wiki.

21.5.13

O Morfologiku w zastosowaniu praktycznym...

Na blogu Oracle Gridwise Tech można poczytać o wykorzystaniu Morfologika do analizy danych tekstowych na dużą skalę (text mining). Od siebie dodam, że warto nierozpoznany tekst poddać testowi ortograficznemu, do czego przyda się klasa Speller. W wersji obecnie dostępnej Speller nie potrafi uzupełniać polskich liter, ale już niedługo, za momencik będzie wersja, która sobie z tym radzi.