Przejdź do głównej zawartości

Posty

Aktualizacja słownika ortograficznego w programie LanguageTool 5.8

Przygotowałem aktualizację słownika ortograficznego stosowanego w programie LanguageTool (będzie dostępna publicznie w nowym wydaniu, 5.8, planowanym na koniec czerwca). Słownik oparty jest przede wszystkim na słownikach dostępnych na sjp.pl , lecz usunąłem trochę mylących wpisów (np. niezalecaną formę „ grejfrut ”) i dodałem trochę funkcji (typu wyrazy pisane z łącznikiem), które są potrzebne. Zdumiało mnie, że poprzednia wersja słownika pochodziła z roku 2008. No cóż, ta zmiana się po prostu należała. W kolejce jest aktualizacja paczki słowników do LibreOffice/OpenOffice.
Najnowsze posty

Walery Pisarek — Słownik języka niby-polskiego

Małopolska Biblioteka Cyfrowa udostępnia książkę profesora Walerego Pisarka Słownik języka niby-polskiego w formacie PDF.   Co prawda, opisane w niej błędy w większości pochodzą z prasy z lat siedemdziesiątych, ale wiele błędów typowych dla napuszonego i pretensjonalnego języka niestety trzyma się nadal w polszczyźnie.

polimorfologik 2.1

Od ostatniego wydania słowników morfosyntaktycznych z serii Morfologik minęło trochę czasu, a warto było wprowadzić trochę kosmetycznych poprawek, m.in. usunąć niepotrzebne formy (takie jak czasowniki „dzienić”, „bożyć” czy „cienić”) oraz dodać trochę geograficznych nazw własnych. Nowe wydanie dostępne jest na githubie: Polimorfologik 2.1 . W pliku opis zmian plus wersje tekstowe i binarne słowników.

Słownik poprawnej polszczyzny Stanisława Szobera online

Cyfryzacja polskich zasobów przynosi czasem bardzo interesujące efekty. Jednym z nich jest pojawienie się nieco już starego, ale nadal przydatnego Słownika poprawnej polszczyzny Stanisława Szobera  w Repozytorium Cyfrowym Instytutów Naukowych. Cały słownik jest dostępny w formacie PDF, który można przeszukiwać. Wiele porad się zdezaktualizowało (potępiane błędy czy formy zanikły – kiedyś np. Szober potępiał formę posełka stosowaną zamiast poprawnej „posłanka”), ale niektóre nadal są dorzeczne.

LanguageTool 2.5

Dzisiaj wydaliśmy nową wersję LanguageTool 2.5 . W języku polskim sporo zmian, co widać na odpowiedniej stronie podsumowującej . Krótko mówiąc: wykrywa więcej błędów, jest mniej fałszywych alarmów. Sporo zmian także w części angielskiej i ukraińskiej, stabilnie rozwija się też obsługa katalońskiego i rosyjskiego. Użytkownicy Libre/OpenOffice mogą po prostu zaktualizować rozszerzenie: Narzędzia > Menedżer rozszerzeń > Sprawdź aktualizacje .

LanguageTool 2.4 na Nowy Rok!

Dzisiaj wydaliśmy nową wersję korektora gramatycznego LanguageTool 2.4 . Ta wersja zawiera sporo poprawek i nowych reguł dla różnych języków, w tym wiele reguł wykrywających błędy w użyciu dywizu (łącznika) i myślnika w języku polskim. Korzysta także ze słownika frekwencyjnego przy generowaniu proponowanych poprawek podczas sprawdzania pisowni. Poza tym można zobaczyć przykłady wykrywanych błędów w interfejsie samodzielnym Program wymaga zainstalowania środowiska Java co najmniej w wersji 7 . Instalacja w programach OpenOffice i LibreOffice Dwukrotnie kliknij pobrany plik LanguageTool-2.4.oxt . Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora. W razie problemów Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 7. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Oracle. Ta wersja ś

Korekta pisowni z wykorzystaniem częstości wyrazów

W wydanej niedawno wersji 1.8.2 biblioteki morfologik-stemming (dostępna w repozytoriach Mavena) wprowadziliśmy możliwość wykorzystywania frekwencji wyrazów przy generowaniu podpowiedzi. Dzięki temu proponowane są najpierw wyrazy częstsze, co może być ułatwieniem zwłaszcza wtedy, gdy wyraz z literówką jest dosyć krótki. Np. wyraz „ kótki ” w obecnej wersji słownika będzie poprawiany na: kotki; Kutki; krótki; skutki; kostki; kulki; kurtki (jest jeszcze kilkanaście innych propozycji o takiej samej odległości edycyjnej, tj. z taką samą liczbą zmienionych liter w stosunku do wyrazu z błędem). Uporządkowanie, jak widać, jest dosyć sensowne. Jako źródło danych frekwencyjnych wykorzystać można dane z projektu Mozilla Gaia  dostępne na licencji Apache (część z danych pochodzi z danych klawiaturowych Androida). Słownik frekwencyjny będzie wykorzystany w najnowszej wersji LanguageTool. Polecam skorzystanie z korektora pisowni bezpośrednio z LT we własnych aplikacjach  w Javie (mamy t