Przejdź do głównej zawartości

Posty

Wyświetlanie postów z sierpień, 2006

Interpunkcja

Zacząłem formalizować zasady polskiej interpunkcji. Wiedziałem, że to nie będzie proste, więc nie spieszyło mi się z tym. Komplikacje wynikają z tego, że polska interpunkcja częściowo opiera się na kryterium składniowym, częściowo intonacyjnym, a w dodatku istnieje szereg reguł dodatkowych (na przykład reguła cofania przecinka w wypadku zbiegu dwóch spójników w tzw. spójniku zestawionym). Co prawda, znakomity Słownik interpunkcyjny prof. Podrackiego pomaga mi na co dzień, ale przekształcenie zawartej w nim wiedzy nie jest zadaniem banalnym (zwłaszcza że nie wszystkie wyjątki obejmuje). Trudność szczególna wiąże się z wyrazami, które inaczej oddziela się w zdaniach złożonych, a inaczej traktuje w zdaniu pojedynczym: Kup mi chociaż dwie bułki! ale: Kupił mi dwie bułki, chociaż groszem nie śmierdzi. Innym problemem są wyrazy takie jak „jednak”, „bowiem”, „zaś”: można je umieszczać w różnej odległości od przecinka (szyk przestawny), więc trudno zbudować właściwą podpowiedź dla użyt

Nowe języki w LanguageTool 0.8.5dev

W najnowszej, właśnie tworzonej wersji LanguageTool wbudowuję obsługę nowych języków. Już wbudowałem obsługę francuskiego (będzie oparta na słowniku inDico Myriam Lechelt; reguły, mam nadzieję, pomoże rozwijać Laurent Godard z Indesko). Początkowo chciałem dodać obsługę na bazie Uniteksa, ale wg Laurenta ten słownik niekoniecznie jest oparty na licencji LGPLLR (LGPL for Language Resources). No cóż... Zmieniłem na poprawiony InDico. Wprowadziłem język hiszpański z taggerem części mowy opartym na FreeLing . Niestety, sam słownik taggera był bardzo ubogi, bo w pakiecie FreeLing używa się wielu strategii heurystycznych (wg autorów skutecznych w ponad 90%). Dlatego też, żeby wyłuskać więcej informacji, po prostu otagowałem całą hiszpańską Wikipedię, a potem odfiltrowałem powstałe pliki. W wyniku powstał niezły słownik, FreeLing radził sobie z tym nieźle (wywaliłem literówki za pomocą hunspell -l ). To oczywiście przypomniało mi, że stosowany w LT tagger OpenNLP jest niestety statystyczny i

LanguageTool 0.8.4

Pojawiła się wersja 0.8.4 korektora gramatycznego i stylistycznego LanguageTool. Nowości: wiele nowych reguł dla języka polskiego, niemieckiego i angielskiego; zmniejszenie objętości słowników programu (przy zwiększeniu ich zasobu leksykalnego) dzięki użyciu innego formatu binarnego, tj. fsa Jana Daciuka; możliwość schowania narzędzia w prawej części paska zadań systemu (przetestowano w systemach Windows i Linux); po maksymalizacji LanguageTool automatycznie sprawdza tekst, który został skopiowany do schowka; zmieniona składnia reguł, umożliwiająca skuteczne zakodowanie większości wyszukiwanych błędów, w tym podawanie formy podstawowej i korzystanie z wyrażeń regularnych; przy sprawdzaniu „fałszywych przyjaciół” (wyrazów zdradliwych) pojawiają się teraz podpowiedzi – niewiele jest ich dla języka polskiego, bo nie był to mój priorytet; możliwość zapisu konfiguracji w katalogu domowym. Niestety, okazało się, że moduł działający w OOo zawiera błąd, a mianowicie nie sprawdza tekstów dłuż

Morfologik 0.5 do pobrania

Do pobrania jest kolejna wersja słownika morfologicznego. Nowości: synchronizacja ze słownikiem alternatywnym (więcej nazw własnych, poprawki, nowe wyrazy), m.in. usunięcie form potencjalnych (–łom, -łoś) i zaprzeczonych form liczby mnogiej gerundiów; oznaczenie prostego stopnia wyższego i najwyższego przymiotników; wprowadzenie specjalnego znacznika dla wyrazów, które mogą być zaprzeczane („pneg”); odpowiednik flagi „b” w słowniku alternatywnym; zaimki osobowe i dzierżawcze; więcej form regularnych (dzięki słownikowi alternatywnemu); usunięcie błędnej postaci znacznika dla narzędnika (instr -> inst). Łączna liczba form w słowniku: 3226649 .

Kolejna wersja słownika - 0.4

Niedługo na serwerach sourceforge.net pojawi się wersja 0.4 słownika morfologicznego. W stosunku do nowej wersji są następujące zmiany: ręcznie poprawiłem i przejrzałem wszystkie flagi i anotacje; uzupełniłem brakujące znaczniki części mowy; uporządkowałem kod, usunąłem błędy. W wyniku powstał słownik zawierający 3286849 form wyrazowych, a więc większy od poprzedniego o 313020 hasła (poprzedni zawierał 2973829 form). Jest to chyba obecnie największy słownik morfologiczny dla języka polskiego :) Znaczniki form wymagają jeszcze dokładniejszego przejrzenia, ale grubych byków już raczej nie ma, są drobniejsze usterki. Zupełnie nie przejmowałem się zaznaczaniem różnicy między różnymi odmianami rodzaju męskiego, to trzeba będzie robić później.

Słownik alternatywny: alternatywna wersja ortograficzna

Słownik alternatywny jest stosowany w całości jako do tworzenia słownika korektora ortograficznego. Tymczasem w grze dopuszczalne są tylko niektóre wyrazy. Myślę, że z tego samego powodu do korektora pewne wyrazy dopuszczalne w grach nie powinny być wprowadzane. Dotyczy to niesłychanie rzadkich form potencjalnych, które mogą być mylące, oraz bardzo rzadkich, mylących wyrazów. Oto wstępna lista: zaprzeczone rzeczowniki odsłowne w liczbie mnogiej (np. nieprzyjść, niezdań, niebyć, niewejść): są one generowane skryptem na podstawie bazy słownikowej z flag i oraz j; ten skrypt ewidentnie generuje flagi UV, a powinien tylko U (np. z być/BeGHj tworzone jest też niebycie/UV na podstawie form z flagi j, przynajmniej tak mi się wydaje). juz som sie (ręczne dodanie formy „siego” zamiast „si”) duha (?) pokuć (forma rozkazująca „pokuj”) łaba tłomaczyć formy czasu przeszłego kończące się na -łom i -łoś (nikt przy zdrowych zmysłach nie mówi o sobie ani do kogoś w rodzaju nijakim!); modyfikacja kilku