Właśnie pojawił się nowiutki Morfologik 1.9. Jest to prawdopodobnie ostatnie wydanie Morfologika osobno od słownika PoliMorf, który powstaje na bazie Słownika Gramatycznego Języka Polskiego i starej bazy Morfologika. W tym wydaniu mamy wiele zmian, przede wszystkim wynikających z połączenia zasobów.
- Kodowanie zmieniono na UTF-8, bo niektóre nazwiska obce, odmieniane po polsku, inaczej nie dałyby się poprawnie zapisać.
- Z PoliMorfa do słownika przejęto wszystkie formy rzeczownikowe, przymiotnikowe, rzeczowniki odsłowne, imiesłowy i formy deprecjatywne. Pozostawiono jedynie formy czasownikowe (a to tylko w oczekiwaniu na możliwość eksportu z narzędzia służącego do tworzenia PoliMorfa, a mianowicie z Kuźni, czasowników w notacji nieposegmentowanej wewnętrznie). Jedynym wyjątkiem jest wyraz „Pablo”, który był analizowany także jako nieodmienny. To nie było zgodne z regułami LanguageToola, więc w Morfologiku Pabla trzeba odmieniać.
- Zmiana licencji. Przyjęto najprostszą możliwą 2-klauzulową licencję BSD.
Cóż to oznacza dla użytkowników Morfologika? Otóż można już rozpocząć powolne przechodzenie na PoliMorfa. W następnym wydaniu PoliMorfa prawdopodobnie uda się już mieć też wariant tagsetu bez segmentacji wewnątrzywyrazowej, przez co samodzielnego wydania Morfologika 2.0 może już nie być. To wydanie ma tylko ułatwić przejście na porządniejszy tagset PoliMorfa.
Komentarze
Jaką funkcję pełni separator "|"? Taką samą jak "+"? np.
babcin babciny adj:sg:nom:m1.m2.m3:pos|adj:sg:acc:m3:pos
babcin babciny adj:sg:nom:m1.m2.m3:pos|adj:sg:acc:m3:pos
p1, p2, p3 - pluralia tantum
ter - trzecia osoba
qub - kublik
"|" to pomyłka; trzeba będzie zrobić wydanie 1.9.1
Wydaje się, że polskie słowniki do Open/LibreOffice nie są rozwijane od 2008 r. Tymczasem w LibreOffice 3.6 proces poprawiania narzędzi językowych nabrał znacznego przyspieszenia: http://cgit.freedesktop.org/libreoffice/dictionaries/log/?h=libreoffice-3-6
Pozdrawiam
A co do słowników, to być może w następnych wersjach pojawi się coś lepszego od dziadowskiego słownika w formacie hunspella (który jest wyjątkowo źle napisany). Chodzi o słownik ortograficzny. Pracuję nad tym. Słownik synonimów na razie musi poczekać, są kłopoty z serwerem.
Życzę powodzenia we wszystkich dobrych przedsięwzięciach :-)
a) czy będzie wersja 1.9.1? Pracuję nad biblioteką w C/Pythonie (raczej na własne potrzeby choć nie wykluczam w przyszłości publikacji) i miło by było bazować na najnowszej wersji...
b) czy brak słów typu "zrobionoby" (chyba verb:imps:pot) jest zamierzony czy to błąd?
Co do drugiego, to po prostu polska ortografia nie dopuszcza tego błędu.
Co do tego błędu - problem polega na tym, że sporadycznie (szczególnie w starszych tekstach) występuje łączna pisownia i biblioteka twierdzi że to nieznany wyraz. Poradziłem sobie prowizorycznie dodając dodatkowy marker oznaczający niedopuszczalną współcześnie pisownię.
1) "nic" występujące przed czasownikiem. Prawdopodobne "nie" z wyjątkiem jednej prawidłowej frazy typu "nie musisz nic robić" (tak mi się przynajmniej wydaje).
2) bardzo często w tekstach znajduję "ładownik" (lądownik), "łan" (Ian) czy "mszyć" we wszelkich odmianach (ruszyć). O ile bohaterskich żołnierzy z ładownikami w łanach zbóż czasami się w tekstach spotyka, o tyle - poza omszałym dzbanem wina - z mszeniem jako takim się nigdy nie spotkałem :)
3) nieprawidłowo skorygowane przez OCR-ujący program (z Fine Readerem na czele) "Crystal Palące" czy "Boston Memoriał".
O ile w pierwszym przypadku możliwe jest skorygowanie (a przynajmniej wskazanie prawdopodobnego błędu) na podstawie danych istniejących w Morfologiku, o tyle w pozostałych może być ciężko. W swoim programie do korekty mam po prostu wykaz takich "podejrzanych" wyrazów. Na wprowadzenie tego do Morfologika raczej nie ma co liczyć, ale stworzenie podobnego słownika miałoby pewnie sens.
Natomiast brakuje mi kilku drobiazgów:
1) czasowniki zwrotne. Brak informacji dla czasowników, które mogą występować w obu formach (np. "rozżarzyć")
2) czasowniki modalne - dla mnie wykrycie kostrukcji z czasownikiem modalnym jest bardzo ważne, bo syntezator (Milena) tworzy różną melodię w zależności od tego, czy w danym kontekście czasownik jest modalny i czy bezpośrednio po nim występuje właściwy czasownik. Znów radzę sobie przez dodatkowe słowniki - ale czy nie dałoby się takiej informacji wprowadzić do Morfologika?