Przejdź do głównej zawartości

Morfologik 2.0 PoliMorf

Dziś udostępniłem ostateczną wersję słownika morfosyntaktycznego Morfologik 2.0 PoliMorf.

Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN.
  • Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość (nonrefl niezwrotny, refl zwrotny, a nonrefl.refl taki, który może być raz zwrotny, a raz nie).
  • Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem brev), które nadal dodawane są osobno. Skrypt poprawia też błędny wpis wyrazu „bardziej”.
  • W stosunku do wydania RC2 poprawiono oznaczenie wyrazu „się” (brakowało form ze znacznikiem siebie), uzupełniono brakujące znaczniki kilku rzadkich nieodmiennych rzeczowników (toto, wasze, niecoś, śmo, wsio).
  • Największą zmianą jest rezygnacja z oznaczania form przypuszczających (takich jak „ujadłbym”) jako pot:praet. Znacznik praet był tu nadmiarowy i jego występowanie psuło pozycyjność tagsetu.

W tym wydaniu udostępniam pliki, w których jedna forma występuje w słowniku tylko raz, a jeśli ma wiele znaczników, to są one połączone znakiem „+”. Oczywiście prostym skryptem można rozpakować te formy na inną postać, ale słyszałem, że kiedy wykorzystuje się Morfologika do sprowadzania wyrazu do formy podstawowej, to jest to wygodne.

Przy okazji dziękuję Adamowi Radziszewskiemu za komentarze i rady oraz Janowi Szejko za wsparcie przy zmianie działania eksportu w Kuźni. Sam słownik nie istniałby też w obecnej formie, gdyby nie realizowany w Zespole Inżynierii Lingwistycznej IPI PAN projekt CESAR, kierowany przez Adama Przepiórkowskiego i Macieja Ogrodniczuka; i gdyby nie udało się połączyć słownika SGJP (którzy stworzyli Zygmunt Saloni, Włodzimierz Gruszczyński, Marcin Woliński i Robert Wołosz) z poprzednim Morfologikiem). Dzięki Marcinowi Wolińskiemu Morfologik zaczął powstawać w sposób sensowniejszy lingwistycznie; lingwiści pracujący w IPI PAN (m.in. Łukasz Szałkiewicz i Anna Andrzejczuk) poprawiają pozostałe w słowniku usterki. Jednak zmiana jest naprawdę ogromna.

Pliki dostępne są na serwerach w systemie Sourceforge.

Komentarze

Anonimowy pisze…
Mógłbym prosić o wskazówkę jak korzystać z plików binarnych w fsa-polish.zip?

fsa tools mam prosto ze strony dra Daciuka, więc chyba najnowszą.
Mimo to:

$ fsa_morph -d polish.dict
Invalid dictionary version in file: polish.dict
Version number is -58 which indicates dictionary was build:
with yet unknown compile options (upgrade your software)
Możliwe, że przez pomyłkę w sieci umieściłem pliki w formacie cfsa2 (obsługiwane tylko przez bibliotekę morfologik-stemming). Sprawdzę to w piątek, wcześniej niestety nie mam możliwości.
Wersja na sf.net została zaktualizowana.

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś...

Aktualizacja słownika ortograficznego w programie LanguageTool 5.8

Przygotowałem aktualizację słownika ortograficznego stosowanego w programie LanguageTool (będzie dostępna publicznie w nowym wydaniu, 5.8, planowanym na koniec czerwca). Słownik oparty jest przede wszystkim na słownikach dostępnych na sjp.pl , lecz usunąłem trochę mylących wpisów (np. niezalecaną formę „ grejfrut ”) i dodałem trochę funkcji (typu wyrazy pisane z łącznikiem), które są potrzebne. Zdumiało mnie, że poprzednia wersja słownika pochodziła z roku 2008. No cóż, ta zmiana się po prostu należała. W kolejce jest aktualizacja paczki słowników do LibreOffice/OpenOffice.