Przejdź do głównej zawartości

morfologik-stemming 1.4.0

Dziś wydaliśmy nową wersję biblioteki morfologik-stemming. Największą zmianą jest możliwość tworzenia automatów FSA bezpośrednio w Javie. Służy do tego narzędzie wiersza poleceń fsa_build. Aby tworzyć słowniki do lematyzacji można też wykorzystać narzędzie tab2morph, które implementuje funkcje skryptów morph_data z pakietu FSA, ale zawsze poprawnie obsługuje kodowanie UTF-8, z którym skrypty w Perlu i AWK nie zawsze dobrze sobie radziły. Zmiany w API widoczne są w dokumentacji.

Jednocześnie zmieniliśmy słownik zamieszczony w pakiecie na najnowszy. Dzięki temu cały pakiet ma też inne licencje: kod ma BSD, a słownik LGPL lub Creative Commons ShareAlike.

Komentarze

mimooh pisze…
$ java --version
java version "1.5.0"
gij (GNU libgcj) version 4.4.1

1. Co z wielkimi literami? Ponizej tylko Kot zadzialal:
$ java -jar morfologik-stemming-1.4.0.jar plstem -i file.in

Input encoding: UTF-8
Output encoding: UTF-8
Przybyli - -
Na - -
Miejscu - -
Akcji - -
ala - -
ma mieć verb:fin:sg:ter:imperf
ma mój adj:sg:nom.voc:f:pos
Kota Kot subst:sg:acc.gen:m1
Oraz - -
psa pies subst:sg:acc.gen:m2

2. Pomoc mowi, ze moge stdin podac na wejscie. Nie wyszlo mi:
$ echo "ala ma kota oraz psa" | java -jar morfologik-stemming-1.4.0.jar plstem

usage: morfologik.tools.PolishStemmingTool [-i ] [-ie ]
[-o ] [-oe ]
-i,--input Input file. If missing, standard input
is used.

3. Problem ze slashem. "Ala ma / kota oraz psa" - fragment po slashu
(ale nie do konca pliku) zostaje obciety. Jakie jeszcze zasadzki? ;)

4. Jest jakas dokumentacja oprocz api? Moze sprawy wielkich liter i slasha sa gdzie
opisane?
1. To nie jest błąd, tak to powinno działać, bo w wielu językach jest zasadnicza różnica między wielkimi i małymi literami (np. po niemiecku).

2. Błąd, musimy poprawić.

3. Proponuję użyć LanguageTool.jar w opcji --taggeronly. Tam jest trochę bardziej wyrafinowana analiza i tokenizacja, a jako gratis ciut dezambiguacji.

4. Nie.
Unknown pisze…
Ten komentarz został usunięty przez autora.
Unknown pisze…
witam , mam pytanie czy program Morfologik da się ręcznie zainstalować w systemie linux?
Anonimowy pisze…
Mam pytanie, jak wygląda sprawa wielowątkowości w wersji 1.4.0 ? Mamy problemy przy korzystaniu z wielu wątków, gdzie WordData jest przyczyną powstawiana wielu wyjątków.

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś...

Aktualizacja słownika ortograficznego w programie LanguageTool 5.8

Przygotowałem aktualizację słownika ortograficznego stosowanego w programie LanguageTool (będzie dostępna publicznie w nowym wydaniu, 5.8, planowanym na koniec czerwca). Słownik oparty jest przede wszystkim na słownikach dostępnych na sjp.pl , lecz usunąłem trochę mylących wpisów (np. niezalecaną formę „ grejfrut ”) i dodałem trochę funkcji (typu wyrazy pisane z łącznikiem), które są potrzebne. Zdumiało mnie, że poprzednia wersja słownika pochodziła z roku 2008. No cóż, ta zmiana się po prostu należała. W kolejce jest aktualizacja paczki słowników do LibreOffice/OpenOffice.