Przejdź do głównej zawartości

morfologik-stemming 1.4.0

Dziś wydaliśmy nową wersję biblioteki morfologik-stemming. Największą zmianą jest możliwość tworzenia automatów FSA bezpośrednio w Javie. Służy do tego narzędzie wiersza poleceń fsa_build. Aby tworzyć słowniki do lematyzacji można też wykorzystać narzędzie tab2morph, które implementuje funkcje skryptów morph_data z pakietu FSA, ale zawsze poprawnie obsługuje kodowanie UTF-8, z którym skrypty w Perlu i AWK nie zawsze dobrze sobie radziły. Zmiany w API widoczne są w dokumentacji.

Jednocześnie zmieniliśmy słownik zamieszczony w pakiecie na najnowszy. Dzięki temu cały pakiet ma też inne licencje: kod ma BSD, a słownik LGPL lub Creative Commons ShareAlike.

Komentarze

mimooh pisze…
$ java --version
java version "1.5.0"
gij (GNU libgcj) version 4.4.1

1. Co z wielkimi literami? Ponizej tylko Kot zadzialal:
$ java -jar morfologik-stemming-1.4.0.jar plstem -i file.in

Input encoding: UTF-8
Output encoding: UTF-8
Przybyli - -
Na - -
Miejscu - -
Akcji - -
ala - -
ma mieć verb:fin:sg:ter:imperf
ma mój adj:sg:nom.voc:f:pos
Kota Kot subst:sg:acc.gen:m1
Oraz - -
psa pies subst:sg:acc.gen:m2

2. Pomoc mowi, ze moge stdin podac na wejscie. Nie wyszlo mi:
$ echo "ala ma kota oraz psa" | java -jar morfologik-stemming-1.4.0.jar plstem

usage: morfologik.tools.PolishStemmingTool [-i ] [-ie ]
[-o ] [-oe ]
-i,--input Input file. If missing, standard input
is used.

3. Problem ze slashem. "Ala ma / kota oraz psa" - fragment po slashu
(ale nie do konca pliku) zostaje obciety. Jakie jeszcze zasadzki? ;)

4. Jest jakas dokumentacja oprocz api? Moze sprawy wielkich liter i slasha sa gdzie
opisane?
1. To nie jest błąd, tak to powinno działać, bo w wielu językach jest zasadnicza różnica między wielkimi i małymi literami (np. po niemiecku).

2. Błąd, musimy poprawić.

3. Proponuję użyć LanguageTool.jar w opcji --taggeronly. Tam jest trochę bardziej wyrafinowana analiza i tokenizacja, a jako gratis ciut dezambiguacji.

4. Nie.
Unknown pisze…
Ten komentarz został usunięty przez autora.
Unknown pisze…
witam , mam pytanie czy program Morfologik da się ręcznie zainstalować w systemie linux?
Anonimowy pisze…
Mam pytanie, jak wygląda sprawa wielowątkowości w wersji 1.4.0 ? Mamy problemy przy korzystaniu z wielu wątków, gdzie WordData jest przyczyną powstawiana wielu wyjątków.

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś

Wikipedia history diff as a revision corpus

(As this is of interest not only to the Polish-speaking community, this post is in English.) Recently, after some discussions on the lingucomponent list at OpenOffice.org on the method of finding frequent typos, I did some experiments on the revision history logs. Background. The developers of grammar checkers, and autocorrect lists, have hard times with finding relevant corpora. Revision history is an excellent source about native speakers perception of linguistic norms. Frequently revised typos are perceived as errors that need to be corrected, so using these typos on autocorrect lists is justified. The same goes for style, grammar and usage errors. Method . Experiments involved three steps: Clean the history dump (??wiki-latest-pages-meta-history.xml), to get only relevant parts of the dump. Using XML tools isn't recommended (I tried XSLT, forget it). Using a simple awk script, I was able to clean the > 30GB dump in an hour or so, and got a >17 GB file. The script is simp