Dziś wydaliśmy nową wersję biblioteki morfologik-stemming. Największą zmianą jest możliwość tworzenia automatów FSA bezpośrednio w Javie. Służy do tego narzędzie wiersza poleceń fsa_build. Aby tworzyć słowniki do lematyzacji można też wykorzystać narzędzie tab2morph, które implementuje funkcje skryptów morph_data z pakietu FSA, ale zawsze poprawnie obsługuje kodowanie UTF-8, z którym skrypty w Perlu i AWK nie zawsze dobrze sobie radziły. Zmiany w API widoczne są w dokumentacji.
Jednocześnie zmieniliśmy słownik zamieszczony w pakiecie na najnowszy. Dzięki temu cały pakiet ma też inne licencje: kod ma BSD, a słownik LGPL lub Creative Commons ShareAlike.
Jednocześnie zmieniliśmy słownik zamieszczony w pakiecie na najnowszy. Dzięki temu cały pakiet ma też inne licencje: kod ma BSD, a słownik LGPL lub Creative Commons ShareAlike.
Komentarze
java version "1.5.0"
gij (GNU libgcj) version 4.4.1
1. Co z wielkimi literami? Ponizej tylko Kot zadzialal:
$ java -jar morfologik-stemming-1.4.0.jar plstem -i file.in
Input encoding: UTF-8
Output encoding: UTF-8
Przybyli - -
Na - -
Miejscu - -
Akcji - -
ala - -
ma mieć verb:fin:sg:ter:imperf
ma mój adj:sg:nom.voc:f:pos
Kota Kot subst:sg:acc.gen:m1
Oraz - -
psa pies subst:sg:acc.gen:m2
2. Pomoc mowi, ze moge stdin podac na wejscie. Nie wyszlo mi:
$ echo "ala ma kota oraz psa" | java -jar morfologik-stemming-1.4.0.jar plstem
usage: morfologik.tools.PolishStemmingTool [-i ] [-ie ]
[-o ] [-oe ]
-i,--input Input file. If missing, standard input
is used.
3. Problem ze slashem. "Ala ma / kota oraz psa" - fragment po slashu
(ale nie do konca pliku) zostaje obciety. Jakie jeszcze zasadzki? ;)
4. Jest jakas dokumentacja oprocz api? Moze sprawy wielkich liter i slasha sa gdzie
opisane?
2. Błąd, musimy poprawić.
3. Proponuję użyć LanguageTool.jar w opcji --taggeronly. Tam jest trochę bardziej wyrafinowana analiza i tokenizacja, a jako gratis ciut dezambiguacji.
4. Nie.