Przejdź do głównej zawartości

Posty

Wyświetlanie postów z 2010

Morfologik 1.7

Dziś udostępniłem wersję 1.7 słownika Morfologik. Zmiany są liczne, a to dzięki Adamowi Radziszewskiemu, który nakłonił mnie do sporych porządków w znacznikach, a i sam sporo z nich uporządkował automatycznie. Większe zmiany: nie ma już zbędnego znacznika indecl; wszystkie czasowniki są jednolicie oznaczone jako perf, imperf lub imperf.perf; rodzaj męski występuje już wyłącznie w trzech wariantach ( m1 , m2 , m3 ), choć nadal nie wszystkie wyrazy są prawidłowo oznaczone; udokumentowałem znacznik nstd , którym oznaczam formy niestandardowe odmian (chodzi o wyraz „domie”); znaczniki alternatywne są obecnie sortowane alfabetycznie (acc.dat.gen); drobne poprawki brakujących oznaczeń biernika dla rzeczowników rodzaju m1 .

LanguageTool 1.1

Udostępniliśmy dziś nową wersję korektora LanguageTool - 1.1. Z nowości: obsługa nowych języków (m.in. białoruski i malayalam), bardzo liczne poprawki i usprawnienia reguł, a także możliwość sprawdzania tekstów dwujęzycznych (przydatne dla tłumaczy). Ta ostatnia opcja będzie przydatna raczej tylko dla osób zainteresowanych wykorzystaniem interfejsu programowego LT (API) do połączenia z oprogramowaniem wspomagającym tłumaczenie. W wersji 1.1 polskich reguł jest więcej (1022) i są bardziej ogólne. W programie OpenOffice.org 3.0.1 lub nowszym Metoda prosta Dwukrotnie kliknij pobrany plik LanguageTool-1.0.0.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora. Metoda tradycyjna Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.0.0.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania). Po ponownym otwarciu OpenOffice.org będzie możliwe automatyc

Informujemy, iż przecinki stawia się mniej fantazyjnie

Paper on developing LanguageTool available

My paper on developing LanguageTool , focused mostly on new features needed to support many different languages in LT, has just been published in Software - Practice and Experience (if you have no access to SPE, here is the final uncorrected draft ). The paper contains a section with empirical results - I tested LanguageTool on Polish, and compared the results with Microsoft Word grammar checker (the only one that exists for Polish beside LanguageTool). The results are pretty good - whereas LanguageTool rules seem to create few false alarms (the precision level is around 90% for most test samples), MS Word tends to have a lot of them (the precision level is in best cases around 50%, and in many cases even lower). Sample text MS Word matches MS Word precision LT matches LT precision Frequency Dictionary Corpus 4572 22,00% 8552 92,00% Camera-ready book 58

morfologik-stemming 1.4.0

Dziś wydaliśmy nową wersję biblioteki morfologik-stemming. Największą zmianą jest możliwość tworzenia automatów FSA bezpośrednio w Javie. Służy do tego narzędzie wiersza poleceń fsa_build. Aby tworzyć słowniki do lematyzacji można też wykorzystać narzędzie tab2morph, które implementuje funkcje skryptów morph_data z pakietu FSA, ale zawsze poprawnie obsługuje kodowanie UTF-8, z którym skrypty w Perlu i AWK nie zawsze dobrze sobie radziły. Zmiany w API widoczne są w dokumentacji . Jednocześnie zmieniliśmy słownik zamieszczony w pakiecie na najnowszy. Dzięki temu cały pakiet ma też inne licencje: kod ma BSD, a słownik LGPL lub Creative Commons ShareAlike.

Morfologik 1.6

Dzisiaj wydałem nową wersję (1.6) leksykonu morfosyntaktycznego Morfologik. Zmiany są niewielkie - głównie poprawki zauważonych błędów, takich jak niewłaściwe znaczniki, bzdurne formy (np. usunąłem wyraz "ca", który był połową wyrazu "z-ca") czy literówki. Usunąłem też zbędny znacznik "indecl", teraz stosowany jest wszędzie "qub". Mówiąc krótko, są tu głównie drobne poprawki różnych błędów. Większą zmianą jest podwójne licencjonowanie: słownik może być wykorzystywany na licencji LGPL v3, tak jak wcześniej, albo Creative Commons ShareAlike.

W kuchni nie wolno wulgarnie

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Ślimaki, ach ślimaki

W supermarketach czasem odkrywają nowe krainy. Oto francuska sieć sklepów wielkopowierzchniowych ujawnia istnienie Burguncji: Smacznego. Ja pozostanę przy wierze w istnienie Burgundii. I nie potrafię się przekonać, że ślimaki są rybami.

LanguageTool i OmegaT

Narzędzie wspomagające pracę tłumaczy OmegaT (w wersji beta 2.1.4) właśnie uzyskało możliwość korzystania z LanguageTool jako dodatkowego modułu . Efekty widać od razu:

Testy segmentacji

Do niedawna nie było dla polszczyzny korpusu, w którym ręcznie zweryfikowano by podział na zdania (a przynajmniej ja nic o dostępności takiego zasobu nie wiedziałem). Całe szczęście, trwają prace nad Narodowym Korpusem Języka Polskiego – i obejmują one także ręczne oznaczenie tekstu, w tym podział go na zdania. Uzyskałem do testów próbkę obecnie opracowywanego tekstu, aby móc przetestować swoje reguły. Okazało się, że stosujemy nieco inne konwencje – np. ja uznawałem, że liczby porządkowe na początku zdań są osobnym elementem, a nie fragmentem zdania (w OpenOffice.org takie liczby generowane automatycznie nie są w ogóle widoczne dla LanguageTool). Ale po ujednoliceniu takich konwencji przystąpiłem do testów. Wykryłem trochę usterek w regułach SRX, usunąłem je i wyniki są obecnie następujące. W próbce było 42426 znaczników podziału (dalej oznaczone jako Z). Dokładność ( precision ) podziału wyniosła 0,993234 . Kompletność ( recall ) 0,998353 . Poprawność ( accuracy ) 0,991609 . (Wszyst

morfologik-stemming 1.3.0

Wydaliśmy dziś nową wersję biblioteki morfologik-stemming. Zawiera ona trochę usprawnień związanych z wydajnością, w tym m.in. możliwość innego binarnego przekodowania automatu fsa ( CFSA ), umożliwiającą uzyskanie mniej więcej 10% mniejszego pliku, który jest obsługiwany szybciej. API wysokiego poziomu nie uległo zmianie.