Morfologik

Posty

Wyświetlanie postów z marzec, 2010

W kuchni nie wolno wulgarnie

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Czytaj więcej

Ślimaki, ach ślimaki

W supermarketach czasem odkrywają nowe krainy. Oto francuska sieć sklepów wielkopowierzchniowych ujawnia istnienie Burguncji: Smacznego. Ja pozostanę przy wierze w istnienie Burgundii. I nie potrafię się przekonać, że ślimaki są rybami.

Czytaj więcej

LanguageTool i OmegaT

Narzędzie wspomagające pracę tłumaczy OmegaT (w wersji beta 2.1.4) właśnie uzyskało możliwość korzystania z LanguageTool jako dodatkowego modułu . Efekty widać od razu:

Czytaj więcej

Testy segmentacji

Do niedawna nie było dla polszczyzny korpusu, w którym ręcznie zweryfikowano by podział na zdania (a przynajmniej ja nic o dostępności takiego zasobu nie wiedziałem). Całe szczęście, trwają prace nad Narodowym Korpusem Języka Polskiego – i obejmują one także ręczne oznaczenie tekstu, w tym podział go na zdania. Uzyskałem do testów próbkę obecnie opracowywanego tekstu, aby móc przetestować swoje reguły. Okazało się, że stosujemy nieco inne konwencje – np. ja uznawałem, że liczby porządkowe na początku zdań są osobnym elementem, a nie fragmentem zdania (w OpenOffice.org takie liczby generowane automatycznie nie są w ogóle widoczne dla LanguageTool). Ale po ujednoliceniu takich konwencji przystąpiłem do testów. Wykryłem trochę usterek w regułach SRX, usunąłem je i wyniki są obecnie następujące. W próbce było 42426 znaczników podziału (dalej oznaczone jako Z). Dokładność ( precision ) podziału wyniosła 0,993234 . Kompletność ( recall ) 0,998353 . Poprawność ( accuracy ) 0,991609 . (Wszyst...

Czytaj więcej

morfologik-stemming 1.3.0

Wydaliśmy dziś nową wersję biblioteki morfologik-stemming. Zawiera ona trochę usprawnień związanych z wydajnością, w tym m.in. możliwość innego binarnego przekodowania automatu fsa ( CFSA ), umożliwiającą uzyskanie mniej więcej 10% mniejszego pliku, który jest obsługiwany szybciej. API wysokiego poziomu nie uległo zmianie.

Czytaj więcej