Przejdź do głównej zawartości

Posty

Wyświetlanie postów z wrzesień, 2006

Stempelator 1.0.5

Ukazała się dziś nowa wersja biblioteki Stempelator, usuwająca błąd w czytaniu niektórych plików słownikowych. Przy okazji wprowadzono trochę zmian w API. Pliki są do pobrania tutaj . Wersja 1.0.4 natomiast różniła się jedynie podaną explicite licencją dla wersji ze słownikiem i bez słownika i dlatego nie została opublikowana oddzielnie.

Morfologik 0.7

Dzisiaj, 23.09.2006, opublikowałem kolejną wersję plików Morfologika. Zmiany obejmują: uwzględnienie liczebników; drobne poprawki wyrazów nieregularnych. Pliki oparte są na dzisiejszej wersji słownika alternatywnego, a więc zawierają znacznie więcej nazw własnych. Łącznie jest około 3,34 miliona form. Dzięki mojej drobnej interwencji trochę wyrazów zakończonych na -owe jest obecnie oznaczonych flagą a, co oznacza, że są one regularnie opisane w słowniku morfologicznym. Pliki są do pobrania tutaj . Plik morfologik-0-7.zip zawiera tabelę o postaci: wyraz_odmieniony wyraz_podstawowy znaczniki zaś plik polish-0-7.dict.gz zawiera skompresowaną wersję słownika w formacie fsa_morph (tylko dla użytkowników pakietu fsa).

Liczebniki

Niestety, w słowniku brakuje oznaczenia jednej z części mowy: liczebnika. Problem z liczebnikami porządkowymi nie jest taki wielki, bo odmieniają się jak przymiotniki. Chodzi raczej o liczebniki główne. Ich form nie można odtworzyć z flag w słowniku ispella, bo są okropnie nieregularne, więc w grę wchodzi wyłącznie oznaczenie na piechotę – na przykład z wykorzystaniem strony Grzegorza Jagodzińskiego Wzory deklinacji liczebników. Niestety, to jest robota na piechotę :(

Morfologik 0.6

Udostępniłem dziś kolejną wersję słownika morfologicznego. Zmiany są następujące: więcej form (około 3,3 miliona) – dzięki rozszerzeniu słownika alternatywnego o często używane nazwy własne; oznaczenie imiesłowu uprzedniego drobne zmiany w wyrazach nieregularnych. Pliki są do pobrania na stronie projektu .

Interpunkcja. Reaktywacja :)

Sformalizowałem zgrubną i heurystyczną regułę dotyczącą braku przecinka między dwoma osobowymi formami czasownika. Będzie ona wymagać uzupełnień i poprawek, bo na razie błędnie reaguje na: Marek będzie pomagał Jurkowi. Oraz nie uwzględnia strony biernej: Markowi bardzo pomagano, gdy gryzł Jurka w ucho. Natomiast reguła pozwala wykryć braki przecinków po zdaniach podrzędnych zaczynających się od który . Notabene, udało mi się napisać regułę przestankowania przed „który” ściślejszą od czegokolwiek, co udało mi się znaleźć w słownikach i podręcznikach. Błędem jest mianowicie, gdy nie ma spójnika ani znaku przestankowego przed: przysłówkiem, przyimkiem i wyrazem „który” lub „jaki” (w dowolnym przypadku) dwoma przyimkami i wyrazem „który” (jw.) przyimkiem i wyrazem „który” (jw.), z tym, że tylko wówczas, gdy przyimka nie poprzedza inny przyimek ani przysłówek samym wyrazem „który” (jw.), o ile nie poprzedza go przyimek, spójnik ani przysłówek. Prowadzę testy na polskiej Wikipedii (