27.9.06

Stempelator 1.0.5

Ukazała się dziś nowa wersja biblioteki Stempelator, usuwająca błąd w czytaniu niektórych plików słownikowych. Przy okazji wprowadzono trochę zmian w API. Pliki są do pobrania tutaj.

Wersja 1.0.4 natomiast różniła się jedynie podaną explicite licencją dla wersji ze słownikiem i bez słownika i dlatego nie została opublikowana oddzielnie.

23.9.06

Morfologik 0.7

Dzisiaj, 23.09.2006, opublikowałem kolejną wersję plików Morfologika. Zmiany obejmują:
  • uwzględnienie liczebników;
  • drobne poprawki wyrazów nieregularnych.
Pliki oparte są na dzisiejszej wersji słownika alternatywnego, a więc zawierają znacznie więcej nazw własnych. Łącznie jest około 3,34 miliona form. Dzięki mojej drobnej interwencji trochę wyrazów zakończonych na -owe jest obecnie oznaczonych flagą a, co oznacza, że są one regularnie opisane w słowniku morfologicznym.

Pliki są do pobrania tutaj. Plik morfologik-0-7.zip zawiera tabelę o postaci:

wyraz_odmieniony wyraz_podstawowy znaczniki

zaś plik polish-0-7.dict.gz zawiera skompresowaną wersję słownika w formacie fsa_morph (tylko dla użytkowników pakietu fsa).

16.9.06

Liczebniki

Niestety, w słowniku brakuje oznaczenia jednej z części mowy: liczebnika. Problem z liczebnikami porządkowymi nie jest taki wielki, bo odmieniają się jak przymiotniki. Chodzi raczej o liczebniki główne. Ich form nie można odtworzyć z flag w słowniku ispella, bo są okropnie nieregularne, więc w grę wchodzi wyłącznie oznaczenie na piechotę – na przykład z wykorzystaniem strony Grzegorza Jagodzińskiego Wzory deklinacji liczebników. Niestety, to jest robota na piechotę :(

10.9.06

Morfologik 0.6

Udostępniłem dziś kolejną wersję słownika morfologicznego. Zmiany są następujące:
  • więcej form (około 3,3 miliona) – dzięki rozszerzeniu słownika alternatywnego o często używane nazwy własne;
  • oznaczenie imiesłowu uprzedniego
  • drobne zmiany w wyrazach nieregularnych.
Pliki są do pobrania na stronie projektu.

7.9.06

Interpunkcja. Reaktywacja :)

Sformalizowałem zgrubną i heurystyczną regułę dotyczącą braku przecinka między dwoma osobowymi formami czasownika. Będzie ona wymagać uzupełnień i poprawek, bo na razie błędnie reaguje na:

Marek będzie pomagał Jurkowi.

Oraz nie uwzględnia strony biernej:

Markowi bardzo pomagano, gdy gryzł Jurka w ucho.


Natomiast reguła pozwala wykryć braki przecinków po zdaniach podrzędnych zaczynających się od który.

Notabene, udało mi się napisać regułę przestankowania przed „który” ściślejszą od czegokolwiek, co udało mi się znaleźć w słownikach i podręcznikach. Błędem jest mianowicie, gdy nie ma spójnika ani znaku przestankowego przed:

  • przysłówkiem, przyimkiem i wyrazem „który” lub „jaki” (w dowolnym przypadku)
  • dwoma przyimkami i wyrazem „który” (jw.)
  • przyimkiem i wyrazem „który” (jw.), z tym, że tylko wówczas, gdy przyimka nie poprzedza inny przyimek ani przysłówek
  • samym wyrazem „który” (jw.), o ile nie poprzedza go przyimek, spójnik ani przysłówek.
Prowadzę testy na polskiej Wikipedii (przy okazji uzupełniam interpunkcję w Artykułach na medal); są dosyć zachęcające. Do formalizacji zostały mi spójniki występujące parami (dopóki... dopóty, dotąd... aż), ale błędy dotyczące ich użycia w dużej mierze wykrywa już prosta reguła czasownikowa.