Nowe kodowanie reguł

Dotychczasowe kodowanie reguł, jakie zaplanował Daniel Naber w LanguageTool, jest niewystarczające dla języka polskiego z jego zmiennym szykiem. Opracowuję obecnie nową notację i kod w Javie, który ją obsługuje. Wprowadziłem:

możliwość użycia wyrażeń regularnych – dla danego elementu tekstu, jego znacznika części mowy lub lematu;
zmianę notacji znaczników części mowy (do tej pory musiały być wielkimi literami);

Planuję wprowadzić:

możliwość łatwego kodowania negacji (dawniej był to znak ^ z uproszczonej notacji wyrażeń LT; w wyrażeniach regularnych da się zakodować zanegowany ciąg, lecz jest to niezwykle rozwlekłe i ręcznie wręcz niemożliwe);
możliwość specyfikowania lematu w treści reguł;
przeniesienie sprawdzania, czy fragment reguły jest wrażliwy na wielkość liter, na poziom pojedynczego symbolu tekstu;
możliwość określenia maksymalnej liczby symboli do opuszczenia, zanim zostanie znaleziony dany znacznik (do uproszczonej obsługi zmiennego szyku wyrazów).

Najtrudniejsza kwestia wiąże się z lematami, bo będę musiał zmienić kod dla wszystkich obsługiwanych obecnie języków. Całe szczęście, nie jest to takie niemożliwe ;)

Morfologik

Szukaj na tym blogu

Nowe kodowanie reguł

Komentarze

Popularne posty z tego bloga

Gromadzimy błędy językowe

Imiesłów przysłówkowy bez orzeczenia

Zgłaszanie błędów