13.6.06

Nowe kodowanie reguł

Dotychczasowe kodowanie reguł, jakie zaplanował Daniel Naber w LanguageTool, jest niewystarczające dla języka polskiego z jego zmiennym szykiem. Opracowuję obecnie nową notację i kod w Javie, który ją obsługuje. Wprowadziłem:

  • możliwość użycia wyrażeń regularnych – dla danego elementu tekstu, jego znacznika części mowy lub lematu;
  • zmianę notacji znaczników części mowy (do tej pory musiały być wielkimi literami);
Planuję wprowadzić:
  • możliwość łatwego kodowania negacji (dawniej był to znak ^ z uproszczonej notacji wyrażeń LT; w wyrażeniach regularnych da się zakodować zanegowany ciąg, lecz jest to niezwykle rozwlekłe i ręcznie wręcz niemożliwe);
  • możliwość specyfikowania lematu w treści reguł;
  • przeniesienie sprawdzania, czy fragment reguły jest wrażliwy na wielkość liter, na poziom pojedynczego symbolu tekstu;
  • możliwość określenia maksymalnej liczby symboli do opuszczenia, zanim zostanie znaleziony dany znacznik (do uproszczonej obsługi zmiennego szyku wyrazów).
Najtrudniejsza kwestia wiąże się z lematami, bo będę musiał zmienić kod dla wszystkich obsługiwanych obecnie języków. Całe szczęście, nie jest to takie niemożliwe ;)

Brak komentarzy: