Przeanalizowałem dokładniej skrypty generujące słownik morfologiczny (żeby wprowadzić kodowanie stopnia wyższego). Okazało się, że było sporo usterek. Przede wszystkim niepoprawnie obsługiwane były kombinacje prefiksów i afiksów ze słowników w formacie ispella, a przez to wszystkie formy z negacją miały losowo przydzielone znaczniki. Poza tym w jednym z podstawowych plików pośrednich znajdowało się za mało form źródłowych.
Wprowadziłem następujące zmiany:
Wprowadziłem następujące zmiany:
- flagi obecnie są traktowane nie jako ciągi znaków dosłownie, lecz najpierw sortowane (dzięki temu można było zmniejszyć objętość bazy końcówek i prefiksów): flagi w ispellu mogą występować w dowolnej kolejności, więc konkretna kolejność w słowniku nie powinna być brana pod uwagę
- obsługa prefiksów i sufiksów jednocześnie;
- rezygnacja z domyślnej obsługi wyrażeń regularnych "\>" i "\<" w skryptach awk: niektóre polskie znaki (np. „ą”) były niepoprawnie interpretowane, w związku z czym zastąpiłem to nieco mniej elegancko wyglądającym, lecz poprawniejszym kodem;
- ujednolicam flagi w bazie morfologicznej.
Komentarze