25.6.06

Poprawki skryptów

Przeanalizowałem dokładniej skrypty generujące słownik morfologiczny (żeby wprowadzić kodowanie stopnia wyższego). Okazało się, że było sporo usterek. Przede wszystkim niepoprawnie obsługiwane były kombinacje prefiksów i afiksów ze słowników w formacie ispella, a przez to wszystkie formy z negacją miały losowo przydzielone znaczniki. Poza tym w jednym z podstawowych plików pośrednich znajdowało się za mało form źródłowych.
Wprowadziłem następujące zmiany:
  • flagi obecnie są traktowane nie jako ciągi znaków dosłownie, lecz najpierw sortowane (dzięki temu można było zmniejszyć objętość bazy końcówek i prefiksów): flagi w ispellu mogą występować w dowolnej kolejności, więc konkretna kolejność w słowniku nie powinna być brana pod uwagę
  • obsługa prefiksów i sufiksów jednocześnie;
  • rezygnacja z domyślnej obsługi wyrażeń regularnych "\>" i "\<" w skryptach awk: niektóre polskie znaki (np. „ą”) były niepoprawnie interpretowane, w związku z czym zastąpiłem to nieco mniej elegancko wyglądającym, lecz poprawniejszym kodem;
  • ujednolicam flagi w bazie morfologicznej.
Następna wersja, zapewne nadal jeszcze bez przymiotników stopnia wyższego, ale za to z lepiej oznaczonymi regularnymi formami, pojawi się wkrótce (zanim gigantyczne pliki się przemielą, minie pewnie dobrych kilka godzin). Wkrótce nie oznacza „przed upływem tygodnia”. Ręcznie przeglądam wszystkie znaczniki, bo warto je poprawić solidniej.

Brak komentarzy: