W obecnej wersji LT niektóre podpowiedzi zawierają prawidłowo odmienione polskie wyrazy (inne niż w błędnych, kwestionowanych zdaniach) - a to dzięki specjalnemu, „odwróconemu” słownikowi z projektu Morfologik (trik polegał na odpowiednim dobraniu danych do automatu słownika morfologicznego). Nadal jednak nie zaimplementowałem odmiany chociażby fraz przymiotnikowych, które mogą składać się z kolejnych przymiotników i przysłówków. Nie mówiąc o frazach nominalnych...
Choć zwolennicy Chomsky’ego będą się zapewne krzywić, przeanalizowałem maksymalną długość takiego ciągu przymiotnikowo-przysłówkowego, badając częstość wystąpień w korpusie IPI. Otóż maksymalnie zdarza się 5 elementów pod rząd, sporadycznie tylko więcej (cóż, wszystko wskazuje na to, że magiczna liczba Millera 7 +/- 2 ma tutaj zastosowanie). Dlatego nie trzeba bynajmniej tworzyć struktury rekurencyjnej o dowolnym stopniu zagnieżdżenia; wystarczy dokonać zwykłego wyliczenia kombinacji, bo jest ich po prostu mało. To może prosta heurystyka, lecz struktury o większej złożoności prawdopodobnie i tak przekraczają zdolności językowe przeciętnego słuchacza, więc są obarczone pragmatyczną wadą językową: nie będą rozumiane.
Z powodu komplikacji w odmianie fraz, nie zastanawiałem się, jak je odmieniać regularnie przy użyciu mechanizmu stosowanego do pojedynczych wyrazów (w formalizmie LT służy do tego znacznik match z armią atrybutów; odmianę uzyskuje się przez podanie wyrażenia regularnego określającego docelowy znacznik morfosyntaktyczny wyrazu). W ostatnich dniach przyszło mi do głowy stosowanie złożonego wyrażenia regularnego do zadawania schematu zmian: wyrażenie o postaci (adv).*|(adj).* może być odmieniane przez podanie wyrażenia zastępowania $1$2, a w braku wystąpienia jednego z elementów po prostu pusty ciąg zastąpi $1. Być może dodam też atrybut, który nakaże, aby w razie nieznalezienia formy nie pojawiało się nic na wyjściu (obecnie jest generowana forma podstawowa w nawiasach). To powinno wystarczyć; a jeżeli okaże się, że stosuję powtarzające się schematy odmian (zamian form gramatycznych), to być może trzeba będzie te schematy opatrzyć etykietami i zawrzeć w osobnych deklaracjach do późniejszego wykorzystania.
Pewnym problemem – nie wiem na razie, jak wielkim – może być pojawianie się zbyt wielkiej liczby kombinacji wyjściowych form: dla niektórych znaczników pojawia się parę dopuszczalnych form; przy dłuższym ciągu liczba kombinacji rośnie błyskawicznie. Mam nadzieję, że eksplozja kombinatoryczna nie będzie zbyt poważną trudnością, bo oboczności form nie są jednak aż tak częste. W ostateczności pewnie trzeba będzie poprawiać słownik Morfologika...
Choć zwolennicy Chomsky’ego będą się zapewne krzywić, przeanalizowałem maksymalną długość takiego ciągu przymiotnikowo-przysłówkowego, badając częstość wystąpień w korpusie IPI. Otóż maksymalnie zdarza się 5 elementów pod rząd, sporadycznie tylko więcej (cóż, wszystko wskazuje na to, że magiczna liczba Millera 7 +/- 2 ma tutaj zastosowanie). Dlatego nie trzeba bynajmniej tworzyć struktury rekurencyjnej o dowolnym stopniu zagnieżdżenia; wystarczy dokonać zwykłego wyliczenia kombinacji, bo jest ich po prostu mało. To może prosta heurystyka, lecz struktury o większej złożoności prawdopodobnie i tak przekraczają zdolności językowe przeciętnego słuchacza, więc są obarczone pragmatyczną wadą językową: nie będą rozumiane.
Z powodu komplikacji w odmianie fraz, nie zastanawiałem się, jak je odmieniać regularnie przy użyciu mechanizmu stosowanego do pojedynczych wyrazów (w formalizmie LT służy do tego znacznik match z armią atrybutów; odmianę uzyskuje się przez podanie wyrażenia regularnego określającego docelowy znacznik morfosyntaktyczny wyrazu). W ostatnich dniach przyszło mi do głowy stosowanie złożonego wyrażenia regularnego do zadawania schematu zmian: wyrażenie o postaci (adv).*|(adj).* może być odmieniane przez podanie wyrażenia zastępowania $1$2, a w braku wystąpienia jednego z elementów po prostu pusty ciąg zastąpi $1. Być może dodam też atrybut, który nakaże, aby w razie nieznalezienia formy nie pojawiało się nic na wyjściu (obecnie jest generowana forma podstawowa w nawiasach). To powinno wystarczyć; a jeżeli okaże się, że stosuję powtarzające się schematy odmian (zamian form gramatycznych), to być może trzeba będzie te schematy opatrzyć etykietami i zawrzeć w osobnych deklaracjach do późniejszego wykorzystania.
Pewnym problemem – nie wiem na razie, jak wielkim – może być pojawianie się zbyt wielkiej liczby kombinacji wyjściowych form: dla niektórych znaczników pojawia się parę dopuszczalnych form; przy dłuższym ciągu liczba kombinacji rośnie błyskawicznie. Mam nadzieję, że eksplozja kombinatoryczna nie będzie zbyt poważną trudnością, bo oboczności form nie są jednak aż tak częste. W ostateczności pewnie trzeba będzie poprawiać słownik Morfologika...
Komentarze