Przejdź do głównej zawartości

Odmiana fraz w podpowiedziach

W obecnej wersji LT niektóre podpowiedzi zawierają prawidłowo odmienione polskie wyrazy (inne niż w błędnych, kwestionowanych zdaniach) - a to dzięki specjalnemu, „odwróconemu” słownikowi z projektu Morfologik (trik polegał na odpowiednim dobraniu danych do automatu słownika morfologicznego). Nadal jednak nie zaimplementowałem odmiany chociażby fraz przymiotnikowych, które mogą składać się z kolejnych przymiotników i przysłówków. Nie mówiąc o frazach nominalnych...
Choć zwolennicy Chomsky’ego będą się zapewne krzywić, przeanalizowałem maksymalną długość takiego ciągu przymiotnikowo-przysłówkowego, badając częstość wystąpień w korpusie IPI. Otóż maksymalnie zdarza się 5 elementów pod rząd, sporadycznie tylko więcej (cóż, wszystko wskazuje na to, że magiczna liczba Millera 7 +/- 2 ma tutaj zastosowanie). Dlatego nie trzeba bynajmniej tworzyć struktury rekurencyjnej o dowolnym stopniu zagnieżdżenia; wystarczy dokonać zwykłego wyliczenia kombinacji, bo jest ich po prostu mało. To może prosta heurystyka, lecz struktury o większej złożoności prawdopodobnie i tak przekraczają zdolności językowe przeciętnego słuchacza, więc są obarczone pragmatyczną wadą językową: nie będą rozumiane.

Z powodu komplikacji w odmianie fraz, nie zastanawiałem się, jak je odmieniać regularnie przy użyciu mechanizmu stosowanego do pojedynczych wyrazów (w formalizmie LT służy do tego znacznik match z armią atrybutów; odmianę uzyskuje się przez podanie wyrażenia regularnego określającego docelowy znacznik morfosyntaktyczny wyrazu). W ostatnich dniach przyszło mi do głowy stosowanie złożonego wyrażenia regularnego do zadawania schematu zmian: wyrażenie o postaci (adv).*|(adj).* może być odmieniane przez podanie wyrażenia zastępowania $1$2, a w braku wystąpienia jednego z elementów po prostu pusty ciąg zastąpi $1. Być może dodam też atrybut, który nakaże, aby w razie nieznalezienia formy nie pojawiało się nic na wyjściu (obecnie jest generowana forma podstawowa w nawiasach). To powinno wystarczyć; a jeżeli okaże się, że stosuję powtarzające się schematy odmian (zamian form gramatycznych), to być może trzeba będzie te schematy opatrzyć etykietami i zawrzeć w osobnych deklaracjach do późniejszego wykorzystania.
Pewnym problemem – nie wiem na razie, jak wielkim – może być pojawianie się zbyt wielkiej liczby kombinacji wyjściowych form: dla niektórych znaczników pojawia się parę dopuszczalnych form; przy dłuższym ciągu liczba kombinacji rośnie błyskawicznie. Mam nadzieję, że eksplozja kombinatoryczna nie będzie zbyt poważną trudnością, bo oboczności form nie są jednak aż tak częste. W ostateczności pewnie trzeba będzie poprawiać słownik Morfologika...

Komentarze

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś

Aktualizacja słownika ortograficznego w programie LanguageTool 5.8

Przygotowałem aktualizację słownika ortograficznego stosowanego w programie LanguageTool (będzie dostępna publicznie w nowym wydaniu, 5.8, planowanym na koniec czerwca). Słownik oparty jest przede wszystkim na słownikach dostępnych na sjp.pl , lecz usunąłem trochę mylących wpisów (np. niezalecaną formę „ grejfrut ”) i dodałem trochę funkcji (typu wyrazy pisane z łącznikiem), które są potrzebne. Zdumiało mnie, że poprzednia wersja słownika pochodziła z roku 2008. No cóż, ta zmiana się po prostu należała. W kolejce jest aktualizacja paczki słowników do LibreOffice/OpenOffice.