Przejdź do głównej zawartości

Słownik walencyjny a korekta gramatyczna

Jedną z trudności w pisaniu reguł korektora LT jest to, że wiele przyimków i form gramatycznych wynika w zdaniu z walencyjności czasowników. Spróbujmy na przykład odróżnić użycie "nazbyt" od "na zbyt":

  • Ten idiota awansował na zbyt eksponowane stanowisko.
  • Objął nazbyt eksponowane stanowisko.
Chodzi więc o to, żeby wykrywać niepoprawne wersje tych zdań. Jest to jednak niesłychanie trudne bez zgrubnego choćby słownika walencyjnego - potrzebnego zresztą do wielu zadań lingwistyki komputerowej. Problem w tym, że takich wolnodostępnych zasobów nie ma. Najmniejszy (stosunkowo) kłopot jest z obmyśleniem nowych znaczników do anotowania takich form (choć w obecnych teoriach panuje tu ogromny rozgardiasz). Większy jest z ich anotowaniem - czyli pozyskaniem takich informacji.
Do korekty gramatycznej, przynajmniej w LT, przydatne najbardziej obecnie byłyby informacje o przyimkach i przypadkach wymaganych przez czasowniki.LinkNieco mniejsze znaczenie mają informacje o kategorii semantycznej argumentów (np. osoba, rzecz, proces...), gdyż anotacja za pomocą polskiej sieci semantycznej, choćby rozwijanej w ramach projektu słownika synonimów, jest dopiero w fazie marzeń. Na dodatek nie wszyscy zgadzają się, jak faktycznie należałoby wykrywać walencyjność semantyczną (tzw. teorie kognitywne zwykle są - niestety - nawrotem do topornego mentalizmu i introspekcjonizmu). Zajmijmy się więc morfosyntaktyczną walencyjnością.

Istnieją oczywiście rozmaite słowniki wydane drukiem, choćby siedmiotomowy Słownik syntaktyczno-generatywny czasowników polskich, t. 1-7, red. K. Polański, Kraków 1980-1993. Prawa autorskie i brak czasu (skanowanie!) powodują, że wykorzystanie ich jest kłopotliwe. Szczęście, że w wersji przeglądrki Poliqarp z rozszerzeniami statystycznymi stosunkowo łatwo wyłapać informacje morfosyntaktyczne: wystarczy odpowiednio zadać zapytanie i filtrować wedle częstości. Oczywiście, ogólne zapytanie spowoduje zastój (za dużo pamięci potrzeba do jego wykonania), lecz można pytać po kolei o różne przypadki, przyimki i czasowniki zaczynające się od kolejnych liter alfabetu. Projektuję obecnie serię prostych skryptów; trzeba będzie parę dni to generować. Oczywiście, przełomem to w polskiej lingwistyce nigdy nie będzie, ale pozwoli wyeliminować część fałszywych alarmów.

Komentarze

Unknown pisze…
W IPI PAN trwa projekt, którego celem jest automatyczne wydobycie informacji walencyjnych z Korpusu IPI PAN. Planujemy udostępnić wyniki tego projektu bezpłatnie, ale zapewne ich jakość nie będzie najwyższa...

Informacje walencyjne są jeszcze obecne w "Innym słowniku" Mirosława Bańko. (Natomiast Polański to chyba "tylko" 5 tomów, które ukazywały się w latach 1980-1992.)

Podobne szybkie i zgrubne generowanie ram walencyjnych na podstawie zapytań morfosyntaktycznych podobnych do proponowanych zapytań poliqarpowych można znaleźć w komercyjnym systemie Word Sketch.

Pozdrawiam,

Adam P.
To znakomita wiadomość, że takie dane będą dostępne bezpłatnie! W takim razie zapewne nie zapuszczę moich prostych zapytań, tylko poczekam na wyniki ;) I tak mam mnóstwo dłubania w bazie danych tworzącej słownik morfologiczny.

A co do samych słowników, to chyba jeszcze jest stosunkowo niedawno wydany w Universitasie Praktyczny słownik łączliwości... Stanisława Mędaka.

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś...

Aktualizacja słownika ortograficznego w programie LanguageTool 5.8

Przygotowałem aktualizację słownika ortograficznego stosowanego w programie LanguageTool (będzie dostępna publicznie w nowym wydaniu, 5.8, planowanym na koniec czerwca). Słownik oparty jest przede wszystkim na słownikach dostępnych na sjp.pl , lecz usunąłem trochę mylących wpisów (np. niezalecaną formę „ grejfrut ”) i dodałem trochę funkcji (typu wyrazy pisane z łącznikiem), które są potrzebne. Zdumiało mnie, że poprzednia wersja słownika pochodziła z roku 2008. No cóż, ta zmiana się po prostu należała. W kolejce jest aktualizacja paczki słowników do LibreOffice/OpenOffice.