Przejdź do głównej zawartości

Słownik walencyjny a korekta gramatyczna

Jedną z trudności w pisaniu reguł korektora LT jest to, że wiele przyimków i form gramatycznych wynika w zdaniu z walencyjności czasowników. Spróbujmy na przykład odróżnić użycie "nazbyt" od "na zbyt":

  • Ten idiota awansował na zbyt eksponowane stanowisko.
  • Objął nazbyt eksponowane stanowisko.
Chodzi więc o to, żeby wykrywać niepoprawne wersje tych zdań. Jest to jednak niesłychanie trudne bez zgrubnego choćby słownika walencyjnego - potrzebnego zresztą do wielu zadań lingwistyki komputerowej. Problem w tym, że takich wolnodostępnych zasobów nie ma. Najmniejszy (stosunkowo) kłopot jest z obmyśleniem nowych znaczników do anotowania takich form (choć w obecnych teoriach panuje tu ogromny rozgardiasz). Większy jest z ich anotowaniem - czyli pozyskaniem takich informacji.
Do korekty gramatycznej, przynajmniej w LT, przydatne najbardziej obecnie byłyby informacje o przyimkach i przypadkach wymaganych przez czasowniki.LinkNieco mniejsze znaczenie mają informacje o kategorii semantycznej argumentów (np. osoba, rzecz, proces...), gdyż anotacja za pomocą polskiej sieci semantycznej, choćby rozwijanej w ramach projektu słownika synonimów, jest dopiero w fazie marzeń. Na dodatek nie wszyscy zgadzają się, jak faktycznie należałoby wykrywać walencyjność semantyczną (tzw. teorie kognitywne zwykle są - niestety - nawrotem do topornego mentalizmu i introspekcjonizmu). Zajmijmy się więc morfosyntaktyczną walencyjnością.

Istnieją oczywiście rozmaite słowniki wydane drukiem, choćby siedmiotomowy Słownik syntaktyczno-generatywny czasowników polskich, t. 1-7, red. K. Polański, Kraków 1980-1993. Prawa autorskie i brak czasu (skanowanie!) powodują, że wykorzystanie ich jest kłopotliwe. Szczęście, że w wersji przeglądrki Poliqarp z rozszerzeniami statystycznymi stosunkowo łatwo wyłapać informacje morfosyntaktyczne: wystarczy odpowiednio zadać zapytanie i filtrować wedle częstości. Oczywiście, ogólne zapytanie spowoduje zastój (za dużo pamięci potrzeba do jego wykonania), lecz można pytać po kolei o różne przypadki, przyimki i czasowniki zaczynające się od kolejnych liter alfabetu. Projektuję obecnie serię prostych skryptów; trzeba będzie parę dni to generować. Oczywiście, przełomem to w polskiej lingwistyce nigdy nie będzie, ale pozwoli wyeliminować część fałszywych alarmów.

Komentarze

Unknown pisze…
W IPI PAN trwa projekt, którego celem jest automatyczne wydobycie informacji walencyjnych z Korpusu IPI PAN. Planujemy udostępnić wyniki tego projektu bezpłatnie, ale zapewne ich jakość nie będzie najwyższa...

Informacje walencyjne są jeszcze obecne w "Innym słowniku" Mirosława Bańko. (Natomiast Polański to chyba "tylko" 5 tomów, które ukazywały się w latach 1980-1992.)

Podobne szybkie i zgrubne generowanie ram walencyjnych na podstawie zapytań morfosyntaktycznych podobnych do proponowanych zapytań poliqarpowych można znaleźć w komercyjnym systemie Word Sketch.

Pozdrawiam,

Adam P.
To znakomita wiadomość, że takie dane będą dostępne bezpłatnie! W takim razie zapewne nie zapuszczę moich prostych zapytań, tylko poczekam na wyniki ;) I tak mam mnóstwo dłubania w bazie danych tworzącej słownik morfologiczny.

A co do samych słowników, to chyba jeszcze jest stosunkowo niedawno wydany w Universitasie Praktyczny słownik łączliwości... Stanisława Mędaka.

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś

Wikipedia history diff as a revision corpus

(As this is of interest not only to the Polish-speaking community, this post is in English.) Recently, after some discussions on the lingucomponent list at OpenOffice.org on the method of finding frequent typos, I did some experiments on the revision history logs. Background. The developers of grammar checkers, and autocorrect lists, have hard times with finding relevant corpora. Revision history is an excellent source about native speakers perception of linguistic norms. Frequently revised typos are perceived as errors that need to be corrected, so using these typos on autocorrect lists is justified. The same goes for style, grammar and usage errors. Method . Experiments involved three steps: Clean the history dump (??wiki-latest-pages-meta-history.xml), to get only relevant parts of the dump. Using XML tools isn't recommended (I tried XSLT, forget it). Using a simple awk script, I was able to clean the > 30GB dump in an hour or so, and got a >17 GB file. The script is simp