Jedną z trudności w pisaniu reguł korektora LT jest to, że wiele przyimków i form gramatycznych wynika w zdaniu z walencyjności czasowników. Spróbujmy na przykład odróżnić użycie "nazbyt" od "na zbyt":
Do korekty gramatycznej, przynajmniej w LT, przydatne najbardziej obecnie byłyby informacje o przyimkach i przypadkach wymaganych przez czasowniki.Nieco mniejsze znaczenie mają informacje o kategorii semantycznej argumentów (np. osoba, rzecz, proces...), gdyż anotacja za pomocą polskiej sieci semantycznej, choćby rozwijanej w ramach projektu słownika synonimów, jest dopiero w fazie marzeń. Na dodatek nie wszyscy zgadzają się, jak faktycznie należałoby wykrywać walencyjność semantyczną (tzw. teorie kognitywne zwykle są - niestety - nawrotem do topornego mentalizmu i introspekcjonizmu). Zajmijmy się więc morfosyntaktyczną walencyjnością.
Istnieją oczywiście rozmaite słowniki wydane drukiem, choćby siedmiotomowy Słownik syntaktyczno-generatywny czasowników polskich, t. 1-7, red. K. Polański, Kraków 1980-1993. Prawa autorskie i brak czasu (skanowanie!) powodują, że wykorzystanie ich jest kłopotliwe. Szczęście, że w wersji przeglądrki Poliqarp z rozszerzeniami statystycznymi stosunkowo łatwo wyłapać informacje morfosyntaktyczne: wystarczy odpowiednio zadać zapytanie i filtrować wedle częstości. Oczywiście, ogólne zapytanie spowoduje zastój (za dużo pamięci potrzeba do jego wykonania), lecz można pytać po kolei o różne przypadki, przyimki i czasowniki zaczynające się od kolejnych liter alfabetu. Projektuję obecnie serię prostych skryptów; trzeba będzie parę dni to generować. Oczywiście, przełomem to w polskiej lingwistyce nigdy nie będzie, ale pozwoli wyeliminować część fałszywych alarmów.
- Ten idiota awansował na zbyt eksponowane stanowisko.
- Objął nazbyt eksponowane stanowisko.
Do korekty gramatycznej, przynajmniej w LT, przydatne najbardziej obecnie byłyby informacje o przyimkach i przypadkach wymaganych przez czasowniki.Nieco mniejsze znaczenie mają informacje o kategorii semantycznej argumentów (np. osoba, rzecz, proces...), gdyż anotacja za pomocą polskiej sieci semantycznej, choćby rozwijanej w ramach projektu słownika synonimów, jest dopiero w fazie marzeń. Na dodatek nie wszyscy zgadzają się, jak faktycznie należałoby wykrywać walencyjność semantyczną (tzw. teorie kognitywne zwykle są - niestety - nawrotem do topornego mentalizmu i introspekcjonizmu). Zajmijmy się więc morfosyntaktyczną walencyjnością.
Istnieją oczywiście rozmaite słowniki wydane drukiem, choćby siedmiotomowy Słownik syntaktyczno-generatywny czasowników polskich, t. 1-7, red. K. Polański, Kraków 1980-1993. Prawa autorskie i brak czasu (skanowanie!) powodują, że wykorzystanie ich jest kłopotliwe. Szczęście, że w wersji przeglądrki Poliqarp z rozszerzeniami statystycznymi stosunkowo łatwo wyłapać informacje morfosyntaktyczne: wystarczy odpowiednio zadać zapytanie i filtrować wedle częstości. Oczywiście, ogólne zapytanie spowoduje zastój (za dużo pamięci potrzeba do jego wykonania), lecz można pytać po kolei o różne przypadki, przyimki i czasowniki zaczynające się od kolejnych liter alfabetu. Projektuję obecnie serię prostych skryptów; trzeba będzie parę dni to generować. Oczywiście, przełomem to w polskiej lingwistyce nigdy nie będzie, ale pozwoli wyeliminować część fałszywych alarmów.
Komentarze
Informacje walencyjne są jeszcze obecne w "Innym słowniku" Mirosława Bańko. (Natomiast Polański to chyba "tylko" 5 tomów, które ukazywały się w latach 1980-1992.)
Podobne szybkie i zgrubne generowanie ram walencyjnych na podstawie zapytań morfosyntaktycznych podobnych do proponowanych zapytań poliqarpowych można znaleźć w komercyjnym systemie Word Sketch.
Pozdrawiam,
Adam P.
A co do samych słowników, to chyba jeszcze jest stosunkowo niedawno wydany w Universitasie Praktyczny słownik łączliwości... Stanisława Mędaka.