Przejdź do głównej zawartości

Korpus błędów językowych

Zgromadzenie materiału językowego, w którym błędy językowe są statystycznie istotne, nie jest najłatwiejsze: normę językową definiuje się zwykle jako pewną idealizację najczęściej używanych form językowych wśród wykształconej części użytkowników języka. Innymi słowy, normą w polszczyźnie jest język wykształconych elit.
To jednak nie znaczy, że np. wszystkie wyrażenia gwarowe automatycznie kwalifikują się jako błędy. Błędem językowym jest podzbiór tych form językowych, które są rzadko używane przez wykształconych użytkowników języka i które oni uznają powszechnie za błędy. Dodatkowym kryterium może być uznanie za błąd przez odpowiednie ciało (np. Radę Języka Polskiego), lecz takie kryterium jest czysto konwencjonalne i nie sposób go uchwycić w czysto ilościowej analizie danych lingwistycznych z korpusu.
Problemem dla lingwistyki komputerowej jest więc zebranie materiału najeżonego częstymi błędami językowymi. Obecnie istniejące korpusy języka polskiego (korpus PWN, korpus IPI PAN, korpus frekwencyjny polszczyzny lat 60.) ograniczają się do poprawnych form językowych. Wyszukanie w korpusie wyrażeń dotyczących błędów (np. „nie mówi się...”) nie da zbyt interesujących rezultatów, gdyż istniejące korpusy są zbyt małe. Innymi słowy, nie można liczyć na czysto językowe wskaźniki błędu językowego.
Można jednak zastosować, przynajmniej w ograniczonym zakresie, wyszukiwarki internetowe w roli wyszukiwarek korpusu kolokwialnej i najeżonej błędami polszczyzny. Odpowiednie zapytanie do wyszukiwarki Google brzmi tak:

pytanie site:blog.onet.pl

W odpowiedzi choćby na takie pytanko Google podaje interesujące liczby. I tak forma „po za tym” występuje 47 tysięcy razy, zlepek „pozatym” prawie 70 tysięcy razy, a poprawna „poza tym” - 279 tysięcy razy. Innymi słowy, błędy stanowią bardzo widoczny statystycznie odsetek w blogach pisanych na tym portalu. Nie jest to regułą dla blogów w ogóle, gdyż dla domeny blogspot.com liczby kształtują się zgoła inaczej – 11 tysięcy wystąpień formy poprawnej, 34 wystąpienia formy błędnej „po za tym”, 388 wystąpienia zlepku „pozatym”. (W wypadku poza tym reguła korektora gramatycznego powinna wyszukiwać tylko „po za tym”, gdyż formę pozatym wyłapie już zwykły korektor pisowni).
Podsumowując, pewna podgrupa najpopularniejszych blogów może stanowić ciekawy materiał do badań językoznawczych nad błędami językowymi. Można też nie wybierać różnych blogów, tylko dać takie zapytanie:

inurl:blog pytanie

Inną metodą gromadzenia częstych błędów jest współpraca z redakcją dużej gazety (tak robili m.in. szwedzcy lingwiści): korektorzy oznaczaliby błędy wychwycone z tekstów przed drukiem. Podobnie mogą czynić np. korektorzy dużych biur tłumaczeń. Może uda się z kimś takim nawiązać współpracę przy tworzeniu reguł dla naszego korektora.
Warto przy okazji wspomnieć publikacje, które zawierają specjalnie wybrane typowe błędy z prasy – tu klasyczną pozycją jest książka Walerego Pisarka Słownik języka niby-polskiego, czyli błędy językowe w prasie. To jednak dziełko z lat 70. Prowadzone były w Polsce później badania nad błędami językowymi wśród młodzieży (prof. Edward Polański) w ramach grantu KBN „Błędy językowe a współczesna polszczyzna”, ale oddzielna, zwarta publikacja na ten temat, o ile mi wiadomo, nie powstała.

Komentarze

Anonimowy pisze…
Jeśli chodzi o prasę to piszą tam ludzie specjalnie do tego przygotowani, oczywiście i oni nie mogą się ustrzec błędów. Dlatego potrzebna jest korekta.
W internecie na www publikować może każdy. Nie musi mieć nawet wiedzy o tworzeniu stron www. Dzięki serwisom blogowym każdy, kto potrafi wysłać formularz (i czasem wysłać SMS), może bezproblemowo umieścić dowolną treść.
Niechlujne pisanie powoduje błędy. Inne osoby czytające niechlujne wpisy zarażają się tymi błędami. Powielają te błędy w swoich wpisach.
Rozwiązaniem może być zaststosowanie narzędzi do sprawdzania pisowni standardowo w przeglądarkach internetowych (i nie tylko). Idealnie byłoby gdyby tekstu z błędami nie można byłoby opublikować, hehe.
W wersji 2.0 przeglądarki Firefox korektor pisowni będzie wbudowany domyślnie. To wyeliminuje może trochę tej radosnej twórczości.

W prasie też zdarzają się niezłe wpadki, o czym świadczy cała książką W. Pisarka. Naprawdę straszne przykłady przytacza.
Anonimowy pisze…
W trakcie pisania swojej pracy inżynierskiej próbowałem się skontaktować z biurami tłumaczeń itp. ale niestety nie przyniosło to żadnego rezultatu.

Wygląda na to, że biura takie nie wierzą w możliwość ulepszenia poprawy pisowni.

Możliwe, że przygotowanie sposobu w jaki pracownicy tych biur mogliby notować te błędy bez dużej straty czasu, przekonałoby ich do tego pomysłu.

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś

Aktualizacja słownika ortograficznego w programie LanguageTool 5.8

Przygotowałem aktualizację słownika ortograficznego stosowanego w programie LanguageTool (będzie dostępna publicznie w nowym wydaniu, 5.8, planowanym na koniec czerwca). Słownik oparty jest przede wszystkim na słownikach dostępnych na sjp.pl , lecz usunąłem trochę mylących wpisów (np. niezalecaną formę „ grejfrut ”) i dodałem trochę funkcji (typu wyrazy pisane z łącznikiem), które są potrzebne. Zdumiało mnie, że poprzednia wersja słownika pochodziła z roku 2008. No cóż, ta zmiana się po prostu należała. W kolejce jest aktualizacja paczki słowników do LibreOffice/OpenOffice.