Korpus błędów językowych

Zgromadzenie materiału językowego, w którym błędy językowe są statystycznie istotne, nie jest najłatwiejsze: normę językową definiuje się zwykle jako pewną idealizację najczęściej używanych form językowych wśród wykształconej części użytkowników języka. Innymi słowy, normą w polszczyźnie jest język wykształconych elit.
To jednak nie znaczy, że np. wszystkie wyrażenia gwarowe automatycznie kwalifikują się jako błędy. Błędem językowym jest podzbiór tych form językowych, które są rzadko używane przez wykształconych użytkowników języka i które oni uznają powszechnie za błędy. Dodatkowym kryterium może być uznanie za błąd przez odpowiednie ciało (np. Radę Języka Polskiego), lecz takie kryterium jest czysto konwencjonalne i nie sposób go uchwycić w czysto ilościowej analizie danych lingwistycznych z korpusu.
Problemem dla lingwistyki komputerowej jest więc zebranie materiału najeżonego częstymi błędami językowymi. Obecnie istniejące korpusy języka polskiego (korpus PWN, korpus IPI PAN, korpus frekwencyjny polszczyzny lat 60.) ograniczają się do poprawnych form językowych. Wyszukanie w korpusie wyrażeń dotyczących błędów (np. „nie mówi się...”) nie da zbyt interesujących rezultatów, gdyż istniejące korpusy są zbyt małe. Innymi słowy, nie można liczyć na czysto językowe wskaźniki błędu językowego.
Można jednak zastosować, przynajmniej w ograniczonym zakresie, wyszukiwarki internetowe w roli wyszukiwarek korpusu kolokwialnej i najeżonej błędami polszczyzny. Odpowiednie zapytanie do wyszukiwarki Google brzmi tak:

pytanie site:blog.onet.pl

W odpowiedzi choćby na takie pytanko Google podaje interesujące liczby. I tak forma „po za tym” występuje 47 tysięcy razy, zlepek „pozatym” prawie 70 tysięcy razy, a poprawna „poza tym” - 279 tysięcy razy. Innymi słowy, błędy stanowią bardzo widoczny statystycznie odsetek w blogach pisanych na tym portalu. Nie jest to regułą dla blogów w ogóle, gdyż dla domeny blogspot.com liczby kształtują się zgoła inaczej – 11 tysięcy wystąpień formy poprawnej, 34 wystąpienia formy błędnej „po za tym”, 388 wystąpienia zlepku „pozatym”. (W wypadku poza tym reguła korektora gramatycznego powinna wyszukiwać tylko „po za tym”, gdyż formę pozatym wyłapie już zwykły korektor pisowni).
Podsumowując, pewna podgrupa najpopularniejszych blogów może stanowić ciekawy materiał do badań językoznawczych nad błędami językowymi. Można też nie wybierać różnych blogów, tylko dać takie zapytanie:

inurl:blog pytanie

Inną metodą gromadzenia częstych błędów jest współpraca z redakcją dużej gazety (tak robili m.in. szwedzcy lingwiści): korektorzy oznaczaliby błędy wychwycone z tekstów przed drukiem. Podobnie mogą czynić np. korektorzy dużych biur tłumaczeń. Może uda się z kimś takim nawiązać współpracę przy tworzeniu reguł dla naszego korektora.
Warto przy okazji wspomnieć publikacje, które zawierają specjalnie wybrane typowe błędy z prasy – tu klasyczną pozycją jest książka Walerego Pisarka Słownik języka niby-polskiego, czyli błędy językowe w prasie. To jednak dziełko z lat 70. Prowadzone były w Polsce później badania nad błędami językowymi wśród młodzieży (prof. Edward Polański) w ramach grantu KBN „Błędy językowe a współczesna polszczyzna”, ale oddzielna, zwarta publikacja na ten temat, o ile mi wiadomo, nie powstała.

Komentarze

Anonimowy pisze…

Jeśli chodzi o prasę to piszą tam ludzie specjalnie do tego przygotowani, oczywiście i oni nie mogą się ustrzec błędów. Dlatego potrzebna jest korekta.
W internecie na www publikować może każdy. Nie musi mieć nawet wiedzy o tworzeniu stron www. Dzięki serwisom blogowym każdy, kto potrafi wysłać formularz (i czasem wysłać SMS), może bezproblemowo umieścić dowolną treść.
Niechlujne pisanie powoduje błędy. Inne osoby czytające niechlujne wpisy zarażają się tymi błędami. Powielają te błędy w swoich wpisach.
Rozwiązaniem może być zaststosowanie narzędzi do sprawdzania pisowni standardowo w przeglądarkach internetowych (i nie tylko). Idealnie byłoby gdyby tekstu z błędami nie można byłoby opublikować, hehe.

14.7.06

Marcin Miłkowski pisze…

W wersji 2.0 przeglądarki Firefox korektor pisowni będzie wbudowany domyślnie. To wyeliminuje może trochę tej radosnej twórczości.

W prasie też zdarzają się niezłe wpadki, o czym świadczy cała książką W. Pisarka. Naprawdę straszne przykłady przytacza.

14.7.06

Anonimowy pisze…

W trakcie pisania swojej pracy inżynierskiej próbowałem się skontaktować z biurami tłumaczeń itp. ale niestety nie przyniosło to żadnego rezultatu.

Wygląda na to, że biura takie nie wierzą w możliwość ulepszenia poprawy pisowni.

Możliwe, że przygotowanie sposobu w jaki pracownicy tych biur mogliby notować te błędy bez dużej straty czasu, przekonałoby ich do tego pomysłu.

30.9.07

Morfologik

Szukaj na tym blogu

Korpus błędów językowych

Komentarze

Popularne posty z tego bloga

Gromadzimy błędy językowe

Imiesłów przysłówkowy bez orzeczenia

Zgłaszanie błędów