Zgromadzenie materiału językowego, w którym błędy językowe są statystycznie istotne, nie jest najłatwiejsze: normę językową definiuje się zwykle jako pewną idealizację najczęściej używanych form językowych wśród wykształconej części użytkowników języka . Innymi słowy, normą w polszczyźnie jest język wykształconych elit. To jednak nie znaczy, że np. wszystkie wyrażenia gwarowe automatycznie kwalifikują się jako błędy. Błędem językowym jest podzbiór tych form językowych, które są rzadko używane przez wykształconych użytkowników języka i które oni uznają powszechnie za błędy. Dodatkowym kryterium może być uznanie za błąd przez odpowiednie ciało (np. Radę Języka Polskiego), lecz takie kryterium jest czysto konwencjonalne i nie sposób go uchwycić w czysto ilościowej analizie danych lingwistycznych z korpusu. Problemem dla lingwistyki komputerowej jest więc zebranie materiału najeżonego częstymi błędami językowymi. Obecnie istniejące korpusy języka polskiego (korpus PWN, korpus IPI PAN, korp