7.6.06

Dwa poziomy korekty stylistycznej

Tradycyjne korektory gramatyczne i stylistyczne operują na poziomie pojedynczego zdania (rzadziej: akapitu). Natomiast w polszczyźnie istnieją trzy rodzaje błędów występujących na poziomie nie tylko pojedynczych zdań, akapitów, ale nawet całego tekstu:
  1. powtórzenia wyrazów – błędem są powtórzenia tych samych sformułowań czy wyrazów w sąsiedztwie, ale też nasycenie takimi samymi środkami stylistycznymi całego tekstu jest niewłaściwe;
  2. rymy wewnątrz zdań i akapitów;
  3. za długie zdania, za długie akapity, za długie wyrazy (te też mogą być zbyt trudne do czytania).
Pierwszy rodzaj błędów można wychwycić przez analizę frekwencyjną pojedynczych wyrazów oraz n-tek wyrazów (zapewne najczęściej dwójek i trójek uporządkowanych). Innymi słowy, mogą tu zadziałać standardowe algorytmy wykrywania kolokacji. Jest to hipoteza do sprawdzenia; dokładniej – należałoby sprawdzić, czy zbyt częste powtórzenia jednostki n w małym fragmencie tekstu są widoczne na tle częstości innych jednostek. Zapewne są; test należałoby przeprowadzać, zmieniając stopniowo „okno”, czyli długość testowanego tekstu – od zdania, po zdania sąsiadujące, przez akapit, po cały tekst.

Drugi rodzaj błędów jest nieco niższego poziomu, bo nie liczą się rymy między tytułem a ostatnim wyrazem np. w książce o objętości 200 stron maszynopisu. Dla języka polskiego prawdopodobnie wystarczy sprawdzenie, czy pokrywają się końcówki wyrazów (pokrywanie należy sprawdzać przy użyciu odpowiednio zdefiniowanej relacji podobieństwa fonetycznego). Wstępnie wydaje mi się, że w grę wchodzi podobieństwo co najmniej czterech ostatnich głosek. Nie mogę znaleźć jednak żadnych bardziej formalnych prac na ten temat. Za wszelkie komentarze będę wdzięczny.

Trzeci rodzaj błędów jest wykrywany przez niektóre korektory, a nawet proste makra do Ooo.

Brak komentarzy: