Przejdź do głównej zawartości

Interpunkcja

Zacząłem formalizować zasady polskiej interpunkcji. Wiedziałem, że to nie będzie proste, więc nie spieszyło mi się z tym. Komplikacje wynikają z tego, że polska interpunkcja częściowo opiera się na kryterium składniowym, częściowo intonacyjnym, a w dodatku istnieje szereg reguł dodatkowych (na przykład reguła cofania przecinka w wypadku zbiegu dwóch spójników w tzw. spójniku zestawionym). Co prawda, znakomity Słownik interpunkcyjny prof. Podrackiego pomaga mi na co dzień, ale przekształcenie zawartej w nim wiedzy nie jest zadaniem banalnym (zwłaszcza że nie wszystkie wyjątki obejmuje). Trudność szczególna wiąże się z wyrazami, które inaczej oddziela się w zdaniach złożonych, a inaczej traktuje w zdaniu pojedynczym:

Kup mi chociaż dwie bułki!

ale:

Kupił mi dwie bułki, chociaż groszem nie śmierdzi.

Innym problemem są wyrazy takie jak „jednak”, „bowiem”, „zaś”: można je umieszczać w różnej odległości od przecinka (szyk przestawny), więc trudno zbudować właściwą podpowiedź dla użytkownika. Czary goryczy dopełnia interpunkcja zdań takich jak:

Marek, który kupuje zdechłe koty, obdziera je ze skóry i produkuje kocie futra.

Chodzi oczywiście o przecinek przed „obdziera”.

Mimo to już zaprojektowałem w miarę znośne reguły dla prostych spójników, dla „żeby” i jego kolegów, dla „gdy” i „kiedy”...

Dotychczas dla języka polskiego nie istniał żaden skuteczny system poprawiania interpunkcji. Co prawda, w programie Microsoft Word (używam wersji 2000) istnieje korektor gramatyczny, ale reguły interpunkcyjne w nim zawarte są zbyt proste: każde zdanie zaczynające się od „Kiedy” chce traktować jako pytanie... Tymczasem częstszy jest błąd postawienia pytajnika na końcu zdania złożonego: „Jadzia pytała, jak się czujesz?”. Drugim uproszczeniem w istniejącym korektorze jest brak uwzględnienia niektórych spójników zestawionych (np. nie uwzględnia „a zatem”, „a więc”, „a jednak”, „niemniej przeto”, „właśnie gdy”).

Komentarze

Anonimowy pisze…
Akurat przykład z kotami jest wręcz klasyczny - przed 'obdzieram' musi być przecinek, ponieważ jest to kolejne orzeczenie... czyli poprzednie zdanie składowe (wtrącone) musiało sie zakończyć => o ile inne zasady tego nie zabraniają należy zamknąć je przecinkiem lub innym znakiem przestankowym.
Bardzo mi się podoba to, co robisz; od dawna coś podobnego chodziło mi po głowie. Czy można w jakiś sposób wspomóc ten projekt?
Anonimowy pisze…
Akurat przykład z kotami jest wręcz klasyczny - przed 'obdzieram' musi być przecinek, ponieważ jest to kolejne orzeczenie... czyli poprzednie zdanie składowe (wtrącone) musiało sie zakończyć => o ile inne zasady tego nie zabraniają należy zamknąć je przecinkiem lub innym znakiem przestankowym.
Bardzo mi się podoba to, co robisz; od dawna coś podobnego chodziło mi po głowie. Czy można w jakiś sposób wspomóc ten projekt?
To prawda, parę dni temu wpadłem na to, żeby zrobić ogólną zasadę, żeby sygnalizować błąd, jeśli między dwoma czasownikami w formie osobowej nie ma przecinka ani spójnika takiego jak "lub", "oraz", "albo", "bądź" i "i" (lista nie jest zapewne pełna). Niestety, postać takiej reguły wymaga pogrzebania w składni samego języka reguł, bo ma on jedno ograniczenie, które nie pozwala uniknąć fałszywego alarmu przy zdaniu:

"rozstanie się bywa bardzo bolesne"

gdyż wyraz "rozstanie" jest też formą czasownika "rozstać się" w czasie przyszłym (nie chodzi o rzeczownik odsłowny). Oznacza to, że w ogólnej regule należy zrobić wyjątek, ale jest to bynajmniej niełatwe, bo trzeba by też zrobić regułę wyjątkową dla czasowników, których formy pokrywają się z formami innych części mowy...

Jak można wspomóc?

- dopisując kolejne typy błędów przy wpisie "gromadzimy błędy językowe" (po lewej w menu)
- sugerując nowe kategorie wykrywanych błędów
- redagując same reguły.

Otóż same reguły będzie można zapewne redagować online, bez wchodzenia w szczegóły składni reguł, ale zanim ten system powstanie, trochę wody w Wiśle czy innej Odrze upłynie :)
Unknown pisze…
Jak formalnie oddzielić sytuacje, kiedy między dwoma zdaniami współrzędnei złożonymi stoi spójnik "i" w funkcji wynikowej (wtedy stawiamy przecinek) od sytuacji, kiedy "i" jest spójnikiem łącznym (tedy nie stawiamy przecinka)? Wyciąg z Zasad pisowni i interpunkcji [w:] Słownik ortograficzny PWN, wersja internetowa: 90.D.1.: UWAGA: Przed spójnikiem i możemy postawić przecinek, jeśli występuje on w funkcji wynikowej (można go zastąpić przez więc lub toteż), np.
Zaczęła się sesja egzaminacyjna, i wzięli się do nauki. (= więc wzięli się do nauki)
Nadszedł październik, i studenci rozpoczęli naukę. (= toteż rozpoczęli naukę).
http://so.pwn.pl/zasady.php?id=629784
Wydaje się, że orzekamy o tym, jaką funkcję pełni spójnik "i", na podstawie treści zdań, co wyklucza mozliwość formalizacji.
Olga
Cóż, prawdopodobnie się nie da, ale chciałbym zwrócić uwagę na sformułowanie reguły: "możemy postawić przecinek", co oznacza, że nie musimy.

Ja w swoich regułach dążę do ujednolicania i maksymalnego upraszczania; osoba, która ma pojęcie o takiej możliwości użycia spójnika "i", nie usunie przed nim przecinka; a ten, kto usunie pod wpływem sugestii korektora, i tak błędu nie popełni. I wilk syty, i owca cała.
Unknown pisze…
Takie sformułowanie reguł jest wadą "Słownika ortograficznego": w nadrzędnym sformułowaniu mówi się "przecinkami rozdzielamy" (90.D.1; 90.E.1), a niżej w uwadzę "możemy postawić przecinek". Cóż tu powiedzieć: filolodzy!
Dla mnie autorytetem jest słownik Jerzego Podrackiego, który też potwierdza fakultatywność przecinka przed "i" w funkcji wynikowej. Natomiast najczęściej trzeba postawić przecinek przed "i tak", "i to", "i kwita", "i już", "i owszem", "i koniec". Uwzględnię to w wersji 0.9 LT.
Anonimowy pisze…
a jak będzie w zdaniu :

"Wiadomo bowiem że ..."
przecinek bedzie przed bowiem czy po? mysle, ze przez akcent powienien byc po.
Webownia pisze…
Słówko "bowiem" jest niesamowicie problematyczne w kwestii interpunkcji. Przyznaję, że i ja czasem mam z tym problem. Fajnie, że ktoś podjął taki temat na swoim blogu ;)
Pozdrawiam!

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś

Wikipedia history diff as a revision corpus

(As this is of interest not only to the Polish-speaking community, this post is in English.) Recently, after some discussions on the lingucomponent list at OpenOffice.org on the method of finding frequent typos, I did some experiments on the revision history logs. Background. The developers of grammar checkers, and autocorrect lists, have hard times with finding relevant corpora. Revision history is an excellent source about native speakers perception of linguistic norms. Frequently revised typos are perceived as errors that need to be corrected, so using these typos on autocorrect lists is justified. The same goes for style, grammar and usage errors. Method . Experiments involved three steps: Clean the history dump (??wiki-latest-pages-meta-history.xml), to get only relevant parts of the dump. Using XML tools isn't recommended (I tried XSLT, forget it). Using a simple awk script, I was able to clean the > 30GB dump in an hour or so, and got a >17 GB file. The script is simp