Przejdź do głównej zawartości

Wykrywane błędy

Oto lista błędów, jakie wykrywa najnowsza wersja LanguageTool, 0.9 (listę wygenerowano i posortowano 20 maja 2007). Poniżej rodzaje błędów i przykłady z zaznaczonymi błędnymi fragmentami. W wypadku niektórych reguł podano proponowane poprawki (nie zawsze możliwe jest zasugerowanie poprawki, a niżej jest tylko wybór - w postaci rozwijanej, wystarczy kliknąć nazwę kategorii).
Liczba reguł: 569
W tym z podpowiedziami: 525

Błędy fonetyczne

Błędy frazeologiczne

Błędy interpunkcyjne

Błędy leksykalne

Błędy odmiany

Błędy ortograficzne

Błędy rodzaju gramatycznego

Błędy różne

Błędy składniowe

Błędy typograficzne

Błędy w szyku wyrazów

Pleonazmy

Prawdopodobne literówki

Wyrazy modne i nadużywane

Komentarze

Anonimowy pisze…
Oprócz pełnej listy przydałaby się jeszcze informacja, co nowego w wersji 0.8.6 w stosunku do wersji 0.8.5.
Anonimowy pisze…
W "mimo że" i podobnych zwrotach nie stawia się przecinków:
http://so.pwn.pl/zasady.php?id=629776
witia: to prawda, to właśnie mówi reguła 4. :)
ts - jak pokaże się nowa wersja, to będzie informacja, co nowego :) Na razie jest tylko w CVS.
Anonimowy pisze…
Upps, myślałem, że 4 punkt sugeruje taką formę. Kajam się.
Anonimowy pisze…
Gratuluję projektu.
Testowałem regułę 30 z błędów składniowych.
Używać + Dopełniaćz

Program wprawdzie znajduję błąd w zdaniu
Używam książkę.

Reguła nie działa już w odmianach:
Używam dobrą książkę.
Używam tę książkę.
Długo tę książkę używam.

Reguła też nie działa dla rzeczowników rodzaju męskiego.
Np: Używam młotek.

Nie jestem całkiem pewny czy regułę w grammar.xml można jeszcze uzupełnić, czy też poprostu ten rodzaj korektury już osiągną swoją granicę.
Czyli czy można znaleźć błędy składniowe bez głebokiej analizy składniowej?
W tym przykładzie relatywnie proste grupowanie "chunking" może by już pomogło [dobrą ksiązkę]=Biernik.
Chociąż w polskim zawsze trzeba brać pod uwagę, że kolejność wyrazów w zdaniu jest prawie dowolna.
"Oni tej książki już długo używali."

Artur
Ta reguła da się ulepszyć. Prawdę mówiąc, początkowo też sądziłem, że sprawa jest raczej beznadziejnie skomplikowana, ale po sformalizowaniu kilku reguł interpunkcyjnych (w istocie znacznie bardziej złożonych, niż podają w książkach), jestem dobrej myśli.

Postaram się poprawić tę regułę i może już będzie w nowej wersji (na Nowy Rok pewnie będziemy mieli 0.8.7).
Anonimowy pisze…
Ciekawy projekt. Jednak zastanawia mnie dlaczego niby forma "kliknąć na" jest niepoprawna. Ten, kto to wymyślił chyba w życiu nie widział komputera ze środowiskiem windowsowatym. Nawet w języku angielskim (z którego ten zwrot jest wzięty) mówi się "click on sth." a nie "click in" czy "into". Jakiś Miodek się o tym wypowiadał czy co?
Nie Miodek, tylko terminolog firmy Microsoft. Radzę dokładniej przyjrzeć się pomocy w systemie Windows.

Wiem, bo sam jestem zawodowym tłumaczem informatyki (w tym kawałków systemu Windows), z dziesięcioletnim doświadczeniem i naprawdę się na tym znam. - Autor morfologika :)
Unknown pisze…
Wykrywanie nie zawsze działa poprawnie. niektóre błędy są liczone podwójnie np:

Nie rozumiał tego właśnie że upadł na głowę.

W powyższym zdaniu narzędzie wykrywa 2 błędy:

1. Należy postawić przecinek w zależności od intonacji i sensu zdania: „tego właśnie, że” lub „tego, właśnie że.”

po kliknięciu "zmień" mamy:

Nie rozumiał tego właśnie, że upadł na głowę.

wtedy narzędzie pokazuje drugi błąd który już jest nieaktualny.

2. Przed spójnikiem „że” stawiamy przecinek: właśnie, że.

Nie byłby to może problem gdyby program nie ignorował pierwszej litery, bo obecnie zamienia "łaśnie że" na "właśnie, że" skutkiem czego pojawia się podwójne "w"

Nie rozumiał tego wwłaśnie, że upadł na głowę.

P.S.
przydałby się jakiś odnośnik do zgłaszania błędówf
Witam,

zrobię miejsce do zgłaszania błędów.

Do rzeczy:

1. Rzeczywiście, poprawianie tekstu powoduje zaburzenie działania LT. To zniknie jednak w momencie wyposażenia OOo w dodatkowe funkcje (zapewne jeszcze w połowie tego roku). Niespecjalnie to jest zależne od nas.

2. Co do podwójnego wykrywania, to zaraz to naprawię i nie będzie w następnej wersji.

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś

Wikipedia history diff as a revision corpus

(As this is of interest not only to the Polish-speaking community, this post is in English.) Recently, after some discussions on the lingucomponent list at OpenOffice.org on the method of finding frequent typos, I did some experiments on the revision history logs. Background. The developers of grammar checkers, and autocorrect lists, have hard times with finding relevant corpora. Revision history is an excellent source about native speakers perception of linguistic norms. Frequently revised typos are perceived as errors that need to be corrected, so using these typos on autocorrect lists is justified. The same goes for style, grammar and usage errors. Method . Experiments involved three steps: Clean the history dump (??wiki-latest-pages-meta-history.xml), to get only relevant parts of the dump. Using XML tools isn't recommended (I tried XSLT, forget it). Using a simple awk script, I was able to clean the > 30GB dump in an hour or so, and got a >17 GB file. The script is simp