Przejdź do głównej zawartości


Wyświetlanie postów z styczeń, 2007

Wikipedia history diff as a revision corpus

(As this is of interest not only to the Polish-speaking community, this post is in English.) Recently, after some discussions on the lingucomponent list at on the method of finding frequent typos, I did some experiments on the revision history logs. Background. The developers of grammar checkers, and autocorrect lists, have hard times with finding relevant corpora. Revision history is an excellent source about native speakers perception of linguistic norms. Frequently revised typos are perceived as errors that need to be corrected, so using these typos on autocorrect lists is justified. The same goes for style, grammar and usage errors. Method . Experiments involved three steps: Clean the history dump (??wiki-latest-pages-meta-history.xml), to get only relevant parts of the dump. Using XML tools isn't recommended (I tried XSLT, forget it). Using a simple awk script, I was able to clean the > 30GB dump in an hour or so, and got a >17 GB file. The script is simp

LanguageTool 0.8.7 na Nowy Rok!

Na Nowy Rok przygotowaliśmy nową wersję LanguageTool. Oto kilka nowości: litewskie reguły interpunkcyjne, więcej polskich reguł ( lista wykrywanych błędów ), tłumaczenie na francuski i słoweński, usunięcie kilku istotnych błędów (niedostrzegalnych w wersji polskiej na komputerach z polskim systemem operacyjnym). Instalacja: W programie 2.x Kliknij polecenie Narzędzia > Menedżer pakietów > Dodaj , a następnie wybierz plik (bez rozpakowywania). Po otwarciu nowego okna edytora Writer (naciśnij klawisze Ctrl+N) w menu pojawi się nowe menu LanguageTool , które zawiera polecenie Sprawdź tekst ... służące do sprawdzania tekstu. Bez programu Rozpakuj archiwum i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.ja