Przejdź do głównej zawartości

Posty

Wyświetlanie postów z grudzień, 2006

Korpus poprawek z polskiej Wikipedii

Po przygotowaniach przeprowadziłem kilka eksperymentów. I tak okazało się, że poprzedni algorytm był po prostu błędny – generował miliony plików w jednym katalogu. Zamiast tego najpierw „oczyszczam” tekst wiki ze znaczników (na razie nadal są różne brudy), dzieląc go na poszczególne wyrazy i zapisuję do specjalnego pliku pośredniego ze znacznikami startu i końca poszczególnej poprawki. Zajął on około 20 GB. Następnie porównuję kolejne wersje artykułu standardowym poleceniem diff (w trzecim skrypcie). W efekcie powstaje korpus w dosyć standardowym formacie ujednoliconym (jak dla polecenia patch czy CVS). Nadal powstaje, więc nie wiem, jak będzie wielki, ale raczej będzie mniejszy, może kilkaset megabajtów? Z tego korpusu można wydobywać różne rodzaje zmian – na razie ignoruję w eksperymentach komentarze, ale może będzie warto to też uwzględnić. Udaje mi się wyczytać różne rodzaje poprawek literówek czy błędów ortograficznych (sie → się): na razie badam pojedyncze wyrazy, ale może będ

Wikipedia jako korpus poprawek

Jedną z metod tworzenia korektorów gramatycznych i stylistycznych jest wykorzystywanie korpusu błędów, o czym już tutaj pisałem. Najciekawsze są jednak korpusy błędów poprawionych. I tutaj można wykorzystać gigantyczne zasoby Wikipedii. Pełne archiwa zmian w polskich stronach zajmują około 30 GB, przy czym polscy administratorzy wprowadzili pasek dla redaktorów, z którego łatwo wybrać opis czynności redakcyjnej – czyli np. „ort.” czy „lit.”. Pracuję obecnie nad zbudowaniem machiny do przeszukiwania tego archiwum, a ściślej rzecz biorąc – nad wydobyciem wszystkich zmian typu poprawienie literówki itd. Narzędzia do obróbki XML (archiwum meta-history Wikipedii jest w formacie XML) nie nadają się dla tak wielkich plików. Dlatego też używam prostego skryptu w AWK, szybkim i dobrym do tego celu narzędziu. Skrypt generuje pojedyncze pliki dla wszystkich poprawek danej strony. Następnie generuje skrypt bash, który określa, że pliki mają być porównywane standardowym narzędziem diff (ta część ni

LanguageTool 0.8.6

Do pobrania ( tutaj ) jest najnowsza wersja korektora LanguageTool. Oto garść nowości: interfejs został zasadniczo przetłumaczony (również na polski: widoczny język zależy od aktualnego ustawienia języka systemu operacyjnego); poprawiono wiele reguł dla języka polskiego i dodano nowe – łącznie jest już ich 365 ; dodano obsługę języka niderlandzkiego, wraz z 82 regułami dla tego języka; wprowadzono początkową obsługę dla litewskiego; ładniejsza ikonka; usunięto kilka błędów (m.in. prowadzących do zawieszenia OpenOffice.org). Instalacja: W programie OpenOffice.org 2.x Kliknij polecenie Narzędzia > Menedżer pakietów > Dodaj , a następnie wybierz plik LanguageTool-0.6.5.zip (bez rozpakowywania). Po otwarciu nowego okna edytora OpenOffice.org Writer (naciśnij klawisze Ctrl+N) w menu pojawi się nowe menu LanguageTool , które zawiera polecenie Sprawdź tekst ... służące do sprawdzania tekstu. Bez programu OpenOffice.org Rozpakuj archiwum i uruchom plik LanguageToolGui.jar, klikając g