Wikipedia jako korpus poprawek

Jedną z metod tworzenia korektorów gramatycznych i stylistycznych jest wykorzystywanie korpusu błędów, o czym już tutaj pisałem. Najciekawsze są jednak korpusy błędów poprawionych.

I tutaj można wykorzystać gigantyczne zasoby Wikipedii. Pełne archiwa zmian w polskich stronach zajmują około 30 GB, przy czym polscy administratorzy wprowadzili pasek dla redaktorów, z którego łatwo wybrać opis czynności redakcyjnej – czyli np. „ort.” czy „lit.”.

Pracuję obecnie nad zbudowaniem machiny do przeszukiwania tego archiwum, a ściślej rzecz biorąc – nad wydobyciem wszystkich zmian typu poprawienie literówki itd. Narzędzia do obróbki XML (archiwum meta-history Wikipedii jest w formacie XML) nie nadają się dla tak wielkich plików. Dlatego też używam prostego skryptu w AWK, szybkim i dobrym do tego celu narzędziu. Skrypt generuje pojedyncze pliki dla wszystkich poprawek danej strony. Następnie generuje skrypt bash, który określa, że pliki mają być porównywane standardowym narzędziem diff (ta część nie jest jeszcze gotowa). Trzecim elementem będzie skrypt, który z wielkiego archiwum poprawek w formacie ujednoliconym diff będzie wydobywać zmiany typu poprawka, usunięcie i wstawka. Zaprogramowanie tego skryptu w AWK nie wydaje się specjalnie trudne.

To rozwiązanie prawdopodobnie przyda się także wszystkim innym projektom Wikipedii, nie wspominając o innych korektorach gramatycznych.

Morfologik

Szukaj na tym blogu

Wikipedia jako korpus poprawek

Etykiety

Komentarze

Popularne posty z tego bloga

Gromadzimy błędy językowe

Imiesłów przysłówkowy bez orzeczenia

Zgłaszanie błędów