30.12.06

Korpus poprawek z polskiej Wikipedii

Po przygotowaniach przeprowadziłem kilka eksperymentów. I tak okazało się, że poprzedni algorytm był po prostu błędny – generował miliony plików w jednym katalogu. Zamiast tego najpierw „oczyszczam” tekst wiki ze znaczników (na razie nadal są różne brudy), dzieląc go na poszczególne wyrazy i zapisuję do specjalnego pliku pośredniego ze znacznikami startu i końca poszczególnej poprawki. Zajął on około 20 GB.

Następnie porównuję kolejne wersje artykułu standardowym poleceniem diff (w trzecim skrypcie). W efekcie powstaje korpus w dosyć standardowym formacie ujednoliconym (jak dla polecenia patch czy CVS). Nadal powstaje, więc nie wiem, jak będzie wielki, ale raczej będzie mniejszy, może kilkaset megabajtów?

Z tego korpusu można wydobywać różne rodzaje zmian – na razie ignoruję w eksperymentach komentarze, ale może będzie warto to też uwzględnić. Udaje mi się wyczytać różne rodzaje poprawek literówek czy błędów ortograficznych (sie → się): na razie badam pojedyncze wyrazy, ale może będzie warto badać inne rodzaje. Korpus powinien pozwalać na różnego rodzaju zestawienia.

Wygląda więc na to, że koncepcja jest dobra. W przyszłym roku więc komputery wikipedystów zwalczających literówki na całym świecie pewnie będą przetwarzać gigantyczne pliki :)

Brak komentarzy: