Po przygotowaniach przeprowadziłem kilka eksperymentów. I tak okazało się, że poprzedni algorytm był po prostu błędny – generował miliony plików w jednym katalogu. Zamiast tego najpierw „oczyszczam” tekst wiki ze znaczników (na razie nadal są różne brudy), dzieląc go na poszczególne wyrazy i zapisuję do specjalnego pliku pośredniego ze znacznikami startu i końca poszczególnej poprawki. Zajął on około 20 GB. Następnie porównuję kolejne wersje artykułu standardowym poleceniem diff (w trzecim skrypcie). W efekcie powstaje korpus w dosyć standardowym formacie ujednoliconym (jak dla polecenia patch czy CVS). Nadal powstaje, więc nie wiem, jak będzie wielki, ale raczej będzie mniejszy, może kilkaset megabajtów? Z tego korpusu można wydobywać różne rodzaje zmian – na razie ignoruję w eksperymentach komentarze, ale może będzie warto to też uwzględnić. Udaje mi się wyczytać różne rodzaje poprawek literówek czy błędów ortograficznych (sie → się): na razie badam pojedyncze wyrazy, ale może będ...
Strona projektu morfologik - analizator morfologiczny + słownik morfologiczny + korektor gramatyczny + biblioteki