Morfologik

Posty

Wyświetlanie postów z kwiecień, 2009

LanguageTool 0.9.8

Dziś ukazała się nowa wersja korektora LanguageTool 0.9.8 . Podstawowe zmiany: usunięcie denerwującego problemu występującego w komputerach z systemem MacOS; zdecydowanie więcej reguł dla języka rumuńskiego (były 3, jest 160) i syntetyzator morfologiczny dla tegoż języka; więcej reguł dla włoskiego (było 5, jest 77); pierwsze reguły dla słowackiego; poprawki w obsłudze języka angielskiego i polskiego; więcej opcji w wypadku używania LanguageTool z poziomu wiersza poleceń; poprawki wielu drobnych błędów. Uwaga. Ta wersja działa wyłącznie w OpenOffice.org w wersji 3.0.1 lub nowszej! Przed instalacją programu OpenOffice.org 3.0.1 należy usunąć wszystkie wcześniejsze wersje LanguageTool zainstalowane w OpenOffice.org. Instalacja: W programie OpenOffice.org 3.0.1 lub nowszym Metoda prosta Dwukrotnie kliknij pobrany plik LanguageTool-0.9.8.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora. Metoda tradycyjn...

Czytaj więcej

Bootstrapping the rules for LanguageTool

This post is related to many languages, so I'm posting in English. Recently, during PALC 2009 , I had a talk on unsupervised generation of rules for LanguageTool. The idea is when you have an error corpus (and you can create one based on Wikipedia revision history , by the way, here's a draft of my paper on creating the error corpus from Wikipedia ), you can use transformation-based learning techniques to create rules that may be used to boostrap rule creation for new languages in LanguageTool. Of course, what I have right now, are only quick hacks and script prototypes, but as you can see in my presentation, I'm planning to make the process a bit easier to use. First of all, the extraction of the error corpus from Wikipedia revision history can be fully ported to Java (I will add filters to remove synonym-for-synonym revisions but some of the most frequent changes are used to adapt the text to some editorial conventions, so they would have to be filtered manually). Curren...

Czytaj więcej

Łagodne wprowadzenie do redagowania reguł

W ostatnią niedzielę, 5 kwietnia 2009, na Studenckim Forum Badań nad Językiem prowadziłem warsztaty dotyczące tworzenia reguł dla LanguageToola. Przy okazji parę powiedziałem parę słów o architekturze i przetwarzaniu powierzchniowym, bo LT to de facto nie tylko korektor, ale w ogóle system przetwarzania powierzchniowego języka naturalnego. Mam nadzieję, że moja prezentacja bez komentarza werbalnego też się komuś przyda.

Czytaj więcej