13.11.09

Talking about SRX in LT during LTC

Jarek Lipski and me had a talk on using the SRX segmentation standard for LanguageTool during LTC 2009. We were asked a couple of times where the file is available, so I'm putting the link to our free SRX file here - it's a current version from our CVS, and at the time of writing it supports Polish, English, Dutch, Romanian, Russian, Icelandic, Slovak and Slovenian. It's on LGPL, so you can freely reuse it. There are also some SRX segmentation hints on our LanguageTool wiki. Especially important is the fact that there is a free (as speech) editor, Ratel, which helps to write the rules (and testing them).

The draft version of the paper is available online here. In case you want to cite it, here is the complete record:

Marcin Miłkowski, Jarosław Lipski, 2009. Using SRX standard for sentence segmentation in LanguageTool, in: Human Language Technologies as a Challenge for Computer Science and Linguistics, ed. by Zygmunt Vetulani, Poznań: Wydawnictwo Poznańskie, Fundacja Uniwersytetu im. A. Mickiewicza, p. 556-560.

1.11.09

LanguageTool 1.0.0

Dziś ukazała się najnowsza wersja korektora LanguageTool z okrągłym numerem 1.0.0!

Podstawowe zmiany:
  • obsługa języka duńskiego, katalońskiego i galisyjskiego;
  • nowe reguły i poprawki w słownikach dla języka duńskiego, francuskiego, włoskiego, polskiego, hiszpańskiego, szwedzkiego i rosyjskiego;
  • język polski ma ponad 1000 reguł;
  • poprawione różnego rodzaju usterki.

Uwaga. Ta wersja działa wyłącznie w OpenOffice.org w wersji 3.0.1 lub nowszej! Przed instalacją programu OpenOffice.org 3.0.1 należy usunąć wszystkie wcześniejsze wersje LanguageTool zainstalowane w OpenOffice.org.

Instalacja:

W programie OpenOffice.org 3.0.1 lub nowszym
  • Metoda prosta
    Dwukrotnie kliknij pobrany plik LanguageTool-1.0.0.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora.
  • Metoda tradycyjna
Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.0.0.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).

Po ponownym otwarciu OpenOffice.org będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.

Bez programu OpenOffice.org
  • Rozpakuj archiwum LanguageTool-1.0.0.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.
  • Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.

W razie problemów

  1. Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.5. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Zalecana jest Java 1.6.
  2. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).
  3. Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.
  4. W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę.