Przejdź do głównej zawartości

Posty

Wyświetlanie postów z 2009

Talking about SRX in LT during LTC

Jarek Lipski and me had a talk on using the SRX segmentation standard for LanguageTool during LTC 2009 . We were asked a couple of times where the file is available, so I'm putting the link to our free SRX file here - it's a current version from our CVS, and at the time of writing it supports Polish, English, Dutch, Romanian, Russian, Icelandic, Slovak and Slovenian. It's on LGPL, so you can freely reuse it. There are also some SRX segmentation hints on our LanguageTool wiki. Especially important is the fact that there is a free (as speech) editor, Ratel, which helps to write the rules (and testing them). The draft version of the paper is available online here . In case you want to cite it, here is the complete record: Marcin Miłkowski, Jarosław Lipski, 2009. Using SRX standard for sentence segmentation in LanguageTool , in: Human Language Technologies as a Challenge for Computer Science and Linguistics , ed. by Zygmunt Vetulani, Poznań: Wydawnictwo Poznańskie, Fund

LanguageTool 1.0.0

Dziś ukazała się najnowsza wersja korektora LanguageTool z okrągłym numerem 1.0.0! Podstawowe zmiany: obsługa języka duńskiego, katalońskiego i galisyjskiego; nowe reguły i poprawki w słownikach dla języka duńskiego, francuskiego, włoskiego, polskiego, hiszpańskiego, szwedzkiego i rosyjskiego; język polski ma ponad 1000 reguł; poprawione różnego rodzaju usterki. Uwaga. Ta wersja działa wyłącznie w OpenOffice.org w wersji 3.0.1 lub nowszej! Przed instalacją programu OpenOffice.org 3.0.1 należy usunąć wszystkie wcześniejsze wersje LanguageTool zainstalowane w OpenOffice.org. Instalacja: W programie OpenOffice.org 3.0.1 lub nowszym Metoda prosta Dwukrotnie kliknij pobrany plik LanguageTool-1.0.0.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora. Metoda tradycyjna Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj , a następnie wybierz plik LanguageTool-1.0.0.oxt . Zamknij pak

LanguageTool w Firefoksie

Od niedawna mamy dwie możliwości uruchomienia LanguageTool do sprawdzania tekstu bezpośrednio w naszej ulubionej przeglądarce. Sposób pierwszy Od dawna można uruchomić program bezpośrednio (mechanizm Java Web Start, proszę nie przejmować się komunikatem, że przeterminował się klucz szyfrujący, po prostu nie mam czasu na poklikanie na stronie Thawte). Potem chowamy LanguageTool do paska zadań ( Plik > Schowaj do paska zadań ) i z powrotem przeglądarce możemy redagować tekst. Kopiujemy napisany tekst do schowka i klikamy ikonę LanguageTool. Pojawi się powiększone okienko, od razu ze sprawdzonym tekstem. Niestety, poprawek nie można bezpośrednio wprowadzić. Ale za to można zmienić konfigurację reguł. Sposób drugi A jeśli chcemy bezpośrednio stosować poprawki proponowane przez korektor? Jest na to sposób. Najpierw trzeba zainstalować Ubiquity , swoiste rozszerzenie do Firefoksa. Umożliwia ono obsługę przeglądarki z klawiatury: wystarczy kliknąć [Ctrl]+[Spacja], a pojawi się specjalne

morfologik-stemming 1.2.1

Wczoraj wydaliśmy nową wersję biblioteki morfologik-stemming (1.2). W nowej wersji zupełnie zmieniony został interfejs obsługi słowników fsa, oczywiście na wygodniejszy, a przy tym szybkość działania jest parokrotnie wyższa. Wszystkie zmiany opisuje oczywiście JavaDoc . Pliki biblioteki do pobrania na stronie projektu . Biblioteka w tej wersji zostanie włączona do przygotowywanej wersji 1.0 korektora LanguageTool. POPRAWKA . Ponieważ zapomnieliśmy o drobiazgu, co uniemożliwiało użycie prostego narzędzia do analizy składniowej z wiersza poleceń, szybko wydaliśmy poprawkę. Narzędzia można używać tak: #java -jar morfologik-stemming-1.2.1.jar plstem [opcje] Po wywołaniu bez opcji samo powie, jak się je obsługuje.

Słownik poprawnej polszczyzny w sieci

Zupełnie znienacka i cichaczem Wydawnictwo Szkolne PWN wprowadziło do jednego ze swych serwisów („Prawo dla szkół”) dostęp do słownika poprawnej polszczyzny , słownika nazw własnych i słownika ortograficznego . Dla uważnych czytelników jest jasne, że są to publikacje WSzPWN, które kiedyś przejęło publikacje słownikowe wydawnictwa Park. Nie są to więc wielkie słowniki Wydawnictwa Naukowego PWN, ale i tak to jedyne tego rodzaju źródła w Internecie (oczywiście, nie mówię o słowniku ortograficznym, bo takich w sieci jest na pęczki, choć bodaj wszystkie są prostymi przedrukami wersji papierowych bez sensownego algorytmu generowania podpowiedzi – z wyjątkiem mojego słownika ortograficznego ). Nie jest dla mnie jasne, czy słowniki – w tym ten poprawnej polszczyzny – pozostaną w sieci na dłużej, czy też dostęp do niego zostanie zamknięty tak jak do całego serwisu „Prawo dla szkół”, 30 września. Na razie jednak można go używać.

Evaluating Grammar Checkers

As a developer of LanguageTool, I would love to see clear guidelines for evaluating grammar checkers. Some discussions of flaws in grammar checkers - such as the influential analysis by Daniel Kies - rely on quite controversial principles and make assumptions that seem unwarranted at times. Kies used analysis of a corpus of 3000 college essays in English to evaluate the checkers. Now, the analysis contained top 20 errors, ordered by frequency. Of course, frequency of the error seems to be an important factor but what about the severity of error? Let me explain. I really doubt that "No comma after introductory element" is the top error in college essays if they're written on a computer keyboard. The most common error is to have multiple whitespace or formatting with whitespace. Of course, this is not strictly a grammar error, but punctuation is also quite far from syntactic principles of the language, and multiple whitespace is also a punctuation problem. If they had manu

LanguageTool i cyzelowanie stylu

Narzędzie korektorskie oczywiście nie napisze poematu trzynastozgłoskowcem, ale może się przydać przy mechanicznym poprawianiu tekstu. Nawet na poziomie stylistycznym. LanguageTool ma kilka takich reguł, ale są one domyślnie wyłączone, bo są nieco nadwrażliwe. W okienku Opcje można je znaleźć w kategorii „Błędy różne”. Do tej pory chodziło głównie o monotonię stylistyczną - czyli o regułę, która wykrywała powtarzanie się tego samego wyrazu w zdaniu. Szkolna stylistyka mówi, że trzeba tego unikać, ale oczywiście jest tutaj wiele wyjątków. Na przykład nikt nie zakaże kilkakrotnie użyć słówka „nie” do wyrażenia negacji. Albo użycia wyrażenia „oko za oko”... Nie wszystko to daje się łatwo mechanicznie ująć wyjątkami, więc czasem LanguageTool zbyt dużo podkreśla. Ale czasem udaje się znaleźć naprawdę dziwaczne powtórzenia podczas pisania tekstu. Dziś dodałem kolejną taką zaawansowaną regułę: wykrywa ona rymujące się sąsiednie wyrazy (np. w tytule „Problemy organizacji administracji”). Czase

LanguageTool 0.9.9

Dziś ukazała się nowa wersja korektora LanguageTool 0.9.9 . Podstawowe zmiany: usunięto problem z regułami obsługującymi akapity (powodował wyświetlanie okienka z NullPointerException); obsługa języka islandzkiego; więcej reguł angielskich, polskich, niderlandzkich i rumuńskich; poprawki w regułach rosyjskich; więcej fałszywych przyjaciół tłumacza w parze angielski-polski; usunięto błędy w regułach parowania nawiasów i cudzysłowów; wprowadzono segmentację zdaniową z wykorzystaniem formatu segmentacji SRX . Uwaga. Ta wersja działa wyłącznie w OpenOffice.org w wersji 3.0.1 lub nowszej! Przed instalacją programu OpenOffice.org 3.0.1 należy usunąć wszystkie wcześniejsze wersje LanguageTool zainstalowane w OpenOffice.org. Instalacja: W programie OpenOffice.org 3.0.1 lub nowszym Metoda prosta Dwukrotnie kliknij pobrany plik LanguageTool-0.9.9.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora. Metoda trady

LanguageTool 0.9.8

Dziś ukazała się nowa wersja korektora LanguageTool 0.9.8 . Podstawowe zmiany: usunięcie denerwującego problemu występującego w komputerach z systemem MacOS; zdecydowanie więcej reguł dla języka rumuńskiego (były 3, jest 160) i syntetyzator morfologiczny dla tegoż języka; więcej reguł dla włoskiego (było 5, jest 77); pierwsze reguły dla słowackiego; poprawki w obsłudze języka angielskiego i polskiego; więcej opcji w wypadku używania LanguageTool z poziomu wiersza poleceń; poprawki wielu drobnych błędów. Uwaga. Ta wersja działa wyłącznie w OpenOffice.org w wersji 3.0.1 lub nowszej! Przed instalacją programu OpenOffice.org 3.0.1 należy usunąć wszystkie wcześniejsze wersje LanguageTool zainstalowane w OpenOffice.org. Instalacja: W programie OpenOffice.org 3.0.1 lub nowszym Metoda prosta Dwukrotnie kliknij pobrany plik LanguageTool-0.9.8.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora. Metoda tradycyjn

Bootstrapping the rules for LanguageTool

This post is related to many languages, so I'm posting in English. Recently, during PALC 2009 , I had a talk on unsupervised generation of rules for LanguageTool. The idea is when you have an error corpus (and you can create one based on Wikipedia revision history , by the way, here's a draft of my paper on creating the error corpus from Wikipedia ), you can use transformation-based learning techniques to create rules that may be used to boostrap rule creation for new languages in LanguageTool. Of course, what I have right now, are only quick hacks and script prototypes, but as you can see in my presentation, I'm planning to make the process a bit easier to use. First of all, the extraction of the error corpus from Wikipedia revision history can be fully ported to Java (I will add filters to remove synonym-for-synonym revisions but some of the most frequent changes are used to adapt the text to some editorial conventions, so they would have to be filtered manually). Curren

Łagodne wprowadzenie do redagowania reguł

W ostatnią niedzielę, 5 kwietnia 2009, na Studenckim Forum Badań nad Językiem prowadziłem warsztaty dotyczące tworzenia reguł dla LanguageToola. Przy okazji parę powiedziałem parę słów o architekturze i przetwarzaniu powierzchniowym, bo LT to de facto nie tylko korektor, ale w ogóle system przetwarzania powierzchniowego języka naturalnego. Mam nadzieję, że moja prezentacja bez komentarza werbalnego też się komuś przyda.

morfologik-stemming 1.1.4

Dziś wydaliśmy nową wersję biblioteki morfologik-stemming. Okazało się, że programu fsa można używać do kodowania słowników w UTF-8, choć autor przewidywał tylko kodowanie 8-bitowe. W bibliotece jednak nie do końca dobrze było to zrealizowane, więc poprawiliśmy parę usterek i jest już gotowe. Dzięki temu w LanguageTool będzie wkrótce bardziej bezpośrednia obsługa słownika języka rumuńskiego. Oczywiście, użytkownicy LanguageTool nie mają nic do aktualizacji - to jest tylko jedna z bibliotek wykorzystywanych przez program.

LanguageTool 0.9.7

Dziś ukazała się nowa wersja korektora LanguageTool 0.9.7 . W tym wydaniu usunęliśmy kilka usterek, m.in. usterkę bardzo denerwującą dla niemieckich użytkowników i błędy w obsłudze menu kontekstowego dla języka francuskiego. Są też kosmetyczne poprawki reguł polskich, rosyjskich i holenderskich oraz obsługa nowego języka (na razie w postaci zalążkowej) – a mianowicie rumuńskiego. Uwaga. Ta wersja działa wyłącznie w OpenOffice.org w wersji 3.0.1 lub nowszej! Przed instalacją programu OpenOffice.org 3.0.1 należy usunąć wszystkie wcześniejsze wersje LanguageTool zainstalowane w OpenOffice.org. Instalacja: W programie OpenOffice.org 3.0.1 Metoda prosta Dwukrotnie kliknij pobrany plik LanguageTool-0.9.7.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora. Metoda tradycyjna Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj , a następnie wybierz plik LanguageTool-0.9.7.oxt (bez rozpakowywania).

morfologik-stemming 1.1.3

Ponieważ okazało się, że w bibliotece morfologik-stemming był drobny błąd, który ujawniał się czasem przy użytkowania LanguageTool w OpenOffice.org, trzeba było go naprawić i udostępnić nową wersję biblioteki. Na stronie projektu można pobrać najnowszą dystrybucję .

LanguageTool 0.9.6

Dziś ukazała się nowa wersja korektora LanguageTool 0.9.6 . Najważniejsze zmiany: nowe okno dialogowe do sprawdzania błędów - całkowita integracja z OpenOffice.org; bardzo dużo poprawek błędów w regułach polskich, holenderskich i angielskich; polskich reguł jest 900 (w postaci deklaracji w pliku) i kilka specjalnych napisanych w Javie; usunąłem kilkanaście różnego rodzaju usterek i błędów w kodzie; zwiększone możliwości dezambiguatora regułowego; możliwość stosowania unifikacji atrybutów w regułach błędów i dezambiguacji. Każdy lubi obrazki, a więc... Tak wygląda nowe okno dialogowe: Jak widać, nie wszystko jeszcze jest do końca dopracowane (tłumaczenia polskie będą niestety dopiero w wersji 3.1), ale za to działa poprawnie. Uwaga. Ta wersja działa wyłącznie w OpenOffice.org w wersji 3.0.1 lub nowszej! Przed instalacją programu OpenOffice.org 3.0.1 należy usunąć wszystkie wcześniejsze wersje LanguageTool zainstalowane w OpenOffice.org. Instalacja: W programie OpenOffice.org 3.0.1 Metod