1.12.11

PoliMorf — otwarty słownik morfologiczny

W poniedziałek, 5 grudnia w IPI PAN w ramach seminarium Przetwarzanie języka naturalnego wygłoszony zostanie referat „PoliMorf — otwarty słownik morfologiczny”, którego autorami są
Marcin Woliński, Marcin Miłkowski, Maciej Ogrodniczuk, Adam Przepiórkowski, Łukasz Szałkiewicz i Jan Szejko (wszyscy afiliowani w IPI PAN).

STRESZCZENIE:

Tematem referatu będzie słownik morfologiczny do zastosowań inżynierii lingwistycznej tworzony w ramach projektu Cesar. Celem tego projektu jest zebranie i uprzystępnienie rozmaitych zasobów dotyczących języków Europy Centralnej i Wschodniej. Działając w tym duchu podjęliśmy (za zgodą i przy udziale autorów) próbę połączenia zbioru form „Słownika gramatycznego języka polskiego” i projektu Morfologik. Pokażemy pierwszą wersję połączonego słownika, opowiemy o procesie łączenia i związanych z nim trudnościach. Chcielibyśmy także sprowokować słuchaczy do zgłaszania oczekiwań co do zawartości i sposobu podania tworzonego zasobu. Mamy bowiem nadzieję, że PoliMorf stanie się standardowym źródłem danych fleksyjnych dla projektów z dziedziny NLP.

Tu dostępna jest prezentacja w formacie PDF.

27.9.11

LanguageTool 1.5

25 września wydaliśmy nową wersję korektora LanguageTool. Zmiany:

  • cztery nowe języki: chiński, asturyjski, tagalski, bretoński;
  • aktualizacje reguł dla wielu języków (dla polszczyzny kosmetyczne);
  • automatyczne wykrywanie języka (nie dotyczy OpenOffice.org/LibreOffice);
  • wiele zmian związanych z Google Summer of Code;
  • usunięte usterki.

Instalacja

W programie OpenOffice.org 3.0.1 lub nowszym

Metoda prosta
Dwukrotnie kliknij pobrany plik LanguageTool-1.4.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora.

Metoda tradycyjna
Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.4.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).

Po ponownym otwarciu OpenOffice.org będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.

Bez programu OpenOffice.org
Rozpakuj archiwum LanguageTool-1.5.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.

W razie problemów

Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.6. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę.

28.6.11

LanguageTool 1.4

Wydaliśmy nową wersję korektora LanguageTool. Zmiany:

  • aktualizacje reguł angielskich, francuskich, niemieckich, rosyjskich i esperanto;
  • obsługa języka khmerskiego;
  • uproszczenia budowy wewnętrznej programu.

Instalacja

W programie OpenOffice.org 3.0.1 lub nowszym

Metoda prosta
Dwukrotnie kliknij pobrany plik LanguageTool-1.4.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora.

Metoda tradycyjna
Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.4.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).

Po ponownym otwarciu OpenOffice.org będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.

Bez programu OpenOffice.org
Rozpakuj archiwum LanguageTool-1.4.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.

W razie problemów

Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.6. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę.

21.6.11

Morfologik-stemming 1.5.2

Wydaliśmy dziś kolejną wersję biblioteki morfologik-stemming, 1.5.2. Wielką nowością jest włączenie drugiego słownika morfosyntaktycznego języka polskiego – mianowicie dostępnego poprzednio tylko w analizatorze Morfeusz Słownika Gramatycznego Języka Polskiego (SGJP). Dzięki temu, że w ramach projektu CESAR SGJP został uwolniony na licencji BSD, mogliśmy go teraz dołączyć w naszym analizatorze.

W projekcie CESAR zamierzamy zresztą dokonać połączenia obu słowników: prace koncepcyjne za nami, trwają teraz roboty nad oprogramowaniem, które to umożliwi.

Poza tym projekt morfologik-stemming podzielono na wiele mniejszych modułów, co powinno ułatwić pracę. Wydanie dostępne jest na sf.net i w Maven Central.

1.4.11

LanguageTool 1.3.1

Ponieważ popełniłem mały błąd przy poprawianiu małego błędu w obsłudze reguły wykrywającej niesparowane nawiasy, musieliśmy wydać kolejną wersję LT - 1.3.1. Teraz już wszystko gra :)

28.3.11

LanguageTool 1.3

W niedzielę wydaliśmy nową wersję korektora LanguageTool, 1.3. Główne zmiany:

  • aktualizacje i poprawki reguł w języku hiszpańskim, francuskim, polskim, niderlandzkim, rosyjskim, angielskim i esperanto;
  • istotne zmniejszenie liczby fałszywych alarmów dla hiszpańskiego;
  • poprawki wielu drobnych błędów.
Jeśli chodzi o język polski, najważniejszą nową regułą jest reguła, która wykrywa zbędny przecinek po wyrażeniach przyimkowych na początku zdania. Reguła jest eksperymentalna i może być nadwrażliwa w wypadku przecinków oddzielających współrzędne człony wypowiedzi (powtórzone rzeczowniki lub przymiotniki), lecz są to przypadki mimo wszystko dosyć odosobnione. Postanowiłem ją opublikować, bo ten błąd jest coraz częstszy: to ewidentny wpływ interpunkcji angielskiej.

16.2.11

Oops, I did it again: 1.8.1

Przeprowadziłem kilka testów wewnętrznej spójności danych i okazało się, że udało się automatycznie poprawić oznaczenie około 12 tysięcy rzeczowników rodzaju męskiego osobowego (m1). Panie i Panowie, oto Morfologik 1.8.1.

13.2.11

Morfologik 1.8

Dzisiaj w ramach porządków wydałem kolejną wersję Morfologika (1.8). Zmiany: usunąłem zbędny znacznik ign, a w zamian wprowadziłem interj (oznaczający wykrzyknienia), brev (skróty - z kropkami lub bez, co odpowiada atrybutom pun i npun, za tagsetem NKJP), xxx - wyrazy obcojęzyczne. Usunąłem też dublujące się wpisy przymiotników, które były oznaczone raz po prostu jako przymiotniki w stopniu równym, a raz jako takie same przymiotniki, ale niezanegowane. Poprawiłem, dzięki Łukaszowi Szałkiewiczowi, oznaczenie wołacza przymiotników rodzaju męskiego w liczbie pojedynczej (przez omyłkę nie było rodzaju m3). Obecnie są już wszystkie (opisane skrótowo jako po prostu m, zamiast m1.m2.m3). Prócz tego usunąłem dwa wyrazy (ka i in), które de facto są końcówkami odmienianych skrótowców i nie występują samodzielnie. Poprawiłem też oznaczenie biernika rzeczowników rodzaju m1.

11.2.11

Smyrna - prosty konkordancer

Daniel Janus stworzył prosty konkordancer - Smyrnę - do obsługi niewielkich korpusów. Smyrna korzysta z Morfologika (i biblioteki morfologik-stemming).

morfologik-stemming w Mavenie

Wiele razy byliśmy o to proszeni – i stało się. Od wersji 1.5.0 biblioteka morfologik-stemming będzie obsługiwana bezpośrednio w Mavenie i jest w jego repozytorium.

7.2.11

API biblioteki morfologik-stemming

Z powodu ataku włamywaczy na sourceforge.net nie mogłem wcześniej uzupełnić informacji o nowym API biblioteki morfologik-stemming. Dostępne są obecnie informacje dla wersji 1.5.0, 1.4.1 i 1.4.0. Sprawa jest o tyle istotna, że między wersjami 1.5.0 a 1.4.1 są pewne różnice.

27.1.11

Morfologik w tagsecie KIPI

Adam Radziszewski i Marek Maziarz skonwertowali Morfologika 1.7 do formatu KIPI w ramach projektu MACA. Dzięki temu Morfologik może być integrowany z innymi danymi morfologicznymi (w tym z zebranymi z korpusów).

Sam Morfologik też będzie niedługo podlegał dużym zmianom i poprawkom w ramach projektu CESAR. Przede wszystkim idzie o to, aby poprawić jego jakość i ułatwić potem pielęgnację jego zasobów.

26.1.11

morfologik-stemming 1.5.0

Dziś udostępniliśmy nową wersję biblioteki morfologik-stemming. Najważniejsze zmiany:

  • Nowy format binarny, CFSA2, który pozwala zmniejszyć objętość automatów wynikowych. W wypadku polskiego słownika redukcja z 2.811.345 do 1.806.661 bajtów.
  • Aktualizacja słownika w dystrybucji do Morfologika 1.7.
  • Opcja serializacji słownika bezpośrednio do formatów CFSA2 lub fsa w narzędziu fsa_build.
  • CFSA jest obecnie już formatem niezalecanym (ale nadal obsługiwanym).
  • Przyspieszenie konstrukcji automatu o 30%, mniejsze wykorzystanie pamięci.
  • Możliwość budowania automatów z danych posortowanych (opcja --sorted).
  • Domyślne sortowanie zgodne jest z "LC_ALL=C", tak jak w fsa (i narzędziach uniksowych), co ułatwia zastosowanie zewnętrznego sortowania.
  • Dodane procedury wyliczania doskonałej funkcji mieszającej (jak w fsa z opcją NUMBERS).
  • Zmiana uporządkowania serializowanych łuków automatu FSA5 na porządek leksykograficzny (tak jak na wejściu).
  • Usunięto automaty znakowe.
  • Zmiany w API (na razie nie zamieszczam dokumentacji na stronie projektu z powodu awarii serwera sourceforge.net).
  • Drobne poprawki, testy modułów.

10.1.11

morfologik-stemming 1.4.1

Dziś opublikowaliśmy nowe wydanie biblioteki morfologik-stemming 1.4.1. Zmiany polegają głównie na drobnych porządkach, ujednoliceniu formatu binarnego automatów (słowników) z fsa_build, dołączeniu komunikatu o brakujących bibliotekach (w razie ich braku) oraz aktualizacji wbudowanego słownika.

Już wkrótce - nowa wersja 1.5.0, gdzie zmiany są bardziej rewolucyjne.

4.1.11

LanguageTool 1.2 na nowy rok!

Na rok 2011 mamy nową wersję korektora LanguageTool - 1.2. Z nowości: obsługa esperanto, bardzo liczne poprawki i usprawnienia reguł dla wielu języków, także polskiego, a także poprawki wielu drobnych usterek.

W programie OpenOffice.org 3.0.1 lub nowszym

Metoda prosta
Dwukrotnie kliknij pobrany plik LanguageTool-1.2.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora.

Metoda tradycyjna
Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.2.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).

Po ponownym otwarciu OpenOffice.org będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.

Bez programu OpenOffice.org
Rozpakuj archiwum LanguageTool-1.2.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.

W razie problemów

Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.5. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Zalecana jest Java 1.6.Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę.