Przejdź do głównej zawartości

Posty

Wyświetlanie postów z 2011

PoliMorf — otwarty słownik morfologiczny

W poniedziałek, 5 grudnia w IPI PAN w ramach seminarium Przetwarzanie języka naturalnego wygłoszony zostanie referat „PoliMorf — otwarty słownik morfologiczny”, którego autorami są Marcin Woliński, Marcin Miłkowski, Maciej Ogrodniczuk, Adam Przepiórkowski, Łukasz Szałkiewicz i Jan Szejko (wszyscy afiliowani w IPI PAN). STRESZCZENIE: Tematem referatu będzie słownik morfologiczny do zastosowań inżynierii lingwistycznej tworzony w ramach projektu Cesar. Celem tego projektu jest zebranie i uprzystępnienie rozmaitych zasobów dotyczących języków Europy Centralnej i Wschodniej. Działając w tym duchu podjęliśmy (za zgodą i przy udziale autorów) próbę połączenia zbioru form „Słownika gramatycznego języka polskiego” i projektu Morfologik. Pokażemy pierwszą wersję połączonego słownika, opowiemy o procesie łączenia i związanych z nim trudnościach. Chcielibyśmy także sprowokować słuchaczy do zgłaszania oczekiwań co do zawartości i sposobu podania tworzonego zasobu. Mamy bowiem nadzieję, że P...

LanguageTool 1.5

25 września wydaliśmy nową wersję korektora LanguageTool. Zmiany: cztery nowe języki: chiński, asturyjski, tagalski, bretoński; aktualizacje reguł dla wielu języków (dla polszczyzny kosmetyczne); automatyczne wykrywanie języka (nie dotyczy OpenOffice.org/LibreOffice); wiele zmian związanych z Google Summer of Code; usunięte usterki. Instalacja W programie OpenOffice.org 3.0.1 lub nowszym Metoda prosta Dwukrotnie kliknij pobrany plik LanguageTool-1.4.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora. Metoda tradycyjna Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.4.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania). Po ponownym otwarciu OpenOffice.org będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”. Bez programu OpenOffice.org Rozpakuj archiwum LanguageTool-1.5.oxt (jest to pl...

LanguageTool 1.4

Wydaliśmy nową wersję korektora LanguageTool. Zmiany: aktualizacje reguł angielskich, francuskich, niemieckich, rosyjskich i esperanto; obsługa języka khmerskiego; uproszczenia budowy wewnętrznej programu. Instalacja W programie OpenOffice.org 3.0.1 lub nowszym Metoda prosta Dwukrotnie kliknij pobrany plik LanguageTool-1.4.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora. Metoda tradycyjna Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.4.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania). Po ponownym otwarciu OpenOffice.org będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”. Bez programu OpenOffice.org Rozpakuj archiwum LanguageTool-1.4.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skoj...

Morfologik-stemming 1.5.2

Wydaliśmy dziś kolejną wersję biblioteki morfologik-stemming, 1.5.2. Wielką nowością jest włączenie drugiego słownika morfosyntaktycznego języka polskiego – mianowicie dostępnego poprzednio tylko w analizatorze Morfeusz Słownika Gramatycznego Języka Polskiego (SGJP). Dzięki temu, że w ramach projektu CESAR SGJP został uwolniony na licencji BSD, mogliśmy go teraz dołączyć w naszym analizatorze. W projekcie CESAR zamierzamy zresztą dokonać połączenia obu słowników: prace koncepcyjne za nami, trwają teraz roboty nad oprogramowaniem, które to umożliwi. Poza tym projekt morfologik-stemming podzielono na wiele mniejszych modułów, co powinno ułatwić pracę. Wydanie dostępne jest na sf.net i w Maven Central.

LanguageTool 1.3.1

Ponieważ popełniłem mały błąd przy poprawianiu małego błędu w obsłudze reguły wykrywającej niesparowane nawiasy, musieliśmy wydać kolejną wersję LT - 1.3.1 . Teraz już wszystko gra :)

LanguageTool 1.3

W niedzielę wydaliśmy nową wersję korektora LanguageTool, 1.3. Główne zmiany: aktualizacje i poprawki reguł w języku hiszpańskim, francuskim, polskim, niderlandzkim, rosyjskim, angielskim i esperanto; istotne zmniejszenie liczby fałszywych alarmów dla hiszpańskiego; poprawki wielu drobnych błędów. Jeśli chodzi o język polski, najważniejszą nową regułą jest reguła, która wykrywa zbędny przecinek po wyrażeniach przyimkowych na początku zdania. Reguła jest eksperymentalna i może być nadwrażliwa w wypadku przecinków oddzielających współrzędne człony wypowiedzi (powtórzone rzeczowniki lub przymiotniki), lecz są to przypadki mimo wszystko dosyć odosobnione. Postanowiłem ją opublikować, bo ten błąd jest coraz częstszy: to ewidentny wpływ interpunkcji angielskiej.

Oops, I did it again: 1.8.1

Przeprowadziłem kilka testów wewnętrznej spójności danych i okazało się, że udało się automatycznie poprawić oznaczenie około 12 tysięcy rzeczowników rodzaju męskiego osobowego (m1). Panie i Panowie, oto Morfologik 1.8.1 .

Morfologik 1.8

Dzisiaj w ramach porządków wydałem kolejną wersję Morfologika (1.8) . Zmiany: usunąłem zbędny znacznik ign , a w zamian wprowadziłem interj (oznaczający wykrzyknienia), brev (skróty - z kropkami lub bez, co odpowiada atrybutom pun i npun , za tagsetem NKJP), xxx - wyrazy obcojęzyczne. Usunąłem też dublujące się wpisy przymiotników, które były oznaczone raz po prostu jako przymiotniki w stopniu równym, a raz jako takie same przymiotniki, ale niezanegowane. Poprawiłem, dzięki Łukaszowi Szałkiewiczowi, oznaczenie wołacza przymiotników rodzaju męskiego w liczbie pojedynczej (przez omyłkę nie było rodzaju m3 ). Obecnie są już wszystkie (opisane skrótowo jako po prostu m, zamiast m1.m2.m3 ). Prócz tego usunąłem dwa wyrazy ( ka i in ), które de facto są końcówkami odmienianych skrótowców i nie występują samodzielnie. Poprawiłem też oznaczenie biernika rzeczowników rodzaju m1 .

API biblioteki morfologik-stemming

Z powodu ataku włamywaczy na sourceforge.net nie mogłem wcześniej uzupełnić informacji o nowym API biblioteki morfologik-stemming. Dostępne są obecnie informacje dla wersji 1.5.0 , 1.4.1 i 1.4.0 . Sprawa jest o tyle istotna, że między wersjami 1.5.0 a 1.4.1 są pewne różnice.

Morfologik w tagsecie KIPI

Adam Radziszewski i Marek Maziarz skonwertowali Morfologika 1.7 do formatu KIPI w ramach projektu MACA . Dzięki temu Morfologik może być integrowany z innymi danymi morfologicznymi (w tym z zebranymi z korpusów). Sam Morfologik też będzie niedługo podlegał dużym zmianom i poprawkom w ramach projektu CESAR . Przede wszystkim idzie o to, aby poprawić jego jakość i ułatwić potem pielęgnację jego zasobów.

morfologik-stemming 1.5.0

Dziś udostępniliśmy nową wersję biblioteki morfologik-stemming. Najważniejsze zmiany: Nowy format binarny, CFSA2, który pozwala zmniejszyć objętość automatów wynikowych. W wypadku polskiego słownika redukcja z 2.811.345 do 1.806.661 bajtów. Aktualizacja słownika w dystrybucji do Morfologika 1.7. Opcja serializacji słownika bezpośrednio do formatów CFSA2 lub fsa w narzędziu fsa_build. CFSA jest obecnie już formatem niezalecanym (ale nadal obsługiwanym). Przyspieszenie konstrukcji automatu o 30%, mniejsze wykorzystanie pamięci. Możliwość budowania automatów z danych posortowanych (opcja --sorted). Domyślne sortowanie zgodne jest z "LC_ALL=C", tak jak w fsa (i narzędziach uniksowych), co ułatwia zastosowanie zewnętrznego sortowania. Dodane procedury wyliczania doskonałej funkcji mieszającej (jak w fsa z opcją NUMBERS). Zmiana uporządkowania serializowanych łuków automatu FSA5 na porządek leksykograficzny (tak jak na wejściu). Usunięto automaty znakowe. Zmiany w API (na razie nie...

morfologik-stemming 1.4.1

Dziś opublikowaliśmy nowe wydanie biblioteki morfologik-stemming 1.4.1. Zmiany polegają głównie na drobnych porządkach, ujednoliceniu formatu binarnego automatów (słowników) z fsa_build, dołączeniu komunikatu o brakujących bibliotekach (w razie ich braku) oraz aktualizacji wbudowanego słownika. Już wkrótce - nowa wersja 1.5.0, gdzie zmiany są bardziej rewolucyjne.

LanguageTool 1.2 na nowy rok!

Na rok 2011 mamy nową wersję korektora LanguageTool - 1.2. Z nowości: obsługa esperanto, bardzo liczne poprawki i usprawnienia reguł dla wielu języków, także polskiego, a także poprawki wielu drobnych usterek. W programie OpenOffice.org 3.0.1 lub nowszym Metoda prosta Dwukrotnie kliknij pobrany plik LanguageTool-1.2.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora. Metoda tradycyjna Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.2.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania). Po ponownym otwarciu OpenOffice.org będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”. Bez programu OpenOffice.org Rozpakuj archiwum LanguageTool-1.2.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzeni...