tag:blogger.com,1999:blog-285550402024-02-20T10:30:27.296+01:00MorfologikStrona projektu morfologik - analizator morfologiczny + słownik morfologiczny + korektor gramatyczny + bibliotekiMarcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.comBlogger149125tag:blogger.com,1999:blog-28555040.post-32719437578939869712022-04-19T10:48:00.002+02:002022-04-19T10:50:58.043+02:00Aktualizacja słownika ortograficznego w programie LanguageTool 5.8<p>Przygotowałem aktualizację słownika ortograficznego stosowanego w programie LanguageTool (będzie dostępna publicznie w nowym wydaniu, 5.8, planowanym na koniec czerwca). Słownik oparty jest przede wszystkim na słownikach dostępnych na <a href="http://sjp.pl">sjp.pl</a>, lecz usunąłem trochę mylących wpisów (np. niezalecaną formę „<strike>grejfrut</strike>”) i dodałem trochę funkcji (typu wyrazy pisane z łącznikiem), które są potrzebne.</p><p>Zdumiało mnie, że poprzednia wersja słownika pochodziła z roku 2008. No cóż, ta zmiana się po prostu należała. W kolejce jest aktualizacja paczki słowników do LibreOffice/OpenOffice.</p>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-67225343895889883552016-03-27T10:46:00.003+02:002016-03-27T10:46:58.478+02:00Walery Pisarek — Słownik języka niby-polskiego<div dir="ltr" style="text-align: left;" trbidi="on">
Małopolska Biblioteka Cyfrowa udostępnia <a href="http://http/mbc.malopolska.pl/publication/90401">książkę profesora Walerego Pisarka <i>Słownik języka niby-polskiego </i>w formacie PDF. </a> Co prawda, opisane w niej błędy w większości pochodzą z prasy z lat siedemdziesiątych, ale wiele błędów typowych dla napuszonego i pretensjonalnego języka niestety trzyma się nadal w polszczyźnie.</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com29tag:blogger.com,1999:blog-28555040.post-42172927096680878882016-02-15T19:41:00.001+01:002016-02-15T19:41:43.887+01:00polimorfologik 2.1<div dir="ltr" style="text-align: left;" trbidi="on">
Od ostatniego wydania słowników morfosyntaktycznych z serii Morfologik minęło trochę czasu, a warto było wprowadzić trochę kosmetycznych poprawek, m.in. usunąć niepotrzebne formy (takie jak czasowniki „dzienić”, „bożyć” czy „cienić”) oraz dodać trochę geograficznych nazw własnych. Nowe wydanie dostępne jest na githubie: <a href="https://github.com/morfologik/polimorfologik/releases/tag/2.1">Polimorfologik 2.1</a>. W pliku opis zmian plus wersje tekstowe i binarne słowników.</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com2tag:blogger.com,1999:blog-28555040.post-87633903126371351762014-04-05T13:57:00.001+02:002014-04-05T13:57:34.145+02:00Słownik poprawnej polszczyzny Stanisława Szobera online<div dir="ltr" style="text-align: left;" trbidi="on">
Cyfryzacja polskich zasobów przynosi czasem bardzo interesujące efekty. Jednym z nich jest pojawienie się nieco już starego, ale nadal przydatnego <a href="http://rcin.org.pl/dlibra/docmetadata?id=36190&from=&dirids=1&ver_id=&lp=10&QI="><i>Słownika poprawnej polszczyzny </i>Stanisława Szobera</a> w Repozytorium Cyfrowym Instytutów Naukowych. Cały słownik jest dostępny w formacie PDF, który można przeszukiwać. Wiele porad się zdezaktualizowało (potępiane błędy czy formy zanikły – kiedyś np. Szober potępiał formę <strike>posełka</strike><i> </i>stosowaną zamiast poprawnej „posłanka”), ale niektóre nadal są dorzeczne.</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com7tag:blogger.com,1999:blog-28555040.post-6611794865243760252014-03-31T18:03:00.001+02:002014-04-05T13:57:58.694+02:00LanguageTool 2.5<div dir="ltr" style="text-align: left;" trbidi="on">
Dzisiaj wydaliśmy nową wersję <a href="http://www.languagetool.org/pl">LanguageTool 2.5</a>. W języku polskim sporo zmian, co widać na odpowiedniej stronie <a href="https://www.languagetool.org/changes/languagetool-2.4_to_languagetool-2.5/changes_pl.html">podsumowującej</a>. Krótko mówiąc: wykrywa więcej błędów, jest mniej fałszywych alarmów. Sporo zmian także w części angielskiej i ukraińskiej, stabilnie rozwija się też obsługa katalońskiego i rosyjskiego.<br />
<br />
Użytkownicy Libre/OpenOffice mogą po prostu zaktualizować rozszerzenie: <b>Narzędzia > Menedżer rozszerzeń > Sprawdź aktualizacje</b>.<br />
<br />
<br /></div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com2tag:blogger.com,1999:blog-28555040.post-76726372523029856202013-12-30T17:28:00.003+01:002013-12-30T17:28:27.635+01:00LanguageTool 2.4 na Nowy Rok!<div dir="ltr" style="text-align: left;" trbidi="on">
Dzisiaj wydaliśmy nową wersję korektora gramatycznego <a href="http://www.languagetool.org/pl/">LanguageTool 2.4</a>. Ta wersja zawiera sporo poprawek i nowych reguł dla różnych języków, w tym wiele reguł wykrywających błędy w użyciu dywizu (łącznika) i myślnika w języku polskim. Korzysta także ze słownika frekwencyjnego przy generowaniu proponowanych poprawek podczas sprawdzania pisowni. Poza tym można zobaczyć przykłady wykrywanych błędów w interfejsie samodzielnym<br />
<br />
Program wymaga zainstalowania środowiska <a href="http://www.java.com/">Java co najmniej w wersji 7</a>.<br />
<br />
<div style="color: #333333; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; line-height: 22px;">
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b>Instalacja w programach OpenOffice i LibreOffice</b><br />Dwukrotnie kliknij pobrany plik <a href="http://www.languagetool.org/download/LanguageTool-2.4.oxt">LanguageTool-2.4.oxt</a>. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora.<br /><b><br /></b></span></div>
<div>
<b style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;">W razie problemów</b></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><br />Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 7. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Oracle. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę. Uwaga: OpenOffice ani LibreOffice nie obsługują 64-bitowej maszyny Javy w środowisku Mac OSX.</span></div>
</div>
<div style="color: #333333; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; line-height: 22px;">
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><br /></span></div>
<div style="color: #333333; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; line-height: 22px;">
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b>Instalacja wersji samodzielnej</b></span></div>
<div style="color: #333333; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; line-height: 22px;">
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b><br /></b></span></div>
<div style="color: #333333; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; line-height: 22px;">
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;">Należy rozpakować plik .zip. Interfejs graficzny można uruchomić, klikając plik LanguageTool.jar.</span></div>
</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-5927823841857682952013-12-27T13:46:00.002+01:002013-12-27T13:46:58.570+01:00Korekta pisowni z wykorzystaniem częstości wyrazów<div dir="ltr" style="text-align: left;" trbidi="on">
W wydanej niedawno wersji 1.8.2 biblioteki morfologik-stemming (dostępna w repozytoriach Mavena) wprowadziliśmy możliwość wykorzystywania frekwencji wyrazów przy generowaniu podpowiedzi. Dzięki temu proponowane są najpierw wyrazy częstsze, co może być ułatwieniem zwłaszcza wtedy, gdy wyraz z literówką jest dosyć krótki. Np. wyraz „<strike><span style="color: red;">kótki</span></strike>” w obecnej wersji słownika będzie poprawiany na:<br />
<span style="font-family: Arial, Helvetica;"><br /></span>
<span style="font-family: Courier New, Courier, monospace;">kotki; Kutki;
krótki; skutki; kostki; kulki; kurtki</span><br />
<span style="font-family: Arial, Helvetica;"><br /></span>
(jest jeszcze kilkanaście innych propozycji o takiej samej odległości edycyjnej, tj. z taką samą liczbą zmienionych liter w stosunku do wyrazu z błędem). Uporządkowanie, jak widać, jest dosyć sensowne. Jako źródło danych frekwencyjnych wykorzystać można <a href="https://github.com/mozilla-b2g/gaia/tree/master/keyboard/dictionaries">dane z projektu Mozilla Gaia</a> dostępne na licencji Apache (część z danych pochodzi z danych klawiaturowych Androida).<br />
<br />
Słownik frekwencyjny będzie wykorzystany w najnowszej wersji LanguageTool. Polecam skorzystanie z korektora pisowni bezpośrednio z LT <a href="http://wiki.languagetool.org/java-api">we własnych aplikacjach</a> w Javie (mamy też <a href="http://wiki.languagetool.org/http-server">interfejs HTTP</a>, a nawet <a href="http://wiki.languagetool.org/public-http-api">publiczne API HTTP</a>).</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-80754397972854884382013-07-15T11:26:00.001+02:002013-07-15T11:26:34.838+02:00morfologik-stemming 1.7 released<div dir="ltr" style="text-align: left;" trbidi="on">
We just released a new version of morfologik-stemming library to Maven. Most changes are related to the new module morfologik-speller, which can now use spelling dictionaries configured with property files. In particular, it introduces support for character classes, i.e., you can introduce equivalent characters as with hunspell's MAP feature. It also supports replacement patterns (just like the ones defined by REP command in hunspell).<br />
<br />
A short description of new properties is given in the <a href="http://wiki.languagetool.org/hunspell-support#toc5">LanguageTool wiki</a>.</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-62921469070623882202013-05-21T18:23:00.002+02:002013-05-21T18:23:55.808+02:00O Morfologiku w zastosowaniu praktycznym...<div dir="ltr" style="text-align: left;" trbidi="on">
Na blogu <a href="http://oracle.gridwisetech.com/2013/05/text-mining-po-polsku-mo%C5%BCliwe.html">Oracle Gridwise Tech</a> można poczytać o wykorzystaniu Morfologika do analizy danych tekstowych na dużą skalę (<i>text mining</i>). Od siebie dodam, że warto nierozpoznany tekst poddać testowi ortograficznemu, do czego przyda się klasa Speller. W wersji obecnie dostępnej Speller nie potrafi uzupełniać polskich liter, ale już niedługo, za momencik będzie wersja, która sobie z tym radzi.</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-83588848364475347122013-03-12T12:30:00.001+01:002013-03-12T12:30:16.316+01:00morfologik-stemming 1.6.0<div dir="ltr" style="text-align: left;" trbidi="on">
10 marca opublikowaliśmy nową wersję biblioteki morfologik-stemming. Nowa wersja zawiera nowy słownik Morfologik 2.0 PoliMof. Wycofaliśmy też słownik SGJP, gdyż jest on w dużej mierze uwzględniony w nowym słowniku, a jego zawartość tak czy inaczej nie odpowiadała ortograficznej segmentacji (tzn. uznaniu, że podstawowe jednostki to tzw. wyrazy ortograficzne), a innego rodzaju segmentacji biblioteka morfologik-stemming nie obsługuje. Jeśli będzie jednak takie zapotrzebowanie, możemy zaimplementować segmentację w stylu Morfeusza.<br />
<br />
Najnowsze pliki dostępne są w repozytoriach Mavena i na <a href="http://sourceforge.net/projects/morfologik/files/morfologik-stemming/1.6.0/">sourceforge.net</a>.</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com1tag:blogger.com,1999:blog-28555040.post-28564770033566815872013-03-08T15:41:00.001+01:002013-03-08T15:48:55.120+01:00Morfologik 2.0 PoliMorf<div dir="ltr" style="text-align: left;" trbidi="on">
Dziś udostępniłem ostateczną wersję słownika morfosyntaktycznego Morfologik 2.0 PoliMorf.<br />
<span style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px;"><br /></span>
<span style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px;">Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN.</span><br />
<ul style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px;">
<li>Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość (<span style="font-family: 'Courier New', Courier, monospace;">nonrefl </span>niezwrotny, <span style="font-family: 'Courier New', Courier, monospace;">refl </span>zwrotny, a <span style="font-family: 'Courier New', Courier, monospace;">nonrefl.refl </span>taki, który może być raz zwrotny, a raz nie).</li>
<li>Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem <span style="font-family: 'Courier New', Courier, monospace;">brev</span>), które nadal dodawane są osobno. Skrypt poprawia też błędny wpis wyrazu „bardziej”.</li>
<li>W stosunku do wydania RC2 poprawiono oznaczenie wyrazu „się” (brakowało form ze znacznikiem siebie), uzupełniono brakujące znaczniki kilku rzadkich nieodmiennych rzeczowników (toto, wasze, niecoś, śmo, wsio).</li>
<li>Największą zmianą jest rezygnacja z oznaczania form przypuszczających (takich jak „ujadłbym”) jako pot:praet. Znacznik praet był tu nadmiarowy i jego występowanie psuło pozycyjność tagsetu.</li>
</ul>
<div>
<span style="font-family: Trebuchet MS, Trebuchet, Verdana, sans-serif;"><br /></span></div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px;">
W tym wydaniu udostępniam pliki, w których jedna forma występuje w słowniku tylko raz, a jeśli ma wiele znaczników, to są one połączone znakiem „+”. Oczywiście prostym skryptem można rozpakować te formy na inną postać, ale słyszałem, że kiedy wykorzystuje się Morfologika do sprowadzania wyrazu do formy podstawowej, to jest to wygodne.</div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px;">
<br /></div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px;">
Przy okazji dziękuję Adamowi Radziszewskiemu za komentarze i rady oraz Janowi Szejko za wsparcie przy zmianie działania eksportu w Kuźni. Sam słownik nie istniałby też w obecnej formie, gdyby nie realizowany w Zespole Inżynierii Lingwistycznej IPI PAN projekt CESAR, kierowany przez Adama Przepiórkowskiego i Macieja Ogrodniczuka; i gdyby nie udało się połączyć słownika SGJP (którzy stworzyli Zygmunt Saloni, Włodzimierz Gruszczyński, Marcin Woliński i Robert Wołosz) z poprzednim Morfologikiem). Dzięki Marcinowi Wolińskiemu Morfologik zaczął powstawać w sposób sensowniejszy lingwistycznie; lingwiści pracujący w IPI PAN (m.in. Łukasz Szałkiewicz i Anna Andrzejczuk) poprawiają pozostałe w słowniku usterki. Jednak zmiana jest naprawdę ogromna.</div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px;">
<br /></div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px;">
Pliki dostępne są na serwerach w systemie <a href="https://sourceforge.net/projects/morfologik/files/morfologik/2.0/?">Sourceforge</a>.</div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px;">
<br /></div>
</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com3tag:blogger.com,1999:blog-28555040.post-87089753933900019942013-02-26T22:51:00.003+01:002013-02-26T22:51:48.408+01:00Morfologik 2.0 RC2<div dir="ltr" style="text-align: left;" trbidi="on">
I mamy wersję RC2, w której poprawiłem kilka drobiazgów:<br />
<br />
<br />
<ul style="text-align: left;">
<li>poprawnie wygenerowałem plik polish.dict z pliku polimorfologik.txt;</li>
<li>poprawiłem daty, dodałem numery wersji;</li>
<li>usunąłem wadliwy opis wyrazu „bardziej” i wstawiłem poprawny;</li>
<li>usunąłem prefiksy i sufiksy, bo one i tak nie są rozpoznawane przez naszą bibliotekę, więc tylko psuły dane;</li>
<li>usunąłem formy archaiczne z SGJP.</li>
</ul>
<div>
Pliki nadal tam, <a href="https://sourceforge.net/projects/morfologik/files/morfologik/2.0/?">gdzie poprzednio</a>.</div>
</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-23037604703391811432013-02-22T12:56:00.003+01:002013-02-22T12:56:57.299+01:00Morfologik 2.0 PoliMorf (RC1)<div dir="ltr" style="text-align: left;" trbidi="on">
Długo ociągałem się z nowym wydaniem Morfologika, bo zmian w procesie generowania słownika było na tyle dużo, że jest to obecnie zupełnie nowa jakość.<br />
<br />
Dziś udostępniam wersję wstępną, bo być może występują w plikach tak duże niezgodności, że coś się komuś popsuje. Największe zmiany w skrócie:<br />
<br />
<div style="text-align: left;">
</div>
<ul style="text-align: left;">
<li>Słownik PoliMorf powstał z połączenia słowników SGJP i Morfologik, obecnie jest poprawiany przez lingwistów w Zespole Inżynierii Lingwistycznej IPI PAN.</li>
<li>Zachowano tagset Morfologika wraz z zasadami segmentacji wyrazów wg białych znaków (inaczej niż w Morfeuszu), przy czym wprowadzono lepszy opis atrybutu zwrotności: teraz każdy czasownik ma wartość (<span style="font-family: Courier New, Courier, monospace;">nonrefl </span>niezwrotny, <span style="font-family: Courier New, Courier, monospace;">refl </span>zwrotny, a <span style="font-family: Courier New, Courier, monospace;">nonrefl.refl </span>taki, który może być raz zwrotny, a raz nie).</li>
<li>Słownik składa się wyłącznie z generowanego automatycznie eksportu z Kuźni Leksemów, z niewielkim wyjątkiem dla skrótów (słowa ze znacznikiem <span style="font-family: Courier New, Courier, monospace;">brev</span>), które nadal dodawane są osobno.</li>
</ul>
<div>
W tym wydaniu udostępniam pliki, w których jedna forma występuje w słowniku tylko raz, a jeśli ma wiele znaczników, to są one połączone znakiem „+”. Oczywiście prostym skryptem można rozpakować te formy na inną postać, ale słyszałem, że kiedy wykorzystuje się Morfologika do sprowadzania wyrazu do formy podstawowej, to jest to wygodne.</div>
<br />
<br />
Pliki dostępne są na <a href="https://sourceforge.net/projects/morfologik/files/morfologik/2.0/">sourceforge.net</a>. Czekam na komentarze. Planowane ostateczne wydanie: w ciągu dwóch tygodni.</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com4tag:blogger.com,1999:blog-28555040.post-76828487846770217662013-01-01T17:46:00.000+01:002013-01-01T17:46:33.061+01:00LanguageTool 2.0 na nowy rok<div dir="ltr" style="text-align: left;" trbidi="on">
Na nowy rok wydaliśmy nową wersję korektora LanguageTool. Zmiany są w większości kosmetyczne, a większość poprawek dotyczy innych języków niż polski. Instrukcja instalacji znajduje się na <a href="http://www.languagetool.org/pl/">polskiej stronie korektora LanguageTool</a>.<br />
<br />
Większą nowością jest <a href="https://addons.mozilla.org/pl/firefox/addon/languagetoolfx/">dodatek LanguageTool do przeglądarki Firefox</a>. Jego użycie wymaga albo lokalnej instalacji korektora LanguageTool (jako osobnego programu, nie dodatku do LibreOffice) i uruchomienia serwera, albo użycia serwera, który udostępniamy w Internecie. Instrukcje znajdują się na stronie rozszerzenia.<br />
<br />
Szczęśliwego Nowego Roku 2013!</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com4tag:blogger.com,1999:blog-28555040.post-67055388800826771742012-10-18T18:13:00.001+02:002012-10-18T18:13:19.143+02:00LanguageTool 1.9<div dir="ltr" style="text-align: left;" trbidi="on">
<br />
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; text-align: -webkit-auto;">
30 września wydaliśmy nową wersję korektora LanguageTool. Nie informowałem o niej wcześniej, bo nowy rok akademicki po prostu mnie mocno pochłonął... W tej wersji jest bardzo dużo zmian, m.in. powstały dwie wersje LanguageTool do pobrania: rozszerzenie LibreOffice/Apache OpenOffice (<a href="http://www.languagetool.org/download/LanguageTool-stable.oxt?1.9" style="color: #de7008;">plik .oxt</a>) i <a href="http://www.languagetool.org/download/LanguageTool-stable.zip?1.9" style="color: #de7008;">wersja samodzielna</a>.<br /></div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; text-align: -webkit-auto;">
Z nowości: wstępna obsługa języka japońskiego, aktualizacje reguł dla wielu języków, poprawki błędów.</div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; text-align: -webkit-auto;">
<br /></div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; text-align: -webkit-auto;">
<div>
<b>Instalacja rozszerzenia</b></div>
<div>
<br /></div>
<div>
<b>Zalecamy stosowanie LibreOffice 3.5.4 lub Apache OpenOffice 3.5.4 ze względu na poprawkę istotnego błędu, który obniżał sprawność dodatków w Javie.</b></div>
<div>
<br /></div>
<div>
W programie OpenOffice.org 3.0.1 lub nowszym, a także w LibreOffice<br /><div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><br /></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b>Metoda prosta</b><br />Dwukrotnie kliknij pobrany plik LanguageTool-stable.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora.<br /><b><br /></b></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b>Metoda tradycyjna</b></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;">Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.6.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).<br /><br />Po ponownym otwarciu OpenOffice.org / LibreOffice będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.<br /><br />Bez programu OpenOffice.org / LibreOffice<br />Rozpakuj archiwum LanguageTool-stable.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.<br /><br /><b>W razie problemów</b><br /><br />Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.6. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę. Uwaga: OpenOffice ani LibreOffice nie obsługują 64-bitowej maszyny Javy w środowisku Windows.</span></div>
</div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><br /></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b>Instalacja wersji samodzielnej</b></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b><br /></b></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;">Należy rozpakować plik .zip. Interfejs graficzny można uruchomić, klikając plik LanguageToolGUI.jar.</span></div>
</div>
</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-30665328902554460312012-10-01T18:35:00.000+02:002012-10-01T18:35:36.016+02:00morfologik-stemming 1.5.4<div dir="ltr" style="text-align: left;" trbidi="on">
Wydaliśmy dziś nową wersję biblioteki <a href="http://sourceforge.net/projects/morfologik/files/morfologik-stemming/1.5.4/morfologik-distribution-1.5.4.zip/download">morfologik-stemming 1.5.4</a>. Zmiany są niewielkie i dotyczą jedynie korektora pisowni opartego na automatach skończonych. Korektor w tej wersji obsługuje automaty z kodowaniem UTF-8, dzięki czemu mógł zastąpić bardzo powolnego hunspella (hunspell przetwarza na moim komputerze około 56 zdań na sekundę, a LanguageTool z korektorem morfologik-speller około 1400). Biblioteka morfologik-speller nie jest jeszcze zupełnie gotowa, bo nie przywraca znaków diakrytycznych i nie ma możliwości budowania automatów z morfologią dwustopniową (którą zawiera hunspell), ale te funkcje są w planach.</div>
Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com1tag:blogger.com,1999:blog-28555040.post-3473957802851052732012-07-01T15:24:00.003+02:002012-07-01T15:25:59.644+02:00LanguageTool 1.8<div dir="ltr" style="text-align: left;" trbidi="on">
<br />
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; text-align: -webkit-auto;">
30 czerwca wydaliśmy nową wersję korektora LanguageTool. W tej wersji jest bardzo dużo zmian, m.in. powstały dwie wersje LanguageTool do pobrania: rozszerzenie LibreOffice/Apache OpenOffice (<a href="http://www.languagetool.org/download/LanguageTool-stable.oxt?1.8">plik .oxt</a>) i <a href="http://www.languagetool.org/download/LanguageTool-stable.zip?1.8">wersja samodzielna</a>. Wersja samodzielna wyposażona została w korektory pisowni, oparte na hunspellu (który niestety jest bardzo powolny) lub własnym korektorze, opartym na algorytmie <a href="http://www.eti.pg.gda.pl/katedry/kiw/pracownicy/Jan.Daciuk/personal/fsa.html">fsa_spell</a>.<br />
<br />
Oprócz tego sporo poprawek błędów, aktualizacja słownika morfosyntaktycznego (obecnie jest to Morfologik 1.9) i trochę nowych reguł, a także warianty języków (m.in. rozróżniamy angielski brytyjski od amerykańskiego). Wprowadziliśmy też wstępną obsługę greckiego i portugalskiego.</div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; text-align: -webkit-auto;">
<br /></div>
<div style="background-color: #f6f6f6; font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; font-size: 16px; text-align: -webkit-auto;">
<div>
<b>Instalacja rozszerzenia</b></div>
<div>
<br /></div>
<div>
<b>Zalecamy stosowanie LibreOffice 3.5.4 lub Apache OpenOffice 3.5.4 ze względu na poprawkę istotnego błędu, który obniżał sprawność dodatków w Javie.</b></div>
<div>
<br /></div>
<div>
W programie OpenOffice.org 3.0.1 lub nowszym, a także w LibreOffice<br />
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><br /></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b>Metoda prosta</b><br />Dwukrotnie kliknij pobrany plik LanguageTool-stable.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora.<br /><b><br /></b></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b>Metoda tradycyjna</b></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;">Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.6.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).<br /><br />Po ponownym otwarciu OpenOffice.org / LibreOffice będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.<br /><br />Bez programu OpenOffice.org / LibreOffice<br />Rozpakuj archiwum LanguageTool-stable.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.<br /><br /><b>W razie problemów</b><br /><br />Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.6. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę. Uwaga: OpenOffice ani LibreOffice nie obsługują 64-bitowej maszyny Javy w środowisku Windows.</span></div>
</div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><br /></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b>Instalacja wersji samodzielnej</b></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;"><b><br /></b></span></div>
<div>
<span class="Apple-style-span" style="border-collapse: collapse; border-spacing: 2px; color: #333333; font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; line-height: 18px;">Należy rozpakować plik .zip. Interfejs graficzny można uruchomić, klikając plik LanguageToolGUI.jar.</span></div>
</div>
</div>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com9tag:blogger.com,1999:blog-28555040.post-18074731249609574962012-06-12T12:03:00.003+02:002012-06-12T12:03:41.954+02:00morfologik-stemming 1.5.3<div dir="ltr" style="text-align: left;" trbidi="on">
Skoro jest nowy słownik, to jest i nowa biblioteka morfologik-stemming. Poza zmianą słownika (i licencji!) znalazły się w niej tylko dwie zmiany: poprawka drobnego błędu oraz prosty algorytm korekty pisowni (przeniesiony z fsa_spell, czyli implementacja <a href="http://acl.ldc.upenn.edu/J/J96/J96-1003.pdf">algorytmu Kemala Oflazera</a>).</div>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-83385904393205002792012-06-11T23:32:00.001+02:002012-06-11T23:35:41.145+02:00Morfologik 1.9<div dir="ltr" style="text-align: left;" trbidi="on">
Właśnie pojawił się nowiutki <a href="https://sourceforge.net/projects/morfologik/files/latest/download?source=files">Morfologik 1.9</a>. Jest to prawdopodobnie ostatnie wydanie Morfologika osobno od słownika <a href="http://zil.ipipan.waw.pl/PoliMorf">PoliMorf</a>, który powstaje na bazie <a href="http://sgjp.pl/">Słownika Gramatycznego Języka Polskiego</a> i starej bazy Morfologika. W tym wydaniu mamy wiele zmian, przede wszystkim wynikających z połączenia zasobów.<br />
<br />
<ul style="text-align: left;">
<li>Kodowanie zmieniono na UTF-8, bo niektóre nazwiska obce, odmieniane po polsku, inaczej nie dałyby się poprawnie zapisać.</li>
<li>Z PoliMorfa do słownika przejęto wszystkie formy rzeczownikowe, przymiotnikowe, rzeczowniki odsłowne, imiesłowy i formy deprecjatywne. Pozostawiono jedynie formy czasownikowe (a to tylko w oczekiwaniu na możliwość eksportu z narzędzia służącego do tworzenia PoliMorfa, a mianowicie z Kuźni, czasowników w notacji nieposegmentowanej wewnętrznie). Jedynym wyjątkiem jest wyraz „Pablo”, który był analizowany także jako nieodmienny. To nie było zgodne z regułami LanguageToola, więc w Morfologiku Pabla trzeba odmieniać.</li>
<li>Zmiana licencji. Przyjęto najprostszą możliwą <a href="http://blaszyk-jarosinski.pl/?p=52">2-klauzulową licencję BSD</a>.</li>
</ul>
<div>
Cóż to oznacza dla użytkowników Morfologika? Otóż można już rozpocząć powolne przechodzenie na PoliMorfa. W następnym wydaniu PoliMorfa prawdopodobnie uda się już mieć też wariant tagsetu bez segmentacji wewnątrzywyrazowej, przez co samodzielnego wydania Morfologika 2.0 może już nie być. To wydanie ma tylko ułatwić przejście na porządniejszy tagset PoliMorfa.</div>
</div>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com17tag:blogger.com,1999:blog-28555040.post-52205219955948048822012-04-13T10:20:00.002+02:002012-04-13T10:23:41.436+02:00LanguageTool 1.7<p style="font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; text-align: -webkit-auto; background-color: rgb(246, 246, 246); ">25 marca wydaliśmy nową wersję korektora LanguageTool. Zmiany są zasadniczo kosmetyczne, w języku polskim reguły nie uległy zmianie (tu można zobaczyć <a href="http://www.languagetool.org/changes/V_1_6_to_V_1_7/">aktualizacje reguł</a>).</p><div style="font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; text-align: -webkit-auto; background-color: rgb(246, 246, 246); "><div><b>Instalacja</b></div><div><br /></div><div>W programie OpenOffice.org 3.0.1 lub nowszym, a także w LibreOffice<div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><br /></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><b>Metoda prosta</b><br />Dwukrotnie kliknij pobrany plik LanguageTool-stable.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora.<br /><b><br /></b></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><b>Metoda tradycyjna</b></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; ">Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.6.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).<br /><br />Po ponownym otwarciu OpenOffice.org / LibreOffice będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.<br /><br />Bez programu OpenOffice.org / LibreOffice<br />Rozpakuj archiwum LanguageTool-stable.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.<br /><br /><b>W razie problemów</b><br /><br />Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.6. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę.</span></div></div></div>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com2tag:blogger.com,1999:blog-28555040.post-52964312782098235972012-01-03T10:35:00.002+01:002012-01-03T10:37:58.925+01:00LanguageTool 1.6<p style="font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; text-align: -webkit-auto; background-color: rgb(246, 246, 246); ">31 grudnia wydaliśmy nową wersję korektora LanguageTool. Zmiany:</p><div style="font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; text-align: -webkit-auto; background-color: rgb(246, 246, 246); "><ul><li>aktualizacje reguł dla kilku języków (przede wszystkim chińskiego, francuskiego i bretońskiego);</li><li>zmiana nazw pakietów z de.danielnaber.languagetool.* na org.languagetool.*;</li><li>drobne inne poprawki.</li></ul><div><br /></div><div><b>Instalacja</b></div><div><br /></div><div>W programie OpenOffice.org 3.0.1 lub nowszym, a także w LibreOffice<div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><br /></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><b>Metoda prosta</b><br />Dwukrotnie kliknij pobrany plik LanguageTool-1.6.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org i wszystkie wersje LibreOffice), nastąpi uruchomienie instalatora.<br /><b><br /></b></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><b>Metoda tradycyjna</b></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; ">Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.6.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).<br /><br />Po ponownym otwarciu OpenOffice.org / LibreOffice będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.<br /><br />Bez programu OpenOffice.org / LibreOffice<br />Rozpakuj archiwum LanguageTool-1.6.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.<br /><br /><b>W razie problemów</b><br /><br />Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.6. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę.</span></div></div></div>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com19tag:blogger.com,1999:blog-28555040.post-92060350718410880342011-12-01T12:53:00.003+01:002011-12-06T17:38:46.863+01:00PoliMorf — otwarty słownik morfologicznyW poniedziałek, 5 grudnia w IPI PAN w ramach seminarium<i> Przetwarzanie języka naturalnego </i>wygłoszony zostanie referat „PoliMorf — otwarty słownik morfologiczny”, którego autorami są <div>Marcin Woliński, Marcin Miłkowski, Maciej Ogrodniczuk, Adam Przepiórkowski, Łukasz Szałkiewicz i Jan Szejko (wszyscy afiliowani w IPI PAN).</div><div><br /></div><div>STRESZCZENIE: </div><div><br /></div><div>Tematem referatu będzie słownik morfologiczny do zastosowań inżynierii lingwistycznej tworzony w ramach projektu Cesar. Celem tego projektu jest zebranie i uprzystępnienie rozmaitych zasobów dotyczących języków Europy Centralnej i Wschodniej. Działając w tym duchu podjęliśmy (za zgodą i przy udziale autorów) próbę połączenia zbioru form „Słownika gramatycznego języka polskiego” i projektu Morfologik. Pokażemy pierwszą wersję połączonego słownika, opowiemy o procesie łączenia i związanych z nim trudnościach. Chcielibyśmy także sprowokować słuchaczy do zgłaszania oczekiwań co do zawartości i sposobu podania tworzonego zasobu. Mamy bowiem nadzieję, że PoliMorf stanie się standardowym źródłem danych fleksyjnych dla projektów z dziedziny NLP.</div><div><br /></div><div>Tu dostępna jest <a href="http://nlp.ipipan.waw.pl/NLP-SEMINAR/111205.pdf">prezentacja w formacie PDF</a>.</div>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-10226488583734760362011-09-27T19:35:00.002+02:002011-09-27T19:44:55.909+02:00LanguageTool 1.5<span class="Apple-style-span" style="font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; background-color: rgb(246, 246, 246); "><p>25 września wydaliśmy nową wersję korektora LanguageTool. Zmiany:</p><div><ul><li>cztery nowe języki: chiński, asturyjski, tagalski, bretoński;</li><li>aktualizacje reguł dla wielu języków (dla polszczyzny kosmetyczne);</li><li>automatyczne wykrywanie języka (nie dotyczy OpenOffice.org/LibreOffice);</li><li>wiele zmian związanych z Google Summer of Code;</li><li>usunięte usterki.</li></ul><div><br /></div><div><b>Instalacja</b></div><div><br /></div><div><span class="Apple-style-span" style="font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; ">W programie OpenOffice.org 3.0.1 lub nowszym<div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><br /></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><b>Metoda prosta</b><br />Dwukrotnie kliknij pobrany plik LanguageTool-1.4.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora.<br /><b><br /></b></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><b>Metoda tradycyjna</b></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; ">Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.4.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).<br /><br />Po ponownym otwarciu OpenOffice.org będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.<br /><br />Bez programu OpenOffice.org<br />Rozpakuj archiwum LanguageTool-1.5.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.<br /><br /><b>W razie problemów</b><br /><br />Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.6. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę.</span></div></span></div></div></span>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com4tag:blogger.com,1999:blog-28555040.post-63562565622832517362011-06-28T11:15:00.002+02:002011-06-28T11:18:09.118+02:00LanguageTool 1.4Wydaliśmy nową wersję korektora LanguageTool. Zmiany:<div><br /></div><div><ul><li>aktualizacje reguł angielskich, francuskich, niemieckich, rosyjskich i esperanto;</li><li>obsługa języka khmerskiego;</li><li>uproszczenia budowy wewnętrznej programu.</li></ul><div><br /></div><div><b>Instalacja</b></div><div><br /></div><div><span class="Apple-style-span" style="font-family: 'Trebuchet MS', Trebuchet, Verdana, sans-serif; ">W programie OpenOffice.org 3.0.1 lub nowszym<div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><br /></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><b>Metoda prosta</b><br />Dwukrotnie kliknij pobrany plik LanguageTool-1.4.oxt. Jeśli w systemie jest zarejestrowane rozszerzenie .oxt (robią to aktualne wersje OpenOffice.org), nastąpi uruchomienie instalatora.<br /><b><br /></b></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; "><b>Metoda tradycyjna</b></span></div><div><span class="Apple-style-span" style="font-family: 'trebuchet ms', verdana, arial, sans-serif; font-size: 13px; border-collapse: collapse; color: rgb(51, 51, 51); line-height: 18px; -webkit-border-horizontal-spacing: 2px; -webkit-border-vertical-spacing: 2px; ">Kliknij polecenie Narzędzia > Menedżer rozszerzeń > Dodaj, a następnie wybierz plik LanguageTool-1.4.oxt. Zamknij pakiet (łącznie z modułem szybkiego uruchamiania).<br /><br />Po ponownym otwarciu OpenOffice.org będzie możliwe automatyczne sprawdzanie tekstu. Jako test wpisz zdanie: „To zdanie zdanie jest z błędem”.<br /><br />Bez programu OpenOffice.org<br />Rozpakuj archiwum LanguageTool-1.4.oxt (jest to plik w formacie .zip) i uruchom plik LanguageToolGui.jar, klikając go dwukrotnie. Jeśli na danym komputerze nie skonfigurowano skojarzenia dla plików *.jar, uruchom program z wiersza poleceń za pomocą polecenia java -jar LanguageToolGUI.jar. Plik LanguageTool.jar jest natomiast korektorem działającym z poziomu wiersza poleceń.Rozpakuj znajdujący się w archiwum plik standalone-libs.zip do tego samego katalogu, do którego rozpakowano pliki z archiwum.<br /><br /><b>W razie problemów</b><br /><br />Należy upewnić się, czy w systemie zainstalowana jest Java w wersji co najmniej 1.6. Środowisko GIJ ma błędy uniemożliwiające użytkowanie LT; należy korzystać z Javy w wersji IcedTea lub firmy Sun. Ta wersja środowiska Java musi być widoczna dla OpenOffice.org (Narzędzia > Opcje > Java).Nazwa użytkownika w systemie Windows nie może zawierać polskich liter, jeśli pakiet OpenOffice.org jest starszy niż 3.1.W systemie Ubuntu konieczna jest instalacja pakietu openoffice.org-java-common, gdyż OpenOffice jest domyślnie instalowany bez bibliotek obsługujących Javę.</span></div></span></div></div>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0tag:blogger.com,1999:blog-28555040.post-28870574438821710232011-06-21T15:25:00.002+02:002011-06-21T15:29:31.757+02:00Morfologik-stemming 1.5.2Wydaliśmy dziś kolejną wersję biblioteki morfologik-stemming, 1.5.2. Wielką nowością jest włączenie drugiego słownika morfosyntaktycznego języka polskiego – mianowicie dostępnego poprzednio tylko w analizatorze Morfeusz Słownika Gramatycznego Języka Polskiego (SGJP). Dzięki temu, że w ramach projektu CESAR SGJP został uwolniony na licencji BSD, mogliśmy go teraz dołączyć w naszym analizatorze.<div><br /></div><div>W projekcie CESAR zamierzamy zresztą dokonać połączenia obu słowników: prace koncepcyjne za nami, trwają teraz roboty nad oprogramowaniem, które to umożliwi.</div><div><br /></div><div>Poza tym projekt morfologik-stemming podzielono na wiele mniejszych modułów, co powinno ułatwić pracę. Wydanie dostępne jest na <a href="http://sourceforge.net/projects/morfologik/files/morfologik-stemming/1.5.2/">sf.net</a> i w Maven Central.</div>Marcin Miłkowskihttp://www.blogger.com/profile/11617540925216664775noreply@blogger.com0