22.5.10
4.5.10
Paper on developing LanguageTool available
My paper on developing LanguageTool, focused mostly on new features needed to support many different languages in LT, has just been published in Software - Practice and Experience (if you have no access to SPE, here is the final uncorrected draft). The paper contains a section with empirical results - I tested LanguageTool on Polish, and compared the results with Microsoft Word grammar checker (the only one that exists for Polish beside LanguageTool). The results are pretty good - whereas LanguageTool rules seem to create few false alarms (the precision level is around 90% for most test samples), MS Word tends to have a lot of them (the precision level is in best cases around 50%, and in many cases even lower).
Sample text | MS Word matches | MS Word precision | LT matches | LT precision |
Frequency Dictionary Corpus | 4572 | 22,00% | 8552 | 92,00% |
Camera-ready book | 586 | 1,00% | 323 | 54,00% |
Culinary forum | 75 | 17,00% | 186 | 90,00% |
Catholic church notices | 24 | 0,00% | 140 | 87,00% |
Left-wing political commentary | 58 | 1,00% | 242 | 97,00% |
Right-wing political commentary | 51 | 5,00% | 274 | 93,00% |
Left-wing professional politician blog | 91 | 13,00% | 238 | 90,00% |
Right-wing professional politician blog | 59 | 55,00% | 98 | 94,00% |
Stock-market analyst blog | 43 | 4,00% | 134 | 95,00% |
Political blog | 12 | 50,00% | 67 | 98,00% |
Popular personal blog 1 | 67 | 8,00% | 127 | 88,00% |
Popular personal blog 2 | 57 | 47,00% | 124 | 98,00% |
As promised in the paper, I am making my testing set freely available, as the results were evaluated manually only by myself. Now, the methodology was very simple: instead of trying to figure out the total number of errors in the text, I simply checked if rules created any problems, i.e., offered suggestions that would result in grammar errors. This way, I avoided the possible objection that I treated some corrections as useless just because I thought you might leave the text as is. Instead of arguing over such cases, I treat them as correct.
Autor
Marcin Miłkowski
o
4.5.10
0
(liczba komentarzy)
Etykiety: grammar checkers, LanguageTool, paper, testing
16.4.10
morfologik-stemming 1.4.0
Dziś wydaliśmy nową wersję biblioteki morfologik-stemming. Największą zmianą jest możliwość tworzenia automatów FSA bezpośrednio w Javie. Służy do tego narzędzie wiersza poleceń fsa_build. Aby tworzyć słowniki do lematyzacji można też wykorzystać narzędzie tab2morph, które implementuje funkcje skryptów morph_data z pakietu FSA, ale zawsze poprawnie obsługuje kodowanie UTF-8, z którym skrypty w Perlu i AWK nie zawsze dobrze sobie radziły. Zmiany w API widoczne są w dokumentacji.
Jednocześnie zmieniliśmy słownik zamieszczony w pakiecie na najnowszy. Dzięki temu cały pakiet ma też inne licencje: kod ma BSD, a słownik LGPL lub Creative Commons ShareAlike.
Autor
Marcin Miłkowski
o
16.4.10
5
(liczba komentarzy)
Etykiety: morfologik-stemming, nowa wersja
Powered by morfologik-stemming...
Biblioteka morfologik-stemming wykorzystywana jest m.in. w następujących projektach:
Autor
Marcin Miłkowski
o
16.4.10
0
(liczba komentarzy)
Etykiety: poweredby
14.4.10
Morfologik 1.6
Dzisiaj wydałem nową wersję (1.6) leksykonu morfosyntaktycznego Morfologik. Zmiany są niewielkie - głównie poprawki zauważonych błędów, takich jak niewłaściwe znaczniki, bzdurne formy (np. usunąłem wyraz "ca", który był połową wyrazu "z-ca") czy literówki. Usunąłem też zbędny znacznik "indecl", teraz stosowany jest wszędzie "qub". Mówiąc krótko, są tu głównie drobne poprawki różnych błędów.
Większą zmianą jest podwójne licencjonowanie: słownik może być wykorzystywany na licencji LGPL v3, tak jak wcześniej, albo Creative Commons ShareAlike.
Autor
Marcin Miłkowski
o
14.4.10
0
(liczba komentarzy)
Etykiety: morfologik, nowa wersja
30.3.10
W kuchni nie wolno wulgarnie
Autor
Marcin Miłkowski
o
30.3.10
0
(liczba komentarzy)
Etykiety: błędy, fałszywe alarmy
25.3.10
Ślimaki, ach ślimaki
W supermarketach czasem odkrywają nowe krainy. Oto francuska sieć sklepów wielkopowierzchniowych ujawnia istnienie Burguncji:
Smacznego. Ja pozostanę przy wierze w istnienie Burgundii. I nie potrafię się przekonać, że ślimaki są rybami.
Autor
Marcin Miłkowski
o
25.3.10
1 (liczba komentarzy)
Etykiety: błędy
LanguageTool i OmegaT
Narzędzie wspomagające pracę tłumaczy OmegaT (w wersji beta 2.1.4) właśnie uzyskało możliwość korzystania z LanguageTool jako dodatkowego modułu. Efekty widać od razu:
Autor
Marcin Miłkowski
o
25.3.10
0
(liczba komentarzy)
Etykiety: LanguageTool, OmegaT

