Przejdź do głównej zawartości

LanguageTool dostaje złotą nagrodę

W czerwcu spieszyliśmy się bardzo, aby zdążyć na konkurs Community Innovation Program ogłoszony przez Sun Micrososystems, gdzie suma nagród miała wynieść milion dolarów. Zgłosiliśmy we dwóch z Danielem Naberem LanguageTool i dwie jego nowe funkcje: integrację z OpenOffice.org 3.0 (tj. podkreślanie na bieżąco błędów wykrytych przez LT) oraz witrynę Community do poprawiania i testowania reguł przez społeczność użytkowników. Pierwszą rzecz robiłem ja, drugą - Daniel.
I udało się :) Dostaliśmy złotą nagrodę.

Komentarze

Anonimowy pisze…
13 dolarów? Coś chyba im się na tej stronie pomyliło... to ile wygraliście? ;)
Psz pisze…
Gratulacje!
marmez: po angielsku przecinki oddzielają tysiące. Dostaliśmy jednak niecałe 10 tys. do podziału na dwóch, bo 30% poszło na podatki amerykańskie. Wiadomo, banki w potrzebie, to i od nagrody urwą.
Anonimowy pisze…
I like the way my surname is inflected in Polish :-)

Daniel
Well, you didn't see all the forms ;)

Gen. & Acc. Nabera, Dat. Naberowi, Inst. Naberem, Loc. & Voc. Naberze.
And in plural: Nom. & Acc. & Voc. Naberowie, Gen. Naberów, Dat. Naberom, Inst. Naberami.

We inflect most words, especially foreign surnames. Sometimes it's really hard because of the two clashing ways you pronounce the same word: the beginning is, say, in English, but the ending is Polish.
marmez: zwracam honor, brakuje zera na końcu liczby w tym ogłoszeniu ;)
Anonimowy pisze…
@marcin: Wszystko już jasne.

Ja pierwszy raz zainstalowałem ten dodatek i jestem pod miłym wrażeniem, tym bardziej, że z językiem polskim byłem zawsze na bakier. :)
Anonimowy pisze…
Gratulacje. Wasza wygrana pokazuje, że jak ktoś robi coś dobrze, to w końcu na tym zyskuje.
Anonimowy pisze…
Witam i gratuluję napisania świetnego narzędzia.
Mam taką uwagę. Gdy na końcu zdania występuje litera m (skrót od metrów) a następnie kropka to program traktuje ją jak kropkę przy skróce a nie kończącą zdanie. Czy w tym wypadku trzeba stawiać dwie kropki???
poniżej przykład:
****************
W skład ujęcia wchodzą dwa otwory o głębokości 45 m i średnicy 18”, w których zabudowano kolumny filtroweo długości 45 m. Woda z ujęcia jest dostarczana do zakładu za po­mocą rurociągu tłocznego Ø 110 mm.
***************
W tym wypadku chodzi o kropkę po "45 m."
Anonimowy pisze…
Myślę że gdyby startował Pan do większej liczby konkursów to i więcej nagród by się uzbierało.

Gratuluję!

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś

Wikipedia history diff as a revision corpus

(As this is of interest not only to the Polish-speaking community, this post is in English.) Recently, after some discussions on the lingucomponent list at OpenOffice.org on the method of finding frequent typos, I did some experiments on the revision history logs. Background. The developers of grammar checkers, and autocorrect lists, have hard times with finding relevant corpora. Revision history is an excellent source about native speakers perception of linguistic norms. Frequently revised typos are perceived as errors that need to be corrected, so using these typos on autocorrect lists is justified. The same goes for style, grammar and usage errors. Method . Experiments involved three steps: Clean the history dump (??wiki-latest-pages-meta-history.xml), to get only relevant parts of the dump. Using XML tools isn't recommended (I tried XSLT, forget it). Using a simple awk script, I was able to clean the > 30GB dump in an hour or so, and got a >17 GB file. The script is simp