Wydaliśmy dziś nową wersję biblioteki morfologik-stemming 1.5.4. Zmiany są niewielkie i dotyczą jedynie korektora pisowni opartego na automatach skończonych. Korektor w tej wersji obsługuje automaty z kodowaniem UTF-8, dzięki czemu mógł zastąpić bardzo powolnego hunspella (hunspell przetwarza na moim komputerze około 56 zdań na sekundę, a LanguageTool z korektorem morfologik-speller około 1400). Biblioteka morfologik-speller nie jest jeszcze zupełnie gotowa, bo nie przywraca znaków diakrytycznych i nie ma możliwości budowania automatów z morfologią dwustopniową (którą zawiera hunspell), ale te funkcje są w planach.
Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś...
Komentarze