Przejdź do głównej zawartości

Posty

Amora silikonem

Na portalu interia grasują nieszczelne amorki. Dlatego też podjęto akcję uszczelniania silikonem: Grafika interii informuję, że forma rozkazująca od „uszczelniać” brzmi „uszczelnij”. No, chyba że chodziło o strzelanie, ale o takiego byka całej redakcji, organizującej cały konkurs pod tym tytułem, nie sposób przecież podejrzewać...

Kaczki w Carrefourze

W supermarkecie można kupić kaczki. Nie byle jakie, kaczki do sprzedaży: Oczywiście, pewnie w sklepie mają kaczki ładniejsze, które można sprzedać w całości, i kaczki-inwalidki, które kroi się na poszczególne części i sprzedaje po kawałku. Tylko że na etykiecie określenie „kaczka do sprzedaży” wywołuje efekt komiczny, bo staje się ono pleonazmem (do czego innego służą całe kaczki w dziale mięsnym?). Czekam na masło do sprzedaży, banany do sprzedaży, ser do sprzedaży i baton do sprzedaży. Dawno temu, w latach 80., kupiłem w sklepie spożywczym pierożki. Na etykiecie (zastępczej) widniało określenie „pierożki mięsno-wołowe”. Rozśmieszyło mnie niepomiernie, ale dopiero po kilku latach po zjedzeniu zrozumiałem, że to akurat pleonazmem nie było... W następnych odcinkach – co zabawniejsze błędy z różnych miejsc :)

Morfologik 1.3

Dziś opublikowałem najnowszą wersję słownika morfosyntaktycznego. Zmiany: więcej wyrazów (3560881); wprowadzenie, dzięki zmianom w słowniku alternatywnym, oznaczenia formy imiesłowu przymiotnikowego czynnego ( pact ); wprowadzenie konsekwentnego oznaczenia aspektu dokonanego ( perf ) i niedokonanego ( imperf ); poprawki drobnych błędów; rozpoznawanie wielu form nieregularnych dzięki rozbudowaniu heurystyki; pliki konieczne do obsługi w bibliotece morfologik-stemming ; aktualizacja zgodnie z najnowszym słownikiem alternatywnym. Pozostało kilka drobnych usterek związanych z obsługą aspektu - m.in. kilkanaście nieregularnych czasowników, z małą ilością flag w słowniku alternatywnych, jest klasyfikowanych błędnie. Można będzie to poprawiać automatycznie, wystarczy skonstruować jeden prosty skrypt (i zrobić wyjątek m.in. dla czasownika cisnąć – ten bowiem ma zarówno formę dokonaną, jak i niedokonaną). Zmiany obecne są jednak na tyle duże, że już mi wystarczy poprawiania - skrypty zostały p...

Znaczniki Morfologika

Ponieważ zestaw znaczników (czyli tagset ) w Morfologiku odbiega nieznacznie od zestawu stosowanego w korpusie IPI , nie opisywałem go szczegółowo. Jednak różnice istnieją i istnieć będą, więc żeby nie odpowiadać indywidualnie na każdy mail w tej sprawie, postanowiłem udokumentować je porządnie. adj - przymiotnik (np. „niemiecki”) adjp - przymiotnik poprzyimkowy (np. „niemiecku”) adv - przysłówek (np. „głupio”) conj - spójnik ign - ignorowana część mowy indecl - nieodmienna część mowy num - liczebnik pact - imiesłów przymiotnikowy czynny pant - imiesłów przysłówkowy uprzedni pcon - imiesłów przysłówkowy współczesny ppas - imiesłów przymiotnikowy bierny ppron12 - zaimek nietrzecioosobowy ppron3 - zaimek trzecioosobowy pred - predykatyw (np. „trzeba”) prep - przyimek siebie - zaimek „siebie” subst - rzeczownik verb - czasownik Atrybuty podstawowych form: sg - liczba pojedyncza pl - liczba mnoga indecl - forma nieodmienna irreg - forma nieregularna (nierozpoznana dokładniej pod...

Odmiana wykonana

Dziś znalazłem trochę czasu, aby poprawić trochę kod LanguageTool, dodać parę nowych metod - no i jest już możliwość odwoływania się do zadeklarowanych fraz, a nawet ich odmieniania. To będzie wymagało niezłej ekwilibrystyki z wyrażeniami regularnymi, ale będzie możliwe. To pozostaje teraz opracować takie frazy, które będą mogły być używane jako frazy nominalne lub jako ciągi przymiotników itd. Sporo roboty.

Odmiana fraz w podpowiedziach

W obecnej wersji LT niektóre podpowiedzi zawierają prawidłowo odmienione polskie wyrazy (inne niż w błędnych, kwestionowanych zdaniach) - a to dzięki specjalnemu, „odwróconemu” słownikowi z projektu Morfologik (trik polegał na odpowiednim dobraniu danych do automatu słownika morfologicznego). Nadal jednak nie zaimplementowałem odmiany chociażby fraz przymiotnikowych, które mogą składać się z kolejnych przymiotników i przysłówków. Nie mówiąc o frazach nominalnych... Choć zwolennicy Chomsky’ego będą się zapewne krzywić, przeanalizowałem maksymalną długość takiego ciągu przymiotnikowo-przysłówkowego, badając częstość wystąpień w korpusie IPI . Otóż maksymalnie zdarza się 5 elementów pod rząd, sporadycznie tylko więcej (cóż, wszystko wskazuje na to, że magiczna liczba Millera 7 +/- 2 ma tutaj zastosowanie). Dlatego nie trzeba bynajmniej tworzyć struktury rekurencyjnej o dowolnym stopniu zagnieżdżenia; wystarczy dokonać zwykłego wyliczenia kombinacji, bo jest ich po prostu mało. To może pro...

Proszę paniom

Zastanawiałem się, czy dodać do listy błędów „proszę paniom”, czyli piękne połączenie błędu fonetycznego z błędną odmianą. Postanowiłem sprawdzić, czy w ogóle ktoś w piśmie popełnia ów błąd, więc – idąc po linii najmniejszego oporu – użyłem wyszukiwarki . I okazało się, że „proszę paniom” pojawia się tylko jako cytat podczas wytykania błędów. W dodatku głównie dwóm publicznym postaciom, o czym przekonać można się po kliknięciu powyższego odnośnika. Czyli nie dodam do listy :)