Przejdź do głównej zawartości

Znaczniki Morfologika

Ponieważ zestaw znaczników (czyli tagset) w Morfologiku odbiega nieznacznie od zestawu stosowanego w korpusie IPI, nie opisywałem go szczegółowo. Jednak różnice istnieją i istnieć będą, więc żeby nie odpowiadać indywidualnie na każdy mail w tej sprawie, postanowiłem udokumentować je porządnie.

  • adj - przymiotnik (np. „niemiecki”)
  • adjp - przymiotnik poprzyimkowy (np. „niemiecku”)
  • adv - przysłówek (np. „głupio”)
  • conj - spójnik
  • ign - ignorowana część mowy
  • indecl - nieodmienna część mowy
  • num - liczebnik
  • pact - imiesłów przymiotnikowy czynny
  • pant - imiesłów przysłówkowy uprzedni
  • pcon - imiesłów przysłówkowy współczesny
  • ppas - imiesłów przymiotnikowy bierny
  • ppron12 - zaimek nietrzecioosobowy
  • ppron3 - zaimek trzecioosobowy
  • pred - predykatyw (np. „trzeba”)
  • prep - przyimek
  • siebie - zaimek „siebie”
  • subst - rzeczownik
  • verb - czasownik
Atrybuty podstawowych form:
  • sg - liczba pojedyncza
  • pl - liczba mnoga
  • indecl - forma nieodmienna
  • irreg - forma nieregularna (nierozpoznana dokładniej pod względem wartości atrybutów, np. subst:irreg)
  • nom - mianownik
  • gen - dopełniacz
  • acc - biernik
  • dat - celownik
  • inst - narzędnik
  • loc - miejscownik
  • voc - wołacz
  • pos - stopień równy
  • comp - stopień wyższy
  • sup - stopień najwyższy
  • m (a także, w sposób nie do końca uporządkowany, m1... m4) - rodzaj męski
  • n - rodzaj nijaki
  • f - rodzaj żeński
  • pri - pierwsza osoba
  • sec - druga osoba
  • tri - trzecia osoba
  • depr - forma deprecjatywna
  • aff - forma niezanegowana
  • neg - forma zanegowana
  • refl - forma zwrotna czasownika [nie występuje w znacznikach IPI]
  • perf - czasownik dokonany
  • imperf - czasownik niedokonany
  • ?perf - czasownik nierozpoznany pod względem aspektu
  • nakc - forma nieakcentowana zaimka
  • akc - forma akcentowana zaimka
  • praep - forma poprzyimkowa
  • npraep - forma niepoprzyimkowa
  • ger - rzeczownik odsłowny
  • imps - forma bezosobowa
  • impt - tryb rozkazujący
  • inf - bezokolicznik
  • fin - forma nieprzeszła
  • bedzie - forma przyszła „być”
  • praet - forma przeszła czasownika (pseudoimiesłów)
  • pot - tryb przypuszczający [nie występuje w znacznikach IPI]
W znacznikach Morfologika nie występuje i nie będzie występować znacznik aglt, a to ze względu na inną zasadę segmentacji wyrazów (zasady IPI utrudniałyby w ogromnym stopniu realizację wielu zasad poprawnej pisowni łącznej i rozłącznej, gdyż stosowana w korpusie IPI segmentacja nie pokrywała się z granicą wyrazu definiowaną przez spację lub znak przestankowy).

Komentarze

Anonimowy pisze…
Dziękuję bardzo za opisanie znaczników. Tematyka bardzo ciekawa, jednak nie wszystko od razu jest jasne, dlatego też wpisy które dotyczą podstaw są jak najbardziej w cenie :D Przynajmniej z mojej strony ,
Pozdrawiam serdecznie. Powodzenia

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś...

Aktualizacja słownika ortograficznego w programie LanguageTool 5.8

Przygotowałem aktualizację słownika ortograficznego stosowanego w programie LanguageTool (będzie dostępna publicznie w nowym wydaniu, 5.8, planowanym na koniec czerwca). Słownik oparty jest przede wszystkim na słownikach dostępnych na sjp.pl , lecz usunąłem trochę mylących wpisów (np. niezalecaną formę „ grejfrut ”) i dodałem trochę funkcji (typu wyrazy pisane z łącznikiem), które są potrzebne. Zdumiało mnie, że poprzednia wersja słownika pochodziła z roku 2008. No cóż, ta zmiana się po prostu należała. W kolejce jest aktualizacja paczki słowników do LibreOffice/OpenOffice.