Przejdź do głównej zawartości

Referat: Słownik morfologiczny języka polskiego i jego zastosowanie w korekcie gramatycznej

W ramach seminarium „Przetwarzanie języka naturalnego” (Instytut Podstaw Informatyki PAN, ul. Ordona 21, Warszawa) zostanie dnia 16.10.06 (poniedziałek) o godz. 12.15 wygłoszony następujący referat:

AUTOR: Marcin Miłkowski
AFILIACJA: Instytut Filozofii i Socjologii PAN
TYTUŁ: Słownik morfologiczny języka polskiego i jego zastosowanie w korekcie gramatycznej

STRESZCZENIE:

W referacie opiszę, w jaki sposób na podstawie danych pochodzących tzw. słownika alternatywnego do sprawdzania pisowni tworzony jest słownik morfologiczny zawierający znaczniki bardzo zbliżone do stosowanych w korpusie IPI PAN (rozbieżności zostaną
wskazane). Opisany zostanie prosty hybrydowy algorytm generowania słownika na postawie słownika korelacji między znacznikami morfologicznymi a oznaczeniami formatu ispell oraz na podstawie osobnego słownika form nieregularnych. Obecnie słownik morfologiczny
zawiera prawie 3,5 miliona form i jest największym tego rodzaju zasobem dostępnym na licencji typu open source. Systemy korekty gramatycznej oparte na regułach wykrywania błędów korzystają z systemów anotacji morfologicznej; jednak zastosowanie probabilistycznych parserów w tym kontekście jest przeciwskuteczne, gdyż w parserach zakłada się gramatyczność wypowiedzi. Pokażę, w jaki sposób wykorzystanie słownika morfologicznego, zakodowanego w postaci automatu skończonego, w korektorze LanguageTool prowadzi do wzbogacenia zestawu znaczników i kontroli jakości ich przypisania.

Podobne słowniki morfosyntaktyczne w programie LanguageTool są stosowane dla języka niemieckiego, angielskiego, francuskiego, hiszpańskiego i włoskiego; w przygotowaniu jest słownik języka Malayalam.

Tu znajduje się prezentacja do tego referatu.

Dodatkowe informacje o seminarium znajdują się na stronie:
http://nlp.ipipan.waw.pl/seminar-p.html

Komentarze

Popularne posty z tego bloga

Imiesłów przysłówkowy bez orzeczenia

W zdaniach z imiesłowami przysłówkowymi (-ąc i -wszy), zakończonych znakiem interpunkcyjnym, powinno występować orzeczenie. Dopuszczalne jest opuszczenie orzeczenia w tytule. W tytule nie stosuje się jednak kropek na końcu. Na przykład: Czekając na Godota Czekając na Godota, zabawiali się rozmową. Błąd ten jest tym bardziej rażący w zdaniach, w których występuje zdanie podrzędne: !Czekając na Godota, który nie przychodził. Usterka zostanie wykryta także w błędnie formułowanych pytaniach: !Rozmawiając o sporcie, który sport uprawiasz? W powyższym przykładzie podmiot imiesłowu jest inny od podmiotu pytania (my rozmawiamy, a sport uprawiasz tylko ty). Powinno być: Skoro już mowa o sporcie, którą dyscyplinę uprawiasz?

Gromadzimy błędy językowe

Tu zbieram błędy, które mają być wykrywane regułami. Część z tych błędów można dodać także do list autokorekty w Ooo (a nawet w programie MS Word). Warto pamiętać, że na liście muszą być tylko te błędy, których nie wykryje już korektor pisowni (a zatem błędne formy fleksyjne i proste błędy ortograficzne nie muszą być tutaj umieszczane). Zapraszam do komentowania i uzupełniania tej listy, na pewno nie jest wyczerpująca. Mówiąc krótko, to taki negatywny słownik języka polskiego ;) Nowomowa, ale nie błąd: wychodzić|wyjść * naprzeciw -> popierać *, iść na rękę * wprowadzić kogo w co -> zapoznać kogo z czym [fałszywe alarmy] w przypomnieniu -> przypominając [za dużo fałszywych alarmów] do wojny -> przed wojną [fałszywe alarmy, wiele poprawnych zwrotów] więcej chory -> coraz bardziej chory [rzadkie] widzieć się zmuszonym -> być zmuszonym w uzupełnieniu -> uzupełniając do roku -> przed upływem roku [za dużo fałszywych alarmów] trzymać wagę, firmę, mowę ś...

Aktualizacja słownika ortograficznego w programie LanguageTool 5.8

Przygotowałem aktualizację słownika ortograficznego stosowanego w programie LanguageTool (będzie dostępna publicznie w nowym wydaniu, 5.8, planowanym na koniec czerwca). Słownik oparty jest przede wszystkim na słownikach dostępnych na sjp.pl , lecz usunąłem trochę mylących wpisów (np. niezalecaną formę „ grejfrut ”) i dodałem trochę funkcji (typu wyrazy pisane z łącznikiem), które są potrzebne. Zdumiało mnie, że poprzednia wersja słownika pochodziła z roku 2008. No cóż, ta zmiana się po prostu należała. W kolejce jest aktualizacja paczki słowników do LibreOffice/OpenOffice.