W ramach seminarium „Przetwarzanie języka naturalnego” (Instytut Podstaw Informatyki PAN, ul. Ordona 21, Warszawa) zostanie dnia 16.10.06 (poniedziałek) o godz. 12.15 wygłoszony następujący referat:
AUTOR: Marcin Miłkowski
AFILIACJA: Instytut Filozofii i Socjologii PAN
TYTUŁ: Słownik morfologiczny języka polskiego i jego zastosowanie w korekcie gramatycznej
STRESZCZENIE:
W referacie opiszę, w jaki sposób na podstawie danych pochodzących tzw. słownika alternatywnego do sprawdzania pisowni tworzony jest słownik morfologiczny zawierający znaczniki bardzo zbliżone do stosowanych w korpusie IPI PAN (rozbieżności zostaną
wskazane). Opisany zostanie prosty hybrydowy algorytm generowania słownika na postawie słownika korelacji między znacznikami morfologicznymi a oznaczeniami formatu ispell oraz na podstawie osobnego słownika form nieregularnych. Obecnie słownik morfologiczny
zawiera prawie 3,5 miliona form i jest największym tego rodzaju zasobem dostępnym na licencji typu open source. Systemy korekty gramatycznej oparte na regułach wykrywania błędów korzystają z systemów anotacji morfologicznej; jednak zastosowanie probabilistycznych parserów w tym kontekście jest przeciwskuteczne, gdyż w parserach zakłada się gramatyczność wypowiedzi. Pokażę, w jaki sposób wykorzystanie słownika morfologicznego, zakodowanego w postaci automatu skończonego, w korektorze LanguageTool prowadzi do wzbogacenia zestawu znaczników i kontroli jakości ich przypisania.
Podobne słowniki morfosyntaktyczne w programie LanguageTool są stosowane dla języka niemieckiego, angielskiego, francuskiego, hiszpańskiego i włoskiego; w przygotowaniu jest słownik języka Malayalam.
Tu znajduje się prezentacja do tego referatu.
Dodatkowe informacje o seminarium znajdują się na stronie:
http://nlp.ipipan.waw.pl/seminar-p.html
AUTOR: Marcin Miłkowski
AFILIACJA: Instytut Filozofii i Socjologii PAN
TYTUŁ: Słownik morfologiczny języka polskiego i jego zastosowanie w korekcie gramatycznej
STRESZCZENIE:
W referacie opiszę, w jaki sposób na podstawie danych pochodzących tzw. słownika alternatywnego do sprawdzania pisowni tworzony jest słownik morfologiczny zawierający znaczniki bardzo zbliżone do stosowanych w korpusie IPI PAN (rozbieżności zostaną
wskazane). Opisany zostanie prosty hybrydowy algorytm generowania słownika na postawie słownika korelacji między znacznikami morfologicznymi a oznaczeniami formatu ispell oraz na podstawie osobnego słownika form nieregularnych. Obecnie słownik morfologiczny
zawiera prawie 3,5 miliona form i jest największym tego rodzaju zasobem dostępnym na licencji typu open source. Systemy korekty gramatycznej oparte na regułach wykrywania błędów korzystają z systemów anotacji morfologicznej; jednak zastosowanie probabilistycznych parserów w tym kontekście jest przeciwskuteczne, gdyż w parserach zakłada się gramatyczność wypowiedzi. Pokażę, w jaki sposób wykorzystanie słownika morfologicznego, zakodowanego w postaci automatu skończonego, w korektorze LanguageTool prowadzi do wzbogacenia zestawu znaczników i kontroli jakości ich przypisania.
Podobne słowniki morfosyntaktyczne w programie LanguageTool są stosowane dla języka niemieckiego, angielskiego, francuskiego, hiszpańskiego i włoskiego; w przygotowaniu jest słownik języka Malayalam.
Tu znajduje się prezentacja do tego referatu.
Dodatkowe informacje o seminarium znajdują się na stronie:
http://nlp.ipipan.waw.pl/seminar-p.html
Komentarze