SlideShare a Scribd company logo
PPKE ITK Nyelvtechnológiai Labor
http://nlpg.itk.ppke.hu/
Miháltz Márton <mihaltz.marton@itk.ppke.hu>
Bemutatkozás
• Pázmány Péter Katolikus Egyetem Információs
Technológiai és Bionikai Kar
• Nyelvtechnológiai Labor:
– PPKE ITK Nyelvtechnológiai Csoport
– MTA-PPKE Magyar
Nyelvtechnológiai Kutatócsoport
• Vezető: Prószéky Gábor
• 9 doktorandusz (Endrédy István, Indig Balázs, Laki László, Ligeti-
Nagy Noémi, Novák Attila, Orosz György, Siklósi Borbála, Simonyi
András, Yang Zijian Győző), 2 posztdok (Sass Bálint, Miháltz
Márton)
• Oktatás: nyelvtechnológia szakirány, mérnökinformatikus
BSc és MSc; PhD képzés
Kutatási területek
• Morfológiai elemzés és egyértelműsítés
• Szintaktikai és szemantikai elemzés
• Orvosi szövegek feldolgozása
• Helyesírási hibák automatikus javítása
• Statisztikai gépi fordítás és alkalmazásai
Projektek
• Információkinyerés klinikai szövegekből
• Magyar nyelvi elemző
• PurePos: nyílt forrású morfológiai elemző
és egyértelműsítő
• (…)
Információkinyerés klinikai
szövegekből
• Kezelőlapok, zárójelentések stb.
– strukturálatlanság, rövidítések, helyesírási hibák,
elírások, latin-magyar keveredés, szaknyelv stb.
• Feldolgozás: domain-adaptáció
– Szegmentálás, tokenizálás: szabályok, gépi tanulás
– Helyesírási hibák automatikus javítása: javaslat-
generálás + SMT rendszer
– Rövidítésfelismerés és –feloldás: szabályok, lexikon
• Információkinyerés
– Ontológiaépítés, adatbányászat, döntéstámogatás stb.
Magyar nyelvi elemző (2012-2016)
• Mély nyelvi elemzés, teljes szintaxis, szemantika
– Pszicholingvisztikai indíttatás: emberi feldolgozás!
– Performancia alapú, “rosszulformáltság” is OK
– Szigorúan balról jobbra elemzés
– Párhuzamos szintek (vs. kaszkád modell)
– Mondathatárokon átívelő diskurzusegységek
– Gráfreprezentáció: szintaktikai és szemantikai szerepek
• Erőforrások
– Korpuszépítés: 1G szó, magyar web, folyamatos update
– Igeivonzatkeret-adatbázis (MetaMorpho): 18K ige, 33K keret
– Magyar WordNet: 42K synset, összekapcsolás vonzatkeretekkel
• Példaalkalmazás: üzleti rövidhírek elemzése
– Automatikus “szövegértés”: ki, mit, hol, mikor?
Morfológiai elemzés, egyértelműsítés
• PurePos
– Statisztikai egyértelműsítő (PoS-tagger)
• TnT implementáció (HMM)
• Tanítás: Szeged Korpusz
– Humor morfológiai elemző, szótövesítő
– Guesser
• Java, Python API
• Nyílt forrású (LGPL)
https://github.com/ppke-nlpg
Köszönjük a figyelmet!
http://nlpg.itk.ppke.hu/
Kód: http://github.com/ppke-nlpg

More Related Content

PPTX
Leidy carvajal actividad 1.2 mapa c
PDF
A quest for better sleep
PDF
Peep Laja, CEO, ConversionXL - How to Turn Data into Insights & Customers
PDF
XP と脳梗塞
PPTX
Урок - 9, 27 февраля, 2016
PDF
Sexy HTML with Twitter Bootstrap
DOC
Romeo and Juliet
PPT
Деяния 9:32-42
Leidy carvajal actividad 1.2 mapa c
A quest for better sleep
Peep Laja, CEO, ConversionXL - How to Turn Data into Insights & Customers
XP と脳梗塞
Урок - 9, 27 февраля, 2016
Sexy HTML with Twitter Bootstrap
Romeo and Juliet
Деяния 9:32-42

Viewers also liked (6)

PDF
Tuomas_Jokimaki
PPTX
Putting Together the Pieces of a Successful Student Orientation
ODP
Romeo and juliet
PPT
Três porquinhos
PPTX
Hatada_Sebastian _softwarelibre
PPTX
Gender in the NBDC
Tuomas_Jokimaki
Putting Together the Pieces of a Successful Student Orientation
Romeo and juliet
Três porquinhos
Hatada_Sebastian _softwarelibre
Gender in the NBDC
Ad

More from Zoltan Varju (20)

PDF
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
PPT
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
PDF
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
PDF
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
PDF
Babak Rasolzadeh: The importance of entities
PDF
Szövegbányászat a gyakorlatban
PDF
Szövegbányászat
PDF
Balogh Kitti: Szövegbányászat
PDF
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
PDF
Kisvilágunk, a nyelv
PDF
Balogh Kitti - Szűcs Krisztina: Képes beszéd
PDF
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
PPTX
Érzelmek hálójában – hálózat- és tartalomelemzés
PPTX
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
PPTX
Mókus (Koncsik Anita, Varjú Zoltán)
PPTX
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
PPTX
Sorok között olvasni
PPTX
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
PPTX
Rasztik Zita: A стартовать jövevényszó fejlődési útja
PPTX
Kontextus és a hivatkozások ereje
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Babak Rasolzadeh: The importance of entities
Szövegbányászat a gyakorlatban
Szövegbányászat
Balogh Kitti: Szövegbányászat
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Kisvilágunk, a nyelv
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Érzelmek hálójában – hálózat- és tartalomelemzés
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Mókus (Koncsik Anita, Varjú Zoltán)
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Sorok között olvasni
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Kontextus és a hivatkozások ereje
Ad

MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport

  • 1. PPKE ITK Nyelvtechnológiai Labor http://nlpg.itk.ppke.hu/ Miháltz Márton <mihaltz.marton@itk.ppke.hu>
  • 2. Bemutatkozás • Pázmány Péter Katolikus Egyetem Információs Technológiai és Bionikai Kar • Nyelvtechnológiai Labor: – PPKE ITK Nyelvtechnológiai Csoport – MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport • Vezető: Prószéky Gábor • 9 doktorandusz (Endrédy István, Indig Balázs, Laki László, Ligeti- Nagy Noémi, Novák Attila, Orosz György, Siklósi Borbála, Simonyi András, Yang Zijian Győző), 2 posztdok (Sass Bálint, Miháltz Márton) • Oktatás: nyelvtechnológia szakirány, mérnökinformatikus BSc és MSc; PhD képzés
  • 3. Kutatási területek • Morfológiai elemzés és egyértelműsítés • Szintaktikai és szemantikai elemzés • Orvosi szövegek feldolgozása • Helyesírási hibák automatikus javítása • Statisztikai gépi fordítás és alkalmazásai
  • 4. Projektek • Információkinyerés klinikai szövegekből • Magyar nyelvi elemző • PurePos: nyílt forrású morfológiai elemző és egyértelműsítő • (…)
  • 5. Információkinyerés klinikai szövegekből • Kezelőlapok, zárójelentések stb. – strukturálatlanság, rövidítések, helyesírási hibák, elírások, latin-magyar keveredés, szaknyelv stb. • Feldolgozás: domain-adaptáció – Szegmentálás, tokenizálás: szabályok, gépi tanulás – Helyesírási hibák automatikus javítása: javaslat- generálás + SMT rendszer – Rövidítésfelismerés és –feloldás: szabályok, lexikon • Információkinyerés – Ontológiaépítés, adatbányászat, döntéstámogatás stb.
  • 6. Magyar nyelvi elemző (2012-2016) • Mély nyelvi elemzés, teljes szintaxis, szemantika – Pszicholingvisztikai indíttatás: emberi feldolgozás! – Performancia alapú, “rosszulformáltság” is OK – Szigorúan balról jobbra elemzés – Párhuzamos szintek (vs. kaszkád modell) – Mondathatárokon átívelő diskurzusegységek – Gráfreprezentáció: szintaktikai és szemantikai szerepek • Erőforrások – Korpuszépítés: 1G szó, magyar web, folyamatos update – Igeivonzatkeret-adatbázis (MetaMorpho): 18K ige, 33K keret – Magyar WordNet: 42K synset, összekapcsolás vonzatkeretekkel • Példaalkalmazás: üzleti rövidhírek elemzése – Automatikus “szövegértés”: ki, mit, hol, mikor?
  • 7. Morfológiai elemzés, egyértelműsítés • PurePos – Statisztikai egyértelműsítő (PoS-tagger) • TnT implementáció (HMM) • Tanítás: Szeged Korpusz – Humor morfológiai elemző, szótövesítő – Guesser • Java, Python API • Nyílt forrású (LGPL) https://github.com/ppke-nlpg