Szekvencialis elemz}ok: a hunner es a hunchunk 
Simon Eszter 
MTA Nyelvtudomanyi Intezet 
2014. november 27. 
NLP meetup 
Simon Eszter MTA Nyelvtudomanyi Intezet 
Szekvencialis elemz}ok: a hunner es a hunchunk
A fejleszt}ok 
BME MOKK (Media Oktato es Kutato Kozpont) 
Recski Gabor, Simon Eszter, Varga Daniel 
MTA Nyelvtudomanyi Intezet
A cel 
kozolte Wolf Laszlo, az OTP Bank vezerigazgato-helyettese az 
MTI erdekl}odesere 
kozolte O O 
Wolf B-NP B-PER 
Laszlo I-NP E-PER 
, I-NP O 
az I-NP O 
OTP I-NP B-ORG 
Bank I-NP E-ORG 
vezerigazgato-helyettese E-NP O 
az B-NP O 
MTI I-NP 1-ORG 
erdekl}odesere E-NP O 
MTA Nyelvtudomanyi Intezet
HunTag 
hunner (Varga  Simon, 2006) ! HunTag (Recski  Varga, 
2009) ! Liblinear 
felugyelt gepi tanulason alapulo rendszer 
sztenderd CoNLL-formatum: tsv, BIE1 
Latin-2 bemenet 
szabadon felhasznalhato (LGPL) 
https://github.com/recski/HunTag/ 
MTA Nyelvtudomanyi Intezet
Tulajdonnev-felismeres 
jegyek 
binaris (pl. nagybet}uvel kezd}odik-e) 
sztring (pl. karakter n-gramok) 
lista (pl. benne van-e egy helynevlistaban) 
con
g fajlok a legjobb jegykombinacioval 
cmkek: PER, ORG, LOC, MISC 
MTA Nyelvtudomanyi Intezet
Sekely szintaktikai elemzes (chunking) 
Pelda 
[Immar] [negyedik eve] [a Manchester United] 
[a vilag leggazdagabb csapata] [bevetel szerint]. 
1 minden frazis megtalalasa egy mondatban 
2 maximalis NP-k megtalalasa 
3 alap NP-k megtalalasa 
MTA Nyelvtudomanyi Intezet
Eredmenyek 
feladat F (%) 
Hu NER 95,48 
En NER 86,34 
Hu chunking 
teljes 89,87 
maxNP 90,28 
En metonmiafelismeres 
loc-coarse 85,20 
org-coarse 76,70 
En szemantikai relaciok 66,33 
MTA Nyelvtudomanyi Intezet

More Related Content

PDF
Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei
PDF
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
PPTX
Farkas Richárd: Információk automatikus kiemelése magyar nyelvű szövegekből  
PDF
Miháltz Márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken
PPTX
Pólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális Tartalomelemző
PPTX
Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnev...
PPT
Szekeres Péter: Webes vélemények egyetlen grafikonba sűrítve
PDF
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése
Simon Eszter: A hun* eszközlánc szószintű feldolgozó eszközei
Balogh Kitti - Szűcs Krisztina - Varjú Zoltán: TechTea: Szövegvizualizációk a...
Farkas Richárd: Információk automatikus kiemelése magyar nyelvű szövegekből  
Miháltz Márton: hun* kiegészítések: hunstem, hunmorph_extend, huntoken
Pólya Tibor: Regresszív Képzeleti Szótár - Narratív Kategoriális Tartalomelemző
Vincze Veronika: Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnev...
Szekeres Péter: Webes vélemények egyetlen grafikonba sűrítve
Balogh Kitti - Varjú Zoltán: Magyar nyelvű tartalmak elemzése

More from Zoltan Varju (20)

PDF
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
PPT
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
PDF
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
PDF
Babak Rasolzadeh: The importance of entities
PDF
Szövegbányászat a gyakorlatban
PDF
Szövegbányászat
PDF
Balogh Kitti: Szövegbányászat
PDF
Kisvilágunk, a nyelv
PDF
Balogh Kitti - Szűcs Krisztina: Képes beszéd
PDF
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
PPTX
Érzelmek hálójában – hálózat- és tartalomelemzés
PPTX
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
PPTX
Mókus (Koncsik Anita, Varjú Zoltán)
PPTX
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
PPTX
Sorok között olvasni
PPTX
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
PPTX
Rasztik Zita: A стартовать jövevényszó fejlődési útja
PPTX
Kontextus és a hivatkozások ereje
PDF
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
PPTX
Vincze Veronika: Korpuszok az információkinyerésben
NLP meetup 2016.10.05 - Bódogh Attila: xdroid
NLP meetup 2016.10.05 - Szabó Martina Katalin: Precognox
NLP meetup 2016.10.05 - Szekeres Péter: Neticle
Babak Rasolzadeh: The importance of entities
Szövegbányászat a gyakorlatban
Szövegbányászat
Balogh Kitti: Szövegbányászat
Kisvilágunk, a nyelv
Balogh Kitti - Szűcs Krisztina: Képes beszéd
Balogh Kitti: Politika a sorok között - Politikai témájú szövegelemzések
Érzelmek hálójában – hálózat- és tartalomelemzés
Szabó - Varjú: Automatikus értékelés- és érzelemelemzés magyar nyelvű szöveg...
Mókus (Koncsik Anita, Varjú Zoltán)
Születésház - Adatozz okosan hackathon (Schmidt Erika, Balogh Kitti, Hudy Rób...
Sorok között olvasni
Danics Szabina Lívia: A magyar és az orosz melléknévi igenevek a megfelelteté...
Rasztik Zita: A стартовать jövevényszó fejlődési útja
Kontextus és a hivatkozások ereje
Simon Eszter: Silver standard korpuszok tulajdonnév-felismeréshez
Vincze Veronika: Korpuszok az információkinyerésben
Ad

Simon Eszter: Szekvenciális elemzők: a hunner és a hunchunk

  • 1. Szekvencialis elemz}ok: a hunner es a hunchunk Simon Eszter MTA Nyelvtudomanyi Intezet 2014. november 27. NLP meetup Simon Eszter MTA Nyelvtudomanyi Intezet Szekvencialis elemz}ok: a hunner es a hunchunk
  • 2. A fejleszt}ok BME MOKK (Media Oktato es Kutato Kozpont) Recski Gabor, Simon Eszter, Varga Daniel MTA Nyelvtudomanyi Intezet
  • 3. A cel kozolte Wolf Laszlo, az OTP Bank vezerigazgato-helyettese az MTI erdekl}odesere kozolte O O Wolf B-NP B-PER Laszlo I-NP E-PER , I-NP O az I-NP O OTP I-NP B-ORG Bank I-NP E-ORG vezerigazgato-helyettese E-NP O az B-NP O MTI I-NP 1-ORG erdekl}odesere E-NP O MTA Nyelvtudomanyi Intezet
  • 4. HunTag hunner (Varga Simon, 2006) ! HunTag (Recski Varga, 2009) ! Liblinear felugyelt gepi tanulason alapulo rendszer sztenderd CoNLL-formatum: tsv, BIE1 Latin-2 bemenet szabadon felhasznalhato (LGPL) https://github.com/recski/HunTag/ MTA Nyelvtudomanyi Intezet
  • 5. Tulajdonnev-felismeres jegyek binaris (pl. nagybet}uvel kezd}odik-e) sztring (pl. karakter n-gramok) lista (pl. benne van-e egy helynevlistaban) con
  • 6. g fajlok a legjobb jegykombinacioval cmkek: PER, ORG, LOC, MISC MTA Nyelvtudomanyi Intezet
  • 7. Sekely szintaktikai elemzes (chunking) Pelda [Immar] [negyedik eve] [a Manchester United] [a vilag leggazdagabb csapata] [bevetel szerint]. 1 minden frazis megtalalasa egy mondatban 2 maximalis NP-k megtalalasa 3 alap NP-k megtalalasa MTA Nyelvtudomanyi Intezet
  • 8. Eredmenyek feladat F (%) Hu NER 95,48 En NER 86,34 Hu chunking teljes 89,87 maxNP 90,28 En metonmiafelismeres loc-coarse 85,20 org-coarse 76,70 En szemantikai relaciok 66,33 MTA Nyelvtudomanyi Intezet