Application of text mining and graph database on civil engineering projects - Djordje Nedeljkovic
1. Đorđe Nedeljković,
Faculty of Civil Engineering, teaching assistant
Department of construction project management
Application of Text Mining and graph
database on civil engineering projects
2. Predmet istraživanja
- Pretraga, izdvajanje, analiziranje i vizuelizacija znanja iz
nestruktuiranih/polustruktuiranih dokumenata sa građevinskih
projekata
- Osnovni zadatak (klasifikacija) – dobri rezultati sa BoW modelom
- Kompleksniji zadaci – loši rezultati, potreban novi feature vector
3. Sadržaj
- Građevinski projekti / tehnički dokumenti
- Postojeća rešenja
- Predloženi model
- Pretpostavke
- Mere asocijacije
- Reprezentacija detektovanih ključnih fraza
- Povezivanje značajnih fraza na osnovu semantičke bliskosti
- Pravila za izdvajanje koncepata i relacija
- Primeri
- Zaključak
4. Investicioni projekat (građevinski, arhitektonski)
- Za razliku od projekata u opštem smislu, izgradnja,
rekonstrukcija, modifikacija i opremanje investicionih objekata
su uvek u direktnoj vezi sa građevinarstvom kao privrednom
granom
- Kompleksan tehničko-tehnološki, organizacioni, finansijski i
pravni poduhvat, koji se sastoji od skupa koordinisanih i
kontrolisanih aktivnosti sa jasno definisanim početkom i
krajem, čiji je cilj izgradnja, rekonstrukcija, modifikacija i/ili
opremanje objekta ili objekata koji su potrebni vlasniku
(investitoru)
5. Investicioni projekat - specifičnosti
- Složen
- Unikatan
- Na više lokacija
- Dugotrajan
- Veliki broj učesnika
- Razuđenost procesa
- Važnost klimatskih uslova
- Imovinsko-pravni problemi
6. Dokumenti na građevinskom projektu
- Pored tehničkih crteža i proračuna, značajan korpus tekstualnih
dokumenata, (posebno u fazi realizacije projekta):
Zapisnici sa sastanaka, varijacije, klejmovi, fakture, izveštaji, dopisi...
- Veliki broj učesnika sa različitim poslovnim procesima i
stepenom ICT zrelosti
Mane Prednosti
Statički, neinformativni sadržaj
(zaglavlja, formulari, itd.)
Konzistentna struktura
Domenski žargon, skraćenice
Manje višeznačnih jezičkih konstrukcija
(polisemija, metonimija, itd.)
Dužina, više tema
Sadržaj na različitim jezicima
(često na nivou rečenice)
7. Trendovi na domaćem tržištu
- Alati koji se najčešće koriste za obradu podataka:
Programi za rad sa tabelama
- Prepreke za prelazak na napredniji alat za obradu podataka:
Nekompatibilnost sa postojećim poslovnim procesima
Podaci su u neodgovarajućem formatu za pretragu i analizu
- Prepreke za optimalno korišćenje nestruktuiranih podataka u
procesu donošenja odluka:
Značajni podaci se nalaze na različitim mestima
8. Postojeća rešenja za pretragu,
izdvajanje, analiziranje i vizuelizaciju
- Ručno obeležavanje, rad sa prethodno definisanim formama
- Information exctraction, Ontology based, Semantic annotation
- Document management system
- Enterprise search
- BI applications
- Sales enablement software
- Content management system
- Enterprise resource planning
9. Predloženi model - hipoteze
- Robusnost na nedostatak NLP resursa, podrška za više jezika
Izdvajanje ključnih fraza zasnovano na merama asocijacije reči
- Transferabilnost na različite domene sa minimalnim trudom
eksperta za konfiguraciju sistema prethodnim znanjem
Mogućnost definisanja prethodnog znanja kroz resurs fajlove i
zadata pravila
10. Inicijalno izdvajanje značajnih fraza
- Značajne fraze (ZF) kao par susednih reči
- Informativnije od pojedinačnih reči
- Mere za određivanje verovatnoće zajedničkog pojavljivanja
reči x i y u paru (x,y)
- Isti par može biti drugačije rangiran za različite mere
- Pojedinačno, mere preferiraju parove reči sa određenim
kombinacijama frekvencija
- Kombinovanje najbolje rangiranih parova za različite mere
12. Natural language processing (NLP) resursi
- Detektor jezika
- Nivo rečenice, zasnovan na frekvenciji najčešćih bigrama
- Lemmatizer
- Svođenje reči na kanonski oblik, kompaktniji rečnik
- Part-of-speach tagger
- Klasifikacija reči, dozvoljene kombinacije
13. Redukcija neinformativnog sadržaja
- Uvećan skor za parove reči u neinformativnim delovima teksta
- Česti parovi reči u istom kontekstu – šum
- Parovi reči u različitim kontekstima – informativne ZF
- Informativnost para reči – entropija skupa string reprezentacije svih
pojavljivanja
- Korigovanje skora dobijenog merama asocijacije
14. Uspostavljanje relacija
- Domenski nezavisan pristup – relacije između ZF na osnovu
kontekstualne sličnosti
- Mera - Jaccard indeks za skupove paragrafa/rečenica
- Relacije with, always_under, always_with
|Pki
∩ Pkj
|
| Pki
∪ Pkj
|
≥ t ∈ 0,1
- Grupisanje ZF od dve reči povezanih always_with relacijom
(Bron-Kerbosch algoritam)
Pki
Pkj
Pki
Pkj
Pki
Pkj
always_with
15. Graf značajnih fraza/dokumenata
- Značajne_fraze i dokumenti
kao čvorovi grafa
- Automatski generisan
- Parametari ekstrakcije
definišu strukturu
16. Definisanje dodatnih koncepata i relacija
- Automatska detekcija obrazaca u tekstu
Regularni izrazi - datum, novac
- Struktura dokumenata:
Zapisnici sa sastanaka - osoba, kompanija
Predmet i predračun - pozicija_rada
Work breakdown structure, gantogram – aktivnost, faza
- ZF koje ispunjavaju zadati uslov
konstruktivni_elementi, materijali
- Relacije:
osoba radi_za kompanija sastanak održan datum osoba akcija ZF
24. Zaključak (SW)
• Nezavisnost u odnosu na jezik
• Izdvajanje ključnih fraza na bazi entropije
• Analiza i vizuelizacija moguća bez prethodno
definisane reprezentacije domenskog znanja
• Nema potrebe za menjanjem postojećih
poslovnih procesa
• Integracija fragmentisanih podataka na nivou
dokumenta
• Lošija performansa bez NLP komponenti
• Novi pristup u domenu upravljanja
građevinskim projektima
• Razdvojeni rečnici značajnih fraza za različite
jezike
25. Zaključak (OT)
• Veliki udeo nestruktuiranih tekstualnih
podataka u projektnoj dokumentaciji
• Postprojektna analiza
• Upotreba ML tehnika za poboljšanje
performansi i nove funkcionalnosti
(klasifikacija, klastering, detekcija događaja,...)
• Network analysis
(SNA, Link analysis, Centrality measures)
• Teškoća da se proceni uticaj na proces
donošenja odluka
• Prava pristupa nad informacijama iz više
dokumenata
• Definisanje pravila za izdvajanje novog znanja
#2:Dobro jutro svima, moje ime je Djordje Nedeljkovic, student doktorskih studija I asistent na gradjevinskom fakultetu Univerziteta u Beogradu.
Pre nego sto formalno zapocnem sa pricom, mala digresija – kazu da je dobra praksa da se autor potrudi i prezentaciju prozme sa malo duhovitih momenata kako bi se ljudi opustili I razbila monotonija.
Ja necu morati da se trudim oko toga jer nosim fiksnu protezu koja ce sama pobrinuti da bude saljivih momenata tokom prezentacije. Ovo je ujedno I izvinjenje za neke reci koje ce možda iskociti, posebno ako imaju vise suglasnika.
Na prvi pogled je nelogicno sto se u naslovu ne pominje koji problem se resava, nego se navodi sta se koristi da bi se postigao cilj.
A taj cilj na kome radi tim sa gradj fakulteta na celu sa prof MK je da se iskoristi velika kolicina znanje koje je za sada uslovno receno skriveno u dokumentima sa gradj projekta.
#3:Formalno, cilj je da se definise model koji ce omoguciti efikasnu pretragu, izdvajanje, analizu I vizuelizaciju znanja iz nestruk I polustruk dok sa gradj projekta.
Medjutim, ono sto je u ovoj formulaciji moze da bude problematicno I zbog cega ona nije naslov prezentacije je rec znanje.
Naime, postoje razlicite definicije, razliciti pragovi koji se moraju preskociti da bi neko mogao da tvrdi da operise na nivou znanja.
Posto ima sasvim dovoljno tema o kojima moze da se prica I pre nivoa znanja, danas se fokusiramo na motive istrazivanja, na samu prirodu gradj dokumentacije, na tehnike koje su koriscene da se nestruktuirani sadrzaj delimicno uredi I na koriscenje gbp za reprezentaciju dobijenih rezultata.
Mali uvod - kako je sve pocelo I sta je bio inicijalni motiv za istrazivanje? S obzirom se na katedri bavimo primenom data mininga I masinskim ucenjem u domenu gradjevinarstva, pre nekih god I po dana kolege sa fakulteta su nam dostavile korpus dokumenata vezanih za izmene ugovorenih radova na jednom kompleksnom medjunarodnom projektu.
#4:Danas ce biti izlozen rezultati tog istrazivanja
Prvo ce biti prikazane karaktersitike gradj projekata i dokumentacije u domenu gradj industrije. Zatim sledi pregled postojecih pristupa za izdvajanje i analizu znanja iz tekstualnih izvora.
Kada se ogranicenja I potrebe korisnika na trzistu, moze se objasniti struktura predlozenog modela.
Na kraju ce biti prikazani primeri konkretnih rezultata koji bi se dobili u radu sa ovakvom reprezentacijom, kao I diskusija o predlozenom resenju.
#5:Kada se govori o investicionim projektima, podrazumeva se realizacija niza aktivnosti, od same ideje o određenom investicionom dobru, preko izrade predinvesticionih studija, planske i projektne dokumentacije do ugovaranja, izgradnje, opremanja, obuke kadrova i puštanja objekta u eksploataciju. Navedeni spisak aktivnosti je samo jedan deo života investicionog objekta. Nije redak slučaj da se dopunjuje i aktivnostima koje su van tradicionalnih okvira definisanih za oblast građevinarstva, kao što su, na primer, aktivnosti na obezbeđenju neophodnih finansija za izgradnju i opremanje, transfer tehnologije koja se koristi u objektu, uspostavljanje raznovrsnih trgovinskih aranžmana, itd.
#6:složenost – veliki broj raznovrsnih aktivnosti tokom realizacije projekta
unikatnost – svaki građevinski proizvod je unikatan, a to uzrokuje nemogućnost formiranja jedinstvenih cena
na jednoj ili više lokacija, ponekad značajno međusobno udaljenih, istovremeno funkcioniše više proizvodnih linija, na kojima se izvode raznovrsne aktivnosti
angažovan je veliki broj učesnika, od firmi, pojedinaca, do pojedinih gradskih i državnih ustanova i komunalnih preduzeća
razuđenost procesa – pokretač i finansijer posla - investitor može da razdvoji fazu projektovanja od faze izvođenja budućeg objekta, Time se posao na realizaciji projekta dodatno komplikuje, a broj učesnika povećava
značajan deo aktivnosti ostvaruje se na otvorenom prostoru, podložnost klimatskim uticajima – sezonski karakter
objekti se često grade u urbanizovanim područjima, zato se ističe važnost pravovremenog i potpunog rešavanja imovinsko-pravnih problema, obezbeđivanja uslova za projektovanje od komunalnih preduzeća i inspekcijskih organa, dobijanja saglasnosti na projektovanu dokumentaciju, itd.