SlideShare a Scribd company logo
เทคโนโลยี Text Mining / Data Mining


                 รังสิมา เพ็ชรเม็ดใหญ่
 ศูนย์บริการความรููทางวิทยาศาสตร์และเทคโนโลยี STKS
โครงการสัมมนา Applied ICT for Executive Librarians
                   30 กรกฎาคม 2553
               มหาวิทยาลัยธุรกิจบัณฑิตย์




                                                     1
Outlines
  ความหมาย Definition
  ประวัติ ความเป็ นมา
  เทคนิ ค Text Mining Techniques
  การประยุกต์ใชู Applications
  เคร่ ืองมือ Text mining tools
  ประสบการณ์ ของ STKS กับ Text Mining
  บรรณานุกรม




                                        2
ความหมายของ Text Mining

Text mining is the process of analyzing & structure
Large sets of documents applying statistical
 and/or Computational linguistics technology in
order to extract Previously unknown knowledge
useful to take crucial Business decision.

คือกระบวนการวิเคราะห์สารสนเทศเพ่ ือใหูคนพบสารสนเทศู
เร่ ืองใหม่ / เร่ องท่ไม่เคยรับรููมาก่อน ดูวยวิธการสกัดคำา/ตัดคำา
                  ื   ี                         ี
information extraction ดูวยโปรแกรมคอมพิวเตอร์แบบอัตโนมัติ
 นำ าเสนอผลการวิเคราะห์ใหูเป็ นความรูใหม่ รวมถึงสามารถ
                                            ู
แสดงความสัมพันธ์ของขูอมูลใหม่ดูวย



                                                                    3
ความหมาย Text mining (ต่อ)

Text mining is a new and exciting research area in
computer sciences that tries to solve the information
overload problem by using techniques from data mining
/ machine learning / natural language processing (NLP)
/ information retrieval and knowledge management.

A key element of text mining is its on the document
collection. At its simplest a document collection
 can be any grouping of text based documents such as
business report /legal memorandum / e-mail/ research
Paper / manuscript /article /press release


                                                         4
Text Mining แตกต่างกับการสืบค้น

การสืบคูน / คูนคืน Searching เป็ นความตูองการคูนหาเร่ ือง
ท่ผูสบคูนรููจกมาก่อนรวมทังเป็ นเร่ ืองท่ีมีการเขียน/บันทึกไวูแลูว
  ี ื        ั           ้

ส่วน Text Mining เป็ นการคูนพบขูอมูลท่ีไม่เคยรับรููมาก่อนหรือ
ไม่มีขูอมูลท่ถกบันทึกไวูก่อน
             ี ู

Text Mining มีการนำ าไปประยุกต์ใชูในหลายสาขา จึงมีช่อเรียก
                                                    ื
แตกต่างกันไปเช่น
Data Mining
Scientometrics
Webometrics
Bibliometrics etc.


                                                                    5
ประวัติ ของ Information Extraction / IE
จุดแรกเร่ิมมาจากการประชุม ในกลุ่ม ของ Natural language processing community
ในการประชุม MUC conferenceปี 1987โดย US DARPA (naval tactical operation)
MUC-2 Conference 1989
MUC-3 conference 1991 Latin American Terrorisms
MUC-4 1992
MUC-5 1993 Japanese document ( joint ventures + microelectronics)
MUC-6 1995 Financial domain
MUC-7 1998 Airline Crashes domain ( Chinese, Japanese, English )
European Commission / LRE ( linguistic research & engineering )

IE มีผลใหูเกิด ผลลัพธ์ท่ีสำาคัญทางวิทยาศาสตร์ หลายๆ โครงการ เช่น NAMIC /
CROSSMARC , MOSES




                                                                              6
Figure 1 แสดง
The Evolution of
database system
technology.




                   7
Example of output from industry analyzer term extraction process

Biogen Idec Inc. ended its third quarter with $543 million in
Revenues , slightly lower than analyst estimates as it near the
One-year anniversary of a merger that made it the world largest
Biotech company

The Cambridge,Mass.-based company reported non-GAAP
Earnings per share of 37 cents and net income of $132 million
compared with 35 cents and 123 million for the quarter last year. Analysts
consensus estimate for the quarter was
35 cents




                                                                             8
การประยุกต์ Text Mining


ปั จจุบันมีความสนใจนำ า TM ไปประยุกต์ใชูในหลายสาขา ตัวอย่างเช่น

การวิเคราะห์หาขูอมูลรูปแบบการใชูจ่ายของผููบริโภค Consumer purchasing
Pattern จากขูอมูล บัตรเครดิตการ์ด บัตรสมาชิกต่างๆ มีการจัดเรียงสินคูา
บนชันใหูอยู่ใกลูกน (กรณี พบว่ามีการซ้ือสินคูาพรูอมกันในอัตราสูง)
     ้           ั
มีการแจกบัตรคูปองต่างๆเพ่ ือส่งเสริมการขาย

สาขา Bioscience ในเป็ นเร่ ืองท่ีรจักกันอย่างดี การศึกษาของ Don Swanson
                                  ู
เร่ ือง Hypothesizing causes of rare diseases โดยศึกษาดูจากการเช่ ือมโยง
ของเอกสารงานวิจัย มีการคาดการณ์ว่า TM จะมีบทบาทและมีผลกระทบอย่างสูง
great impact ต่อวงการนี้ในอนาคตอย่างแน่ นอน




                                                                           9
สาขา Genomics ประสบความสำาเร็จ ด้วย TM

ในการคูนพบถึงปฏิกิรยา ของโปรตีน 2 ชนิ ด โดยวิเคราะห์จากการปรากฏ
                    ิ
ของคำาท่ีขนพรูอมกัน Co-Occurrence ในบทความเดียวกัน
          ึ้

ถือเป็ นวิธการท่ีง่าย แต่ผลลัพธ์ท่ีไดูเป็ นเร่ ืองท่ีย่ิงใหญ่แบบไม่คาดคิดมาก่อน
           ี




                                                                                  10
ปั จจุบน TM ได้รับความสนใจในหลายสาขา
       ั

Security Application (CIA analyze terrorist events)
Software Application IBM , Microsoft กำาลังพัฒนา
Academic Application สำานั กพิมพ์ ผููผลิตขูอมูลวิชาการ
เช่น Nature / NIH / Univ.Manchester / Uinv.California
Customer Service ตูองการ quick response
เช่น ไดูรับอีเมลรูองเรียน1000 ฉบับ/วัน




                                                         11
Text Mining Techniques

เทคโนโลยี TM ใชูเทคนิ คหลายส่วนประกอบกัน ไดูแก่
 Text Extraction
 Summarized Extraction
 Feature Selection
 Cluster Generation
 Topic Identification
 Information Mapping, Visualization
 Text Categorization

TM เป็ นสหสาขาวิชาผสมผสานกัน ในหลายสาขา คือ
Data Mining / Information Retrieval / Linguistics
/ Machine pattern / Statistics/
 Pattern recognition / Database / Visualization

                                                    12
ตลาดของ Text Mining


ถือว่าตลาดของ TM เพ่ิงเกิดขึ้น แบ่งออกไดูเป็ น 4 กลุ่ม คือ
Customer Relationship Management /CRM
  มีความตูองการสูงขึ้นตลอดเวลา มีมูลค่าราว $ 15.2 bn
Intelligence ในกลุ่ม security / corporate/researchมีมูลค่า $ 12 bn
Knowledge & Content management มีมูลค่า $ 1.9 bn
Information Retrieval technology ระบบการคูนคืน มีมูลค่า $ 3.5 bn




                                                                     13
TM กับภาคธุรกิจ
Customer Transaction Analysis เช่น บริษัทผลิตรถยนต์ บริษัทประกันภัย
 ธนาคาร

Competitive Intelligence / CI เป็ นการศึกษาขูอมูลรอบดูานของภาคธุรกิจ
 เช่น ขูอมูลคู่แข่ง พันธมิตร การตลาด การวิจย ฯลฯ ท่ีจะมีผลต่อสถานภาพ
                                           ั
 ของบริษัท

R & D support ใชูในงานวิจยทางวิทยาศาสตร์ สกัดคำาจากเน้ือหา
                         ั
เอกสารวิชาการ




                                                                       14
การประยุกต์ในงาน Crime Pattern Detection
หน่ วยงานตำารวจท่ี Virginia ,USA. จัดทำารายงานประกอบการสอบสวนเรียกว่า
        Police Information Report / PIR
ตูองการสรุปประวัติรูปแบบอาชญากรรม จากขูอมูลเดิมท่ีจัดเก็บไวูท่ีมีขนาดใหญ่
จึงทำาการประยุกต์ TM เพ่ ือใหูไดูขูอมูลใหม่ วิธีเดิมประมวลดูวยมือ พบว่ายุ่งยาก ใชูเวลามาก
ผลท่ีไดูผิดพลาดและลำาเอียง

ขันตอนแรกสุด คือการ data pre-process จัดทำาขูอมูลใหม่ใหูมี รูปแบบท่ีเหมาะสม คือ
  ้
         Date           District    Event type                  Description
         1/05/2003     Reston      Robbery                       ……………….
         5/05/2003     Lake        Accident                     ……………….
        6/05/2003      South       Narcotics                     ………………




                                                                                            15
งานข้อมูลตำารวจ (ต่อ)

ขันตอนท่ี 2 Extract important & concept
    ้
ขันตอนท่ี 3 Analyze pattern ( Co-occurrence )
  ้

การสรุปผลการวิเคราะห์ ขูอมูลอาชญากรรม สามารถตอบคำาถาม เหล่านี้ไดู
เห็นความสัมพันธ์ของลักษณะเหตุการณ์กับสถานท่ีเกิดเหตุ
สกัดรายงานออกมาเป็ นสถิติ เช่น จำานวนการลักขโมย ยาเสพติด
ลักษณะอาวุธท่ีกอเหตุ มีก่ีประเภท จำานวน สัมพันธ์ประเภทอาชญากรรม
               ่

เคร่ ืองมือ software ท่ีใชูช่ือ Poly Analyst for text mining เป็ นภาษาอังกฤษ
และภาษาอ่ ืนๆ มากมาย คือ
 German / Spanish / French /Russian / Italian / Portuguese / Dutch
/ Swedish / Greek




                                                                               16
Text Mining Tools / Software

ขณะนี้ มีเคร่ ืองมือมากมาย แบบเชิงพาณิ ชย์ ไดูแก่
 Megaputer Intelligence
 SAS
 SPSS
 Synthema
 TEMIS
 Autonomy
 Clearforest
 Fast
 IBM
 Inxight
 Vantage Point
 etc.

                                                    17
Text Mining Tools ประเภท Open Sources Software

Gate - Natural language processing & language
 engineering tool

YALE- with its Word vector Tool plugin data and text
 mining software

Pimiento- a text-mining application framework written
in Java (http://ee.usyd.edu.au/~jjga/pimiento)




                                                        18
19
20
21
Text Mining Applications ท่ีผานการพิสูจนวาประสบความสำาเร็จ
                             ่          ์ ่
(have proven particularly fertile ground for TM)


Corporate Finance นายธนาคาร / นั กวิเคราะห์ / ท่ีปรึกษาการเงิน
 business intelligence

 Patent Research ภาคอุตสาหกรรม / บริษัท / ภาคการวิจัย

 Life Science identify complex patterns of interactivities between
  proteins




                                                                     22
ขันตอนการทำางานของ Text Mining
  ้


•   Issue identification
•   Selection of information sources
•   Search refinement and data retrieval
•   Data cleaning
•   Basic analyses
•   Advance analyses
•   Representation




                                           23
Text Mining Tasks

Search & Retrieval Information
 mine various databases ( internal,external publications/patents )
 retrieve search results analyses with text mining software

Profile ( Statistical analyses ) R&D activities /
Technology application emphases

Represent : text , tables , graphs   activities by time / player
/ Technology map

Interpret : perform competitive analyses describe & project
 technology by nation / company anticipate / forecast / trend technology




                                                                       24
ประสบการณ์ ของ STKS กับ TM

Tool TM : Vantage Point / VP
ฐานขูอมูลงานวิจย ท่ีสำาคัญของโลก ISI / Scopus
                ั
ฐานขูอมูลสิทธิบัตร Delphion

     ปั จจุบัน ฐานขูอมูลวิชาการ ของระดับสากล ในหลายๆ ช่ ือ มี features
ท่ีใชูเทคนิ ค data mining ช่วยในการวิเคราะห์ ผลลัพธ์การสืบคูน
เช่น ISI : WOS / SCOPUS / Delphion / Aureka etc.




                                                                         25
การประยุกต์ ใช้ข้อมูลจากฐานข้อมูลวิชาการท่ีบอกรับ
ตัวอย่าง รายการบรรณานุกรมงานวิจยตีพิมพ์ จากฐานข้อมูล Thomson : ISI – Web of Science
                                  ั
PT J
AU Yoksan, R
   Akashi, M
AF Yoksan, Rangrong
   Akashi, Mitsuru
TI Low molecular weight chitosan-g-L-phenylalanine: Preparation,
   characterization, and complex formation with DNA
SO CARBOHYDRATE POLYMERS
LA English
DT Article
DE Chitosan; Phenylalanine; DNA; Nanoparticle; Complex coacervation; DNA
   release
ID HUMAN ENDOTHELIAL-CELLS; GENE DELIVERY; PLASMID DNA; TRANSFECTION
   EFFICIENCY; IN-VITRO; NANOPARTICLES; OLIGOSACCHARIDE; SCAFFOLDS;
   VECTORS; REMOVAL
AB The grafting of L-phenylalanine onto low molecular weight chitosan is
 .............................................................................
C1 [Akashi, Mitsuru] Osaka Univ, Grad Sch Engn, Dept Appl Chem, Suita, Osaka 5650871, Japan.
   [Yoksan, Rangrong] Kasetsart Univ, Fac Agroind, Dept Packaging Technol & Mat, Bangkok 10900, Thailand.
RP Akashi, M, Osaka Univ, Grad Sch Engn, Dept Appl Chem, 2-2 Yamadaoka,
   Suita, Osaka 5650871, Japan.
EM akashi@chem.eng.osaka-u.ac.jp
FU Japan Society for the Promotion of Science (JSPS), Japan [P05133]
FX This work was financially supported by the Japan Society for the
   Promotion of Science (JSPS), Japan (P05133). One of the authors (R.Y.)
   thanks Assist. Prof. Michiya Matsusaki (Osaka University, Japan) for
   the technique and discussion on cell culture.
NR 36
TC 5
PU ELSEVIER SCI LTD
PI OXFORD
PA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB, OXON, ENGLAND
SN 0144-8617
J9 CARBOHYD POLYM
JI Carbohydr. Polym.
PD JAN 5
PY 2009
VL 75
IS 1
BP 95
EP 103
DI 10.1016/j.carbpol.2008.07.001
PG 9
SC Chemistry, Applied; Chemistry, Organic; Polymer Science                                                  26
GA 361SY
ตัวอย่าง ข้อมูลบรรณานุกรมสิทธิบัตร จากฐานข้อมูล Thomson : Delphion




                                                                     27
28
29
30
31
A p p lic a tio n                                                                                 A p p lic a tio n
                                       P a te n t A s s ig n e e s                                                                                                     T itle                                                     IP C -R
 C o u n tr ie s                                                                                      D a te s
     Top 5                                      T o p T e rm s                                       T o p T e rm      s                                          T o p T e rm s                                               T o p T e rm s
                                                                                                     2 0 0 5 -1 1 -2   8
                                                                                                            [2 ];                P h o t o s e n s it iz e r a n d m e th o d f o r p r o d u c tio n t h e r e o f [3 ];      A 6 1 K 3 6 /0 2
                           D a in ip p o n I n k a n d C h e m ic a ls , I n c . [ 2 ] ;
                                                                                                     2 0 0 5 -0 3 -1   6                                    T o p ic a l m e d ic a m e n t [3 ];                                    [1 2 ];
                    O b s c h e s tv o s O g r a n ic h e n n o i O t v e ts t v e n n o s tiju
                                                                                                            [2 ];                                  P r o c e s s f o r t r e a t in g s p ir u lin a [ 2 ] ;                  A 6 1 K 3 6 /1 8 5
                             & # 8 2 2 0 ;R a d a -P h a rm a & # 8 2 2 1 ; [2 ];
    U S [5 2 ]                                                                                       2 0 0 5 -0 6 -2   4      H e r b a l c o m p o s it io n f o r t r e a t m e n t o f im m u n o c o m p r o m is e d            [1 2 ];
                            O c e a n N u tr itio n C a n a d a L im ite d [2 ];
                                                                                                            [2 ];                                                   c o n d it io n s [2 ];                                 A 6 1 K 3 6 /8 2 [7 ];
                               S a h a ja n a n d B io te c h P v t. L td . [2 ];
                                                                                                     2 0 0 5 -0 6 -3   0      A L G A L A N D A L G A L E X T R A C T D IE T A R Y S U P P L E M E N T                      A 6 1 K 3 5 /6 6 [6 ];
                                        B A S F C o r p o r a t io n [1 ]
                                                                                                            [2 ];                                               C O M P O S IT IO N [2 ]                                     A 6 1 K 3 6 /0 5 [6 ]
                                                                                                  2 0 0 5 -0 9 -0 6    [2 ]
                                                                                                     2 0 0 6 -0 3 -2   3       A N T IA L L E R G IC A G E N T O B T A IN E D B Y C U L T U R E O F
                                                                                                            [3 ];                               L A C T IC A C ID B A C T E R IU M [1 ];
                                                                                                                                                                                                                            A 2 3 L 1 /3 0 [1 1 ];
                             D A IN IP P O N IN K & C H E M IN C [5 ];                               2 0 0 7 -1 2 -2   0                                C H E W IN G G U M [1 ];
                                                                                                                                                                                                                               A 6 1 K 3 6 /0 2
                         S P IR U L IN A B IO L O G IC A L L A B L T D [4 ];                                [2 ];                     F E E D F O R A Q U A C U L T U R E O B T A IN E D B Y
                                                                                                                                                                                                                                     [1 0 ];
     J P [2 6 ]                     S U E T S U N A K U N IO [3 ];                                   2 0 0 5 -0 4 -1   5       H A R D E N I N G S P I R U L I N A W IT H D E V I L 'S T O N G U E [ 1 ] ;
                                                                                                                                                                                                                            A 6 1 K 3 6 /0 5 [6 ];
                                  Y A M A D A Y A K K E N :K K [3 ];                                        [2 ];             N E W D IP E P T ID E , L -IS O L E U C Y L -L -T R Y P T O P H A N A N D
                                                                                                                                                                                                                            A 6 1 P 4 3 /0 0 [5 ];
                             N O D A S H O K U K IN K O G Y O K K [2 ]                               2 0 0 4 -0 4 -0   8               P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ];
                                                                                                                                                                                                                             A 6 1 K 3 8 /0 0 [4 ]
                                                                                                            [1 ];                N E W D IP E P T ID E , L -L E U C Y L -L -T R Y P T O P H A N A N D
                                                                                                  2 0 0 5 -0 9 -2 1    [1 ]            P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ]
                                                                                                     2 0 0 7 -0 9 -1   0
                                                                                                                                                   H E A L T H S U P P L E M E N T [2 ];
                                                                                                            [3 ];
                                                                                                                                                       T o p ic a l m e d ic a m e n t [2 ];                                A 6 1 K 3 6 /0 2 [5 ];
                                      S C H O C K J O E L [2 ];                                      2 0 0 5 -0 9 -0   7
                                                                                                                              Im m u n o s tim u la to r y C o m p o s itio n c o m p r is in g L ip o p r o te in in          A 6 1 K 3 6 /1 8 5
                                U n iv e r s it y o f M is s is s ip p i [2 ];                              [2 ];
                                                                                                                                                         M ic r o a lg a e E x tr a c t [ 2 ];                                        [5 ];
    W O [1 9 ]                      M O R G A N C L Y D E [2 ];                                      2 0 0 5 -0 6 -2   4
                                                                                                                                      F E E D S U P P L E M E N T A N D M E T H O D O F IT S                                  A 2 3 L 1 /3 0 [3 ];
                      D E P A R T M E N T O F B IO T E C H N O L O G Y [1 ];                                [2 ];
                                                                                                                                                           P R O D U C T IO N [1 ];                                         A 6 1 K 3 6 /8 8 [3 ];
                                 H e n k e l A G & C o . K G a A [1 ]                                2 0 0 7 -0 8 -0   2
                                                                                                                              C O M P O S IT IO N C O N T A IN IN G C A C A O A N D S P IR U L IN A                         A 6 1 K 3 6 /8 8 6 [3 ]
                                                                                                            [1 ];
                                                                                                                                                                         [1 ]
                                                                                                  2 0 0 7 -1 1 -3 0    [1 ]




                                                                                                                                                                                                                                                      32
สรุป ประโยชนของเทคโนโลยี Text / Data Mining
            ์

เป็ นเคร่ ืองมือท่ีช่วยในการจัดทำารายงานประเภท Intelligence เช่น Market /
 Technology Intelligence
ช่วยใหูเห็นเน้อหาท่ีแฝงเรูนในเอกสาร (hidden content)
                ื
แสดงความสัมพันธ์ของกลุ่มขูอมูลท่ีมีประโยชน์ (relationship)
จัดกลุ่มเอกสารใหูอยู่ในเร่ ืองเดียวกัน (sorting/ranking)
ช่วยวิเคราะห์ขูอมูล (ในชุดจำานวนหน่ ึง ) ใหูทราบถึง 4 W (Who/What/When/Where)
 ในกรณี เอกสารสิทธิบัตรอย่างอัตโนมัติ

                                   อ่ ืนๆ




                                                                                33
การจัดเตรียมข้อมูล(ดิบ) เพ่ ือการ Mining

ตูองมีการจัดการ จัดระเบียบขูอมูลอย่างดี มีมาตรฐาน
    มี Metadata / Controlled Vocabulary / Taxonomy / Ontology

ประสบการณ์ STKS ในการ Mining ขูอมูลดิบของไทย (Owned raw data)
       เดิม STKS มีความพยายามท่ีจะวิเคราะห์ขอมูลดิบของไทยเอง
                                                     ู
       ฐานขูอมูลวิทยานิ พนธ์ไทย
       พบปั ญหา ขูอมูลไม่มีระเบียบ ไม่มีมาตรฐาน เช่น
              ช่ ืออาจารย์ท่ีปรึกษา ... รศ. ดร สมชาย / สมชาย รศ. ดร. ...............
              ช่ ือสาขาวิชาเอก ...... กฎหมาย / นิ ติศาสตร์
              ปี ท่ีจบ .................... 2545 / 1997
                        อ่ ืนๆ




                                                                                       34
บรรณานุกรม

Zanasi A. 2005 Text mining and its applications to Intelligence ,
CRM and Knowledge Management

ชูชาติ หฤไชยะศักดิ เ์อกสารการบรรยายppt Text Minning : Techniques and
Application ศูนย์เทคโนโลยีอิเล็กทรอนิ กส์และคอมพิวเตอร์แห่งชาติ มีนาคม 2550.

Wikipedia Text Mining http://en.wikipedia.org as 13/11/2007




                                                                               35
END

Thank you for your attention




                               36

More Related Content

PDF
บทที่ 2 ทักษะการรู้สารสนเทศ
DOC
PDF
ศาสนาคริสต์
PDF
วิจัยในชั้นเรียนไม่ส่งการบ้าน
PPTX
ความรู้เบื้องต้นเกี่ยวกับการวิจัย
PPTX
แนวคิดสำคัญของนักปรัชญาอัตถิภาวนิยม Soren kierkegaard
PPTX
ปรัชญาเบื้องต้น บทที่ ๓ อภิปรัชญา
PPTX
บทที่ 2 ทักษะการรู้สารสนเทศ
ศาสนาคริสต์
วิจัยในชั้นเรียนไม่ส่งการบ้าน
ความรู้เบื้องต้นเกี่ยวกับการวิจัย
แนวคิดสำคัญของนักปรัชญาอัตถิภาวนิยม Soren kierkegaard
ปรัชญาเบื้องต้น บทที่ ๓ อภิปรัชญา

What's hot (20)

PDF
การวิเคราะห์และสังเคราะห์สารสนเทศ
PDF
คู่มือ practical data mining with rapid miner studio7
PDF
การวิเคราะห์และการกำหนดความต้องการสารสนเทศ
PPTX
05 classification 1 decision tree and rule based classification
PDF
สารคดีชีวประวัติ
PDF
ตัวอย่างบทคัดย่อวิทยานิพนธ์
PDF
เนื้อหารายละเอียดของทฤษฎีแรงกระตุ้นทางจิตวิทยาของ McGuire
PDF
หน่วยที่ 2 การวิเคราะห์สถานการณ์ปัญหา 5w1h.pdf
PPTX
ปรัชญาอัตถิภาวนิยมของ ฌอง ปอล ซาร์ต (Jean paul sartre)
PDF
การวิเคราะห์แนวโน้มและการเปลี่ยนแปลงด้านวิทยาศาสตร์และเทคโนโลยีไทยในอนาคต
PDF
การสร้างกรอบแนวคิด
PDF
เด็กไม่ส่งการบ้าน
PDF
บทที่ 9 การศึกษารายกรณี 55
PDF
โครงงานภาษาไทยเรื่องนิทาน
PDF
ไตรสิกขา
PPTX
สื่อเก่ากับสื่อใหม่
PPTX
วิเคราะห์การเมืองกับการศึกษา
PPT
การพัฒนาแหล่งเรียนรู้
PPT
ออซูเบล
PDF
ทฤษฎีการเรียนรู้ (Learning theory)
การวิเคราะห์และสังเคราะห์สารสนเทศ
คู่มือ practical data mining with rapid miner studio7
การวิเคราะห์และการกำหนดความต้องการสารสนเทศ
05 classification 1 decision tree and rule based classification
สารคดีชีวประวัติ
ตัวอย่างบทคัดย่อวิทยานิพนธ์
เนื้อหารายละเอียดของทฤษฎีแรงกระตุ้นทางจิตวิทยาของ McGuire
หน่วยที่ 2 การวิเคราะห์สถานการณ์ปัญหา 5w1h.pdf
ปรัชญาอัตถิภาวนิยมของ ฌอง ปอล ซาร์ต (Jean paul sartre)
การวิเคราะห์แนวโน้มและการเปลี่ยนแปลงด้านวิทยาศาสตร์และเทคโนโลยีไทยในอนาคต
การสร้างกรอบแนวคิด
เด็กไม่ส่งการบ้าน
บทที่ 9 การศึกษารายกรณี 55
โครงงานภาษาไทยเรื่องนิทาน
ไตรสิกขา
สื่อเก่ากับสื่อใหม่
วิเคราะห์การเมืองกับการศึกษา
การพัฒนาแหล่งเรียนรู้
ออซูเบล
ทฤษฎีการเรียนรู้ (Learning theory)
Ad

Similar to Text Mining - Data Mining (20)

PPTX
นพรัตน์ เสตะกลัพม์
PPT
งานPowerpoint ลูกศร2
PPT
งานPowerpoint ลูกศร2
PDF
Book st chapter1
PDF
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
PPTX
01 introduction to data mining
DOCX
ใบงานที่ 7 นะจ้ะ
PPT
เทคโนโลยีสารสนเทศหลิว
PPT
เทคโนโลยีสารสนเทศ111111
PPT
เทคโนโลยีสารสนเทศหลิว
PPT
เทคโนโลยีสารสนเทศหลิว
PPT
เทคโนโลยีสารสนเทศหลิว
PPT
เทคโนโลยีสารสนเทศหลิว
PPT
เทคโนโลยีสารสนเทศหลิว
PPT
เทคโนโลยีสารสนเทศหลิว
PDF
Digital Collection ... Guideline
นพรัตน์ เสตะกลัพม์
งานPowerpoint ลูกศร2
งานPowerpoint ลูกศร2
Book st chapter1
กระแสเทคโนโลยีเพื่อบริการสารสนเทศยุคใหม่
01 introduction to data mining
ใบงานที่ 7 นะจ้ะ
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศ111111
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
เทคโนโลยีสารสนเทศหลิว
Digital Collection ... Guideline
Ad

More from Boonlert Aroonpiboon (20)

PDF
PDF
Scival for Research Performance
PDF
20190726 icde-session-chularat-nstda-4
PDF
20190409 social-media-backup
PDF
20190220 open-library
PDF
20190220 digital-archives
PDF
OER KKU Library
PDF
Museum digital-code
PDF
OER MOOC - Success Story
PDF
LAM Code of conduct
PDF
RLPD - OER MOOC
PDF
New Technology for Information Services
PDF
New Technology for Information Services
PDF
digital law for GLAM
PDF
20180919 digital-collections
PDF
Field-Weighted Citation Impact (FWCI)
PDF
20180828 digital-archives
PDF
Local Wisdom Information : How to
PDF
201403 etda-library-settup
PDF
201403 etda-library
Scival for Research Performance
20190726 icde-session-chularat-nstda-4
20190409 social-media-backup
20190220 open-library
20190220 digital-archives
OER KKU Library
Museum digital-code
OER MOOC - Success Story
LAM Code of conduct
RLPD - OER MOOC
New Technology for Information Services
New Technology for Information Services
digital law for GLAM
20180919 digital-collections
Field-Weighted Citation Impact (FWCI)
20180828 digital-archives
Local Wisdom Information : How to
201403 etda-library-settup
201403 etda-library

Text Mining - Data Mining

  • 1. เทคโนโลยี Text Mining / Data Mining รังสิมา เพ็ชรเม็ดใหญ่ ศูนย์บริการความรููทางวิทยาศาสตร์และเทคโนโลยี STKS โครงการสัมมนา Applied ICT for Executive Librarians 30 กรกฎาคม 2553 มหาวิทยาลัยธุรกิจบัณฑิตย์ 1
  • 2. Outlines ความหมาย Definition ประวัติ ความเป็ นมา เทคนิ ค Text Mining Techniques การประยุกต์ใชู Applications เคร่ ืองมือ Text mining tools ประสบการณ์ ของ STKS กับ Text Mining บรรณานุกรม 2
  • 3. ความหมายของ Text Mining Text mining is the process of analyzing & structure Large sets of documents applying statistical and/or Computational linguistics technology in order to extract Previously unknown knowledge useful to take crucial Business decision. คือกระบวนการวิเคราะห์สารสนเทศเพ่ ือใหูคนพบสารสนเทศู เร่ ืองใหม่ / เร่ องท่ไม่เคยรับรููมาก่อน ดูวยวิธการสกัดคำา/ตัดคำา ื ี ี information extraction ดูวยโปรแกรมคอมพิวเตอร์แบบอัตโนมัติ นำ าเสนอผลการวิเคราะห์ใหูเป็ นความรูใหม่ รวมถึงสามารถ ู แสดงความสัมพันธ์ของขูอมูลใหม่ดูวย 3
  • 4. ความหมาย Text mining (ต่อ) Text mining is a new and exciting research area in computer sciences that tries to solve the information overload problem by using techniques from data mining / machine learning / natural language processing (NLP) / information retrieval and knowledge management. A key element of text mining is its on the document collection. At its simplest a document collection can be any grouping of text based documents such as business report /legal memorandum / e-mail/ research Paper / manuscript /article /press release 4
  • 5. Text Mining แตกต่างกับการสืบค้น การสืบคูน / คูนคืน Searching เป็ นความตูองการคูนหาเร่ ือง ท่ผูสบคูนรููจกมาก่อนรวมทังเป็ นเร่ ืองท่ีมีการเขียน/บันทึกไวูแลูว ี ื ั ้ ส่วน Text Mining เป็ นการคูนพบขูอมูลท่ีไม่เคยรับรููมาก่อนหรือ ไม่มีขูอมูลท่ถกบันทึกไวูก่อน ี ู Text Mining มีการนำ าไปประยุกต์ใชูในหลายสาขา จึงมีช่อเรียก ื แตกต่างกันไปเช่น Data Mining Scientometrics Webometrics Bibliometrics etc. 5
  • 6. ประวัติ ของ Information Extraction / IE จุดแรกเร่ิมมาจากการประชุม ในกลุ่ม ของ Natural language processing community ในการประชุม MUC conferenceปี 1987โดย US DARPA (naval tactical operation) MUC-2 Conference 1989 MUC-3 conference 1991 Latin American Terrorisms MUC-4 1992 MUC-5 1993 Japanese document ( joint ventures + microelectronics) MUC-6 1995 Financial domain MUC-7 1998 Airline Crashes domain ( Chinese, Japanese, English ) European Commission / LRE ( linguistic research & engineering ) IE มีผลใหูเกิด ผลลัพธ์ท่ีสำาคัญทางวิทยาศาสตร์ หลายๆ โครงการ เช่น NAMIC / CROSSMARC , MOSES 6
  • 7. Figure 1 แสดง The Evolution of database system technology. 7
  • 8. Example of output from industry analyzer term extraction process Biogen Idec Inc. ended its third quarter with $543 million in Revenues , slightly lower than analyst estimates as it near the One-year anniversary of a merger that made it the world largest Biotech company The Cambridge,Mass.-based company reported non-GAAP Earnings per share of 37 cents and net income of $132 million compared with 35 cents and 123 million for the quarter last year. Analysts consensus estimate for the quarter was 35 cents 8
  • 9. การประยุกต์ Text Mining ปั จจุบันมีความสนใจนำ า TM ไปประยุกต์ใชูในหลายสาขา ตัวอย่างเช่น การวิเคราะห์หาขูอมูลรูปแบบการใชูจ่ายของผููบริโภค Consumer purchasing Pattern จากขูอมูล บัตรเครดิตการ์ด บัตรสมาชิกต่างๆ มีการจัดเรียงสินคูา บนชันใหูอยู่ใกลูกน (กรณี พบว่ามีการซ้ือสินคูาพรูอมกันในอัตราสูง) ้ ั มีการแจกบัตรคูปองต่างๆเพ่ ือส่งเสริมการขาย สาขา Bioscience ในเป็ นเร่ ืองท่ีรจักกันอย่างดี การศึกษาของ Don Swanson ู เร่ ือง Hypothesizing causes of rare diseases โดยศึกษาดูจากการเช่ ือมโยง ของเอกสารงานวิจัย มีการคาดการณ์ว่า TM จะมีบทบาทและมีผลกระทบอย่างสูง great impact ต่อวงการนี้ในอนาคตอย่างแน่ นอน 9
  • 10. สาขา Genomics ประสบความสำาเร็จ ด้วย TM ในการคูนพบถึงปฏิกิรยา ของโปรตีน 2 ชนิ ด โดยวิเคราะห์จากการปรากฏ ิ ของคำาท่ีขนพรูอมกัน Co-Occurrence ในบทความเดียวกัน ึ้ ถือเป็ นวิธการท่ีง่าย แต่ผลลัพธ์ท่ีไดูเป็ นเร่ ืองท่ีย่ิงใหญ่แบบไม่คาดคิดมาก่อน ี 10
  • 11. ปั จจุบน TM ได้รับความสนใจในหลายสาขา ั Security Application (CIA analyze terrorist events) Software Application IBM , Microsoft กำาลังพัฒนา Academic Application สำานั กพิมพ์ ผููผลิตขูอมูลวิชาการ เช่น Nature / NIH / Univ.Manchester / Uinv.California Customer Service ตูองการ quick response เช่น ไดูรับอีเมลรูองเรียน1000 ฉบับ/วัน 11
  • 12. Text Mining Techniques เทคโนโลยี TM ใชูเทคนิ คหลายส่วนประกอบกัน ไดูแก่ Text Extraction Summarized Extraction Feature Selection Cluster Generation Topic Identification Information Mapping, Visualization Text Categorization TM เป็ นสหสาขาวิชาผสมผสานกัน ในหลายสาขา คือ Data Mining / Information Retrieval / Linguistics / Machine pattern / Statistics/ Pattern recognition / Database / Visualization 12
  • 13. ตลาดของ Text Mining ถือว่าตลาดของ TM เพ่ิงเกิดขึ้น แบ่งออกไดูเป็ น 4 กลุ่ม คือ Customer Relationship Management /CRM มีความตูองการสูงขึ้นตลอดเวลา มีมูลค่าราว $ 15.2 bn Intelligence ในกลุ่ม security / corporate/researchมีมูลค่า $ 12 bn Knowledge & Content management มีมูลค่า $ 1.9 bn Information Retrieval technology ระบบการคูนคืน มีมูลค่า $ 3.5 bn 13
  • 14. TM กับภาคธุรกิจ Customer Transaction Analysis เช่น บริษัทผลิตรถยนต์ บริษัทประกันภัย ธนาคาร Competitive Intelligence / CI เป็ นการศึกษาขูอมูลรอบดูานของภาคธุรกิจ เช่น ขูอมูลคู่แข่ง พันธมิตร การตลาด การวิจย ฯลฯ ท่ีจะมีผลต่อสถานภาพ ั ของบริษัท R & D support ใชูในงานวิจยทางวิทยาศาสตร์ สกัดคำาจากเน้ือหา ั เอกสารวิชาการ 14
  • 15. การประยุกต์ในงาน Crime Pattern Detection หน่ วยงานตำารวจท่ี Virginia ,USA. จัดทำารายงานประกอบการสอบสวนเรียกว่า Police Information Report / PIR ตูองการสรุปประวัติรูปแบบอาชญากรรม จากขูอมูลเดิมท่ีจัดเก็บไวูท่ีมีขนาดใหญ่ จึงทำาการประยุกต์ TM เพ่ ือใหูไดูขูอมูลใหม่ วิธีเดิมประมวลดูวยมือ พบว่ายุ่งยาก ใชูเวลามาก ผลท่ีไดูผิดพลาดและลำาเอียง ขันตอนแรกสุด คือการ data pre-process จัดทำาขูอมูลใหม่ใหูมี รูปแบบท่ีเหมาะสม คือ ้ Date District Event type Description 1/05/2003 Reston Robbery ………………. 5/05/2003 Lake Accident ………………. 6/05/2003 South Narcotics ……………… 15
  • 16. งานข้อมูลตำารวจ (ต่อ) ขันตอนท่ี 2 Extract important & concept ้ ขันตอนท่ี 3 Analyze pattern ( Co-occurrence ) ้ การสรุปผลการวิเคราะห์ ขูอมูลอาชญากรรม สามารถตอบคำาถาม เหล่านี้ไดู เห็นความสัมพันธ์ของลักษณะเหตุการณ์กับสถานท่ีเกิดเหตุ สกัดรายงานออกมาเป็ นสถิติ เช่น จำานวนการลักขโมย ยาเสพติด ลักษณะอาวุธท่ีกอเหตุ มีก่ีประเภท จำานวน สัมพันธ์ประเภทอาชญากรรม ่ เคร่ ืองมือ software ท่ีใชูช่ือ Poly Analyst for text mining เป็ นภาษาอังกฤษ และภาษาอ่ ืนๆ มากมาย คือ German / Spanish / French /Russian / Italian / Portuguese / Dutch / Swedish / Greek 16
  • 17. Text Mining Tools / Software ขณะนี้ มีเคร่ ืองมือมากมาย แบบเชิงพาณิ ชย์ ไดูแก่ Megaputer Intelligence SAS SPSS Synthema TEMIS Autonomy Clearforest Fast IBM Inxight Vantage Point etc. 17
  • 18. Text Mining Tools ประเภท Open Sources Software Gate - Natural language processing & language engineering tool YALE- with its Word vector Tool plugin data and text mining software Pimiento- a text-mining application framework written in Java (http://ee.usyd.edu.au/~jjga/pimiento) 18
  • 19. 19
  • 20. 20
  • 21. 21
  • 22. Text Mining Applications ท่ีผานการพิสูจนวาประสบความสำาเร็จ ่ ์ ่ (have proven particularly fertile ground for TM) Corporate Finance นายธนาคาร / นั กวิเคราะห์ / ท่ีปรึกษาการเงิน business intelligence Patent Research ภาคอุตสาหกรรม / บริษัท / ภาคการวิจัย Life Science identify complex patterns of interactivities between proteins 22
  • 23. ขันตอนการทำางานของ Text Mining ้ • Issue identification • Selection of information sources • Search refinement and data retrieval • Data cleaning • Basic analyses • Advance analyses • Representation 23
  • 24. Text Mining Tasks Search & Retrieval Information mine various databases ( internal,external publications/patents ) retrieve search results analyses with text mining software Profile ( Statistical analyses ) R&D activities / Technology application emphases Represent : text , tables , graphs activities by time / player / Technology map Interpret : perform competitive analyses describe & project technology by nation / company anticipate / forecast / trend technology 24
  • 25. ประสบการณ์ ของ STKS กับ TM Tool TM : Vantage Point / VP ฐานขูอมูลงานวิจย ท่ีสำาคัญของโลก ISI / Scopus ั ฐานขูอมูลสิทธิบัตร Delphion ปั จจุบัน ฐานขูอมูลวิชาการ ของระดับสากล ในหลายๆ ช่ ือ มี features ท่ีใชูเทคนิ ค data mining ช่วยในการวิเคราะห์ ผลลัพธ์การสืบคูน เช่น ISI : WOS / SCOPUS / Delphion / Aureka etc. 25
  • 26. การประยุกต์ ใช้ข้อมูลจากฐานข้อมูลวิชาการท่ีบอกรับ ตัวอย่าง รายการบรรณานุกรมงานวิจยตีพิมพ์ จากฐานข้อมูล Thomson : ISI – Web of Science ั PT J AU Yoksan, R Akashi, M AF Yoksan, Rangrong Akashi, Mitsuru TI Low molecular weight chitosan-g-L-phenylalanine: Preparation, characterization, and complex formation with DNA SO CARBOHYDRATE POLYMERS LA English DT Article DE Chitosan; Phenylalanine; DNA; Nanoparticle; Complex coacervation; DNA release ID HUMAN ENDOTHELIAL-CELLS; GENE DELIVERY; PLASMID DNA; TRANSFECTION EFFICIENCY; IN-VITRO; NANOPARTICLES; OLIGOSACCHARIDE; SCAFFOLDS; VECTORS; REMOVAL AB The grafting of L-phenylalanine onto low molecular weight chitosan is ............................................................................. C1 [Akashi, Mitsuru] Osaka Univ, Grad Sch Engn, Dept Appl Chem, Suita, Osaka 5650871, Japan. [Yoksan, Rangrong] Kasetsart Univ, Fac Agroind, Dept Packaging Technol & Mat, Bangkok 10900, Thailand. RP Akashi, M, Osaka Univ, Grad Sch Engn, Dept Appl Chem, 2-2 Yamadaoka, Suita, Osaka 5650871, Japan. EM akashi@chem.eng.osaka-u.ac.jp FU Japan Society for the Promotion of Science (JSPS), Japan [P05133] FX This work was financially supported by the Japan Society for the Promotion of Science (JSPS), Japan (P05133). One of the authors (R.Y.) thanks Assist. Prof. Michiya Matsusaki (Osaka University, Japan) for the technique and discussion on cell culture. NR 36 TC 5 PU ELSEVIER SCI LTD PI OXFORD PA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB, OXON, ENGLAND SN 0144-8617 J9 CARBOHYD POLYM JI Carbohydr. Polym. PD JAN 5 PY 2009 VL 75 IS 1 BP 95 EP 103 DI 10.1016/j.carbpol.2008.07.001 PG 9 SC Chemistry, Applied; Chemistry, Organic; Polymer Science 26 GA 361SY
  • 28. 28
  • 29. 29
  • 30. 30
  • 31. 31
  • 32. A p p lic a tio n A p p lic a tio n P a te n t A s s ig n e e s T itle IP C -R C o u n tr ie s D a te s Top 5 T o p T e rm s T o p T e rm s T o p T e rm s T o p T e rm s 2 0 0 5 -1 1 -2 8 [2 ]; P h o t o s e n s it iz e r a n d m e th o d f o r p r o d u c tio n t h e r e o f [3 ]; A 6 1 K 3 6 /0 2 D a in ip p o n I n k a n d C h e m ic a ls , I n c . [ 2 ] ; 2 0 0 5 -0 3 -1 6 T o p ic a l m e d ic a m e n t [3 ]; [1 2 ]; O b s c h e s tv o s O g r a n ic h e n n o i O t v e ts t v e n n o s tiju [2 ]; P r o c e s s f o r t r e a t in g s p ir u lin a [ 2 ] ; A 6 1 K 3 6 /1 8 5 & # 8 2 2 0 ;R a d a -P h a rm a & # 8 2 2 1 ; [2 ]; U S [5 2 ] 2 0 0 5 -0 6 -2 4 H e r b a l c o m p o s it io n f o r t r e a t m e n t o f im m u n o c o m p r o m is e d [1 2 ]; O c e a n N u tr itio n C a n a d a L im ite d [2 ]; [2 ]; c o n d it io n s [2 ]; A 6 1 K 3 6 /8 2 [7 ]; S a h a ja n a n d B io te c h P v t. L td . [2 ]; 2 0 0 5 -0 6 -3 0 A L G A L A N D A L G A L E X T R A C T D IE T A R Y S U P P L E M E N T A 6 1 K 3 5 /6 6 [6 ]; B A S F C o r p o r a t io n [1 ] [2 ]; C O M P O S IT IO N [2 ] A 6 1 K 3 6 /0 5 [6 ] 2 0 0 5 -0 9 -0 6 [2 ] 2 0 0 6 -0 3 -2 3 A N T IA L L E R G IC A G E N T O B T A IN E D B Y C U L T U R E O F [3 ]; L A C T IC A C ID B A C T E R IU M [1 ]; A 2 3 L 1 /3 0 [1 1 ]; D A IN IP P O N IN K & C H E M IN C [5 ]; 2 0 0 7 -1 2 -2 0 C H E W IN G G U M [1 ]; A 6 1 K 3 6 /0 2 S P IR U L IN A B IO L O G IC A L L A B L T D [4 ]; [2 ]; F E E D F O R A Q U A C U L T U R E O B T A IN E D B Y [1 0 ]; J P [2 6 ] S U E T S U N A K U N IO [3 ]; 2 0 0 5 -0 4 -1 5 H A R D E N I N G S P I R U L I N A W IT H D E V I L 'S T O N G U E [ 1 ] ; A 6 1 K 3 6 /0 5 [6 ]; Y A M A D A Y A K K E N :K K [3 ]; [2 ]; N E W D IP E P T ID E , L -IS O L E U C Y L -L -T R Y P T O P H A N A N D A 6 1 P 4 3 /0 0 [5 ]; N O D A S H O K U K IN K O G Y O K K [2 ] 2 0 0 4 -0 4 -0 8 P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ]; A 6 1 K 3 8 /0 0 [4 ] [1 ]; N E W D IP E P T ID E , L -L E U C Y L -L -T R Y P T O P H A N A N D 2 0 0 5 -0 9 -2 1 [1 ] P R O L Y L E N D O P E P T ID A S E IN H IB IT O R [1 ] 2 0 0 7 -0 9 -1 0 H E A L T H S U P P L E M E N T [2 ]; [3 ]; T o p ic a l m e d ic a m e n t [2 ]; A 6 1 K 3 6 /0 2 [5 ]; S C H O C K J O E L [2 ]; 2 0 0 5 -0 9 -0 7 Im m u n o s tim u la to r y C o m p o s itio n c o m p r is in g L ip o p r o te in in A 6 1 K 3 6 /1 8 5 U n iv e r s it y o f M is s is s ip p i [2 ]; [2 ]; M ic r o a lg a e E x tr a c t [ 2 ]; [5 ]; W O [1 9 ] M O R G A N C L Y D E [2 ]; 2 0 0 5 -0 6 -2 4 F E E D S U P P L E M E N T A N D M E T H O D O F IT S A 2 3 L 1 /3 0 [3 ]; D E P A R T M E N T O F B IO T E C H N O L O G Y [1 ]; [2 ]; P R O D U C T IO N [1 ]; A 6 1 K 3 6 /8 8 [3 ]; H e n k e l A G & C o . K G a A [1 ] 2 0 0 7 -0 8 -0 2 C O M P O S IT IO N C O N T A IN IN G C A C A O A N D S P IR U L IN A A 6 1 K 3 6 /8 8 6 [3 ] [1 ]; [1 ] 2 0 0 7 -1 1 -3 0 [1 ] 32
  • 33. สรุป ประโยชนของเทคโนโลยี Text / Data Mining ์ เป็ นเคร่ ืองมือท่ีช่วยในการจัดทำารายงานประเภท Intelligence เช่น Market / Technology Intelligence ช่วยใหูเห็นเน้อหาท่ีแฝงเรูนในเอกสาร (hidden content) ื แสดงความสัมพันธ์ของกลุ่มขูอมูลท่ีมีประโยชน์ (relationship) จัดกลุ่มเอกสารใหูอยู่ในเร่ ืองเดียวกัน (sorting/ranking) ช่วยวิเคราะห์ขูอมูล (ในชุดจำานวนหน่ ึง ) ใหูทราบถึง 4 W (Who/What/When/Where) ในกรณี เอกสารสิทธิบัตรอย่างอัตโนมัติ อ่ ืนๆ 33
  • 34. การจัดเตรียมข้อมูล(ดิบ) เพ่ ือการ Mining ตูองมีการจัดการ จัดระเบียบขูอมูลอย่างดี มีมาตรฐาน มี Metadata / Controlled Vocabulary / Taxonomy / Ontology ประสบการณ์ STKS ในการ Mining ขูอมูลดิบของไทย (Owned raw data) เดิม STKS มีความพยายามท่ีจะวิเคราะห์ขอมูลดิบของไทยเอง ู ฐานขูอมูลวิทยานิ พนธ์ไทย พบปั ญหา ขูอมูลไม่มีระเบียบ ไม่มีมาตรฐาน เช่น ช่ ืออาจารย์ท่ีปรึกษา ... รศ. ดร สมชาย / สมชาย รศ. ดร. ............... ช่ ือสาขาวิชาเอก ...... กฎหมาย / นิ ติศาสตร์ ปี ท่ีจบ .................... 2545 / 1997 อ่ ืนๆ 34
  • 35. บรรณานุกรม Zanasi A. 2005 Text mining and its applications to Intelligence , CRM and Knowledge Management ชูชาติ หฤไชยะศักดิ เ์อกสารการบรรยายppt Text Minning : Techniques and Application ศูนย์เทคโนโลยีอิเล็กทรอนิ กส์และคอมพิวเตอร์แห่งชาติ มีนาคม 2550. Wikipedia Text Mining http://en.wikipedia.org as 13/11/2007 35
  • 36. END Thank you for your attention 36