SlideShare a Scribd company logo
IEB2011 | eu.umap.eu




        eu.umap.eu
              


                     Josu Azpillaga 
 
                              1


              
IEB2011 | eu.umap.eu




                      eu.umap.eu
    ●   Ideia. Zer da umap.eu
    ●   Tresna. Nola dabil.
    ●   Emaitzak. Estatistika batzuk.
    ●   Aurrera begira. 




                                 
IEB2011 | eu.umap.eu




    Zer da umap.eu?




            
IEB2011 | eu.umap.eu




    Zer da umap.eu?




            
IEB2011 | eu.umap.eu




     
IEB2011 | eu.umap.eu




    eu.umap.eu tresna... proba bat




                   
IEB2011 | eu.umap.eu




                 eu.umap.eu. tresna
    ●   Tuitak jasotzea, denbora errealean
    ●   Erabiltzaile euskaldun berriak harrapatzen
    ●   Hizkuntza detekzioa
    ●   Albisteak, gako­hitzak




                                  
IEB2011 | eu.umap.eu




    Tuitak jasotzea, denbora errealean 
    ●   Twitter. Streaming API
            –   http://dev.twitter.com/pages/streaming_api

    ●   Aukerak:
            –   Location
            –   Track (keywords)
            –   Language and Country ­> users
            –   Limit: eskaera berezia (50000)

 
    ●   X (10) minutuz behin, eskaera berritu
                               
IEB2011 | eu.umap.eu




    class Client:  
        def __init__(self):  
            self.buffer = u''
            self.conn = pycurl.Curl()  
            self.conn.setopt(pycurl.USERPWD, "%s:%s" % (USER, PASS))  
            self.conn.setopt(pycurl.URL, STREAM_URL)  
            self.conn.setopt(pycurl.POSTFIELDS, urllib.urlencode(get_post_values()))
            self.conn.setopt(pycurl.WRITEFUNCTION, self.on_receive)  
            try:
                    self.conn.perform()
            except pycurl.error, e:
                    print "Error code: ", e[0]
                    print "Error message: ", e[1]

        def on_error(self, data):
            import pdb;pdb.set_trace()
            print data
      
        def on_receive(self, data):
            print data
            self.buffer += data  
            if data.endswith("rn") and self.buffer.strip():  
                content = json.loads(self.buffer)
                a = create_status_from_dic(content)
                                                      
                self.buffer = ""
IEB2011 | eu.umap.eu




         Erabiltzaile euskaldun berriak 
                  harrapatzen
●    Ehhhh.... algoritmo... 




●    Hasteko erabiltzaile multzo batekin, nahikoa
●    Garbiketa ere egiten da
●    Norbanakoak bai; robotak?
 ●
     Eu... ondo; ca... ejem.    
IEB2011 | eu.umap.eu




                   Hizkuntza detekzioa
●   Aukera diferenteak
●   Errazena? Google API !!!
●   Onena? Google API!!!
        –   http://code.google.com/apis/language/

●   Lizentziak ez du baimentzen. Orduan?




                                           
IEB2011 | eu.umap.eu




                      Hizkuntza detekzioa
                               LangID     Textcat      LID    GuessLanguage
●
    Test 1. eu OK              % 75       % 74         % 85   % 93
    Test 2. eu OK              % 76       % 88         % 96   % 95


      GuessLanguage erabiltzen dugu
●     LangID http://langid.net/ 
●     Text cat http://odur.let.rug.nl/~vannoord/TextCat/
●     LID http://web.me.com/dcavar/LID/
●     Guess Language https://code.google.com/p/guess­language/



                                             
IEB2011 | eu.umap.eu




               Albisteak, gako­hitzak
●   Gako­hitzak
        –   Hitz guztiak zenbatu eta batu
        –   Logika
                ●   Hitz normala: 1 point
                ●   Hash­a: 10 point
                ●   Tuit horrek link bat du: x1.1
                ●   Tuit hori retuit bat da: x1.1
                ●   ...
                ●   Aldatu liteke!      
IEB2011 | eu.umap.eu




                Albisteak, gako­hitzak
●   Albisteak
        –   Link guztiak batu (ojo laburtzaileekin!)
        –   x minutuz behin, aipatuenak kalkulatu
        –   Aipatuen hoiek bisitatu eta informazio 
              relebantea ekarri
                ●   OEmbed!!!!!!!!!!
                ●   HTML parserra ;­)

                                        
IEB2011 | eu.umap.eu




                  oEmbed vs HTML parser
http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN­
6gdRE&format=json

         {"provider_url": "http://www.youtube.com/",
         "title": "BRIARD ON SCOOTER - scooting dog",


                                            vs
    <h1 id="watch-headline-title">

      <span id="eow-title" class="" dir="ltr" title="BRIARD ON SCOOTER - scooting dog">
        BRIARD ON SCOOTER - scooting dog
      </span>
        </h1>
        <div id="watch-headline-user-info">
            <a id="watch-username" class="inline-block" rel="author" href="/user/courteous1
    "><strong>courteous1</strong></a>
                                                 
IEB2011 | eu.umap.eu




                eu.umap.eu tresna. kodea
    ●   Kode guztia, horratx:
            –   http://www.codesyntax.com/products
                    ●   cstwitterstatus
                    ●   cstwitternews
                    ●   cslanguagedetection




                                           
IEB2011 | eu.umap.eu




                  Emaitzak: datu batzuk
    ●   2010eko urritik martxan (aurreko datuak...)
    ●   Datu orokorrak:
            –   Tuitak: 1.177.666 (aurrekoak beste 400.000)
            –   eu tuitak: 151.969 (%13)
            –   Erabiltzaileak: 2000tik gora jarraitzen. Eu 
                 aktiboak? 1200 inguru... gutxiago seguraski. 


                                    
IEB2011 | eu.umap.eu




    Emaitzak: datu batzuk




               
IEB2011 | eu.umap.eu




               Emaitzak: datu batzuk




    ●   eu tuiten bat egin duten erabiltzaileak, 6 
 
        hilabetean: +%60        
IEB2011 | eu.umap.eu




               Emaitzak: datu batzuk
    ●   2010/11tik hona tuit kopuruaren araberako 
        erabiltzaileak




                               
IEB2011 | eu.umap.eu




               Emaitzak: datu batzuk
    ●   2010/11tik hona euskarazko tuit kopuruaren 
        araberako erabiltzaileak




                               
IEB2011 | eu.umap.eu




                         Emaitzak: datu batzuk
    ●   2011 / 04. Retuitak.
    ●   Tuitak (eu):  26.982
    ●   Retuitak (eu): 4.109 (%15)
    ●   Erabiltzaile retuiteatuenak (eraginkorrenak!): 
        berria (225), kalaportu (126), argia (108), Sustatu (82), boligorria (75), euskalherrian (71), bildueh (57), 
        zaldieroa (55), garanet (53), theklaneh (49), larbelaitz (48), luistxo (46), iturri (44), euskaljakintza (42), 
        17Korrika (41), info7irratia (40), zuzeu (40), dabidmp (36), robergutierrez (35), beaetaeneko (34), imnl (30), 
        gaztea (30), tropela (30), teketen (29), Karrikiri (28), birasuegi (26), euskadi_irratia (25), ameslaria (25), 
        EITBKultura (24), eitbcom (24), donostiakultura (24), ainhoaeus (24), baieuskarari (24), eguraldia (23), 
        koldocas (23), goiena (22), zerdionk (22), hedoi_etxarte (21), jonabril (21), iPtx (21), jazpillaga (21), 
        ueu_orokorra (20), exprai (20), GAZTEA (20), joxearanzabal (19), demonocrazy (19), IBIL2D (19), macmikel 
        (18), kazetainfo (18), xletona (17), 

                                                              
IEB2011 | eu.umap.eu




                         Emaitzak: datu batzuk
    ●   2011 / 04. Loturak.
    ●   Tuitak (eu):  26.982
    ●   Loturadunak (eu): 14.802 (%55!!!)
    ●   Hedabide(!) aipatuenak: 
        eitb.com (1238), youtube.com (504), argia.com (395), berria.info (372), sustatu.com (314), goiena.net (310), 
        zuzeu.com (245), gara.net (235), twitpic.com (230), feedburner.com (226), euskadi.net (200), twitter.com 
        (197), ukberri.net (191), topatu.info (165), google.com (156), askatu.org (143), kulturweb.com (132), 
        etengabe.blogsome.com (117), bizkaie.biz (116), kazeta.info (103), bildu.info (100), uberan.org (87), 
        otamotz.com (87), aiaraldea.com (86)




                                                             
IEB2011 | eu.umap.eu




                         Emaitzak: datu batzuk
    ●   2011 / 04. Albisteak.
    ●   Albisteak  albistegi automatikoan:  508
    ●   Nondik? 
        eitb.com (49), argia.com (37), youtube.com (28), berria.info (26), gara.net (19), zuzeu.com (14), twitpic.com 
        (12), sustatu.com (13), topatu.info (10), orekakomunikazioa.deusto.es (8), bildu.info (8), askatu.org (7), 
        ezkerabertzalea.info (7), otamotz.com (6), bit.ly (6), ueu.org (6), hitzondo.net (6), diariovasco.com (5), 
        askapena.org (5), ikasleabertzaleak.org (5), baisarean.org (5), feeds.feedburner.com (4), 
        feedproxy.google.com (4), berriketan.info (4), imh.es (4), juankarh.blogspot.com (4), etxerat.info (4), 
        elpais.com (3), euskaljakintza.com (3), albisteak.euskalherrian.info (3), eibar.org (3), bizkaie.biz (3), 
        noticiasdegipuzkoa.com (3), flickr.com (3), imanolmurua.blogspot.com (2), deia.com (2), codesyntax.com (2), 
        mukom.mondragon.edu (2), 




                                                             
IEB2011 | eu.umap.eu




    Aurrera begira




           
IEB2011 | eu.umap.eu




    Eskerrik asko

       @jazpillaga




               

More Related Content

ODP
Ulibarri Gela Argazki
PPS
Oracion de Navidad
ODP
Ulibarri Gela Argazki2
PPS
Salto con Fe
PPS
Por la Paz
PPT
Virtual Bookplates: Emerging Opportunities for Gifts & Endowments
PPS
Grafitis Venezolanos
PPT
Money Management
Ulibarri Gela Argazki
Oracion de Navidad
Ulibarri Gela Argazki2
Salto con Fe
Por la Paz
Virtual Bookplates: Emerging Opportunities for Gifts & Endowments
Grafitis Venezolanos
Money Management
Ad

IEB2011, Umap

  • 1. IEB2011 | eu.umap.eu eu.umap.eu   Josu Azpillaga    1    
  • 2. IEB2011 | eu.umap.eu eu.umap.eu ● Ideia. Zer da umap.eu ● Tresna. Nola dabil. ● Emaitzak. Estatistika batzuk. ● Aurrera begira.     
  • 3. IEB2011 | eu.umap.eu Zer da umap.eu?    
  • 4. IEB2011 | eu.umap.eu Zer da umap.eu?    
  • 6. IEB2011 | eu.umap.eu eu.umap.eu tresna... proba bat    
  • 7. IEB2011 | eu.umap.eu eu.umap.eu. tresna ● Tuitak jasotzea, denbora errealean ● Erabiltzaile euskaldun berriak harrapatzen ● Hizkuntza detekzioa ● Albisteak, gako­hitzak    
  • 8. IEB2011 | eu.umap.eu Tuitak jasotzea, denbora errealean  ● Twitter. Streaming API – http://dev.twitter.com/pages/streaming_api ● Aukerak: – Location – Track (keywords) – Language and Country ­> users – Limit: eskaera berezia (50000)   ● X (10) minutuz behin, eskaera berritu  
  • 9. IEB2011 | eu.umap.eu class Client:       def __init__(self):           self.buffer = u''         self.conn = pycurl.Curl()           self.conn.setopt(pycurl.USERPWD, "%s:%s" % (USER, PASS))           self.conn.setopt(pycurl.URL, STREAM_URL)           self.conn.setopt(pycurl.POSTFIELDS, urllib.urlencode(get_post_values()))         self.conn.setopt(pycurl.WRITEFUNCTION, self.on_receive)           try:          self.conn.perform()         except pycurl.error, e:         print "Error code: ", e[0]         print "Error message: ", e[1]     def on_error(self, data):         import pdb;pdb.set_trace()         print data        def on_receive(self, data):         print data         self.buffer += data           if data.endswith("rn") and self.buffer.strip():               content = json.loads(self.buffer)             a = create_status_from_dic(content)                 self.buffer = ""
  • 10. IEB2011 | eu.umap.eu Erabiltzaile euskaldun berriak  harrapatzen ● Ehhhh.... algoritmo...  ● Hasteko erabiltzaile multzo batekin, nahikoa ● Garbiketa ere egiten da ● Norbanakoak bai; robotak?  ● Eu... ondo; ca... ejem.  
  • 11. IEB2011 | eu.umap.eu Hizkuntza detekzioa ● Aukera diferenteak ● Errazena? Google API !!! ● Onena? Google API!!! – http://code.google.com/apis/language/ ● Lizentziak ez du baimentzen. Orduan?    
  • 12. IEB2011 | eu.umap.eu Hizkuntza detekzioa LangID Textcat LID GuessLanguage ● Test 1. eu OK % 75 % 74 % 85 % 93 Test 2. eu OK % 76 % 88 % 96 % 95 GuessLanguage erabiltzen dugu ● LangID http://langid.net/  ● Text cat http://odur.let.rug.nl/~vannoord/TextCat/ ● LID http://web.me.com/dcavar/LID/ ● Guess Language https://code.google.com/p/guess­language/    
  • 13. IEB2011 | eu.umap.eu Albisteak, gako­hitzak ● Gako­hitzak – Hitz guztiak zenbatu eta batu – Logika ● Hitz normala: 1 point ● Hash­a: 10 point ● Tuit horrek link bat du: x1.1 ● Tuit hori retuit bat da: x1.1 ● ...   ● Aldatu liteke!  
  • 14. IEB2011 | eu.umap.eu Albisteak, gako­hitzak ● Albisteak – Link guztiak batu (ojo laburtzaileekin!) – x minutuz behin, aipatuenak kalkulatu – Aipatuen hoiek bisitatu eta informazio  relebantea ekarri ● OEmbed!!!!!!!!!! ● HTML parserra ;­)    
  • 15. IEB2011 | eu.umap.eu oEmbed vs HTML parser http://www.youtube.com/oembed?url=http%3A//www.youtube.com/watch%3Fv%3DbDOYN­ 6gdRE&format=json {"provider_url": "http://www.youtube.com/", "title": "BRIARD ON SCOOTER - scooting dog", vs <h1 id="watch-headline-title"> <span id="eow-title" class="" dir="ltr" title="BRIARD ON SCOOTER - scooting dog"> BRIARD ON SCOOTER - scooting dog </span> </h1> <div id="watch-headline-user-info"> <a id="watch-username" class="inline-block" rel="author" href="/user/courteous1 "><strong>courteous1</strong></a>    
  • 16. IEB2011 | eu.umap.eu eu.umap.eu tresna. kodea ● Kode guztia, horratx: – http://www.codesyntax.com/products ● cstwitterstatus ● cstwitternews ● cslanguagedetection    
  • 17. IEB2011 | eu.umap.eu Emaitzak: datu batzuk ● 2010eko urritik martxan (aurreko datuak...) ● Datu orokorrak: – Tuitak: 1.177.666 (aurrekoak beste 400.000) – eu tuitak: 151.969 (%13) – Erabiltzaileak: 2000tik gora jarraitzen. Eu  aktiboak? 1200 inguru... gutxiago seguraski.     
  • 18. IEB2011 | eu.umap.eu Emaitzak: datu batzuk    
  • 19. IEB2011 | eu.umap.eu Emaitzak: datu batzuk ● eu tuiten bat egin duten erabiltzaileak, 6    hilabetean: +%60  
  • 20. IEB2011 | eu.umap.eu Emaitzak: datu batzuk ● 2010/11tik hona tuit kopuruaren araberako  erabiltzaileak    
  • 21. IEB2011 | eu.umap.eu Emaitzak: datu batzuk ● 2010/11tik hona euskarazko tuit kopuruaren  araberako erabiltzaileak    
  • 22. IEB2011 | eu.umap.eu Emaitzak: datu batzuk ● 2011 / 04. Retuitak. ● Tuitak (eu):  26.982 ● Retuitak (eu): 4.109 (%15) ● Erabiltzaile retuiteatuenak (eraginkorrenak!):  berria (225), kalaportu (126), argia (108), Sustatu (82), boligorria (75), euskalherrian (71), bildueh (57),  zaldieroa (55), garanet (53), theklaneh (49), larbelaitz (48), luistxo (46), iturri (44), euskaljakintza (42),  17Korrika (41), info7irratia (40), zuzeu (40), dabidmp (36), robergutierrez (35), beaetaeneko (34), imnl (30),  gaztea (30), tropela (30), teketen (29), Karrikiri (28), birasuegi (26), euskadi_irratia (25), ameslaria (25),  EITBKultura (24), eitbcom (24), donostiakultura (24), ainhoaeus (24), baieuskarari (24), eguraldia (23),  koldocas (23), goiena (22), zerdionk (22), hedoi_etxarte (21), jonabril (21), iPtx (21), jazpillaga (21),  ueu_orokorra (20), exprai (20), GAZTEA (20), joxearanzabal (19), demonocrazy (19), IBIL2D (19), macmikel  (18), kazetainfo (18), xletona (17),     
  • 23. IEB2011 | eu.umap.eu Emaitzak: datu batzuk ● 2011 / 04. Loturak. ● Tuitak (eu):  26.982 ● Loturadunak (eu): 14.802 (%55!!!) ● Hedabide(!) aipatuenak:  eitb.com (1238), youtube.com (504), argia.com (395), berria.info (372), sustatu.com (314), goiena.net (310),  zuzeu.com (245), gara.net (235), twitpic.com (230), feedburner.com (226), euskadi.net (200), twitter.com  (197), ukberri.net (191), topatu.info (165), google.com (156), askatu.org (143), kulturweb.com (132),  etengabe.blogsome.com (117), bizkaie.biz (116), kazeta.info (103), bildu.info (100), uberan.org (87),  otamotz.com (87), aiaraldea.com (86)    
  • 24. IEB2011 | eu.umap.eu Emaitzak: datu batzuk ● 2011 / 04. Albisteak. ● Albisteak  albistegi automatikoan:  508 ● Nondik?  eitb.com (49), argia.com (37), youtube.com (28), berria.info (26), gara.net (19), zuzeu.com (14), twitpic.com  (12), sustatu.com (13), topatu.info (10), orekakomunikazioa.deusto.es (8), bildu.info (8), askatu.org (7),  ezkerabertzalea.info (7), otamotz.com (6), bit.ly (6), ueu.org (6), hitzondo.net (6), diariovasco.com (5),  askapena.org (5), ikasleabertzaleak.org (5), baisarean.org (5), feeds.feedburner.com (4),  feedproxy.google.com (4), berriketan.info (4), imh.es (4), juankarh.blogspot.com (4), etxerat.info (4),  elpais.com (3), euskaljakintza.com (3), albisteak.euskalherrian.info (3), eibar.org (3), bizkaie.biz (3),  noticiasdegipuzkoa.com (3), flickr.com (3), imanolmurua.blogspot.com (2), deia.com (2), codesyntax.com (2),  mukom.mondragon.edu (2),     
  • 25. IEB2011 | eu.umap.eu Aurrera begira    
  • 26. IEB2011 | eu.umap.eu Eskerrik asko @jazpillaga