SlideShare una empresa de Scribd logo
Abriendo los datos de la administración J. J. Merelo http://sena2.info
¿Qué hace la administración?
¿En qué se gasta el dinero?
¿Por qué toma ciertas decisiones?
Por ejemplo: ¿Cuánto dinero se gasta en investigación?
Fácil: 140 megas de PDFs, no indexados.
¿Por qué?
Responsabilidad Transparencia Democratización
¿Cómo?
http://data.gov http://data.gov.uk http://opendata.euskadi.net
Scraping
Datos en HTML o PDF
Poca estructura (a mano)
Primera solución: expresiones regulares
Segunda solución: Análisis con librerías
WWW::Mechanize Web::Scraper
hPricot scrAPI
Acceso orientado a objetos a la página
Pero siempre nos quedará el DOM
¿Y después?
Datos etiquetados: SQL, XML RDF, JSON
Los datos sin  metainformación  sirven de poco
Servir como HTML, REST...
Desafío Abredatos
48 horas de programación
6 semanas de difusión
Software liberado 5000 € premios
Ganadores: misparadas.com e infocarretera.com
 
Ah, ¿pero el Senado hace algo? Scraping de parte de la información
Extracción de descriptores
Datos ficha personal
http://sena2.info/post

Más contenido relacionado

PDF
Recuperación de ficheros eliminados
PPT
PPTX
Charla II Congreso de Bibliotecas Universitarias y Especializadas
PDF
Analisis de metadatos y cookies
PPS
Segovia
PPT
Borghello Presentacion Segu-Info
DOCX
Taller de Tradición Clásica I - Discurso inaugural
PDF
#ANSTIA16 : Les nouvelles narrations : Transformer une demande de tournage cl...
Recuperación de ficheros eliminados
Charla II Congreso de Bibliotecas Universitarias y Especializadas
Analisis de metadatos y cookies
Segovia
Borghello Presentacion Segu-Info
Taller de Tradición Clásica I - Discurso inaugural
#ANSTIA16 : Les nouvelles narrations : Transformer une demande de tournage cl...

Destacado (20)

PDF
Etude dm2012 vdef_site
 
PPT
La doc au fil du temps
PPTX
Montage Sur Nous 2
PDF
11 AgustíN Cuenca
PPT
Escalada Eduardo Asensio y Oscar León
ODP
7º taller de Aprendices - Presentaciones
PPT
Vie en France
PPT
Port Royal Objetivos
ODP
Maeb03 ligafantastica-2
PDF
PPS
Mes SéRie PréFéRait
PPT
Nuevos Medios De ComunicacióNcarlos Rogelio
ODP
Software Libre en Educación
PDF
Tableau évolution des comptes chauffeurs
PPT
megan
PPS
Sommeil
PPT
Centro Del Saber 3
PPS
Cuerda
PPT
Recyclage
Etude dm2012 vdef_site
 
La doc au fil du temps
Montage Sur Nous 2
11 AgustíN Cuenca
Escalada Eduardo Asensio y Oscar León
7º taller de Aprendices - Presentaciones
Vie en France
Port Royal Objetivos
Maeb03 ligafantastica-2
Mes SéRie PréFéRait
Nuevos Medios De ComunicacióNcarlos Rogelio
Software Libre en Educación
Tableau évolution des comptes chauffeurs
megan
Sommeil
Centro Del Saber 3
Cuerda
Recyclage
Publicidad

Similar a Abriendo datos (20)

PPTX
Introducción a la Web Semántica
PPT
Nova Spivack Semantic Web Talk, Entendiendo la web semántica
PPTX
Jornadas data science Centic Info 2017
PPTX
Herramientas de Microsoft para el Científicos de Datos
KEY
EasyData: OpenData and easy access
PPTX
Tecnologías
DOCX
Web mining
PPT
PDF
2016 ULL Cabildo KEEDIO - BigData
PPT
Semana 1 - Informàtica
PPT
Uso correcto de internet.
PPT
Cursocpr09 I
PPT
Telematica Eicea
PPT
Futuro De La Web...Web 3.0
PDF
Government on Rails
PPTX
Desmitificando el Big Data
PPT
Periodismo de datos: Básico y con recursos gratis
PPT
Web Semantica - Tana BarCamp
PPT
Linked Data In Use (Cursos de Verano UPM 2011)
Introducción a la Web Semántica
Nova Spivack Semantic Web Talk, Entendiendo la web semántica
Jornadas data science Centic Info 2017
Herramientas de Microsoft para el Científicos de Datos
EasyData: OpenData and easy access
Tecnologías
Web mining
2016 ULL Cabildo KEEDIO - BigData
Semana 1 - Informàtica
Uso correcto de internet.
Cursocpr09 I
Telematica Eicea
Futuro De La Web...Web 3.0
Government on Rails
Desmitificando el Big Data
Periodismo de datos: Básico y con recursos gratis
Web Semantica - Tana BarCamp
Linked Data In Use (Cursos de Verano UPM 2011)
Publicidad

Más de Juan J. Merelo (20)

PDF
Acta de defunción de juan monserrat vergés
ODP
Ciencia y videojuegos v4
ODP
Como triunfar con tu proyecto en un hackatón
ODP
Benchmarking languages for evolutionary computation
PDF
Benchmarking languages for evolutionary algorithms
ODP
8º hackatón de proyectos libres de la UGR: Ayuda para los participantes
ODP
Creación de panorámicas con Hugin
ODP
Introducción a HDR y Tonemapping con Luminance
ODP
Introducción al 7º hackathon UGR
ODP
Nuevas tecnologías, Modas y docencia en el siglo XXI
ODP
Open Access and Copyleft
ODP
Luminance 2014 presentaciión sobre luminance
ODP
Enforcing Corporate Security Policies via Computational Intelligence Techniques
ODP
Evostar 2014 Introduction to the conference
ODP
Presentación Open Data Day en Granada, 2014
ODP
Introducción al uso de git, el sistema de control de fuentes más molón.
ODP
Redes sociales-en-un-rato-piiisa
ODP
¿Necesitas a la oficina de software libre de la Universidad de Granada?
ODP
Presentación 8º CUSL/6º CUSL granadino
ODP
El software libre contado a los universitarios
Acta de defunción de juan monserrat vergés
Ciencia y videojuegos v4
Como triunfar con tu proyecto en un hackatón
Benchmarking languages for evolutionary computation
Benchmarking languages for evolutionary algorithms
8º hackatón de proyectos libres de la UGR: Ayuda para los participantes
Creación de panorámicas con Hugin
Introducción a HDR y Tonemapping con Luminance
Introducción al 7º hackathon UGR
Nuevas tecnologías, Modas y docencia en el siglo XXI
Open Access and Copyleft
Luminance 2014 presentaciión sobre luminance
Enforcing Corporate Security Policies via Computational Intelligence Techniques
Evostar 2014 Introduction to the conference
Presentación Open Data Day en Granada, 2014
Introducción al uso de git, el sistema de control de fuentes más molón.
Redes sociales-en-un-rato-piiisa
¿Necesitas a la oficina de software libre de la Universidad de Granada?
Presentación 8º CUSL/6º CUSL granadino
El software libre contado a los universitarios

Último (20)

PPTX
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
PPTX
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
PDF
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
DOCX
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
PPTX
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
PPTX
unidad 3 tecnología 8° básico: planificación y elaboración de un objeto
PDF
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
PDF
informe_fichas1y2_corregido.docx (2) (1).pdf
PPTX
la-historia-de-la-medicina Edna Silva.pptx
PDF
Distribucion de frecuencia exel (1).pdf
PPTX
Propuesta BKP servidores con Acronis1.pptx
PPTX
Power Point Nicolás Carrasco (disertación Roblox).pptx
PDF
capacitación de aire acondicionado Bgh r 410
PDF
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
PDF
MANUAL de recursos humanos para ODOO.pdf
PPTX
ccna: redes de nat ipv4 stharlling cande
PDF
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
PDF
Documental Beyond the Code (Dossier Presentación - 2.0)
DOCX
Guía 5. Test de orientación Vocacional 2.docx
PPTX
Historia Inteligencia Artificial Ana Romero.pptx
Acronis Cyber Protect Cloud para Ciber Proteccion y Ciber Seguridad LATAM - A...
sa-cs-82-powerpoint-hardware-y-software_ver_4.pptx
MANUAL TECNOLOGÍA SER MINISTERIO EDUCACIÓN
TRABAJO GRUPAL (5) (1).docxsjsjskskksksksks
CLAASIFICACIÓN DE LOS ROBOTS POR UTILIDAD
unidad 3 tecnología 8° básico: planificación y elaboración de un objeto
Tips de Seguridad para evitar clonar sus claves del portal bancario.pdf
informe_fichas1y2_corregido.docx (2) (1).pdf
la-historia-de-la-medicina Edna Silva.pptx
Distribucion de frecuencia exel (1).pdf
Propuesta BKP servidores con Acronis1.pptx
Power Point Nicolás Carrasco (disertación Roblox).pptx
capacitación de aire acondicionado Bgh r 410
ADMINISTRACIÓN DE ARCHIVOS - TICS (SENA).pdf
MANUAL de recursos humanos para ODOO.pdf
ccna: redes de nat ipv4 stharlling cande
CONTABILIDAD Y TRIBUTACION, EJERCICIO PRACTICO
Documental Beyond the Code (Dossier Presentación - 2.0)
Guía 5. Test de orientación Vocacional 2.docx
Historia Inteligencia Artificial Ana Romero.pptx

Abriendo datos

Notas del editor

  • #6: Es imposible averiguarlo con certeza. Cualquier dato es bueno.
  • #7: Es imposible averiguarlo con certeza. Cualquier dato es bueno.
  • #8: No sé si hace falta dar más razones, pero dado todo lo anterior, ¿por qué se deben liberar los datos de la administración?
  • #9: Es imposible averiguarlo con certeza. Cualquier dato es bueno.
  • #10: ¿Qué tenemos que hacer?
  • #12: Es imposible averiguarlo con certeza. Cualquier dato es bueno.
  • #13: Es imposible averiguarlo con certeza. Cualquier dato es bueno.
  • #14: Es imposible averiguarlo con certeza. Cualquier dato es bueno.
  • #15: Muchas veces es la única solución, sobre todo cuando no hay estructura HTML clara. En los PDFs (si no son escaneados) no hay otro remedio
  • #16: Muchas veces es la única solución, sobre todo cuando no hay estructura HTML clara. En los PDFs (si no son escaneados) no hay otro remedio
  • #17: Es imposible averiguarlo con certeza. Cualquier dato es bueno.
  • #18: Muchas veces es la única solución, sobre todo cuando no hay estructura HTML clara. En los PDFs (si no son escaneados) no hay otro remedio
  • #19: Muchas veces es la única solución, sobre todo cuando no hay estructura HTML clara. En los PDFs (si no son escaneados) no hay otro remedio
  • #20: Muchas veces es la única solución, sobre todo cuando no hay estructura HTML clara. En los PDFs (si no son escaneados) no hay otro remedio
  • #21: Muchas veces es la única solución, sobre todo cuando no hay estructura HTML clara. En los PDFs (si no son escaneados) no hay otro remedio
  • #22: Muchas veces es la única solución, sobre todo cuando no hay estructura HTML clara. En los PDFs (si no son escaneados) no hay otro remedio
  • #23: Muchas veces es la única solución, sobre todo cuando no hay estructura HTML clara. En los PDFs (si no son escaneados) no hay otro remedio
  • #24: Se trata de hacer los datos lo más usables posible
  • #26: Se trata de hacer los datos lo más usables posible
  • #27: Se trata de hacer los datos lo más usables posible
  • #28: Se trata de hacer los datos lo más usables posible
  • #29: Se trata de hacer los datos lo más usables posible
  • #30: Logotipo de Campanilla, aquí presente
  • #33: Se trata de hacer los datos lo más usables posible
  • #34: Se trata de hacer los datos lo más usables posible