1
Data Webhouse CEB-INEP
Projeto de Iniciação Cientifica-UFMS/CPCX
Fernando Maia da Mota (Orientando)
Profa. MSc. Leila Lisiane Rossi (Orientadora)
Prof. Dr. Marcelo Augusto Santos Turine
(Coordenador Projeto Web-Pide)
Apresentação
• Fernando Maia da
Mota(fernandomaia.eti.br)
• Graduando em Sistemas de Informação
pela UFMS - Campus Coxim
• Atua no Laboratório de Suporte e
Desenvolvimento (LSD)
• Aluno de Iniciação Científica
• Analista de BI
2
Agenda
3
• Motivação
• Avaliações INEP
• Fontes de Informação
• Objetivo
• Data Webhouse CEB-INEP
• Dificuldades e Limitações
• Considerações Finais
• Referências
• Perguntas
MOTIVAÇÃO
Como tornar os dados dos Sistemas de
Avaliação do Brasil (INEP/MEC) ”mais
acessíveis e transparentes” aos gestores
educacionais, educadores/pesquisadores
e comunidade em geral a fim de melhorar
a qualidade da Educação Brasileira
4
Caderno: Qualidade da Educação - O
Estado de São Paulo (29 de Abril de
2007)
• Segundo pesquisa do Ibope em Julho/2006 (4.002
entrevistados) 29% não conhecem os exames de
avaliação do INEP/MEC
– “Os dados dos sistemas de avaliação são um instrumento
poderoso. Mas há professores que não sabem como ler e
ter acesso”.
– “Não sei como ‘fuçar’ os dados de maneira a incrementar
meu trabalho ou conhecer minha realidade”
– “Como comparar minha escola com outras bem
posicionadas para melhoria da educação. Não é nosso
costume e não tem ninguém na minha escola que nos
ajude”
– “Oportunidades para aprender com os dados”
5
Avaliações INEP
• Censo Escolar(CEB): levantamento de informações estatístico-
educacionais realizado anualmente;
• Censo Superior: coleta anualmente uma série de dados do
ensino superior no País tanto na modalidade presencial como a
distância;
• Avaliação dos Cursos de Graduação: é utilizado pelo MEC para
o reconhecimento ou renovação de reconhecimento dos
cursos de graduação;
• Avaliação Institucional: análise das informações prestados
pelas Instituições de Ensino Superior (IES) no Formulário
Eletrônico e a verificação, in loco, da realidade institucional,
dos seus cursos de graduação e de pós-graduação, da
pesquisa e da extensão;
6
Avaliações INEP
• Sistema Nacional de Avaliação da Educação Superior(SINAES):
Formado por três componentes principais: avaliação das
instituições, dos cursos e do desempenho dos estudantes.
• Exame Nacional do Ensino Médio (ENEM): exame de saída
facultativo aos que já concluíram e aos concluintes do ensino
médio;
• Exame Nacional Para Certificação de Competências
(ENCCEJA): Avaliação nacional para jovens e adultos que não
puderam concluir os estudos na idade própria;
• Sistema Nacional de Avaliação da Educação Básica (SAEB):
pesquisa por amostragem, do ensino fundamental e médio,
realizada a cada dois anos.
7
Fontes de Informação
• Relatórios em formato PDF (website do INEP ou de
pesquisas) [INEP,2010]
– Difícil cruzamento de dados
• Consultas personalizadas em várias ferramentas
diferentes
– Apenas dados do Censo Escolar e Censo da Educação
Superior
• Microdados em formato ASCII (disponível em CD-
Rom e download)
– Necessita de sistema de leitura e conhecimento técnico:
SAS ou SPSS, por exemplo
8
Esse quadro dificulta
substancialmente a
reutilização de tais
informações para a tomada de
decisão na gestão pública
Objetivo
Definir e Implementar uma plataforma aberta e
baseada em Software Livre na Internet intitulada
Web-PIDE (http://webpide.ledes.net) para
integrar, organizar e disponibilizar os dados
educacionais do INEP por meio de uma
linguagem simples e padronizada (alta
acessibilidade e usabilidade)
9
10
• Meta: INTEGRAR diversas ferramentas implantadas
no INEP por uma solução integrada e centralizada
... +
Projetos de Pesquisa
• O projeto Webpide é composto por vários
projetos sendo um deles a avaliação e os
testes com as ferramentas a serem usadas
para criação dos Data Webhouses que irão
compor a plataforma Web-PIDE.
Técnicas e Ferramentas para o Projeto de Data
Warehouse: Estudo de Caso para a Base de
Dados Educacional do Projeto Webpide
11
Técnicas e Ferramentas para o
Projeto de Data Warehouse
• 2007/2008- Estudo e Avaliação das
Ferramentas
– Pentaho é escolhida por ser a melhor solução
open-source entre todas as pesquisadas.
12
Técnicas e Ferramentas para o
Projeto de Data Warehouse
• 2008 / 2009 – Desenvolvimento Data
Webhouse SAEB
– Criação do primeiro DW do projeto para a
base do SAEB
• 2009/2010 - Desenvolvimento Data Webhouse
CEB-INEP
– BI-Server.
• Controle de Acesso
• Evolução Visual
• Usuário pode criar visões próprias e salva-
las no portal.
13
Estrutura base CEB
14
ETL- Etapa 1
15
• Carregar os dados em tabelas de um banco
de dados.
– SGBD PostgreSQL
• INEP.sql- Contém a estrutura das tabelas
– Criação da ferramenta DEAR para leitura dos
arquivos:
• SAS- Contém o inicio e fim de cada campo
dado(Alguns Arquivos corrompidos)
• Microdados- Arquivos TXT em formato
ASCII com dados brutos
Ferramenta DEAR: Data Extractor
ASCII to Relational
16
DEAR
17
Aplicação que faz a leitura dos arquivos SAS [JAVA,2010]
Informações da Base
• Cluster com mais de 10GB de dados
• Grande variação de dados ao longo dos
anos de pesquisa
18
19
Definição do Modelo Multidimensional
• Definiu-se a tabela que contém os
dados do censo escolar, por estar
presente em todos os anos da
pesquisa, sendo assim variante no
tempo, conceito primordial de um DW
• Mapeamento detalhado dos campos
desta tabela, para a construção de um
modelo com alto nível de granularidade
20
Cubo Estrela
Cubo Estrela CEB-INEP [JUDE,2010]
ETL- Etapa 2
Carga das Dimensões e Fato
•Carga das dimensões feito através de script SQL
•Carga Fato
– Look-up das dimensões através de store procedures
• GetGeografia(região do Brasil, UF, Município,
Zona Escolar), retorna o id do registro que
satisfaz a estas condições na tabela dimensão
Geografia
– A fato foi carregada utilizando script sql insert/select
[PostgreSQL,2010]
21
BI-Server Pentaho [PENTAHO,2010]
22
PSW- Mapeamento do Cubo em
XML
23
Data Webhouse CEB-INEP
24
Número de Instituições por
Região e Ano
25
Número de Professores em Sala de
Aula por Região e Ano
26
Número de Matriculas na Pré-escola
na cidade de Alvaraes-AM (MDX)
27
Número de Matriculas na Pré-escola
por Geografia(Ano de 1996)
28
Dificuldades e Limitações
• Compreender e analisar os dados e a
consistência dos mesmos: estruturas e
formatos (.sas, .pdf, .txt);
• Capacidade HD/Ferramenta Banco Dados
29
Considerações Finais
30
• Importância da Integração das Bases de Dados do
INEP (CEB-INEP);
• Disponibilização dos Dados Educacionais INEP na
Web permitindo consultas analiticas online (OLAP);
• Facilidade do INEP na tomada de decisão para a
adoção de Políticas Educacionais;
• Uso de tecnologias de código aberto para o
desenvolvimento de softwares do governo federal;
• Participação de pesquisadores de Universidades
públicas no projeto (UFMS / UFScar);
Referências
• INEP - Instituto Nacional de Estudos e Pesquisas Educacionais
Anísio Teixeira. - http://www.inep.gov.br
• TURINE M.A.S.et al. - Projeto de Pesquisa EDITAL no.
001/2006/INEP/CAPES Web-PIDE: Uma Plataforma aberta de
Integração e avaliação de Dados Educacionais, 2006
• PENTAHO, Pentaho Open Source Business Intelligence -
http://www.pentaho.com, 2010
• JUDE, Jude Design & Communications - //http://jude.change-
vision.com, 2010
• PostgreSQL - http://www.postgresql.org, 2010
• JAVA, Sun Microsystems - http://www.sun.com, 2010
• Caio Moreno de Souza - http://blog.professorcoruja.com
31
CONTATOS
Fernando Maia
mota.fernandomaia@gmail.com
www.fernandomaia.eti.br
Leila Lisiane Rossi
leilalrossi@gmail.com
Marcelo Augusto dos Santos Turine
mturine@gmail.com
32

Mais conteúdo relacionado

PPT
Versioning your Pentaho Project with Subversion
PPT
PDF
Mota Werner TCC
PDF
Extrator Lattes CNPq (Versão SBSI)
ODP
A construção de pontos de acessos a conjuntos de dados governamentais baseado...
ODP
The build of access points to Government's Datasets based on a Multidimension...
PPTX
Extrator Lattes CNPq
PPTX
CASTRO, MARIA HELENA GUIMARÃES DE. SISTEMAS NACIONAIS DE AVALIAÇÃO E DE INFOR...
Versioning your Pentaho Project with Subversion
Mota Werner TCC
Extrator Lattes CNPq (Versão SBSI)
A construção de pontos de acessos a conjuntos de dados governamentais baseado...
The build of access points to Government's Datasets based on a Multidimension...
Extrator Lattes CNPq
CASTRO, MARIA HELENA GUIMARÃES DE. SISTEMAS NACIONAIS DE AVALIAÇÃO E DE INFOR...

Semelhante a Data Webhouse CEB/INEP (15)

ODP
DWSI- DataWebhouse para Análise do Perfil Acadêmico do Curso de Sistemas de I...
PDF
Educação transparente
PPTX
Educacenso, censo escolar e inep [com minha participação]
PDF
Ebook-DadosEducacionais.pdf
PDF
Oficina Pentaho
PPT
A Engenharia do Conhecimento e as novas possibilidades de descoberta e dissem...
PDF
Pentaho inteligência de negócios utilizando software livre campus party 2011
PDF
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
PDF
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
PDF
Poc1 apresentacao parcial_henriquechevreux
PDF
Data analysis open data
PDF
Uma Proposta de Aplicação de Business Inteligence para o Censo das IES
PDF
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
PDF
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
PDF
Poc2 apresentacao parcial_henriquechevreux
DWSI- DataWebhouse para Análise do Perfil Acadêmico do Curso de Sistemas de I...
Educação transparente
Educacenso, censo escolar e inep [com minha participação]
Ebook-DadosEducacionais.pdf
Oficina Pentaho
A Engenharia do Conhecimento e as novas possibilidades de descoberta e dissem...
Pentaho inteligência de negócios utilizando software livre campus party 2011
Pentaho: Inteligência de Negócios utilizando software livre @Campus Party 2011
Pentaho: Inteligência de Negócios utilizando Software Livre @ Telefonica Camp...
Poc1 apresentacao parcial_henriquechevreux
Data analysis open data
Uma Proposta de Aplicação de Business Inteligence para o Censo das IES
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Inteligência de Negócios (BI) utilizando Software Livre @ FISL 12 - Porto Alegre
Poc2 apresentacao parcial_henriquechevreux
Anúncio

Último (17)

PPTX
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
PDF
Jira Software projetos completos com scrum
PDF
Banco de Dados 2atualização de Banco de d
PPTX
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
PDF
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
PPTX
Analise Estatica de Compiladores para criar uma nova LP
PPT
Conceitos básicos de Redes Neurais Artificiais
PDF
SEMINÁRIO DE IHC - A interface Homem-Máquina
PDF
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
PDF
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
PPTX
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
PPT
Aula de Engenharia de Software principais caracteristicas
PDF
Processos no SAP Extended Warehouse Management, EWM100 Col26
PDF
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
PDF
Processamento da remessa no SAP ERP, SCM610 Col15
PPTX
ccursoammaiacursoammaiacursoammaia123456
PPTX
Tipos de servidor em redes de computador.pptx
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
Jira Software projetos completos com scrum
Banco de Dados 2atualização de Banco de d
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
eBook - GUIA DE CONSULTA RAPIDA EM ROTEADORES E SWITCHES CISCO - VOL I.pdf
Analise Estatica de Compiladores para criar uma nova LP
Conceitos básicos de Redes Neurais Artificiais
SEMINÁRIO DE IHC - A interface Homem-Máquina
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
Aula de Engenharia de Software principais caracteristicas
Processos no SAP Extended Warehouse Management, EWM100 Col26
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
Processamento da remessa no SAP ERP, SCM610 Col15
ccursoammaiacursoammaiacursoammaia123456
Tipos de servidor em redes de computador.pptx
Anúncio

Data Webhouse CEB/INEP

  • 1. 1 Data Webhouse CEB-INEP Projeto de Iniciação Cientifica-UFMS/CPCX Fernando Maia da Mota (Orientando) Profa. MSc. Leila Lisiane Rossi (Orientadora) Prof. Dr. Marcelo Augusto Santos Turine (Coordenador Projeto Web-Pide)
  • 2. Apresentação • Fernando Maia da Mota(fernandomaia.eti.br) • Graduando em Sistemas de Informação pela UFMS - Campus Coxim • Atua no Laboratório de Suporte e Desenvolvimento (LSD) • Aluno de Iniciação Científica • Analista de BI 2
  • 3. Agenda 3 • Motivação • Avaliações INEP • Fontes de Informação • Objetivo • Data Webhouse CEB-INEP • Dificuldades e Limitações • Considerações Finais • Referências • Perguntas
  • 4. MOTIVAÇÃO Como tornar os dados dos Sistemas de Avaliação do Brasil (INEP/MEC) ”mais acessíveis e transparentes” aos gestores educacionais, educadores/pesquisadores e comunidade em geral a fim de melhorar a qualidade da Educação Brasileira 4
  • 5. Caderno: Qualidade da Educação - O Estado de São Paulo (29 de Abril de 2007) • Segundo pesquisa do Ibope em Julho/2006 (4.002 entrevistados) 29% não conhecem os exames de avaliação do INEP/MEC – “Os dados dos sistemas de avaliação são um instrumento poderoso. Mas há professores que não sabem como ler e ter acesso”. – “Não sei como ‘fuçar’ os dados de maneira a incrementar meu trabalho ou conhecer minha realidade” – “Como comparar minha escola com outras bem posicionadas para melhoria da educação. Não é nosso costume e não tem ninguém na minha escola que nos ajude” – “Oportunidades para aprender com os dados” 5
  • 6. Avaliações INEP • Censo Escolar(CEB): levantamento de informações estatístico- educacionais realizado anualmente; • Censo Superior: coleta anualmente uma série de dados do ensino superior no País tanto na modalidade presencial como a distância; • Avaliação dos Cursos de Graduação: é utilizado pelo MEC para o reconhecimento ou renovação de reconhecimento dos cursos de graduação; • Avaliação Institucional: análise das informações prestados pelas Instituições de Ensino Superior (IES) no Formulário Eletrônico e a verificação, in loco, da realidade institucional, dos seus cursos de graduação e de pós-graduação, da pesquisa e da extensão; 6
  • 7. Avaliações INEP • Sistema Nacional de Avaliação da Educação Superior(SINAES): Formado por três componentes principais: avaliação das instituições, dos cursos e do desempenho dos estudantes. • Exame Nacional do Ensino Médio (ENEM): exame de saída facultativo aos que já concluíram e aos concluintes do ensino médio; • Exame Nacional Para Certificação de Competências (ENCCEJA): Avaliação nacional para jovens e adultos que não puderam concluir os estudos na idade própria; • Sistema Nacional de Avaliação da Educação Básica (SAEB): pesquisa por amostragem, do ensino fundamental e médio, realizada a cada dois anos. 7
  • 8. Fontes de Informação • Relatórios em formato PDF (website do INEP ou de pesquisas) [INEP,2010] – Difícil cruzamento de dados • Consultas personalizadas em várias ferramentas diferentes – Apenas dados do Censo Escolar e Censo da Educação Superior • Microdados em formato ASCII (disponível em CD- Rom e download) – Necessita de sistema de leitura e conhecimento técnico: SAS ou SPSS, por exemplo 8 Esse quadro dificulta substancialmente a reutilização de tais informações para a tomada de decisão na gestão pública
  • 9. Objetivo Definir e Implementar uma plataforma aberta e baseada em Software Livre na Internet intitulada Web-PIDE (http://webpide.ledes.net) para integrar, organizar e disponibilizar os dados educacionais do INEP por meio de uma linguagem simples e padronizada (alta acessibilidade e usabilidade) 9
  • 10. 10 • Meta: INTEGRAR diversas ferramentas implantadas no INEP por uma solução integrada e centralizada ... +
  • 11. Projetos de Pesquisa • O projeto Webpide é composto por vários projetos sendo um deles a avaliação e os testes com as ferramentas a serem usadas para criação dos Data Webhouses que irão compor a plataforma Web-PIDE. Técnicas e Ferramentas para o Projeto de Data Warehouse: Estudo de Caso para a Base de Dados Educacional do Projeto Webpide 11
  • 12. Técnicas e Ferramentas para o Projeto de Data Warehouse • 2007/2008- Estudo e Avaliação das Ferramentas – Pentaho é escolhida por ser a melhor solução open-source entre todas as pesquisadas. 12
  • 13. Técnicas e Ferramentas para o Projeto de Data Warehouse • 2008 / 2009 – Desenvolvimento Data Webhouse SAEB – Criação do primeiro DW do projeto para a base do SAEB • 2009/2010 - Desenvolvimento Data Webhouse CEB-INEP – BI-Server. • Controle de Acesso • Evolução Visual • Usuário pode criar visões próprias e salva- las no portal. 13
  • 15. ETL- Etapa 1 15 • Carregar os dados em tabelas de um banco de dados. – SGBD PostgreSQL • INEP.sql- Contém a estrutura das tabelas – Criação da ferramenta DEAR para leitura dos arquivos: • SAS- Contém o inicio e fim de cada campo dado(Alguns Arquivos corrompidos) • Microdados- Arquivos TXT em formato ASCII com dados brutos
  • 16. Ferramenta DEAR: Data Extractor ASCII to Relational 16
  • 17. DEAR 17 Aplicação que faz a leitura dos arquivos SAS [JAVA,2010]
  • 18. Informações da Base • Cluster com mais de 10GB de dados • Grande variação de dados ao longo dos anos de pesquisa 18
  • 19. 19 Definição do Modelo Multidimensional • Definiu-se a tabela que contém os dados do censo escolar, por estar presente em todos os anos da pesquisa, sendo assim variante no tempo, conceito primordial de um DW • Mapeamento detalhado dos campos desta tabela, para a construção de um modelo com alto nível de granularidade
  • 20. 20 Cubo Estrela Cubo Estrela CEB-INEP [JUDE,2010]
  • 21. ETL- Etapa 2 Carga das Dimensões e Fato •Carga das dimensões feito através de script SQL •Carga Fato – Look-up das dimensões através de store procedures • GetGeografia(região do Brasil, UF, Município, Zona Escolar), retorna o id do registro que satisfaz a estas condições na tabela dimensão Geografia – A fato foi carregada utilizando script sql insert/select [PostgreSQL,2010] 21
  • 23. PSW- Mapeamento do Cubo em XML 23
  • 25. Número de Instituições por Região e Ano 25
  • 26. Número de Professores em Sala de Aula por Região e Ano 26
  • 27. Número de Matriculas na Pré-escola na cidade de Alvaraes-AM (MDX) 27
  • 28. Número de Matriculas na Pré-escola por Geografia(Ano de 1996) 28
  • 29. Dificuldades e Limitações • Compreender e analisar os dados e a consistência dos mesmos: estruturas e formatos (.sas, .pdf, .txt); • Capacidade HD/Ferramenta Banco Dados 29
  • 30. Considerações Finais 30 • Importância da Integração das Bases de Dados do INEP (CEB-INEP); • Disponibilização dos Dados Educacionais INEP na Web permitindo consultas analiticas online (OLAP); • Facilidade do INEP na tomada de decisão para a adoção de Políticas Educacionais; • Uso de tecnologias de código aberto para o desenvolvimento de softwares do governo federal; • Participação de pesquisadores de Universidades públicas no projeto (UFMS / UFScar);
  • 31. Referências • INEP - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. - http://www.inep.gov.br • TURINE M.A.S.et al. - Projeto de Pesquisa EDITAL no. 001/2006/INEP/CAPES Web-PIDE: Uma Plataforma aberta de Integração e avaliação de Dados Educacionais, 2006 • PENTAHO, Pentaho Open Source Business Intelligence - http://www.pentaho.com, 2010 • JUDE, Jude Design & Communications - //http://jude.change- vision.com, 2010 • PostgreSQL - http://www.postgresql.org, 2010 • JAVA, Sun Microsystems - http://www.sun.com, 2010 • Caio Moreno de Souza - http://blog.professorcoruja.com 31
  • 32. CONTATOS Fernando Maia mota.fernandomaia@gmail.com www.fernandomaia.eti.br Leila Lisiane Rossi leilalrossi@gmail.com Marcelo Augusto dos Santos Turine mturine@gmail.com 32