Arquivos Digitais na 3ª geração da Web:
uma ideia com mais de 20 anos
José Carlos Ramalho
jcr@di.uminho.pt
jcr@keep.pt
Encontro Internacional de Arquivos: Instituição, Arquivos e Sistemas de
Informação na Era pós-custodial
A nossa história
Período Projeto
1989 - 1991 HiTeX – Transcrição assistida com semântica
1998 - 2000 Ed. Eletrónica: “Memórias de José Inácio Peixoto”; “Índice das
Gavetas do Cabido”; “Bulário Bracarense”; etc.
2000 Reverse Engineering da BD das “Inquirições de Génere”
2003 – 2013 Digitarq: Gestão de metainformação, ODs, etc.
2006 – 2008 RODA: Preservação Digital
2006 – 2013 CRAV: Consulta Real em Ambiente Virtual
2010 – 2014 SCAPE: projeto FP7 sobre Preservação Digital
2013 - ... Archeevo: a nova geração do Digitarq e do CRAV
2013 – 2015 4C: projeto FP7 sobre Preservação Digital
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 2
Um denominador comum:
geração automática de índices
(cronológico, toponímico e
antroponímico). Facilidades: navegação
relacional e não hierárquica.
Produção
massiva de
conteúdos
Milhões de registos
organizados
hierarquicamente:
ISAD, EAD, METS, etc.
De regresso ao passado…
• HITEX (1989-1991): Um Sistema em Desenvolvimento para
Historiadores e Arquivistas
– Normalização: cada um deixar de fazer à sua maneira;
– Reutilização: noção de componente reutilizável com interesse
histórico;
– Classificação: taxonomia padrão de conceitos históricos (classes) que
exprime a ordem de subsunção sobre o conhecimento histórico;
– Tolerância para com informação incompleta: permite a aquisição
incremental de conhecimento histórico;
– Resultados:
• formato HiTeX: uma linguagem de fácil utilização para transcrição documental;
• criação automática de índices: cronológico, toponímico e antroponímico.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 3
Um pequeno exemplo
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 4
“Certidão da doação que o arcebispo de Braga D.Martinho de Oliveira fez ao
Cabido de Braga [: : : ] Ano de 1300.”
Início do primeiro volume do Índice das Gavetas do Cabido de Braga
Asserções:
• D. Martinho de Oliveira era o Arcebispo de Braga em 1300;
• Este arcebispo doou qualquer coisa ao Cabido de Braga, nesse mesmo ano;
• O Cabido guardou uma certidão dessa doação;
• Essa certidão está arquivada no fundo documental designado Gavetas do Cabido;
• Uma referência a essa certidão é a que se pode encontrar no fol.1, vol.1 do
correspondente Índice, compilado no século XVIII.
D. Martinho de Oliveira Gavetas do Cabido Certidão X Índice
Modelo ontológico
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 5
Qual a relevância disto no contexto atual?
Três vias alternativas para o
desenvolvimento Web
Setembro de 2013 Engenharia Web 2013 6
Comunidades
Equipamento
Aplicações,
Serviços,
Agentes
• Wikis
• Blogs
• Mashups
• Portais
• Computação Ubíqua
• Espaços Inteligentes
• RFID
• Sistemas Embebidos
• Redes Sensoriais
• Metainformação
• Ontologias
• Serviços Web
• Agentes
• Portais Inteligentes
Evolução da Web
Web Arquivos pt
1ª geração Páginas estáticas 1ª geração Informatização
2ª geração Páginas geradas a partir de
conteúdos em SI
2ª geração Acesso Web à informação
em regime de acesso livre
3ª geração Sites que se atualizam
automaticamente mediante
alterações de 3ªs partes:
BBC
• Integração automática de
SI
• Normalização
• Identificadores
persistentes
• ...
3ª geração • Integração
• Dados com semântica
• Novos modelos de acesso
• Aplicações de valor
acrescentado
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 7
É preciso aumentar o nível de percepção das “máquinas”…
Hoje: a Web Sintáctica
Setembro de 2013 Engenharia Web 2013 8
Resource
Resource
Resource
Resource
Resource
Resourcehref
href
href
href
href
href
href
href
• Um lugar onde os computadores fazem a apresentação
da informação (fácil) e as pessoas a interpretação e a
navegação (difícil).
• Ideia: Porque não colocar o computador a fazer uma
maior parte do trabalho difícil?
Exemplo: a Europeana
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 9
Exemplo: a Europeana
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 10
Apenas Semântica?!
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 11
Estamos a criar
silos bem
estruturados…
SCOPE AND CONTENT: Contém correspondência dirigida ao SAALN proveniente do
exterior : "Liga para a Protecção da Natureza", "A Voz do Porto", "projecto
omnicooper", sobre assuntos vários.
Semântica & “Linking”
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 12
• É necessário que:
– a informação esteja
disponível na Web
• accessível via tecnologias
Web standard;
– a informação esteja
interligada através da
Web;
– ie, a informação pode ser
integrada através
daWeb.
Informação disponível
na Web não é
suficiente…
Linked Open Data, Set. 2010
13
Linked Open Data, Set. 2011
14
Por áreas específicas
5 de Outubro de 2013 15Encontro Internacional de Arquivos - Faro
Gostaria que os sistemas de
arquivo portugueses fizessem
parte desta área nos
próximos anos...
As opções da Europeana
• Geonames: 10 milhões de nomes/designações
geográficos;
• Dbpedia: base de conhecimento que encerra a
descrição de 3,64 milhões de itens;
• Catalog of Life (CoL): catálogo completo de todos os
organismos vivos conhecidos;
• Uniprot: banco de dados sobre sequenciação de
proteínas;
• GEMET: thesaurus que define um vocabulário
controlado para a temática ambiental;
• FOAF: “Friend of a Friend” – ontologia para descrever
pessoas e respetivas relações.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 16
Geonames
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 17
Descrição arquivística com
semântica
1. É preciso identificar univocamente os registos
descritivos: utilizando URIs persistentes;
2. Os registos descritivos devem estar num
formato normalizado de modo a que recursos e
respetivas relações possam ser
automaticamente reconhecidos (RDF);
3. Incluir nas descrições o maior número de links
(mínimo = 50 links externos / dataset) possíveis
para outros recursos de informação.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 18
• Para integrar dados é necessário acordar
– nos termos a usar:
• “translator”, “author”
– nas categorias a usar:
• “Person”, “literature”
– nas relações entre aqueles:
• “an author is also a Person…”, “historical fiction is a
narrower term than fiction”
• novas relações podem ser deduzidas.
Vocabulários
5 de Outubro de 2013 19Encontro Internacional de Arquivos - Faro
O que é preciso?
• Acordo num vocabulário;
• Acordo numa ontologia;
• Embeber esta semântica no “front-end” dos
sistemas de informação atuais (experiências
em curso);
• No fim: vontade e força política (difícil mas
não impossível).
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 20
– É necessária uma linguagem de especificação
formal para estes vocabulários;
– Para os definir;
– Para lhes associar semântica de modo a tornar
claro como é que novas relações podem ser
deduzidas.
Vocabulários
5 de Outubro de 2013 21Encontro Internacional de Arquivos - Faro
• Definição:
Ontologias
“Especificação formal de uma área de conhecimento através da
definição dos conceitos que lhe são subjacentes e relações entre
estes.”
• Conhecimento explícito (fácil);
• Conhecimento implícito (difícil, é preciso torná-lo
explícito).
5 de Outubro de 2013 22Encontro Internacional de Arquivos - Faro
• Para thesauri, glossários, etc: SKOS
• Para definir vocabulários mais complexos com
alguma lógica subjacente: OWL
• E uma framework para definir regras sobre os
termos e a informação: RIF
• RDF/XML para representação dos modelos
semânticos
Emergiram 3 tecnologias e 1
formato
5 de Outubro de 2013 23Encontro Internacional de Arquivos - Faro
Do bit à Semântica:
XML
RDF
NameSpaces XML Schema
Unicode URI
RDF Schema
Ontologias
Lógica
Prova
Topic
Map
s
245 de Outubro de 2013 Encontro Internacional de Arquivos - Faro
Vocabulários
Último exemplo: Inquirições de
“Génere”
• Motor SPARQL: http://librdf.org/query
• Ontologia light:
http://www.di.uminho.pt/~jcr/XML/sparql/in
quiricoes-light.owl
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 25
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema>
PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>
Interrogações: Nomes dos
indivíduos?
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 26
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema>
PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>
SELECT ?na
WHERE {
?a inq:nome ?na.
}
Os pares de nomes dos que são
Irmãos?
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 27
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema>
PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>
SELECT ?na, ?nb
WHERE {
?a inq:Irmao ?b.
?a inq:nome ?na.
?b inq:nome ?nb
}
• Publica a tua informação primeiro, preocupa-te com as
interfaces/aparência depois!
– a “informação crua” pode ser útil assim mesmo e outros
poderão usá-la;
– podes acrescentar-lhe valor, mais tarde, criando-lhe
acessos sofisticados.
• Se possível, publica a tua informação em RDF caso
contrário, outros poderão ajudar-te na conversão
– confia na comunidade…
• Acrescenta links para outras fontes. “Apenas” publicar
não é suficiente…
Algumas recomendações
5 de Outubro de 2013 28Encontro Internacional de Arquivos - Faro
Oportunidades
• Horizonte 2020: este é um dos eixos principais de
financiamento na área das TIC;
• Criação de novos produtos: site da BBC, Retrievo,
Archeevo, …
• Se ligarmos à LOD o nosso repositório estamos a
maximizar a sua visibilidade e a aumentar
potencialmente o número de visitas;
• Os motores de busca tipo google já tiram partido
da informação semântica se esta estiver
disponível.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 29
Dificuldades
• Se descrever arquivisticamente consome
recursos, descrever conteúdos consome ainda
mais;
• Voluntariado (folksonomias na prática)
– é preciso preparar o terreno;
– controlar/definir os vocabulários usados;
– criar política de contribuições.
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 30
Exemplo: www.retrievo.pt
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 31
Pensamentos “soltos”
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro
Linguagem
Informação
Conhecimento
Estamos algures entre
a Informação e o
Conhecimento...
32
5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 33
José Carlos Ramalho
KEEPS/Universidade do Minho
jcr@keep.pt / jcr@di.uminho.pt
Questões?
http://www.keep.pt

Mais conteúdo relacionado

PDF
Acesso integrado à informação: a Rede Portuguesa de Arquivos
PDF
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
PPTX
Aula UnB_8_maio-2017
PPTX
Apresentação história ufrj
PPT
Tutorial sobre XPath
PPTX
Musecode: uma abordagem aritmética à música tonal
PPTX
Curadoria digital fcrb 2015_dia 2
PDF
Apresentação - Primeiras Indicações Doutorado
Acesso integrado à informação: a Rede Portuguesa de Arquivos
Oficina 1 Confoa 2013 - Parte 1 - Interoperabilidade e repositorios - eloy ro...
Aula UnB_8_maio-2017
Apresentação história ufrj
Tutorial sobre XPath
Musecode: uma abordagem aritmética à música tonal
Curadoria digital fcrb 2015_dia 2
Apresentação - Primeiras Indicações Doutorado

Semelhante a Arquivos Digitais com Semântica (20)

PPTX
Falando sobre RDA: O que é e o que podemos esperar do novo código de catalogação
PDF
(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...
PPT
Software DSpace 2 de 4
PDF
Padroes descricao boas_praticas_recursos_musicais
PPT
Fontes digitais
PDF
Os novos desafios para a implantação de programas de gestão arquivística de d...
PDF
Bibliotecas
DOCX
Base De Dados Documentais
PPT
Biblioteca Escolar Digital
PDF
REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...
PPTX
PDF
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
PPT
Pesquisa
PPT
Bibliotecas Digitais
PPTX
Congresso brasileiro bibliotecarios_22_julho_2015
PDF
Web Semântica e Ontologias
PDF
Resolução 39/14 - Conarq: DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...
PDF
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...
PPTX
Apresentação cariniana jbb-2014
PDF
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Falando sobre RDA: O que é e o que podemos esperar do novo código de catalogação
(UnB Nov/2014) Ambiente autêntico de preservação e acesso em longo prazo de d...
Software DSpace 2 de 4
Padroes descricao boas_praticas_recursos_musicais
Fontes digitais
Os novos desafios para a implantação de programas de gestão arquivística de d...
Bibliotecas
Base De Dados Documentais
Biblioteca Escolar Digital
REPOSITÓRIOS ARQUIVÍSTICOS DIGITAIS CONFIÁVEIS (RDC-ARQ) COMO PLATAFORMA DE P...
Aula 3 2013 - DESCRIÇÃO ARQUIVÍSTICA 0 GESTÃO ARQUIVÍSTICA FESP-SP
Pesquisa
Bibliotecas Digitais
Congresso brasileiro bibliotecarios_22_julho_2015
Web Semântica e Ontologias
Resolução 39/14 - Conarq: DIRETRIZES PARA A IMPLEMENTAÇÃO DE REPOSITÓRIOS D...
DADOS ABERTOS DE INSTITUIÇÕES DE MEMÓRIA E CULTURA: papel dos vocabulários na...
Apresentação cariniana jbb-2014
Gestão de dados de investigação da recolha até ao depósito: Uma abordagem bas...
Anúncio

Último (19)

PPT
Aula de Engenharia de Software principais caracteristicas
PDF
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
PDF
Jira Software projetos completos com scrum
PDF
Processos no SAP Extended Warehouse Management, EWM100 Col26
PPTX
Tipos de servidor em redes de computador.pptx
PPTX
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
PPTX
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
PPTX
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
PDF
Metodologia Scrumban-XP - Um Guia Rápido (MrSomebody19).pdf
PDF
ASCENSÃO E QUEDA DO SOFTWARE LIVRE NO ESTADO BRASILEIRO
PPTX
Analise Estatica de Compiladores para criar uma nova LP
PDF
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
PDF
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
PDF
Banco de Dados 2atualização de Banco de d
PPT
Conceitos básicos de Redes Neurais Artificiais
PDF
Processamento da remessa no SAP ERP, SCM610 Col15
PPTX
ccursoammaiacursoammaiacursoammaia123456
PPTX
Aula 7 - Listas em Python (Introdução à Ciencia da Computação)
PDF
SEMINÁRIO DE IHC - A interface Homem-Máquina
Aula de Engenharia de Software principais caracteristicas
Visão geral da SAP, SAP01 Col18, Introdução sistema SAP,
Jira Software projetos completos com scrum
Processos no SAP Extended Warehouse Management, EWM100 Col26
Tipos de servidor em redes de computador.pptx
Aula 9 - Funções em Python (Introdução à Ciência da Computação)
3b - Bradesco Lean Agile Training Plan - Ritos Operacionais (1).pptx
Proposta de Implementação de uma Rede de Computador Cabeada.pptx
Metodologia Scrumban-XP - Um Guia Rápido (MrSomebody19).pdf
ASCENSÃO E QUEDA DO SOFTWARE LIVRE NO ESTADO BRASILEIRO
Analise Estatica de Compiladores para criar uma nova LP
Customizing básico em SAP Extended Warehouse Management, EWM110 Col26
Aula 9 - Funções 202yttvrcrg5-1.pptx.pdf
Banco de Dados 2atualização de Banco de d
Conceitos básicos de Redes Neurais Artificiais
Processamento da remessa no SAP ERP, SCM610 Col15
ccursoammaiacursoammaiacursoammaia123456
Aula 7 - Listas em Python (Introdução à Ciencia da Computação)
SEMINÁRIO DE IHC - A interface Homem-Máquina
Anúncio

Arquivos Digitais com Semântica

  • 1. Arquivos Digitais na 3ª geração da Web: uma ideia com mais de 20 anos José Carlos Ramalho jcr@di.uminho.pt jcr@keep.pt Encontro Internacional de Arquivos: Instituição, Arquivos e Sistemas de Informação na Era pós-custodial
  • 2. A nossa história Período Projeto 1989 - 1991 HiTeX – Transcrição assistida com semântica 1998 - 2000 Ed. Eletrónica: “Memórias de José Inácio Peixoto”; “Índice das Gavetas do Cabido”; “Bulário Bracarense”; etc. 2000 Reverse Engineering da BD das “Inquirições de Génere” 2003 – 2013 Digitarq: Gestão de metainformação, ODs, etc. 2006 – 2008 RODA: Preservação Digital 2006 – 2013 CRAV: Consulta Real em Ambiente Virtual 2010 – 2014 SCAPE: projeto FP7 sobre Preservação Digital 2013 - ... Archeevo: a nova geração do Digitarq e do CRAV 2013 – 2015 4C: projeto FP7 sobre Preservação Digital 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 2 Um denominador comum: geração automática de índices (cronológico, toponímico e antroponímico). Facilidades: navegação relacional e não hierárquica. Produção massiva de conteúdos Milhões de registos organizados hierarquicamente: ISAD, EAD, METS, etc.
  • 3. De regresso ao passado… • HITEX (1989-1991): Um Sistema em Desenvolvimento para Historiadores e Arquivistas – Normalização: cada um deixar de fazer à sua maneira; – Reutilização: noção de componente reutilizável com interesse histórico; – Classificação: taxonomia padrão de conceitos históricos (classes) que exprime a ordem de subsunção sobre o conhecimento histórico; – Tolerância para com informação incompleta: permite a aquisição incremental de conhecimento histórico; – Resultados: • formato HiTeX: uma linguagem de fácil utilização para transcrição documental; • criação automática de índices: cronológico, toponímico e antroponímico. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 3
  • 4. Um pequeno exemplo 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 4 “Certidão da doação que o arcebispo de Braga D.Martinho de Oliveira fez ao Cabido de Braga [: : : ] Ano de 1300.” Início do primeiro volume do Índice das Gavetas do Cabido de Braga Asserções: • D. Martinho de Oliveira era o Arcebispo de Braga em 1300; • Este arcebispo doou qualquer coisa ao Cabido de Braga, nesse mesmo ano; • O Cabido guardou uma certidão dessa doação; • Essa certidão está arquivada no fundo documental designado Gavetas do Cabido; • Uma referência a essa certidão é a que se pode encontrar no fol.1, vol.1 do correspondente Índice, compilado no século XVIII. D. Martinho de Oliveira Gavetas do Cabido Certidão X Índice
  • 5. Modelo ontológico 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 5 Qual a relevância disto no contexto atual?
  • 6. Três vias alternativas para o desenvolvimento Web Setembro de 2013 Engenharia Web 2013 6 Comunidades Equipamento Aplicações, Serviços, Agentes • Wikis • Blogs • Mashups • Portais • Computação Ubíqua • Espaços Inteligentes • RFID • Sistemas Embebidos • Redes Sensoriais • Metainformação • Ontologias • Serviços Web • Agentes • Portais Inteligentes
  • 7. Evolução da Web Web Arquivos pt 1ª geração Páginas estáticas 1ª geração Informatização 2ª geração Páginas geradas a partir de conteúdos em SI 2ª geração Acesso Web à informação em regime de acesso livre 3ª geração Sites que se atualizam automaticamente mediante alterações de 3ªs partes: BBC • Integração automática de SI • Normalização • Identificadores persistentes • ... 3ª geração • Integração • Dados com semântica • Novos modelos de acesso • Aplicações de valor acrescentado 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 7 É preciso aumentar o nível de percepção das “máquinas”…
  • 8. Hoje: a Web Sintáctica Setembro de 2013 Engenharia Web 2013 8 Resource Resource Resource Resource Resource Resourcehref href href href href href href href • Um lugar onde os computadores fazem a apresentação da informação (fácil) e as pessoas a interpretação e a navegação (difícil). • Ideia: Porque não colocar o computador a fazer uma maior parte do trabalho difícil?
  • 9. Exemplo: a Europeana 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 9
  • 10. Exemplo: a Europeana 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 10
  • 11. Apenas Semântica?! 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 11 Estamos a criar silos bem estruturados… SCOPE AND CONTENT: Contém correspondência dirigida ao SAALN proveniente do exterior : "Liga para a Protecção da Natureza", "A Voz do Porto", "projecto omnicooper", sobre assuntos vários.
  • 12. Semântica & “Linking” 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 12 • É necessário que: – a informação esteja disponível na Web • accessível via tecnologias Web standard; – a informação esteja interligada através da Web; – ie, a informação pode ser integrada através daWeb. Informação disponível na Web não é suficiente…
  • 13. Linked Open Data, Set. 2010 13
  • 14. Linked Open Data, Set. 2011 14
  • 15. Por áreas específicas 5 de Outubro de 2013 15Encontro Internacional de Arquivos - Faro Gostaria que os sistemas de arquivo portugueses fizessem parte desta área nos próximos anos...
  • 16. As opções da Europeana • Geonames: 10 milhões de nomes/designações geográficos; • Dbpedia: base de conhecimento que encerra a descrição de 3,64 milhões de itens; • Catalog of Life (CoL): catálogo completo de todos os organismos vivos conhecidos; • Uniprot: banco de dados sobre sequenciação de proteínas; • GEMET: thesaurus que define um vocabulário controlado para a temática ambiental; • FOAF: “Friend of a Friend” – ontologia para descrever pessoas e respetivas relações. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 16
  • 17. Geonames 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 17
  • 18. Descrição arquivística com semântica 1. É preciso identificar univocamente os registos descritivos: utilizando URIs persistentes; 2. Os registos descritivos devem estar num formato normalizado de modo a que recursos e respetivas relações possam ser automaticamente reconhecidos (RDF); 3. Incluir nas descrições o maior número de links (mínimo = 50 links externos / dataset) possíveis para outros recursos de informação. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 18
  • 19. • Para integrar dados é necessário acordar – nos termos a usar: • “translator”, “author” – nas categorias a usar: • “Person”, “literature” – nas relações entre aqueles: • “an author is also a Person…”, “historical fiction is a narrower term than fiction” • novas relações podem ser deduzidas. Vocabulários 5 de Outubro de 2013 19Encontro Internacional de Arquivos - Faro
  • 20. O que é preciso? • Acordo num vocabulário; • Acordo numa ontologia; • Embeber esta semântica no “front-end” dos sistemas de informação atuais (experiências em curso); • No fim: vontade e força política (difícil mas não impossível). 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 20
  • 21. – É necessária uma linguagem de especificação formal para estes vocabulários; – Para os definir; – Para lhes associar semântica de modo a tornar claro como é que novas relações podem ser deduzidas. Vocabulários 5 de Outubro de 2013 21Encontro Internacional de Arquivos - Faro
  • 22. • Definição: Ontologias “Especificação formal de uma área de conhecimento através da definição dos conceitos que lhe são subjacentes e relações entre estes.” • Conhecimento explícito (fácil); • Conhecimento implícito (difícil, é preciso torná-lo explícito). 5 de Outubro de 2013 22Encontro Internacional de Arquivos - Faro
  • 23. • Para thesauri, glossários, etc: SKOS • Para definir vocabulários mais complexos com alguma lógica subjacente: OWL • E uma framework para definir regras sobre os termos e a informação: RIF • RDF/XML para representação dos modelos semânticos Emergiram 3 tecnologias e 1 formato 5 de Outubro de 2013 23Encontro Internacional de Arquivos - Faro
  • 24. Do bit à Semântica: XML RDF NameSpaces XML Schema Unicode URI RDF Schema Ontologias Lógica Prova Topic Map s 245 de Outubro de 2013 Encontro Internacional de Arquivos - Faro Vocabulários
  • 25. Último exemplo: Inquirições de “Génere” • Motor SPARQL: http://librdf.org/query • Ontologia light: http://www.di.uminho.pt/~jcr/XML/sparql/in quiricoes-light.owl 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 25 PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema> PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#>
  • 26. Interrogações: Nomes dos indivíduos? 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 26 PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema> PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#> SELECT ?na WHERE { ?a inq:nome ?na. }
  • 27. Os pares de nomes dos que são Irmãos? 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 27 PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> PREFIX owl: <http://www.w3.org/2002/07/owl#> PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema> PREFIX inq: <http://jcr.di.uminho.pt/ontologias/rc2012/inq.owl#> SELECT ?na, ?nb WHERE { ?a inq:Irmao ?b. ?a inq:nome ?na. ?b inq:nome ?nb }
  • 28. • Publica a tua informação primeiro, preocupa-te com as interfaces/aparência depois! – a “informação crua” pode ser útil assim mesmo e outros poderão usá-la; – podes acrescentar-lhe valor, mais tarde, criando-lhe acessos sofisticados. • Se possível, publica a tua informação em RDF caso contrário, outros poderão ajudar-te na conversão – confia na comunidade… • Acrescenta links para outras fontes. “Apenas” publicar não é suficiente… Algumas recomendações 5 de Outubro de 2013 28Encontro Internacional de Arquivos - Faro
  • 29. Oportunidades • Horizonte 2020: este é um dos eixos principais de financiamento na área das TIC; • Criação de novos produtos: site da BBC, Retrievo, Archeevo, … • Se ligarmos à LOD o nosso repositório estamos a maximizar a sua visibilidade e a aumentar potencialmente o número de visitas; • Os motores de busca tipo google já tiram partido da informação semântica se esta estiver disponível. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 29
  • 30. Dificuldades • Se descrever arquivisticamente consome recursos, descrever conteúdos consome ainda mais; • Voluntariado (folksonomias na prática) – é preciso preparar o terreno; – controlar/definir os vocabulários usados; – criar política de contribuições. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 30
  • 31. Exemplo: www.retrievo.pt 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 31
  • 32. Pensamentos “soltos” 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro Linguagem Informação Conhecimento Estamos algures entre a Informação e o Conhecimento... 32
  • 33. 5 de Outubro de 2013 Encontro Internacional de Arquivos - Faro 33 José Carlos Ramalho KEEPS/Universidade do Minho jcr@keep.pt / jcr@di.uminho.pt Questões? http://www.keep.pt