SlideShare uma empresa Scribd logo
Indexadores distribuídos utilizando Apache HadoopLuís A. Bastião SilvaRecuperação de informação
AgendaEnquadramentoLuceneHadoopHDFSMapReduceImplementações do Lucene distribuídasConclusões
EnquadramentoAumento do volume de informação têm vindo a crescerCriação de motores de pesquisaIndexaçãoPesquisaIndexador versus Base de Dados relacionalNecessidades de distribuir a indexação e pesquisa por vários sistemas computacionaisEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
Apache LuceneProjecto da ASF (Apache Software Fundation)Plataforma Open SourceInterfaces de indexação e pesquisa bem definidosPesquisa “full-text”, capacidade de filtragem, expressões booleanas, intervalos, etc. Capacidade de fazer “merge” de vários índicesÚtil para indexadores distribuídosEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
ProjectoHadoopHadoop:  ASF + Open SourceMotivação: criação de um sistema de ficheiros distribuído efectuar processamento nos vários nós do clusterEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
ProjectoHadoopSubprojectos do Hadoop:CommonHDSFMapReduceZooKeeperEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
HDFS: HadoopDistributed File SystemSistema de ficheiros distribuídosConstruído para grandes volumes de informaçãoBlocos divididos em blocos de 64MBRedundânciaOrientado a “batchprocessing” e streamingArquitecturaMaster/SlaveEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
HDFS - ArquitecturaEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
MapReduceEnquadramentoHadoopLuceneConclusõesLuceneDistribuidoModelo de programaçãoMap“Shuffle”Reduce
LuceneDistribuidoDiscussão de diferentes abordagensEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
Doug Cutting ApproachIndicesdistribuidos pelos sistemas computacionaisArquitecturaMaster/SlavesMaster: contém a localização dos vários indicesCada indice têm uma versãoEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
DistributedLuceneNão utiliza o HDFSUtiliza mecanismos de IPC do HadoopSegue os conceitos propostos por Doug Cutting Introduz o conceito do estado do indice:“uncommited”, “replicating” e “live”Actualizaçãobaseadaem “leasing”EnquadramentoHadoopLuceneConclusõesLuceneDistribuido
Distributed Index for Semantic SearchUtilização do MapReduceMap: Parser dos documentos armazenados no sistema de ficheiros distribuídoRedução: obter documentos que contém o mesmo termoEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
ConclusõesMover processamento é preferível a mover dados Algumas implementações de Lucene distribuídos, contudo:Limitativas para o utilizadorAinda em fase beta de desenvolvimentoNão existe standarização ao nível de indexação distribuída, não permitindo a criação de sinergias entre projectos.Hadoop revelou-se uma plataforma bastante estávelEnquadramentoHadoopLuceneConclusõesLuceneDistribuido
Questões?

Mais conteúdo relacionado

PPTX
Creating your own datacenter
PDF
Umit Presentation
PDF
Big Data Open Source com Hadoop
PPTX
Hadoop - primeiros passos
PDF
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Creating your own datacenter
Umit Presentation
Big Data Open Source com Hadoop
Hadoop - primeiros passos
Orquestrando HBase, Cassandra e MongoDB com o Pentaho Big Data Analytics.
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba

Último (16)

PDF
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
PDF
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
PDF
Custos e liquidação no SAP Transportation Management, TM130 Col18
PDF
COBITxITIL-Entenda as diferença em uso governança TI
PPTX
Arquitetura de computadores - Memórias Secundárias
PDF
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
PPTX
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
PDF
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
PPTX
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
PDF
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
PDF
Processos na gestão de transportes, TM100 Col18
PDF
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
PPTX
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
PPTX
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
PDF
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
PDF
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Otimizador de planejamento e execução no SAP Transportation Management, TM120...
Fullfilment AI - Forum ecommerce 2025 // Distrito e Total Express
Custos e liquidação no SAP Transportation Management, TM130 Col18
COBITxITIL-Entenda as diferença em uso governança TI
Arquitetura de computadores - Memórias Secundárias
Fundamentos de gerenciamento de ordens e planejamento no SAP TransportationMa...
Programação - Linguagem C - Variáveis, Palavras Reservadas, tipos de dados, c...
Mergulho profundo técnico para gestão de transportes no SAP S/4HANA, S4TM6 Col14
Informática Aplicada Informática Aplicada Plano de Ensino - estudo de caso NR...
Termos utilizados na designação de relação entre pessoa e uma obra.pdf
Processos na gestão de transportes, TM100 Col18
Gestão de transportes básica no SAP S/4HANA, S4611 Col20
Gestao-de-Bugs-em-Software-Introducao.pptxxxxxxxx
Como-se-implementa-um-softwareeeeeeeeeeeeeeeeeeeeeeeee.pptx
20250805_ServiceNow e a Arquitetura Orientada a Serviços (SOA) A Base para Ap...
Custos e faturamento no SAP S/4HANA Transportation Management, S4TM3 Col26
Anúncio
Anúncio

Indexadores Distribuidos utilizando Hadoop

Notas do Editor

  • #4: Volume de dadosnos sistemas informáticos têm vindo a crescer substancialmente na última decada. Com tantos dados, torna-se importante ao utilizador poder extrair informação.Para isso surgiram motores de pesquisa, que permitem aos utilizadores extrair informação dos dados. Exisem dois processos diferentes na construção de um motor de pesquisa:Indexação dos dadosPesquisaUm sistema de indexação e pesquisa baseado em índice permite escalar a aplicação e fazer3ranking de informação relevante integrando várias fontes de dados como exemplos: email, webpages, ficheiros ou mesmo base de dados.
  • #5: Projecto da ASF – Open SourceBiblioteca Interfaces bem definidos: indexação e pesquisa.Pesquisa fulltext, range etc.Capacidade de fazer merge de vários indices. Ex. PC1 indexa PC2 Indexa No final podemos ter um unicoindice.
  • #6: ASF + OSSFrameworkMotivação: - criar um sistema ficheiros distribuidos - distribuir processamento nos vários nos do cluster, tirando partido do sistemas de ficheiros distribuidos.
  • #7: Centramo nos HDFS e MapReduce
  • #14: A fase de Map pode ser usada para carregar documentos do DFS