Descomplicando Apache Kafka

Felipe Lopes
Software Engineer

- Sistema de processamento de stream de dados em real
time / sistema de mensagem publish-subscribe distribuído:
- Persistência de mensagens com estrutura de disco O(1);
- Alto throughput: centenas de milhares de
mensagens/seg até em hardwares mais modestos;
- Clusterização no DNA: suporte a particionamento de
mensagens por entre servidores Kafka;
Apache Kafka

- Produto interno do LinkedIn;
- Open-sourced em 2011 e absolvido pela Apache
Foundation em 2012;
- Em 2014 engenheiros do LinkedIn criaram a Confluent,
empresa com foco em Kafka;
- Escrito em Scala e Java;
- Referência ao escritor alemão do século XX Franz Kafka;
Background

- Complexidade de integração:
- Sistema de registros;
- Ordenamento;
- Escalabilidade;
Data Integration

- POST
- PUT
- To “Pipe”
- To SQL;
- To Data
Lake;
Eventos

- Manter histórico de registros;
- Voltar no tempo (Allons-y);
- Reprocessamento;
Stream como registro

- Escalabilidade horizontal;
- Clusterização;
Escalabilidade

- Evento de criação antes de atualização;
Ordenamento

- Consumers distintos podem ter velocidades de
processamento distintas;
Pull over Push

Mais nodes = maior
throughput
Performance Linear

- Hub de eventos;
- Data pipeline;
- Entry point de Big data
(buffer);
Use cases

- Key, value, Timestamp;
- Imutável;
- Apenas inclusão;
- Persistido em disco;
Records

- Broker = nó no cluster;
- Producer escreve records
em um broker;
- Consumers leem records
em um broker;
- Líder / seguidor para
distribuição do cluster;
Producer & Consumer

- Tópico = nomenclatura
lógica para 1 ou mais
partições;
- Partições são replicadas;
- Ordenamento é garantido
apenas para uma partição;
Topics & Partitions

- ID único sequencial (por
partição);
- Consumers ou Kafka
mantêm o track do offset;
- Benefícios: Replay,
consumers com diferentes
velocidades, etc.
Offsets

- Escreve para o líder da
partição;
- Partições podem ser feitas
manualmente, baseadas
em uma chave ou
automáticas;
- Fator de replicação é
baseado no Tópico;
Particionamento

- Nome lógico para 1 ou mais
consumers;
- Consumo das mensagens é
feito em load balance por
entre todos os consumers
em um grupo;
Consumer groups

- Compressão de log (opcional);
- Disco não memória;
- Partições e líderes balanceados automaticamente;
- Heroku Kafka;
Cool features

- JVM é o oficial;
- Maioria das outras plataformas, pela comunidade;
- Confluent mantém clients C#, Go e Python;
- Baseado em polling;
Clients

Felipe Lopes
Software Engineer
felipe.lopes@socialminer.com
@OLopesFelipe
linkedin.com/in/felipelopes01
github.com/lopes-felipe
Seja um Miner
99jobs.com/social-miner/jobs

Descomplicando Apache Kafka

Mais conteúdo relacionado

Mais procurados (19)

Semelhante a Descomplicando Apache Kafka (20)

Último (7)

Descomplicando Apache Kafka