SlideShare una empresa de Scribd logo
Chaos
Engineering
ANGEL NUÑEZ Enterprise Agility Consultant
ANGEL NUÑEZ
Enterprise Agility
Consultant
angel.nunez@kleer.la
@snahider
Las Aplicaciones Son Cada Vez
Más Complejas
Amazon Netflix Twitter
“Death Star” Architecture Diagrams
El mundo es naturalmente Complejo
• Los discos pueden fallar.
• La red no es confiable y se puede caer.
• Fallos en cascada por circunstancias no usuales.
• Los sistemas distribuidos tienen muchas partes movibles.
• Aumento inesperado en el tráfico.
• El ambiente está lleno de ‘unknows’.
• Muchas cosas están fuera de nuestro control.
AWS Outage: Feb 28, 2017
• Simple Storage Service (S3) se cayo en US-EAST.
• Otros servicios que dependían de S3 se vieron afectados
(EC2, EBS, Lambda, etc.).
• La caída duró aproximadamente 4 horas.
• 1,000,000 sitios al rededor US se vieron impactados.
Incident report: https://aws.amazon.com/message/41926
Las Caídas Ocurren
Hay muchos más casos que puedes leer aquí:
https://github.com/danluu/post-mortems
¿Por qué tener miedo del Caos
cuando es Inevitable?
Failures are a given and
everything will
eventually fail over time
Werner Vogels
CTO - Amazon.com
Chaos Engineering
Thoughtful, planned experiments
designed to reveal
weaknesses in your system.
Kolton Andrus
CEO - Gremlin Inc.
Unit Tests e Integration Tests
Componente A
OutputInput
Unit Tests
Servicio A Servicio B
Input Output
Integration Tests
Chaos Experiments
Servicio A Servicio B
Input Output
No verificamos “Knows” sino exploramos “Unknows”
AWS Outage
Historia
2004 Amazon – Jesse Robbins. Master of disaster.
2010 Netflix – 1ra implementación de Chaos Monkey
para forzar el uso de auto-scaled staless services.
2012 NetflixOSS libera Simian Army (Open Source)
2014 Netflix decide crear el rol Chaos Engineer
2016 Gremlin Inc. se fundó.
2017 Netflix Chaos Engineering book.
Chaos Toolking (OSS project)
2018 1er Chaos Conference.
Año en que Chaos Eng. se ha difundido significativamente.
Mas Historia
(Empresas, Personas, Herramientas y Prácticas)
https://coggle.it/diagram/WiKceGDAwgABrmyv/t/chaos-engineering-companies%2C-people%2C-tools-practices
Un Caso Personal
Payment UI
Auth Service Payment Service
Message Queue (RabbitMQ)
Worker
Status
Listener
Notification
Service
Payments Core
Cache Service
(Redis)
Transaction Map
(MongoDB)
Publish
Consume Publish Consume
v1.1.8
(Dic. 2015)
Inhouse + Azure
Datacenter
Asynchronous Completion Token. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.44.9371&rep=rep1&type=pdf
Mediante la experimentación encontramos:
- Cuando varios contenedores se caían, la experiencia al
usuario se degrabada, por que demoraba mucho la
reconección.
- Cuando los contenedores se reprogramaban, la
redundancia se perdía, por que K8S redesplegaba varios
en el mismo nodo.
- Cuando se caía el 75% de instancias del Payment, la
experiencia se degrabada, por que las instancias restantes
no aguantaban la carga.
- Cuando la latencia del core es muy lenta, el pool de hilos
del worker se terminaba, por que los timeouts eran muy
grandes.
- Cuando un tópico de RabbitMQ se eliminaba, la cola
dejaba de funcionar, por que nadie recreaba el tópico.
…
Pre-requisitos
• Timeouts
• Retries & Bake-offs.
• Exception handling.
• Circuit breakers.
• Load Shedding
Application
• Redundancy
• Self-healing
• Bulkheads
• Infrastructure as
Code
Infrastructure
• Monitoreo y
Observabilidad.
• Incident
Management.
Operations
Run
Experiment
Cómo practicar Chaos Engineering
Scale or
Squash
Verify
Results
Steady
State
Improve
Hypothesis
Run
Experiment
Cómo practicar Chaos Engineering
Scale or
Squash
Verify
Results
Steady
State
Improve
Hypothesis
Definir un “Steady State”
Resultado medible del sistema que indica ‘salud’
(combinación de Business + Ops)
Netflix ‘stream starts per second’, comparando dos semanas (rojo = semana actual, negro = semana pasada)
Run
Experiment
Cómo practicar Chaos Engineering
Scale or
Squash
Verify
Results
Steady
State
Improve
Hypothesis
Cómo diseñar un Experimento
• Identificar los top servicios/componentes críticos.
• Elegir un componente y entenderlo.
• ¿Qué puede salir mal?
¿Sabemos que pasará si esto rompe?
• Seleccionar el ataque.
• Determinar un Blast Radius pequeño.
• Determinar métricas adicionales a revisar.
Puedes inyectar chaos en cada capa
del sistema
• Application (CPU, Memory, Disk, I/O)
• API (fallbacks)
• Cache, Database, Queues (kill topics)
• Network (latency, dns, packet loss)
• Operating System (kill processes, shutdown, time travel)
• Cloud Infraestructure / Bare Metal (región outage)
Run
Experiment
Cómo practicar Chaos Engineering
Scale or
Squash
Verify
Results
Steady
State
Improve
Hypothesis
Chaos Tools
https://github.com/dastergon/awesome-chaos-engineering#notable-tools
Simian Army
Conjunto de herramientas que ayudan a mantener
la nube operando en buena forma.
- Apagar servicios aleatoriamente (Chaos Monkey).
- Agregar lentitud a la comunicación (Latency
Monkey).
- Apagar servidores que no sigan mejores
prácticas (Conformity Monkey).
- Apagar instancias con violaciones de seguridad
(Security Monkey).
* Simian Army ya no se mantiene activamente. Nueva versión de Chaos Monkey está disponible como herramienta independiente, y las
otras funcionalidades se han movido a otros proyectos de Netflix.
Chaos Toolkit
Simplifica la adopción de Chaos Engineering:
- Open API declarativa para crear
experimentos de caos.
- Muchas extensiones para diferentes
herramientas, servicios clouds,
monitoreo.
- Se integra fácilmente con Pipelines de
CI/CD.
Gremlin
Chaos as a Service:
- Utiliza agentes en los hosts o
contenedores para realizar ataques.
- Se pueden programar ataques
utilizando UI, API o CLI.
- Provee muchos ataques de caja y se
integra con Chaos Toolkit para otros
ataques.
Run
Experiment
Cómo practicar Chaos Engineering
Scale or
Squash
Verify
Results
Steady
State
Improve
Hypothesis
Cuantificar otros resultados
• ¿Time to detect?
• ¿Time to notification?
• ¿Time to self healing?
• ¿Time to recovery - partial, full?
Profundizar en los resultados
Resultados
del
Experimento
Porque …Porque …Porque …Porque …
Run
Experiment
Cómo practicar Chaos Engineering
Scale or
Squash
Verify
Results
Steady
State
Improve
Hypothesis
Scale or Squash
¿Encontraste un problema? Buen trabajo.
Para el experimento. Sino incrementa el Blast Radius.
Run
Experiment
Cómo practicar Chaos Engineering
Scale or
Squash
Verify
Results
Steady
State
Improve
Hypothesis
Chaos Experiment (Demo)
Hypothesis No hay impacto en el cliente.
Attack Condition Duration: 180s (4 min)
Attack: Shutdown containers
Targets: 50% of available containers
Collect Data Latencia y Disponibilidad (Vegeta)
Reinicios del Container (Prometheus)
Logs de la Aplicación (Kubectl)
Result Latency: ?
Customer Impact: ?
Otros Hallazgos: ??
Introducir caos de manera
controlada conduce a tener
sistemas cada vez más resistentes.
¿Cómo puedes continuar tu camino en
Chaos Engineering?
http://gremlim.com/slack
Ejecuta tu primer Chaos Day
Día dedicado de todo el equipo para enfocarse en utilizar
Chaos Engineering para revelar problemas, e implementar
resilencia en los sistemas.
https://www.gremlin.com/community/tutorials/planning-your-own-chaos-day/
Revisa las siguientes fuentes
Lista curada de recursos sobre Chaos Engineering
https://github.com/dastergon/awesome-chaos-engineering
Principles of Chaos Engineering
https://principlesofchaos.org
Chaos Engineering book
https://www.oreilly.com/library/view/chaos-engineering/9781491988459/
Preguntas
ANGEL NUÑEZ
Enterprise Agility
Consultant
angel.nunez@kleer.la
@snahider

Más contenido relacionado

PPTX
Breve introducción práctica al DevOps - (es) 2021_03_18
PDF
Intro to containerization
PDF
What Is Kubernetes | Kubernetes Introduction | Kubernetes Tutorial For Beginn...
PDF
Using Docker for Testing
PPTX
Docker Networking - Common Issues and Troubleshooting Techniques
PDF
Introduction to Kubernetes Workshop
PDF
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
PDF
Kubernetes 101
Breve introducción práctica al DevOps - (es) 2021_03_18
Intro to containerization
What Is Kubernetes | Kubernetes Introduction | Kubernetes Tutorial For Beginn...
Using Docker for Testing
Docker Networking - Common Issues and Troubleshooting Techniques
Introduction to Kubernetes Workshop
20190410 AWS Black Belt Online Seminar Amazon Elastic Container Service for K...
Kubernetes 101

La actualidad más candente (20)

PDF
10+ Deploys Per Day: Dev and Ops Cooperation at Flickr
PPTX
Docker: From Zero to Hero
PDF
Kubernetes Architecture | Understanding Kubernetes Components | Kubernetes Tu...
PDF
Kubernetes 101
PDF
Introduction to docker
PDF
Diving Through The Layers: Investigating runc, containerd, and the Docker eng...
PPTX
Why kubernetes matters
PPTX
Docker Container Security
PDF
OpenShift-Technical-Overview.pdf
PPTX
Getting started with Docker
PDF
Kubernetes 101 - an Introduction to Containers, Kubernetes, and OpenShift
PDF
日本のお客様におけるAmazon Auroraへの移行・検証事例と技術ポイント
PDF
Docker Explained | What Is A Docker Container? | Docker Simplified | Docker T...
PPTX
Kubernetes Security
PPTX
Jenkins CI presentation
PPTX
DevSecOps in the Cloud from the Lens of a Well-Architected Framework.pptx
PDF
Docker and Kubernetes 101 workshop
PDF
Architectures for open and scalable clouds
PDF
DevJam 2019 - Introduction to Kubernetes
PDF
9 steps to awesome with kubernetes
10+ Deploys Per Day: Dev and Ops Cooperation at Flickr
Docker: From Zero to Hero
Kubernetes Architecture | Understanding Kubernetes Components | Kubernetes Tu...
Kubernetes 101
Introduction to docker
Diving Through The Layers: Investigating runc, containerd, and the Docker eng...
Why kubernetes matters
Docker Container Security
OpenShift-Technical-Overview.pdf
Getting started with Docker
Kubernetes 101 - an Introduction to Containers, Kubernetes, and OpenShift
日本のお客様におけるAmazon Auroraへの移行・検証事例と技術ポイント
Docker Explained | What Is A Docker Container? | Docker Simplified | Docker T...
Kubernetes Security
Jenkins CI presentation
DevSecOps in the Cloud from the Lens of a Well-Architected Framework.pptx
Docker and Kubernetes 101 workshop
Architectures for open and scalable clouds
DevJam 2019 - Introduction to Kubernetes
9 steps to awesome with kubernetes
Publicidad

Similar a Chaos Engineering (8)

PDF
Malaga chaos-caminando hacia-sistemas_antifragiles-v0.1
PPTX
Chaos engineering
PDF
Kubernetes para developers
PPTX
Introduccion a SQL Server 2017 en Docker
PDF
Meetup Málaga caos y kubernetes
PDF
Escenarios de Sistemas Distribuidos con Chamilo LMS
PDF
Cloud Native Mexico - Introducción a Kubernetes
PDF
Hasta producción y más allá
Malaga chaos-caminando hacia-sistemas_antifragiles-v0.1
Chaos engineering
Kubernetes para developers
Introduccion a SQL Server 2017 en Docker
Meetup Málaga caos y kubernetes
Escenarios de Sistemas Distribuidos con Chamilo LMS
Cloud Native Mexico - Introducción a Kubernetes
Hasta producción y más allá
Publicidad

Más de Angel Nuñez (20)

PDF
Structural Agility
PDF
Architecting Sociotechnical Systems
PDF
Product Development Flow
PDF
Hackeando la Cultura Organizacional
PDF
Liderazgo Transformacional
PDF
Liderazgo Transformacional y DevOps
PDF
Exploratory Testing
PDF
Coding Dojo
PDF
Kubernetes - Container Orchestration, Deployment and Scaling
PDF
Agile Test Strategy
PDF
Kubernetes - #gdglimasummit
PDF
Agile Testing - Software Testing Club
PDF
Kubernetes - #dockerconlima
PDF
Infrastructure as Code
PDF
Test Driven Infrastructure
PDF
Software Debt: Qué Es y Cómo Gestionarlo Holísticamente
PPTX
Unit testing
PPTX
Test Automation .NET
PPTX
Refactoring
PPTX
Refactoring to Patterns
Structural Agility
Architecting Sociotechnical Systems
Product Development Flow
Hackeando la Cultura Organizacional
Liderazgo Transformacional
Liderazgo Transformacional y DevOps
Exploratory Testing
Coding Dojo
Kubernetes - Container Orchestration, Deployment and Scaling
Agile Test Strategy
Kubernetes - #gdglimasummit
Agile Testing - Software Testing Club
Kubernetes - #dockerconlima
Infrastructure as Code
Test Driven Infrastructure
Software Debt: Qué Es y Cómo Gestionarlo Holísticamente
Unit testing
Test Automation .NET
Refactoring
Refactoring to Patterns

Último (20)

PDF
Sugerencias Didacticas 2023_Diseño de Estructuras Metalicas_digital.pdf
DOC
informacion acerca de la crianza tecnificada de cerdos
PPTX
376060032-Diapositivas-de-Ingenieria-ESTRUCTURAL.pptx
PDF
Módulo-de Alcance-proyectos - Definición.pdf
PDF
LIBRO UNIVERSITARIO SOFTWARE PARA INGENIERIA BN.pdf
PDF
GUÍA PARA LA IMPLEMENTACIÓN DEL PLAN PARA LA REDUCCIÓN DEL RIESGO DE DESASTRES
PDF
Primera formulación de cargos de la SEC en contra del CEN
PPTX
CAPACITACIÓN DE USO ADECUADO DE EPP.pptx
PPTX
Software para la educación instituciones superiores
PPTX
OPERACION DE MONTACARGAS maneji seguro de
PDF
Durabilidad del concreto en zonas costeras
PDF
Matriz_Seguimiento_Estu_Consult_2024_ACT.pdf
PDF
HISTORIA DE LA GRÚAA LO LARGO DE LOS TIEMPOSpdf
PPT
tema DISEÑO ORGANIZACIONAL UNIDAD 1 A.ppt
PPTX
DEBL Presentación PG 23.pptx [Autoguardado].pptx
PPT
Sustancias Peligrosas de empresas para su correcto manejo
PDF
Oficio SEC 293416 Comision Investigadora
PDF
LIBRO UNIVERSITARIO SISTEMAS PRODUCTIVOS BN.pdf
PPTX
MODULO 1.SEGURIDAD Y SALUD CONCEPTOS GENERALES.pptx
PPTX
MARITIMO Y LESGILACION DEL MACO TRANSPORTE
Sugerencias Didacticas 2023_Diseño de Estructuras Metalicas_digital.pdf
informacion acerca de la crianza tecnificada de cerdos
376060032-Diapositivas-de-Ingenieria-ESTRUCTURAL.pptx
Módulo-de Alcance-proyectos - Definición.pdf
LIBRO UNIVERSITARIO SOFTWARE PARA INGENIERIA BN.pdf
GUÍA PARA LA IMPLEMENTACIÓN DEL PLAN PARA LA REDUCCIÓN DEL RIESGO DE DESASTRES
Primera formulación de cargos de la SEC en contra del CEN
CAPACITACIÓN DE USO ADECUADO DE EPP.pptx
Software para la educación instituciones superiores
OPERACION DE MONTACARGAS maneji seguro de
Durabilidad del concreto en zonas costeras
Matriz_Seguimiento_Estu_Consult_2024_ACT.pdf
HISTORIA DE LA GRÚAA LO LARGO DE LOS TIEMPOSpdf
tema DISEÑO ORGANIZACIONAL UNIDAD 1 A.ppt
DEBL Presentación PG 23.pptx [Autoguardado].pptx
Sustancias Peligrosas de empresas para su correcto manejo
Oficio SEC 293416 Comision Investigadora
LIBRO UNIVERSITARIO SISTEMAS PRODUCTIVOS BN.pdf
MODULO 1.SEGURIDAD Y SALUD CONCEPTOS GENERALES.pptx
MARITIMO Y LESGILACION DEL MACO TRANSPORTE

Chaos Engineering

  • 3. Las Aplicaciones Son Cada Vez Más Complejas Amazon Netflix Twitter “Death Star” Architecture Diagrams
  • 4. El mundo es naturalmente Complejo • Los discos pueden fallar. • La red no es confiable y se puede caer. • Fallos en cascada por circunstancias no usuales. • Los sistemas distribuidos tienen muchas partes movibles. • Aumento inesperado en el tráfico. • El ambiente está lleno de ‘unknows’. • Muchas cosas están fuera de nuestro control.
  • 5. AWS Outage: Feb 28, 2017 • Simple Storage Service (S3) se cayo en US-EAST. • Otros servicios que dependían de S3 se vieron afectados (EC2, EBS, Lambda, etc.). • La caída duró aproximadamente 4 horas. • 1,000,000 sitios al rededor US se vieron impactados. Incident report: https://aws.amazon.com/message/41926
  • 6. Las Caídas Ocurren Hay muchos más casos que puedes leer aquí: https://github.com/danluu/post-mortems
  • 7. ¿Por qué tener miedo del Caos cuando es Inevitable? Failures are a given and everything will eventually fail over time Werner Vogels CTO - Amazon.com
  • 8. Chaos Engineering Thoughtful, planned experiments designed to reveal weaknesses in your system. Kolton Andrus CEO - Gremlin Inc.
  • 9. Unit Tests e Integration Tests Componente A OutputInput Unit Tests Servicio A Servicio B Input Output Integration Tests
  • 10. Chaos Experiments Servicio A Servicio B Input Output No verificamos “Knows” sino exploramos “Unknows”
  • 12. Historia 2004 Amazon – Jesse Robbins. Master of disaster. 2010 Netflix – 1ra implementación de Chaos Monkey para forzar el uso de auto-scaled staless services. 2012 NetflixOSS libera Simian Army (Open Source) 2014 Netflix decide crear el rol Chaos Engineer 2016 Gremlin Inc. se fundó. 2017 Netflix Chaos Engineering book. Chaos Toolking (OSS project) 2018 1er Chaos Conference. Año en que Chaos Eng. se ha difundido significativamente.
  • 13. Mas Historia (Empresas, Personas, Herramientas y Prácticas) https://coggle.it/diagram/WiKceGDAwgABrmyv/t/chaos-engineering-companies%2C-people%2C-tools-practices
  • 14. Un Caso Personal Payment UI Auth Service Payment Service Message Queue (RabbitMQ) Worker Status Listener Notification Service Payments Core Cache Service (Redis) Transaction Map (MongoDB) Publish Consume Publish Consume v1.1.8 (Dic. 2015) Inhouse + Azure Datacenter Asynchronous Completion Token. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.44.9371&rep=rep1&type=pdf Mediante la experimentación encontramos: - Cuando varios contenedores se caían, la experiencia al usuario se degrabada, por que demoraba mucho la reconección. - Cuando los contenedores se reprogramaban, la redundancia se perdía, por que K8S redesplegaba varios en el mismo nodo. - Cuando se caía el 75% de instancias del Payment, la experiencia se degrabada, por que las instancias restantes no aguantaban la carga. - Cuando la latencia del core es muy lenta, el pool de hilos del worker se terminaba, por que los timeouts eran muy grandes. - Cuando un tópico de RabbitMQ se eliminaba, la cola dejaba de funcionar, por que nadie recreaba el tópico. …
  • 15. Pre-requisitos • Timeouts • Retries & Bake-offs. • Exception handling. • Circuit breakers. • Load Shedding Application • Redundancy • Self-healing • Bulkheads • Infrastructure as Code Infrastructure • Monitoreo y Observabilidad. • Incident Management. Operations
  • 16. Run Experiment Cómo practicar Chaos Engineering Scale or Squash Verify Results Steady State Improve Hypothesis
  • 17. Run Experiment Cómo practicar Chaos Engineering Scale or Squash Verify Results Steady State Improve Hypothesis
  • 18. Definir un “Steady State” Resultado medible del sistema que indica ‘salud’ (combinación de Business + Ops) Netflix ‘stream starts per second’, comparando dos semanas (rojo = semana actual, negro = semana pasada)
  • 19. Run Experiment Cómo practicar Chaos Engineering Scale or Squash Verify Results Steady State Improve Hypothesis
  • 20. Cómo diseñar un Experimento • Identificar los top servicios/componentes críticos. • Elegir un componente y entenderlo. • ¿Qué puede salir mal? ¿Sabemos que pasará si esto rompe? • Seleccionar el ataque. • Determinar un Blast Radius pequeño. • Determinar métricas adicionales a revisar.
  • 21. Puedes inyectar chaos en cada capa del sistema • Application (CPU, Memory, Disk, I/O) • API (fallbacks) • Cache, Database, Queues (kill topics) • Network (latency, dns, packet loss) • Operating System (kill processes, shutdown, time travel) • Cloud Infraestructure / Bare Metal (región outage)
  • 22. Run Experiment Cómo practicar Chaos Engineering Scale or Squash Verify Results Steady State Improve Hypothesis
  • 24. Simian Army Conjunto de herramientas que ayudan a mantener la nube operando en buena forma. - Apagar servicios aleatoriamente (Chaos Monkey). - Agregar lentitud a la comunicación (Latency Monkey). - Apagar servidores que no sigan mejores prácticas (Conformity Monkey). - Apagar instancias con violaciones de seguridad (Security Monkey). * Simian Army ya no se mantiene activamente. Nueva versión de Chaos Monkey está disponible como herramienta independiente, y las otras funcionalidades se han movido a otros proyectos de Netflix.
  • 25. Chaos Toolkit Simplifica la adopción de Chaos Engineering: - Open API declarativa para crear experimentos de caos. - Muchas extensiones para diferentes herramientas, servicios clouds, monitoreo. - Se integra fácilmente con Pipelines de CI/CD.
  • 26. Gremlin Chaos as a Service: - Utiliza agentes en los hosts o contenedores para realizar ataques. - Se pueden programar ataques utilizando UI, API o CLI. - Provee muchos ataques de caja y se integra con Chaos Toolkit para otros ataques.
  • 27. Run Experiment Cómo practicar Chaos Engineering Scale or Squash Verify Results Steady State Improve Hypothesis
  • 28. Cuantificar otros resultados • ¿Time to detect? • ¿Time to notification? • ¿Time to self healing? • ¿Time to recovery - partial, full?
  • 29. Profundizar en los resultados Resultados del Experimento Porque …Porque …Porque …Porque …
  • 30. Run Experiment Cómo practicar Chaos Engineering Scale or Squash Verify Results Steady State Improve Hypothesis
  • 31. Scale or Squash ¿Encontraste un problema? Buen trabajo. Para el experimento. Sino incrementa el Blast Radius.
  • 32. Run Experiment Cómo practicar Chaos Engineering Scale or Squash Verify Results Steady State Improve Hypothesis
  • 33. Chaos Experiment (Demo) Hypothesis No hay impacto en el cliente. Attack Condition Duration: 180s (4 min) Attack: Shutdown containers Targets: 50% of available containers Collect Data Latencia y Disponibilidad (Vegeta) Reinicios del Container (Prometheus) Logs de la Aplicación (Kubectl) Result Latency: ? Customer Impact: ? Otros Hallazgos: ??
  • 34. Introducir caos de manera controlada conduce a tener sistemas cada vez más resistentes.
  • 35. ¿Cómo puedes continuar tu camino en Chaos Engineering? http://gremlim.com/slack
  • 36. Ejecuta tu primer Chaos Day Día dedicado de todo el equipo para enfocarse en utilizar Chaos Engineering para revelar problemas, e implementar resilencia en los sistemas. https://www.gremlin.com/community/tutorials/planning-your-own-chaos-day/
  • 37. Revisa las siguientes fuentes Lista curada de recursos sobre Chaos Engineering https://github.com/dastergon/awesome-chaos-engineering Principles of Chaos Engineering https://principlesofchaos.org Chaos Engineering book https://www.oreilly.com/library/view/chaos-engineering/9781491988459/