신뢰성 / SRE
신뢰성 / SRE
신뢰성은 “장애가 일어나지 않게 한다"가 아니라 **“장애를 전제로 설계한다”**는 관점입니다. 노드는 죽고, 배포는 실패하고, 트래픽은 예측을 벗어납니다. 이 카테고리는 그런 상황에서도 사용자가 영향을 덜 받게 만드는 설계와 운영 관행을 다룹니다.
핵심 어젠더
- 고가용성과 장애 도메인 분산 (zone/node spread, PodDisruptionBudget)
- 점진적 배포 전략 (rolling / canary / blue-green)
- 장애 복구와 DR(재해 복구) 전략
- 카오스 엔지니어링 (의도적 장애 주입으로 가정 검증)
- 용량 계획과 부하 대응