본문으로 건너뛰기
신뢰성 / SRE

신뢰성 / SRE

신뢰성은 “장애가 일어나지 않게 한다"가 아니라 **“장애를 전제로 설계한다”**는 관점입니다. 노드는 죽고, 배포는 실패하고, 트래픽은 예측을 벗어납니다. 이 카테고리는 그런 상황에서도 사용자가 영향을 덜 받게 만드는 설계와 운영 관행을 다룹니다.

핵심 어젠더

  • 고가용성과 장애 도메인 분산 (zone/node spread, PodDisruptionBudget)
  • 점진적 배포 전략 (rolling / canary / blue-green)
  • 장애 복구와 DR(재해 복구) 전략
  • 카오스 엔지니어링 (의도적 장애 주입으로 가정 검증)
  • 용량 계획과 부하 대응