karpenter 3

카펜터 v0.27 to v0.32 업그레이드 작업 내역 공유

AWS 카펜터 v0.27 to v0.32 업그레이드 작업 내용을 공유합니다. 작업하면서 장애도 있었고 실수도 있어 아마도 다른 분들에게 도움이 될 것 같습니다. 업그레이 작업을 하게된 이유는 카펜터 Spot 노드 최적화가 v0.34부터 지원하기 때문입니다. 24년 10월 기준 카펜터 최신 버전은 v1.1.0 인데, 바로 최신 버전으로 업그레이드 하고 싶었는데, provisioner, awsnodetemplte 등 기존 자원에 대한 dual support가 필요하여 v0.32 으로 먼저 업그레이드 했습니다. 기존 현황입니다. (eks_dive-dev:karpenter)dev$ helm lsNAME NAMESPACE REVISION UPDATED ..

Karpenter CoreDNS on Spot Instance 장애

이번 포스트에서는 최근에 발생한 CoreDNS 장애 관련 내용을 공유합니다. 당연한 것들인데 새롭게 배운 것들이 많습니다. Karpenter, CoreDNS 사용하는 분들에게 참고가 되었으면 합니다. 장애 현상일부 파드에서 DNS 조회 실패(dns resolve fail) 현상이 발생하였습니다.장애 원인Karpenter 설정에서 노드 그룹을 On-Demand와 Spot 두 가지로 운영하고 있었지만, interruptionQueue 설정이 누락되어 있었습니다. interruptionQueue 설정이 없으면 Spot 노드 종료 시 실행하고 있는 파드가 Graceful Shutdown하게 기존 세션을 종료하고 정상 종료되지 않아 해당 노드에 실행 중인 CoreDNS 파드 등에 문제가 발생합니다. 장애 조치1...

1인 DevOps의 고가용성, 작업 효율을 고려한 AWS 비용 최적화 작업 내역

작년 8월에 레벨스로 이직하고 주로 FinOps 비용 절감 관련으로 일을 많이 했다. 그래서 나름 많이 줄이기도 했었고. (자세한 비용을 공개하기는 어렵고..) 관련 작업 내역을 공유한다. 먼저 1인 DevOps로 3가지 '축'을 항상 고려한다. 인프라 운영은 비용, 고가용성, 작업 효율이 중요 요소다. 일반적으로 비용을 감소하면 장애 위험이 증가하는 경우가 많다. 그리고 비용 관련 리소스를 삭제하는 것은 작업 난이도가 있고(생성은 쉽고 삭제는 어렵다) 시간이 많이 소요된다. 무작정 비용을 줄이거나 반대로 운영 안정성을 증가한다는 명분하에 과도한 인프라 투자는 바람직하지 않다. 적절한 선택이 필요하다. 무엇이든 균형을 잡는 것(중도)이 가장 어렵고 가치있는 일이다. 한자로 가운데 '중'은 바람이 불어도 ..

FinOps 2024.04.29