[BigQuery] Avoid partition skew on BigQuery

Avoid partition skew on BigQuery

What is partition skew?

  • 특정컬럼을 기준으로 데이터를 그룹화할떄, 어떤 값이 다른 값들보다 훨씬 더 자주 발생하여 해당 파티션 크게 되는 문제 이를 data skew라고함
  • 이로 인해 오버사이즈 된 파티션을 처리하는 slot 다운이 될 수 있음
  • example
  • 인도라는 국가가 미국이나 페루보다 1만배 더 많이 나타나는 데이터를 국가열을 기준으로 그룹화하거나 조인하는 쿼리를 실행하면, 인도가 속한 파티션이 너무 커져서 resourceExceeded에러가 발생 할 수있음

Continue reading

[k8s] Top 75 Kubernetes Questions and Answers

Specifying a Disruption Budget for your appliation

PodDisruptionBudget(PDB)

  • k8s에서 사용되는 리소스 관리 도구중 하나로. cluster의 안정성을 유지하기 위해 pod의 중단을 제어하는데 사용
  • pod update나 유지보수와 같은 이유로 중단되는 상황을 관리
  • 해당 도구를 사용하면 예상치 못한 상황에서 영향을 최소화 가능
  • 사용자가 pod가 안정적으로 업데이트 되고, 서비스 가용성이 유지되도록 보장
  • PDB정의할때 아래와 같은 속성들을 지정
    • spec.minAvailable: PDB에 의해 지정된 파드 중 최소한으로 유지되어야 하는 파드의 수입니다. 이 값을 설정하면 업데이트 중에 최소한으로 유지되어야 하는 파드의 수를 지정할 수 있습니다.
    • spec.maxUnavailable: 동시에 중단될 수 있는 파드의 최대 수를 나타냅니다. 이 값은 파드 업데이트 중에 클러스터에서 동시에 중단될 수 있는 파드의 최대 수를 지정합니다. ``` apiVersion: policy/v1 kind: PodDisruptionBudget metadata: name: example-pdb spec: minAvailable: 2

Continue reading

[DE] DataEngineering Health Pipeline

How to Design and Maintain a High-Performing Data Pipeline(feat. agoda tech)

  • 데이터 파이프라인은 다양한 원천으로부터 목표시스템까지 data flow를 관리하는데 필수적인 요소이다. Agoda BI-Infra-Ops 팀은 데이터 파이프라인의 설계, 모니터링 및 품질 보장을 위한 모범 사례에 대한 포괄적인 가이드를 제시했습니다.

Continue reading

Pagination