[BigQuery] Avoid partition skew on BigQuery

Avoid partition skew on BigQuery

What is partition skew?

  • 특정컬럼을 기준으로 데이터를 그룹화할떄, 어떤 값이 다른 값들보다 훨씬 더 자주 발생하여 해당 파티션 크게 되는 문제 이를 data skew라고함
  • 이로 인해 오버사이즈 된 파티션을 처리하는 slot 다운이 될 수 있음
  • example
  • 인도라는 국가가 미국이나 페루보다 1만배 더 많이 나타나는 데이터를 국가열을 기준으로 그룹화하거나 조인하는 쿼리를 실행하면, 인도가 속한 파티션이 너무 커져서 resourceExceeded에러가 발생 할 수있음

Continue reading

Pagination