Avoid partition skew on BigQuery
What is partition skew?
- 특정컬럼을 기준으로 데이터를 그룹화할떄, 어떤 값이 다른 값들보다 훨씬 더 자주 발생하여 해당 파티션 크게 되는 문제 이를
data skew
라고함 - 이로 인해 오버사이즈 된 파티션을 처리하는 slot 다운이 될 수 있음
- example
- 인도라는 국가가 미국이나 페루보다 1만배 더 많이 나타나는 데이터를 국가열을 기준으로 그룹화하거나 조인하는 쿼리를 실행하면, 인도가 속한 파티션이 너무 커져서
resourceExceeded
에러가 발생 할 수있음
Continue reading
gRPC
Continue reading
BigQuery란
Continue reading
Chatper 6. Architecture of BigQuery
Continue reading
Continue reading
Chatper 1. What is Google BigQuery
Continue reading
Continue reading
BigQuery is two services in one
- Fast SQL Engine
- Managed storage for datasets
- serverless service
- fully managed
Continue reading