[Datalakehouse] Data Lake vs. Data Lakehouse
in Datalakehouse on Datalakehouse
Introduction
- datalake와 datalake house 모두 빅데이터와 함꼐 동작하고, Data Science/Data Analytics을 지원하고 처리하도록 함
- 아래는 이 2가지 솔루션에 대해 이론적 배경을 제시하고 각각의 장단점을 설명
[DE] BigQuery Interview Questions
in IT Interview on It, Interview
BigQuery Interview Questions
[BigQuery] Avoid partition skew on BigQuery
Avoid partition skew on BigQuery
What is partition skew?
- 특정컬럼을 기준으로 데이터를 그룹화할떄, 어떤 값이 다른 값들보다 훨씬 더 자주 발생하여 해당 파티션 크게 되는 문제 이를
data skew
라고함 - 이로 인해 오버사이즈 된 파티션을 처리하는 slot 다운이 될 수 있음
- example
- 인도라는 국가가 미국이나 페루보다 1만배 더 많이 나타나는 데이터를 국가열을 기준으로 그룹화하거나 조인하는 쿼리를 실행하면, 인도가 속한 파티션이 너무 커져서
resourceExceeded
에러가 발생 할 수있음
[DE] Data Engineering Interview Questions
in IT Interview on It, Interview
Data Engineering Interview Questions
[k8s] Top 75 Kubernetes Questions and Answers
in Kubernetes on K8s, Gateway
Specifying a Disruption Budget for your appliation
PodDisruptionBudget(PDB)
- k8s에서 사용되는 리소스 관리 도구중 하나로. cluster의 안정성을 유지하기 위해 pod의 중단을 제어하는데 사용
- pod update나 유지보수와 같은 이유로 중단되는 상황을 관리
- 해당 도구를 사용하면 예상치 못한 상황에서 영향을 최소화 가능
- 사용자가 pod가 안정적으로 업데이트 되고, 서비스 가용성이 유지되도록 보장
- PDB정의할때 아래와 같은 속성들을 지정
- spec.minAvailable: PDB에 의해 지정된 파드 중 최소한으로 유지되어야 하는 파드의 수입니다. 이 값을 설정하면 업데이트 중에 최소한으로 유지되어야 하는 파드의 수를 지정할 수 있습니다.
- spec.maxUnavailable: 동시에 중단될 수 있는 파드의 최대 수를 나타냅니다. 이 값은 파드 업데이트 중에 클러스터에서 동시에 중단될 수 있는 파드의 최대 수를 지정합니다. ``` apiVersion: policy/v1 kind: PodDisruptionBudget metadata: name: example-pdb spec: minAvailable: 2
[DE] Functional Programming in Data Engineering with Python — Part 1
in DataEngineering on De
Functional Programming in Data Engineering with Python — Part 1
[DE] DataEngineering Health Pipeline
in DataEngineering on De
How to Design and Maintain a High-Performing Data Pipeline(feat. agoda tech)
- 데이터 파이프라인은 다양한 원천으로부터 목표시스템까지 data flow를 관리하는데 필수적인 요소이다. Agoda BI-Infra-Ops 팀은 데이터 파이프라인의 설계, 모니터링 및 품질 보장을 위한 모범 사례에 대한 포괄적인 가이드를 제시했습니다.
[Datalakehouse] Iceberg vs Dremio
in Datalakehouse on Datalakehouse
Iceberg vs Dremio
[k8s] Top 75 Kubernetes Questions and Answers
in Kubernetes on K8s, Gateway
Top 75 Kubernetes Questions and Answers
[DE] DataEngineering -The Top 3 SQL Skills Needed to Get to the Next Round
in DataEngineering on De, Datafabric
The Top 3 SQL Skils Needed to Get to the Next Round
[Architecture] What are Web Services?
in Architecture on Architecuter, Web
What are Web Services? Architecture, Types Example
- Web Service는 WWW에서 client와 service application간의 통신을 전파하기 위한 표준화된 수단. 특정한 작업을 수행하기 위해 설계된 소프트웨어
[Architecture] What is an API Gateway?
in Architecture on Architecuter, Web
Advanced and Scalable web Application Architecture
webapp의 아키텍처는 진화 중. 조직은 이렇나 변화를 사전에 모니터링하고 아키텍처를 그에 맞게 재조정 해야함.
[Architecture] Advanced and Scalable Web App
in Architecture on Architecuter, Web
Advanced and Scalable web Application Architecture
webapp의 아키텍처는 진화 중. 조직은 이렇나 변화를 사전에 모니터링하고 아키텍처를 그에 맞게 재조정 해야함.
[BigQuery] gRPC 개요
gRPC
[Devops] Jenkins Pipeline
in DevOps on Devops, Cicd, Jenkins
Jenkins Pipeline
[Devops] Jenkins
in DevOps on Devops, Cicd, Jenkins
Jenkins Item(project)의 종류
[Devops] Jenkins
in DevOps on Devops, Cicd, Jenkins
Jenkins를 통한 Pipeline
[Network] Shared VPC
in Google Cloud Platform on Network
VPC 및 Shared VPC
[Network] VPC Peering
in Google Cloud Platform on Network