[DE] DataEngineering - DataOps


DataEngineering


DataOps

DataOps 무엇인가?

  • DataOps(데이터운영)는 DevOps팀과 데이터 엔지니어 및 데이터 과학 역할을 결합하여 데이터 중심 엔터프라이즈를 지원하는 도구, 프로세스 및 조직구조를 제공하는 신흥 분야
  • DevOps에서 얻은 교휸을 데이터 관리 및 분석에 적용
  • DataOps를 효과적으로 배포하면 분석 솔루션 시장 출시 시간을 단축하고, 데이터 품질 및 준수를 개선하며 데이터 관리비용이 절감되는 것으로 나타남
  • 데이터운영은 제품이나 서비스 또는 솔루션이 아니라 방법론 (협업과 자동화를 통해 조직의 데이터 활용을 개선하려는 기술적이자 문화적인 변화)

DataOps 필요성

  • 분석에 필요한 데이터 소스와 종류의 수, 복잡성이 높아지고 있습니다.
  • 기업 내/외부에 분산되어 있는 데이터 소스에 엑세스하기 위해서는 많은 시간과 리소스를 투입해야 하고, 이를 지원하기 위한 새로운 스킬과 도구들이 필요
  • DataOps는 데이터 관리자와 소비자 간의 데이터 흐름을 통합하고 자동화하여 데이터 활용을 개선 및 지원하는 역할을 하며, 데이터 거버넌스 하에서 필요한 곳 어디에서나 데이터를 제공할 수 있고, 누구나 쉽게 엑세스 할 수 있도록 속도와 품질을 높일 수 있음

DataOps 프레임워크란

  • 기술에서 완전한 문화 변화에 이르는 5가지 필수 요소를 결합
    1. DataOps를 가능하게 하는 기술
    2. 주요기술, 서비스 및 프로세스의 지속적인 혁신을 지원하는 적응형 아키텍처
    3. 데이터를 보강하여 정확한 분석을 위한 유용한 컨텍스트 만드는것(지능형 메타 데이터)
    4. 기업의 데이터 관리 및 모델 관리방침에 따라 분석고 데이터 파이프라인을 구축하고 배포할 DataOps방법
    5. 문화와 사람

DataOps의 장점

  • 데이터 보안 및 개인정보 보호, 데이터 사일로 문제, 분산된 데이터 증가에 따른 데이터 관리의 어려움을 극복하는 해결책으로 DataOps가 주목
    1. 실시간 데이터 통찰력 제공
    2. 데이터 과학 애플리케이션의 주기시간을 단축
    3. 팀과 팀원간의 더 나은 커뮤니케이션 및 협업 가능
    4. 데이터 분석을 사용하여 가능한 모든 시나리오를 예측함으로써 투명성을 높임
    5. 프로세스는 재현 가능하도록 구축되록 가능할 떄마다 코드를 재사용
    6. 더 높은 데이터 품질을 제공
    7. 통합되고 상호 운용 가능한 데이터 허브를 만듬 dataops arch

DataOps 프로세스

  1. Raw데이터를 정리하고 일반적으로 셀프 서비스 모델에서 쉽게 사용할 수 있도록 인프라를 개발
  2. 데이터를 엑세슷 할 수 있게되면 데이터를 조정하고 현재 시스템과 통합하는 SW,플랫폼 및 도구를 개발하거나 배포

DataOps 사례

  • MAPR
  • 비즈니스 결과를 개선하기위해 실시간 분석과 운영 애플리케이션을 결합하여 고객이 빅데이터 힘을 활용할 수 있는 컨버지드 데이터 플랫폼
  • Quobole
  • 방대한 양의 정형 및 비정형 데이터에서 가치를 추출하는 클라우드 기반 플랫폼
  • John Snow Labs
  • 데이터 통합, 코드없는 대화형 데이터 검색 및 분석, 협업 데이터 과학 노트북 환경, 대규모 API모델 생산을 특징 Enterprise platform

참고

  • DataOps
  • hitchivantara