이번 포스팅은 데이터 웨어하우스(data warehouse)에 대해 다루겠습니다.
데이터 웨어하우스 필요성
기술의 발달로 다양한 분야에서 데이터 관리 및 처리를 이용하며, 이로 인해 데이터베이스에 저장하는 데이터의 양이 이전보다 크게 증가하였습니다. 데이터베이스의 역할로 데이터의 보관도 중요하지만, 데이터베이스 내의 필요한 데이터를 호출하거나 검색하는 것 또한 중요합니다. 하지만 데이터베이스에 저장된 데이터의 양이 많고, 서로 다른 데이터베이스에서 필요한 데이터를 호출한다면 빠르고 효율적인 작업이 쉽지 않습니다.
기업에서는 늘어난 데이터를 의사 결정에 활용하기 시작했습니다. 하지만 데이터베이스에 저장된 모든 데이터가 의사 결정에 도움을 주는 것은 아니기 때문에, 의사 결정에 도움이 되는 데이터만을 쉽고 빠르게 관리할 필요성이 대두되었습니다.
이와 같은 이유로 데이터 웨어하우스가 등장합니다.
데이터 웨어하우스
데이터 웨어하우스(data warehouse; DW)는 의사 결정에 필요한 데이터를 미리 추출하여, 이를 원하는 형태로 변환하고 통합한 읽기 전용 데이터 저장소 입니다. 이때 정보는 조직 내 서로 다른 다양한 소스에서 집계될 수 있습니다.
즉, 데이터 웨어하우스는 사용자의 의사결정에 도움을 주고, 조직 내 축적된 데이터를 사용자 관점에서 주제별로 통합하여 저장해 놓는 특수한 데이터베이스입니다.
데이터 웨어하우스 특징
-
- 주제지향성(subject oriented)
-
업무 처리가 아닌, 의사 결정에 필요한 주제를 중심으로 데이터를 구성합니다.
-
- 통합성(integrated)
-
여러 데이터베이스에서 데이터를 추출하여 분석, 비교 작업을 수행합니다.
-
- 시계열성(time variant)
-
현재 시점의 데이터 만을 보관 및 유지하는 데이터베이스와 달리, 의사결정에 도움이 될 수 있는 과거의 데이터까지 보관합니다.
-
- 비휘발성(non-volatile)
-
데이터베이스가 트랜잭션 단위로 데이터의 갱신을 수행한다면, 데이터 웨어하우스는 한 시점에 대량의 데이터가 적재되고 갱신이 발생하지 않습니다. 오직 데이터의 loading과 access만이 가능합니다.
-
- OLAP
-
데이터베이스는 온라인 트랜잭션 처리(OLTP) 시스템이라면 데이터 웨어하우스는 온라인 분석 처리(OLAP) 시스템입니다.
-
- 사용자 = 의사결정자
-
데이터베이스는 업무에 처리에 필요한 데이터를 다루기 때문에 실무자를 위한 것에 가깝다면, 데이터 웨어하우스는 의사 결정을 위한 데이터를 다루기 때문에 조직 내 의사결정권자 혹은 데이터 분석가에게 유용합니다.
데이터 웨어하우스 장점
-
분산된 조직 내 데이터를 통합하여 의사결정 지원 시스템(Decision Support System; DSS) 혹은 OLAP에 사용할 수 있습니다.
-
데이터를 주제별, 시간별 등 다양한 관점에서 확인하고 분석할 수 있습니다.
-
데이터 웨어하우스는 데이터베이스의 데이터를 갱신하지 않기 때문에 운영시스템을 보호하고, 로딩 과정의 데이터 정제 및 검증을 통해 양질의 데이터를 효율적으로 검색할 수 있습니다.