Sizing – dsgnmstr; Design Monster

새로운 데이터베이스 테이블을 만드는 것은 마치 건물을 짓기 전 부지를 확보하는 것과 같습니다. 얼마나 많은 사람이 살고, 얼마나 많은 가구가 들어올지 예측하여 적절한 크기의 땅을 마련해야 하듯, 테이블 역시 앞으로 얼마나 많은 데이터가 저장될지를 예측하여 최적의 저장 공간을 할당하는 과정이 필수적입니다. 이 과정을 바로 ‘테이블 저장 사이징(Table Storage Sizing)’이라고 합니다. 사이징은 단순히 디스크 공간을 얼마나 차지할지 예측하는 것을 넘어, 데이터베이스의 성능과 안정성에 직접적인 영향을 미치는 매우 중요한 설계 단계입니다.

너무 작은 공간을 할당하면 데이터가 늘어날 때마다 공간을 확장하느라 시스템 성능이 저하되고, 반대로 너무 큰 공간을 할당하면 귀중한 저장 공간을 낭비하게 됩니다. 성공적인 데이터베이스 설계의 첫 단추인 테이블 사이징, 어떻게 하면 데이터의 미래를 정확히 예측하고 최적의 공간을 설계할 수 있을까요? 이 글에서는 테이블의 크기를 구성하는 요소부터 체계적인 산정 방법, 그리고 사이징이 성능에 미치는 영향까지, 테이블 사이징의 모든 것을 상세히 알아보겠습니다.

테이블 사이징이란 무엇인가: 왜 중요한가?

테이블 저장 사이징은 테이블에 저장될 데이터의 양을 미리 예측하여, 해당 테이블이 차지할 물리적인 디스크 공간의 크기를 산정하고 계획하는 일련의 활동을 의미합니다. 이는 데이터베이스 관리 시스템(DBMS)이 데이터를 효율적으로 저장하고 관리할 수 있도록 초기 저장 공간(INITIAL Extent)과 향후 증가될 공간(NEXT Extent)의 크기를 결정하는 과정을 포함합니다. 정확한 사이징은 데이터베이스 시스템의 여러 측면에서 중요한 역할을 합니다.

첫째, 성능 저하를 예방합니다. 만약 초기 공간을 너무 작게 할당하면, 데이터가 증가함에 따라 DBMS는 새로운 공간(익스텐트, Extent)을 계속해서 할당해야 합니다. 이 과정에서 디스크 단편화(Fragmentation)가 발생하여 데이터 조회 시 디스크 헤드가 여러 곳을 방황하게 되므로 I/O 성능이 저하됩니다. 특히, 행(Row)의 데이터가 업데이트되면서 기존 블록에 더 이상 저장할 수 없어 다른 블록으로 이사 가는 ‘로우 마이그레이션(Row Migration)’ 현상은 심각한 성능 저하의 주범이 됩니다.

둘째, 저장 공간의 효율적인 사용을 가능하게 합니다. 불필요하게 큰 공간을 미리 할당하는 것은 당장 사용하지도 않을 땅을 사두는 것과 같아 명백한 자원 낭비입니다. 특히 사용한 만큼 비용을 지불하는 클라우드 환경에서는 이러한 낭비가 직접적인 비용 증가로 이어집니다. 따라서 합리적인 예측을 통해 필요한 만큼의 공간만 할당하고, 향후 성장 추이에 맞춰 유연하게 공간을 확장해 나가는 전략이 필요합니다.

테이블 크기를 결정하는 요소들

테이블의 전체 크기를 정확하게 산정하기 위해서는, 테이블을 구성하는 가장 작은 단위부터 체계적으로 분석하고 계산해야 합니다. 테이블의 크기는 크게 ‘블록 헤더’, ‘데이터 영역’, 그리고 ‘여유 공간’이라는 세 가지 핵심 요소로 구성됩니다.

1단계: 한 행(Row)의 크기 계산하기

테이블 사이징의 가장 기본적인 출발점은 데이터 한 건, 즉 한 행이 차지하는 평균적인 크기를 계산하는 것입니다. 이는 테이블을 구성하는 각 칼럼(Column)의 데이터 타입과 실제 저장될 값의 길이를 기반으로 산정됩니다.

고정 길이 데이터 타입: CHAR, NUMBER, DATE 와 같이 항상 고정된 크기를 차지하는 데이터 타입입니다. 예를 들어, CHAR(10)은 실제 데이터가 3글자이더라도 항상 10바이트의 공간을 차지합니다.
가변 길이 데이터 타입: VARCHAR2, NVARCHAR2 등 실제 저장되는 데이터의 길이에 따라 차지하는 공간이 변하는 타입입니다. VARCHAR2(100)에 ‘abc’라는 3글자만 저장되면, 실제 데이터 길이인 3바이트와 길이를 나타내는 정보(1~2바이트)가 추가로 사용됩니다.
NULL 값: NULL 값 역시 약간의 공간(보통 1바이트)을 차지하여 해당 칼럼이 비어있음을 표시합니다.
행 오버헤드: 이 외에도 각 행은 자신의 정보를 관리하기 위한 약간의 오버헤드(행 헤더 등)를 추가로 필요로 합니다.

따라서 한 행의 평균 크기는 (각 칼럼의 평균 길이 합계) + (행 오버헤드) 로 계산할 수 있습니다.

2단계: 블록(Block)에 담기는 행의 수 계산하기

데이터베이스는 디스크와 I/O를 수행하는 기본 단위를 ‘블록(Block)’ 또는 ‘페이지(Page)’라고 합니다. 이 블록의 크기는 DBMS마다 다르지만 보통 2KB, 4KB, 8KB, 16KB 등으로 설정됩니다. 하나의 블록에는 여러 개의 행이 저장되는데, 이 블록 전체를 데이터로만 채울 수는 없습니다.

블록 헤더: 각 블록은 자신을 관리하기 위한 정보(블록 주소, 트랜잭션 정보 등)를 담는 헤더 공간을 필요로 합니다.
여유 공간 (Free Space): 블록 내에는 향후 데이터가 수정(UPDATE)되어 길이가 늘어날 경우를 대비한 여유 공간을 미리 남겨두게 됩니다. 이 비율은 PCTFREE 와 같은 파라미터를 통해 조절할 수 있습니다. PCTFREE를 20으로 설정하면, 블록의 20%는 향후 UPDATE를 위한 공간으로 남겨두고 80%만 새로운 데이터를 삽입(INSERT)하는 데 사용됩니다.

결과적으로, 하나의 블록에 저장 가능한 행의 개수는 ((블록 크기 - 블록 헤더 크기) * (1 - PCTFREE/100)) / (한 행의 평균 크기) 라는 공식을 통해 예측할 수 있습니다.

3단계: 최종 테이블 크기 산정하기

마지막으로, 미래의 데이터 건수를 예측하여 최종적인 테이블 크기를 산정합니다. 초기 데이터 건수와 함께, 향후 1년 또는 3년 뒤까지의 월별 또는 연별 데이터 증가율을 비즈니스 담당자와 협의하여 최대한 현실적으로 예측하는 것이 중요합니다.

총 필요 블록 수 = (미래 예측 데이터 건수) / (블록 당 저장 가능 행 수)
최종 테이블 크기 = (총 필요 블록 수) * (블록 크기)

이 계산에 더하여, 테이블과 항상 함께 생성되는 ‘인덱스(Index)’의 크기도 별도로 산정하여 전체 필요한 공간을 계획해야 합니다. 인덱스 역시 테이블과 유사한 방식으로 인덱스 키의 크기와 데이터 건수를 기반으로 크기를 산정할 수 있습니다.

사이징 실패의 결과: 성능 저하의 주범들

테이블 사이징에 실패했을 때 발생하는 문제는 단순히 공간의 낭비나 부족에 그치지 않고, 데이터베이스 성능에 직접적이고 심각한 악영향을 미칩니다.

언더사이징(Undersizing)의 문제

초기 공간을 너무 작게 예측하고 할당하는 ‘언더사이징’은 연쇄적인 성능 저하를 유발합니다.

익스텐트 증가와 단편화: 데이터가 할당된 공간(INITIAL 익스텐트)을 다 채우면, DBMS는 추가 공간(NEXT 익스텐트)을 할당합니다. 이 과정이 반복되면 하나의 테이블 데이터가 디스크 상의 여러 곳에 흩어진 조각(익스텐트)으로 존재하게 됩니다. 이를 ‘단편화’라고 하며, 테이블 전체를 스캔하는 쿼리의 성능을 크게 저하시킵니다.
로우 마이그레이션 (Row Migration): PCTFREE로 확보된 여유 공간마저 부족해질 정도로 행의 데이터가 크게 증가하면, 해당 행은 원래 있던 블록을 떠나 새로운 블록으로 통째로 이주합니다. 원래 위치에는 이사 간 주소만 남겨두게 되는데, 이 행을 조회할 때마다 원래 주소를 찾아갔다가, 다시 새로운 주소로 찾아가는 2번의 I/O가 발생하여 성능이 저하됩니다.
로우 체이닝 (Row Chaining): 하나의 행 크기가 너무 커서 애초에 하나의 데이터 블록에 다 담기지 못하고, 여러 블록에 걸쳐서 저장되는 현상입니다. LONG이나 LOB과 같은 큰 데이터를 저장할 때 발생하며, 이 행을 읽기 위해서는 항상 여러 블록을 읽어야 하므로 성능에 좋지 않습니다.

오버사이징(Oversizing)의 문제

필요 이상으로 큰 공간을 할당하는 ‘오버사이징’은 주로 자원 낭비와 관리의 비효율을 초래합니다.

저장 공간 낭비: 사용되지 않는 거대한 빈 공간은 그 자체로 비용 낭비입니다. 특히 고가의 고성능 스토리지(SSD 등)를 사용하는 경우, 이는 심각한 자원 낭비로 이어집니다.
백업 및 관리 시간 증가: 테이블의 크기가 크면, 전체 백업을 수행하는 데 더 많은 시간과 자원이 소모됩니다. 또한, 테이블 전체를 스캔하는 관리 작업(통계 정보 생성 등)의 효율성도 떨어지게 됩니다.

현대적 접근법과 사이징 전략

전통적인 방식의 정밀한 사이징은 여전히 중요하지만, 클라우드 데이터베이스와 스토리지 기술의 발전은 사이징에 대한 접근 방식을 일부 변화시키고 있습니다.

많은 클라우드 기반의 관리형 데이터베이스 서비스(Managed DB Service)는 ‘자동 확장(Auto-Scaling)’ 기능을 제공합니다. 이는 테이블의 데이터가 증가하여 공간이 부족해지면, 시스템이 자동으로 스토리지 공간을 증설해주는 기능입니다. 이 덕분에 과거처럼 초기 사이징 실패가 시스템 장애로 직결되는 위험은 많이 줄어들었습니다.

하지만 자동 확장이 모든 것을 해결해주는 것은 아닙니다. 자동 확장은 단편화나 로우 마이그레이션과 같은 내부적인 성능 저하 문제까지 해결해주지는 못합니다. 따라서 클라우드 환경에서도 여전히 초기 데이터 로딩과 향후 데이터 증가율을 고려한 합리적인 초기 공간 설정, 그리고 PCTFREE와 같은 내부 파라미터 최적화는 매우 중요합니다. 결국, 최적의 사이징 전략은 초기에는 비즈니스 성장 예측을 기반으로 합리적인 공간을 설계하되, 시스템 오픈 후에는 주기적인 모니터링을 통해 실제 데이터 증가 추이를 분석하고 필요에 따라 공간을 재구성하거나 확장 계획을 수정해 나가는 유연한 접근법이라고 할 수 있습니다.

[태그:] Sizing

데이터의 집을 짓다, 테이블 저장 사이징 완벽 가이드