[HEVC] 비디오 영상 포맷 - (1) 영상 취득

표준 비디오 코덱(e. HEVC)은 인코더와 디코더로 구성된다.

  • 인코더: 디지털 영상들의 해상도와 시간 길이에 비례하여 늘어나는 데이터의 표현량을 줄인다.
  • 디코더: 압축 스트림(Stream)만으로 양질의 영상을 복원한다.

 

카메라로터 취득한 영상이 디스플레이가 되기까지 거치는 과정은 다음과 같다.

  1. 카메라로부터 영상 취득
  2. 저장, 전송 등을 이해 인코더로 압축하여 압축 스트림 형태로 변환
  3. 압축 스트림은 디코더의 복원 과정을 거쳐 디스플레이할 수 있는 형태로 변환

이제 카메라와 같은 영상 취득 장치로 영상 신호를 취득하는 물리적인 원리와 과정에 대해 이해해보자. 

 자연계는 연속적이지만, 신호를 계측·표현·저장하기 위해서는 목적에 따라 적당한 정확도를 선택하여 이산적으로 표현할 필요가 있다. 예를 들어 수영시합의 경우 ms(1/100초) 단위로 기록한다. 좀 더 세밀한 단위를 사용할 수록 구분할 수 있는 시각과 시간 길이들의 경우가 많아지는 반면, 표현을 위해 사용하는 시간의 자릿수가 많아진다는 단점이 있다.


영상의 이산 표현

동영상은 일련의 정지 영상의 나열이다. 그러나 사람의 눈과 같은 시각 인지 체계(Human visual system)은 시간 도메인에서 저대역 통과 필터(LPE: Low Pass Filter)의 특성을 가지고 있어, 정지영상들을 연속적으로 보면 움직이는 것처럼 보인다.

즉, 사람은 1/30초 단위의 이상 도메인에서 표현되는 것을 관찰하는 것과 연속 도메인을 보는 것 사이의 큰 차이가 없다.

따라서 '시간 도메인에서의 샘플링 = 시간 도메인에서의 데이터 압축표현'으로 해석할 수 있다. 이를 이용해 동영상을 표현할 때는 시간의 간격을 일정하게 하여 연속적인 프레임을 재생하는 이산 표현이 가능하다

사람의 시각 인지 체계는 1/30초 단위 영상을 연속적이라고 인식한다. 따라서 동영상은 시간을 이산 도메인으로 표현한 것이다.

[보충 설명] 눈이 LPF의 특성을 가진다?
저대역 통과 필터(LPF: Low Pass Filter)는 이름 그대로 "낮은 주파수(Low)의 신호만 통과(Pass)시키고, 높은 주파수의 신호는 걸러내는 필터"를 말한다. 이를 이용하면 고주파(변화가 아주 빠르고 날카로운 부분. (노이즈, 급격한 경계선 등))를 걸러내고 저주파(변화가 느리고 완만한 부분)만 유지할 수 있다.
따라서, 눈이 LPF의 특성을 가진다는 것의 의미는 아주 빠르게 깜빡이거나 변하는 것(고주파)을 우리 눈이 따라가지 못하고, 그 사이를 뭉개서 부드러운 연속 동작(저주파)으로 인식한다는 뜻이다. 이 덕분에 우리는 뚝뚝 끊어지는 정지 영상들의 연속인 영화나 애니메이션을 보면서 "살아 움직인다"고 느낀다.

3차원 공간과 2차원 디지털 영상

3차원 공간에서 표현되는 영상 신호를 2차원 매체로 투영(Projection)한 후 2차원 영상을 취득한다. 

 

3차원 장면 정보가 눈(카메라)으로 투영되는 과정과 원리

광원에서 발산된 빛은 직접 눈으로 향하는 경우도 있고, 물체에 입사된 경우 물체의 광학적 특성에 따라 물체에 흡수되거나 표면에서 반사되어 다시 사방으로 발산된다. 이렇게 물체에 반사되어 발산된 경우, 일부가 망막(또는 카메라 렌즈)에 투영된다.

 

PSF이 영상 형성에 미치는 영향

안구의 수정체나 카메라 렌즈에 물체가 투영될 때, 이에 입사되는 빛들은 렌즈의 특성에 따라 공간적으로 흩어지는 현상이 일어난다. 이는 PSF(Point Spread Function)으로 나타낼 수 있다.

PSF(Point Spread Function, 점 확산 함수)는 광학이나 이미지 처리 분야에서 아주 중요한 개념으로, 완벽한 점(point) 하나를 찍었을 때, 그게 주변으로 얼마나 퍼지는지(spread) 나타내는 함수(function)이다. 즉, 점처럼 들어온 빛이 센서에 퍼져서 찍히는 현상을 말한다.

비유. 캄캄한 방에서 벽에 아주 정밀한 레이저 포인터를 쐈다고 생각해보자.

  • 이상적인 상황: 벽에 바늘 구멍처럼 아주 작고 선명한 점(point) 하나만 찍혀야 한다.
  • 실제 상황: 렌즈가 더럽거나 초점이 잘 안 맞으면, 그 점이 뿌옇고 흐릿한 원(Blob) 모양으로 퍼져서 보인다.

이때, 그 점이 어떤 모양으로 얼마나 넓게 퍼졌는지를 수학적으로 나타낸 것이 바로 PSF이다.

위 이미지는 PSF 특성이 영상 형성에 미치는 영향을 보여준다. 형성되는 영상은 대부분 렌즈 특성에 의해 흐릿하게 나타난다.

 

영상 센서 한 점에서 상이 형성되는 원리

눈을 비롯한 영상 취득 장치의 영상 센서 내 어떤 한 점에 투영된 빛 에너지는 주변의 여러 점을 근원으로 하는 PSF의 결과가 누적된 것이다.

p 점에서 누적된 빛 에너지는 주변의 여러 점을 근원으로 하는 PSF의 결과가 누적된 것이다. $p_1$점으로 입사된 빛 에너지가 PSF에 의해 PSF_$p_1$로 나타나고, $p_2$ 점으로 입사된 빛 에너지가 PSF에 의해 PSF_$p_2$가 합으로 인해 p값이 결정된다.

 

광전효과의 원리

디지털 영상 취득 장치는 CCD나 CMOS 등의 센서로 이루어진다. 광전효과에 의해 센서에 도달한 빛의 에너지 크기에 따라 발생하는 각기 다른 전자의 양이 센서에 부착된 축전기에 기록되는 형태로 영상 정보를 취득한다. 

어떤 원소의 원자와 자유전자 사이의 인력을 능가하는 에너지를 가지고 있는 파장의 빛이 물질을 향할 경우 에너지를 얻은 자유전자가 이탈하게 되는데, 이러한 현상을 빛이 전자로 바뀌는 광전효과라고 한다.

[용어 설명] CCD vs CMOS
CCD(전하 결합 소자, Charge-Coupled Device): 전하를 한곳으로 모아 순차적으로 변환한다. 화질이 매우 우수하고 노이즈가 적지만, 속도가 느리며 많은 배터리를 소모하고, 가격이 비싸 비효율적이다. 

CMOS(상보성 금속 산화물 반도체, Complementary Mental-Oxide Semiconductor): 화소마다 증폭기가 있어 빛을 전기 신호로 동시에 변환한다. 화질이 다소 떨어지지만 속도가 매우 빠르고 배터리 소모도 적으며 가격도 저렴하다. 요즘에는 노이즈 문제를 해결하여 CMOS 센서가 거의 모든 카메라에 사용된다.
[용어 설명] 광전 효과(Photoelectric effect)
금속 등의 물질에 빛을 비추면 전자가 튀어나오는 현상이다. 빛 에너지 → 전기 에너지로 바꿔주는 과정이다.
1. 금속판(센서)에 전자들이 얌전히 붙어 있다. 
2. 외부에서 빛(광자)이 날아와 금속판을 때린다.
3. 빛의 에너지를 받은 전자가 튕겨져 나온다.
4. 이 튕겨 나온 전자가 흐르면 그것이 곧 전기(전류)가 된다.

 

픽셀로 이루어진 2차원 디지털 영상 도메인

사람이 연속으로 느낄 수 있을 정도로 촘촘하게 배치된 센서 각각에 감지된 빛이 하나의 픽셀을 구성하고, 수많은 픽셀들이 모여 하나의 영상을 구성한다. 

해상도(Resolution)는 장치에서 영상 한 장 or 영상에서 한 프레임(Frame)을 구성하는 픽셀의 수를 의미하며, 상대적으로 높은 해상도를 나루면 높은 품질의 영상을 다룬다고 볼 수 있다.

2차원 이산 공간을 사용하는 디지털 영상은 한 픽셀 당 하나의 대표 밝기 값이 저장되며, 이 과정에서 정보 손실이 일어난다. 하지만 저대역 통과 필터(LPE) 특성으로 인하여 , 사람은 2차원 연속 도메인에서 표현되는 영상과 2차원 이산 도메인에서 표현하는 영상 간 차이를 느낄 수 없다. 


디지털 카메라를 이용한 RGB 영상 취득

디지털 카메라는 입사된 빛을 Bayer 필터를 이용하여 RGB 각 성분으로 분해한다. Bayer 필터는 영상을 구성하는 전체 픽셀에 대해 녹생 성분은 1/2만큼, 적색과 청색 성분은 1/4만큼 샘플링된 위치에서 각각의 에너지 크기를 얻는다. 녹색 성분에 대한 센서를 다른 센서와 달리 2 배로 배치하는 이유는 사람의 시각은 녹색 성분에 더 민감하게 반응하기 때문이다. 

배치 방식에 따라 Bayer 필터는 RGBG, GRGB, RGGB 등으로 분류되며, 이 필터를 이용했을 때 RGB 값이 존재하지 않는 위치는 보간(Inerpolation)한다. 보간은 주변에 참조할 수 있는 값 n개의 평균값을 이용하여 빈 곳을 채우는 것이다.

[💡보완]

베이어 필터는 베이어 패턴(Bayer Pattern)의 규칙이 적용되어 색을 샘플링한다. 베이어패턴의 배치 규칙은 2x2 타일의 반복이며 2x2 세트의 모양은 다음과 같다:
$$\begin{bmatrix} R & G \\ G & B \end{bmatrix}$$
즉, 한 픽셀은 하나의 색 필터만 가지고 있어서 다른 두 컬러 값이 없으므로 주변 픽셀 값을 이용해 보간하는 것이다. 

샘플링과 양자화

디지털 영상 취득 과정을 신호처리의 기본 개념으로 정리하면 다음과 같다:

공간 샘플링 예시

    • 공간 샘플링: 픽셀
      • 연속인 3차원 장면을 카메라로 취득하여 디지털 영상 포맷으로 저장하기 위해 연속 도메인에서 표현되는 영상신호를 2차원 이산 도메인으로 옮겨오는 과정
      • 연속된 이미지를 일정 간격의 격자로 나누어 이산적인 픽셀 값으로 표현하는 과정
      • 대표 값은 평균, 중간값 등 목적에 따라 선택 가능
    • 시간 샘플링: 1/30초마다 영상 취득
    • 양자화(Quantization): 밝기 값을 정해진 개수의 레벨로 표현

이러한 샘플링과 양자화 개념을 통해 디지털 영상 취득 과정을 살펴보자.

  1. 공간 샘플링을 통해 한 장 or 한 프레임의 디지털 영상을 취득한다. 
  2. 공간 샘플링된 디지털 영상 프레임들을 초 당 25~35장 모아 동영상을 구축한다. = 시간 샘플링
    • 2차원 이산 공간 도메인에 이산 시간 도메인이 추가된 디지털 동영상의 모든 픽셀은 $f(x,y,t)$ 형태로 표현
    • $t_1=t_0+\frac{1}{30} \text{sec}$
    • $t_{n+1}=t_n+\frac{1}{30} \text{sec}$($n$은 자연수)

 

다이나믹 레인지(Dynamic range)는 사람이 감지할 수 있는 가장 작은 밝기와 가장 밝은 밝기의 비율이다. 빛에 대한 사람의 다이나믹레인지는 대략 10억배, 소리는 100억 배 정도 된다. 그러나 사람들이 다이나믹 레인지의 모든 자극치를 한 번에 수용할 수 없으므로, 다이나믹 레인지의 최소 자극치와 최대 자극치를 동시에 수용하는 것은 불가능하다. 

사람의 HVS(Human Visual System)는 입사되는 빛의 총 양을 명순응(Light adaptation)과 암순응(Dark adaptation)을 과정을 통해 조절하여 우리 눈이 인식 가능한 범위 내에서 효과적으로 시각 정보를 인식할 수 있도록 한다. 

카메라도 이득 조정(Gain control)라는 영상 전처리 과정을 통해 이와 같이 처리한다. 이득 조정 기능은 입사되는 빛의 양을 적절하게 조절하여, 빛의 밝기 수준을 카메라가 수용할 수 있는 범위 내로 조정하는 기능이다. 

이를 통해 변환된 크기의 밝기 값이 공간 도메인 내 $(x_n, y_m, t_1)$ 위에 투영되어 $f(x_n,y_m,t_1)$ 값으로 표현되고, 이들이 모여 동영상을 구성한다. 

[💡보충]
카메라가 이미지/영상을 만드는 순서는 다음과 같다.
1. 광전효과(센서): 빛(광자)을 받아 아주 미세한 전기(전자)로 바꿈 → 아직 신호가 너무 약함
2. 이득 조정(Gain Control/Amp): 미세한 전기 신호를 증폭(amplification)해서 키움
3. 양자화 (ADC): 증폭한 전기 신호를 숫자로 바꿈(0~255)
3. 영상 처리(ISP): 색을 입히고(디모자이킹) 보정해서 저장

 

디지털 영상 도메인은 이득 조정한 밝기 값을 다시 구간 별 대표값으로 양자화한다. 각 구간, 즉 비트의 수에 따른 변화는 다음과 같다:

  • 비트 수 ↑: 표현할 수 있는 밝기 값은 더 세밀해지지만 데이터 량이 늘어난다.
  • 비트 수 ↓: 데이터 량은 줄어들지만 표현하는 밝기 값의 정밀도(Precision)이 떨어져 사람이 볼 때 영상 품질이 저하된다.

이러한 특성들을 고려했을 때, 최대한 효과적인 다이나믹 레인지를 포함하면서 데이터 량을 최소할 수 있도록 하는 8비트 레벨이 지금 가장 많이 사용된다. 흘백 영상은 8비트, RGB 컬러 영상은 각 컬러 채널당 8비트 즉 24비트가 한 픽셀을 표현할 때 사용된다. 

양자화는 먼저 비트 수에 따라 구간을 설정하고, 구간별 대표값으로 양자화하며 이루어진다.