GPU의 동작 원리

왜 현대 컴퓨팅에서 GPU가 중요한가?

과거에 GPU(Graphics Processing Unit)는 단순히 모니터에 영상을 출력하기 위한 보조 장치에 불과했습니다. 하지만 딥러닝, 암호화폐 채굴, 고사양 게임 등 방대한 데이터를 동시에 처리해야 하는 분야가 급성장하면서 GPU는 컴퓨팅 시스템의 주역으로 떠올랐습니다.

CPU가 복잡한 논리 구조를 가진 '천재 수학자'라면, GPU는 단순한 연산을 수천 개씩 동시에 수행하는 '수천 명의 계산원'과 같습니다. 이번 포스팅에서는 GPU의 내부 구조와 동작 원리, 그리고 왜 AI 연산에서 GPU가 필수적인지 심층적으로 분석해 보겠습니다.

1. GPU의 내부 구조: 처리 장치의 집합체

GPU의 가장 큰 특징은 수천 개의 코어가 집합되어 있다는 점입니다. CPU의 코어가 수 개에서 수십 개에 불과한 것과 극명하게 대비됩니다.

1.1. ALU(산술논리연산장치)의 물량 공세

GPU 내부에는 아주 단순한 형태의 ALU가 수천 개 배치되어 있습니다. CPU의 ALU는 복잡한 분기 예측이나 정교한 명령어를 처리하기 위해 비대하게 설계되어 있지만, GPU의 ALU는 오직 '단순 반복 연산'에 최적화되어 크기가 작습니다. 이 작은 ALU들을 묶어 하나의 SM(Streaming Multiprocessor) 단위를 구성합니다.

1.2. 제어 장치와 캐시의 단순화

CPU는 처리 효율을 높이기 위해 거대한 캐시 메모리와 복잡한 제어 장치(Control Unit)를 배치합니다. 반면, GPU는 제어 장치의 비중을 줄이고 그 공간을 연산 장치(ALU)로 가득 채웁니다. 이는 GPU의 목적이 '복잡한 논리 흐름 제어'가 아닌 '데이터 처리량(Throughput) 극대화'에 있기 때문입니다.

2. GPU의 동작 원리: SIMT (Single Instruction, Multiple Threads)

GPU가 데이터를 처리하는 핵심 메커니즘은 SIMT 방식입니다. 이는 CPU의 SIMD(Single Instruction, Multiple Data)를 확장한 개념입니다.

동작 방식: 하나의 명령어를 수많은 스레드(Thread)에 동시에 전달합니다. 예를 들어, 1,000개의 숫자에 각각 2를 더해야 한다면, GPU는 1,000개의 코어에 "2를 더하라"는 명령 하나를 동시에 내려 한 번에 결과를 산출합니다.
스레드 계층 구조: GPU는 수만 개의 스레드를 관리하기 위해 '그리드(Grid) - 블록(Block) - 스레드(Thread)'의 계층 구조를 가집니다. 개발자는 이 구조를 통해 하드웨어 자원을 효율적으로 제어할 수 있습니다.

3. CPU vs GPU: 지연 시간(Latency) vs 처리량(Throughput)

두 장치의 결정적인 차이는 설계 철학에 있습니다.

구분	CPU (Central Processing Unit)	GPU (Graphics Processing Unit)
설계 목표	지연 시간 최소화 (Latency)	처리량 최대화 (Throughput)
코어 수	수 개 ~ 수십 개의 고성능 코어	수천 개의 단순 코어
강점	복잡한 조건문, 순차적인 논리 처리	대량의 데이터에 대한 반복 연산
비유	소수의 정예 특수부대	대규모 보병 사단

CPU는 명령 하나를 최대한 빨리 끝내는 것이 목적이지만, GPU는 조금 늦더라도 한 번에 수천 개의 결과를 내놓는 것을 목적으로 합니다. 그래픽 랜더링이나 행렬 연산처럼 데이터 간 의존성이 낮은 작업에서 GPU의 성능이 압도적인 이유입니다.

4. GPGPU와 현대적 활용: CUDA와 OpenCL

이제 GPU는 그래픽 처리에만 머물지 않습니다. 이를 GPGPU(General-Purpose computing on GPU)라고 부릅니다.

CUDA (NVIDIA): NVIDIA가 만든 병렬 컴퓨팅 플랫폼으로, C/C++ 언어를 사용해 GPU 자원을 범용 연산에 쓸 수 있게 해줍니다. 현대 AI 모델(PyTorch, TensorFlow 등)은 대부분 이 CUDA를 기반으로 동작합니다.
AI 연산의 핵심: 딥러닝의 핵심은 거대한 행렬 곱셈입니다. GPU의 수천 개 코어는 행렬의 각 원소 연산을 병렬로 처리하여 CPU 대비 수십 배 이상의 속도 향상을 가져옵니다.

5. GPU 동작의 병목 현상: 데이터 전송 속도

GPU의 연산 속도는 매우 빠르지만, 치명적인 약점이 있습니다. 바로 PCIe 슬롯을 통한 데이터 전송입니다. 메인 메모리(RAM)에 있는 데이터를 GPU 전용 메모리(VRAM)로 복사하는 과정에서 시간이 소요되는데, 이를 해결하기 위해 최근에는 'NVLink'나 'HBM(고대역폭 메모리)' 같은 기술이 도입되고 있습니다.

하드웨어 이해가 고성능 소프트웨어를 만든다

컴퓨터공학 전공자에게 GPU의 동작 원리를 이해하는 것은 이제 필수 역량입니다. 연산의 특성에 따라 CPU에 맡길 작업과 GPU에 넘길 작업을 구분하는 능력이 곧 소프트웨어의 성능을 결정짓기 때문입니다.

'공부' 카테고리의 다른 글

Embedded 펌웨어 개발의 핵심, 인터럽트(Interrupt) 동작 원리 (0)	2026.05.15
Git Branch의 동작 원리와 효율적인 협업 전략 (Git-flow) (1)	2026.05.06
CPU의 동작 원리 (0)	2026.05.06
반도체 원리와 8대 공정 (0)	2026.05.02

greenbrachio 🦕

GPU의 동작 원리

왜 현대 컴퓨팅에서 GPU가 중요한가?

1. GPU의 내부 구조: 처리 장치의 집합체

1.1. ALU(산술논리연산장치)의 물량 공세

1.2. 제어 장치와 캐시의 단순화

2. GPU의 동작 원리: SIMT (Single Instruction, Multiple Threads)

3. CPU vs GPU: 지연 시간(Latency) vs 처리량(Throughput)

4. GPGPU와 현대적 활용: CUDA와 OpenCL

5. GPU 동작의 병목 현상: 데이터 전송 속도

하드웨어 이해가 고성능 소프트웨어를 만든다

'공부' 카테고리의 다른 글

티스토리툴바

GPU의 동작 원리

왜 현대 컴퓨팅에서 GPU가 중요한가?

1. GPU의 내부 구조: 처리 장치의 집합체

1.1. ALU(산술논리연산장치)의 물량 공세

1.2. 제어 장치와 캐시의 단순화

2. GPU의 동작 원리: SIMT (Single Instruction, Multiple Threads)

3. CPU vs GPU: 지연 시간(Latency) vs 처리량(Throughput)

4. GPGPU와 현대적 활용: CUDA와 OpenCL

5. GPU 동작의 병목 현상: 데이터 전송 속도

하드웨어 이해가 고성능 소프트웨어를 만든다

'공부' 카테고리의 다른 글

관련글

티스토리툴바