CPU와 GPU를 구조부터 이해하면 코드가 달라 보인다

게시 2026/01/29 업데이트 2026/04/19

By wakenhole

5 분읽는 시간

CUDA를 공부하면서 코드 최적화보다 먼저 CPU와 GPU의 구조를 이해해야 한다는 걸 느꼈다. 어떤 연산을 어디에 올려야 하는지, 왜 GPU가 AI 연산에 압도적인지 — 구조를 알면 자연스럽게 이해된다.

두 장치는 근본적으로 다른 목적을 위해 설계됐다.

CPU (Central Processing Unit)

GPU (Graphics Processing Unit)

한 명의 전문가가 순차적으로 처리하는 게 CPU라면, 수천 명의 단순 작업자가 동시에 처리하는 게 GPU다.

명령어 간의 종속성이 핵심 기준이다.

종속적 명령어: 이전 연산 결과가 다음 연산의 입력값이 되는 경우 (R1 = R2 + R3 후 R4 = R1 * R5). 순차 처리가 필요하므로 CPU가 유리하다.

독립적 명령어: 각 연산이 서로 영향을 주지 않는 경우 (이미지 각 픽셀 값 변환 등). GPU가 수천 개 코어로 동시에 처리하면 압도적이다.

하드웨어적으로 CPU와 GPU는 PCI Express 버스로 통신하고, 각각 독립적인 메모리 영역을 쓴다. CPU 메모리에서 GPU 메모리로 데이터를 복사하는 비용도 실제 최적화에서는 고려해야 한다.

A100(Ampere 아키텍처)이 딥러닝의 기준점이 된 이유가 구조에 있다.

메타의 AI 슈퍼클러스터(RSC)는 6,080개의 A100을 InfiniBand 네트워크로 연결해서 운영한다.

GPU 프로그래밍은 하드웨어의 계층 구조를 이해하고 효율적으로 관리하는 과정이다.

메모리 계층: Registers → Shared Memory → L2 Cache → Global Memory

스케줄러가 워프(Warp) 단위로 스레드를 관리하는 방식을 이해하면, 자원 낭비 없는 최적화 코드를 쓸 수 있다. 단순히 라이브러리 쓰는 수준을 넘어서려면 이 구조 이해가 기반이 된다.

CPU와 GPU의 구조적 차이를 명확히 알면, 같은 문제도 어디에 올릴지 판단이 달라진다.

References:

인기 태그