[CUDA Study #5] 행렬 곱셈(Matrix Multiplication) 최적화: Shared Memory와 Tiling 기법
딥러닝과 과학 연산의 핵심인 행렬 곱셈($C = A \times B$)은 연산 집약적인 작업인 동시에, 메모리 접근 효율에 따라 성능이 천차만별로 달라지는 작업입니다. 단순히 글로벌 메모리(Global Memory)만 사용해서 구현하면, GPU 연산 코어의 속도를 메모리 대역폭이 따라가지 못하는 ‘Memory Wall’ 현상에 직면하게 됩니다. 오늘...

