딥 네트워크 - 딥러닝 모델 분석/네트웍 통신/카메라 3A 튜닝 분야

딥네트워크의 AI 칩셋중 NPU 칩셋 상용화 투자유치를 위한 사업화 준비 계획 포트폴리오 소개 입니다 ... 본문

Kernel Porting/Linux

딥네트워크의 AI 칩셋중 NPU 칩셋 상용화 투자유치를 위한 사업화 준비 계획 포트폴리오 소개 입니다 ...

파란새 2024. 9. 23. 10:52

딥네트워크의 AI 칩셋중 NPU 칩셋 상용화 투자유치를 위한 사업화 준비 계획

1. 개요

딥네트워크는 LLM(대형 언어 모델)과 같은 인공지능(AI) 알고리즘의 효율적인 추론을 지원하기 위한 NPU(Neural Processing Unit) 칩셋을 상용화하는 것을 목표로 사업을 준비 중이다. NPU 설계의 핵심은 AI 모델에서 빈번하게 발생하는 행렬 곱셈의 병렬 처리를 최적화하여 추론 속도와 전력 효율을 극대화하는 것이다. 특히 Verilog Tool을 사용해 하드웨어 설계를 진행하며, AI 알고리즘의 요구사항에 맞는 구조적 최적화가 필요하다.

2. 주요 내용 요약

2.1. 행렬 곱셈의 병렬 처리

AI 모델에서의 행렬 곱셈은 Self-Attention Mechanism과 같은 핵심 연산에 주로 사용되며, 많은 계산 리소스를 요구한다. 특히 Transformer 모델에서는 여러 층에서 반복적으로 발생하는 행렬 곱셈을 어떻게 병렬로 효율적으로 처리할 것인지가 성능을 결정한다.

행렬 곱셈 병렬 처리를 위해 사용되는 대표적인 알고리즘은 GEMM(General Matrix Multiplication) 알고리즘이다. 이 알고리즘은 대규모 행렬 곱셈을 효율적으로 처리하기 위해 각 행렬을 작은 블록으로 분할하여 병렬 연산을 수행한다.

2.2. 병렬 처리 설계 구조

NPU에서 행렬 곱셈의 병렬 처리를 위해 다음과 같은 설계 구조를 구현한다:

  • PE(Processing Element) 구조: NPU의 핵심은 PE(Processing Element)이다. 각 PE는 부분적으로 분할된 행렬 블록을 병렬로 처리하는 유닛이다. 다수의 PE가 동시에 행렬 곱셈을 수행하며, 이를 통해 병렬성을 극대화한다.
  • 데이터 재사용 및 캐싱: 연산에 사용되는 데이터는 메모리에서 매번 읽어오는 대신 캐시 구조를 통해 재사용한다. 특히 행렬 곱셈의 경우 동일한 데이터가 여러 번 사용되므로, 데이터 전송 병목을 줄이기 위한 온칩 캐시 설계를 통해 성능을 최적화한다.
  • 파이프라인(Pipelining): 각 연산을 연속적으로 수행할 수 있도록 파이프라인 구조로 설계하여 처리 시간을 줄인다. 파이프라이닝은 연산과 데이터 전송을 중첩시켜, 연산이 완료되기 전에 데이터를 미리 준비할 수 있게 한다.
  • SIMD 구조: PE 내에서는 SIMD(Single Instruction, Multiple Data) 방식으로 다수의 데이터에 대해 동시에 동일한 연산을 수행하여 병렬성을 극대화한다. 이를 통해 행렬 곱셈뿐만 아니라 다양한 AI 연산에서 성능을 향상시킬 수 있다.

2.3. Self-Attention Mechanism 최적화

Transformer 모델의 Self-Attention Mechanism은 특히 많은 연산이 필요한 부분이다. 이를 최적화하기 위해서는 다음과 같은 방법이 적용된다:

  • Query, Key, Value 병렬화: Self-Attention 연산은 Query, Key, Value 행렬에 대한 병렬 처리가 핵심이다. 각 Query는 독립적으로 Key와 Value와의 연산을 수행할 수 있으므로, 이를 병렬로 처리할 수 있는 구조로 설계한다.
  • Multi-Head Attention 병렬화: Multi-Head Attention에서는 각 헤드가 독립적인 연산을 수행하므로, 각 헤드를 병렬로 처리할 수 있도록 한다. 이를 통해 Attention 연산의 병목을 줄이고, 연산 성능을 크게 향상시킨다.

2.4. 연산 스케줄링 최적화

연산 스케줄링은 NPU에서 연산 유닛의 유휴 시간을 최소화하는 것이 목표이다. 이를 위해 비동기 처리파이프라인 설계를 통해 연산과 데이터 전송을 동시에 진행한다.

또한, 연산과 데이터 전송의 중첩을 통해 각 레이어의 연산이 완료되기 전에 다음 연산에 필요한 데이터를 미리 전송하여 병목을 줄인다.

2.5. 메모리 사용 최적화

메모리 사용량을 줄이기 위해 Mixed Precision 연산을 적용한다. FP16 또는 BF16과 같은 정밀도를 낮춘 연산을 통해 메모리 사용량을 줄이면서도 높은 성능을 유지한다. 특히, LLM 모델의 대규모 추론에서 메모리 사용 최적화는 매우 중요한 역할을 한다.

3. 상용화 전략

딥네트워크의 NPU 상용화를 위한 전략은 다음과 같다:

  • 칩셋 설계 최적화: Verilog Tool을 사용하여 병렬 행렬 곱셈을 효과적으로 처리할 수 있는 NPU 설계를 완료하고, AI 알고리즘의 요구사항에 맞게 하드웨어 최적화를 지속한다.
  • 칩셋 검증 및 테스트: 설계한 NPU 칩셋의 성능을 검증하기 위해 다양한 AI 모델을 사용한 테스트를 진행하고, 특히 Transformer 기반의 LLM 모델에서 성능을 평가한다.
  • 파트너십 구축: 칩셋 상용화를 위해 대형 반도체 제조업체와의 협력을 통해 제조 공정 및 양산 계획을 수립하고, AI 솔루션 제공 업체와 협력하여 NPU 칩셋의 실제 적용 가능성을 검증한다.
  • 시장 진출 계획: NPU 칩셋이 AI 추론 시장에서 경쟁력을 확보하기 위해 주요 클라우드 업체나 AI 플랫폼에서의 도입을 목표로 한다. 특히, LLM 모델을 지원하는 클라우드 AI 인프라와의 협력을 통해 상용화를 추진한다.

4. 결론

딥네트워크는 AI 알고리즘의 고성능 추론을 지원하는 NPU 칩셋을 Verilog Tool을 통해 설계하고, 병렬 행렬 곱셈과 Self-Attention Mechanism을 최적화하는 구조를 통해 성능을 극대화하고 있다. 이러한 설계는 상용화 단계를 거쳐 AI 칩셋 시장에서 혁신적인 솔루션을 제공할 수 있을 것으로 기대된다.

 

딥네트워크 CEO / 장석원

HP :  010-3350 6509

이메일 :   sayhi7@daum.net