e4ds news

분리형 추론

분리형 추론

노타, GPU·NPU 분산 추론으로 AI PC LLM 효율 개선

2026.06.04by 명세환 기자

노타가 AI PC에서 GPU와 NPU를 함께 활용해 대규모언어모델(LLM) 추론 효율을 높이는 기술을 구현했다. 인텔 루나 레이크 기반 AI PC에서 입력 처리와 답변 생성 단계를 나눠 각각 GPU와 NPU에 배치하는 방식이다. 회사 측은 단일 GPU 실행 대비 토큰당 에너지 소비를 약 32% 줄이고 생성 처리량을 약 12% 높였으며, 단일 NPU 대비 첫 응답 지연시간을 약 89% 단축했다고 밝혔다. AI 에이전트 기능이 PC 환경으로 확산되면서 AI PC 경쟁이 개별 칩 성능보다 시스템 차원의 연산 최적화로 확대되는 흐름과 맞물린다.

«
1
»

많이 본 뉴스

[열린보도원칙] 당 매체는 독자와 취재원 등 뉴스이용자의 권리 보장을 위해 반론이나 정정보도, 추후보도를 요청할 수 있는 창구를 열어두고 있음을 알려드립니다.

고충처리인 장은성 070-4699-5321 , news@e4ds.com

Top