임의철 SK하이닉스 부사장이 ‘2025년 제2회 상생포럼 Deep Tech Convergence 네트워킹 데이’ 행사에서 ‘Crushing the token cost wall of LLM Service-Attention offloading with PIM-GPU heterogeneous System’이란 주제로 발표했다. 임의철 부사장은 PIM과 GPU를 함께 써서 어텐션 연산을 메모리 쪽으로 분리 처리함으로써 토큰 길이에 따라 급증하는 비용·지연 문제를 근본적으로 낮춰야 한다고 밝혔다.
*This article is paid content provided to e4ds+ membership members.
You've got free access!
This article is only available for a limited time.
Unauthorized reproduction and distribution of paid articles may result in legal consequences
Read it now for free!
광고를 클릭해 주셔서 감사합니다.
잠시 후 프리미엄 유료 기사를 열람 할 수 있습니다.
e4ds+ 멤버십에 가입하시고 프리미엄 유료 기사를 경험하세요
유료 웨비나, 컨퍼런스, 컨퍼런스 리뷰 콘텐츠 등을 멤버십 특별 할인가격에 이용할 수 있습니다.
PIM(Process In Memory, 지능형반도체)은 저장 작업을 하는 메모리 반도체에 연산 작업을 하는 프로세서 기능을 더한 칩이다. 정부와 업계의 관련 연구는 아직 걸음마 단계다. 지난 13일 서울 코엑스 컨퍼런스홀에서는 PIM인공지능반도체사업단 개최 '2022 PIM인공지능반도체 전략기술 심포지엄'이 올해 처음으로 열렸다.
국내외 AI 반도체 및 데이터센터 등 AI 시장 핵심 인프라에 대한 투자가 촉진되고 있다. 삼성전자는 2021년 메모리 반도체와 AI 프로세서를 하나로 결합한 ‘HBM-PIM’을 지속 발전시키고 있다. SK하이닉스는 AI 추론·학습 성능에 최적화된 차세대 적층형 메모리 ‘HBM3’ 개발에 성공했다. 데이터센터는 빅데이터를 수집·저장·분석할 수 있는 클라우드 컴퓨팅 서비스를 제공하며, AI 모델을 훈련하는 데 적합하다. 국내에서 AI 반도체 개발과 함께 안정적인 인프라 확보를 위한 데이터센터 투자가 가속화되고 있다.
생성형 AI가 촉발한 AI 서버, 데이터센터 인프라 확충으로 인해 SK하이닉스의 HBM이 업계 큰 주목을 받고 있다. 이러한 상황에서 AI 연산에 활용되는 CPU·GPU 성능 발전을 메모리가 따라가지 못하면서 병목현상을 일으키고 있다는 평가가 나오면서 차세대 메모리로의 패러다임 전환 압박이 심화되고 있다.
딥시크의 출현으로 기존 판도에 균열이 발생하고 있다. AI 하드웨어 시장에 HBM 의존도를 낮출 수 있는 새로운 트랜스포머 모델들의 출현이 가속화되면서 빠른 미래 혁신의 흐름에 대응할 필요성이 있어 보인다. 최근 7일 메릴랜드 대학 연구진은 ‘Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach’이란 논문을 발표하며 혁신적인 AI 모델 구조를 제시했다.