서울신문 검색

[고든 정의 TECH+] 반도체는 붙여서 만드는 게 대세? 업계 표준안 마련한 제조사들

애플은 아이폰 SE3와 아이패드 에어 5세대와 함께 깜짝 놀랄 신제품을 공개했습니다. 바로 M1 울트라를 탑재한 맥 스튜디오입니다. M1 울트라는 두 개의 M1 맥스 칩을 애플의 자체 고속 인터페이스인 울트라퓨전(Ultrafusion)으로 연결해 하나의 칩처럼 만든 것입니다. 울트라퓨전 인터페이스는 칩 사이를 2.5TB/s의 고대역폭으로 연결합니다. 이렇게 여러 개의 프로세서를 묶어 하나의 거대한 프로세서로 만들고 메모리까지 함께 붙이는 것은 최근 프로세서 업계의 새로운 트랜드가 되고 있습니다. 더 높은 성능을 위해 프로세서의 크기와 복잡도는 날로 커지는데, 미세 공정 발전이 이를 따라잡기 어렵기 때문입니다. 애플도 두 개이 칩을 붙이는 방식으로 1140억 개의 트랜지스터를 집적한 괴물 칩을 만드는 데 성공했습니다. 물론 이 방법은 애플만 쓸 수 있는 게 아닙니다. 다른 반도체 제조사 역시 같은 시도를 하고 있습니다. 인텔은 차세대 제온 프로세서인 사파이어 래피즈와 고성능 GPU인 폰테 베키오에서 여러 개의 칩을 하나로 엮은 방식을 사용할 예정입니다. 애플은 독자 인터페이스를 사용했지만, (물론 TSMC 제조인 점을 생각하면 완전한 독자 규격은 아닐 수도 있습니다) 인텔은 모든 제조사가 호환될 수 있는 표준 규격을 생각하고 있습니다. UCIe(Universal Chiplet Interconnect Express) 1.0 규격은 인텔은 물론 삼성, TSMC, AMD, ARM, 퀄컴, 구글, 메타, 마이크로소프트 등 업계의 주요 대기업들이 참여한 칩렛 (chiplet) 인터페이스 표준 규격입니다. UCIe 1.0 규격의 목적은 작은 칩 (칩렛) 사이를 연결하는 고속 인터페이스의 표준 규격을 만들어 서로 다른 제조사에서 만든 칩렛끼리도 쉽게 연결하고 패키징할 수 있게 만드는 것입니다. 칩렛과 칩렛 사이는 매우 가까이 붙어 있는데, 단순히 가까이 붙이는 것 만으로는 고속 데이터 전송이 어렵습니다. 과거에도 하나의 CPU에 두 개 이상의 칩을 넣어 코어 숫자를 늘리거나 GPU, 캐시 메모리를 추가하는 MCM (multi chip module) 패키징 방식은 흔하게 사용되었으나 연결 속도가 느려 하나의 칩처럼 데이터 교환이 빠르게 이뤄지지 않았습니다. UCIe는 이를 극복하기 위한 기술 표준입니다. UCIe는 mm당 최대 1.3TB/s의 고속 인터페이스 표준 규격을 통해 CPU, GPU, I/O, 메모리를 하나의 칩처럼 연결할 수 있습니다. 실용적인 기준에서 현재 반도체 제조 기술로 만들 수 있는 가장 큰 칩은 700-800㎟ 정도입니다. 하지만 UCIe 기술을 사용하면 수천㎟ 크기의 칩도 만들 수 있습니다. 참고로 차세대 제온 스케일러블 프로세서인 인텔 사파이어 래피즈는 400㎟ 크기 다이 네 개를 연결해 인텔 CPU 사상 최대 크기인 1600㎟ 이상을 달성할 계획입니다. 물론 UCIe 규격은 이제 막 발표된 상태로 앞으로 업계 표준이 될지는 미지수입니다. 하지만 가까운 미래에 출시할 고성능 프로세서들은 작은 칩렛을 서로 연결하는 방식인 만큼 인텔, 삼성 TSMC가 서로 방식을 통일한다면 상당한 이점이 있습니다. 파운드리 제조사 입장에서는 고객마다 다른 규격을 만들 필요가 없고 팹리스 반도체 업체에서는 표준 인터페이스에 맞춰 반도체를 설계하면 실제 제조 과정에서 문제가 생길 가능성이 매우 줄어듭니다. 애플처럼 독자 규격을 좋아하는 회사도 있지만, 일반적으로 표준 규격이 있으면 제조사나 제품을 주문하는 고객 모두 이득입니다. 그런 만큼 UCIe 규격의 미래는 밝아 보입니다.

2022-03-10 10:28 나우뉴스

[고든 정의 TECH+] 슈퍼 컴퓨터 시장을 향한 인텔의 복안…CPU와 GPU를 하나로!

지난 몇 년간 인텔은 AMD의 거센 추격과 ARM 기반 서버 칩의 등장, 인공지능 시장에서 엔비디아의 독주로 인해 업계 1위의 위상이 흔들렸습니다. 이 위기를 극복하기 위해 1년 전 취임한 팻 겔싱어 인텔 CEO는 여러 가지 미래 전략과 로드맵을 발표했습니다. 그중 하나는 거대한 반도체 칩을 한 번에 제조하는 대신 여러 개의 칩을 고속 인터페이스로 연결해 하나의 큰 반도체 칩처럼 만드는 기술입니다. 작년에 세부 내용을 공개한 인텔의 사파이어 래피즈(Sapphire Rapids) 제온 스케일러블 CPU는 최대 400㎟ 크기의 다이 4개를 인텔의 고속 인터페이스인 EBIM로 연결하고 여기에 추가로 초고속 메모리인 HBM2E 메모리까지 하나의 패키지에 넣을 수 있습니다. 차세대 GPU인 폰테 베키오 (Xe HPC)는 무려 47개의 타일을 하나로 묶어 트랜지스터 집적도를 1000억개까지 끌어올렸습니다. 한 번에 너무 큰 칩을 제조할 경우 수율이 급격히 낮아지는데다 첨단 미세 공정으로 갈수록 가격이 매우 높아지기 때문에 이렇게 여러 개의 칩을 하나로 묶는 기술이 업계의 새로운 트랜드가 되고 있습니다. 또 반드시 최신 미세 공정을 사용하지 않아도 되는 부분은 구형 공정을 이용해 가격도 절감할 수 있다는 점이 큰 장점입니다. 그런데 CPU나 GPU 모두 여러 개의 타일을 묶어서 만든다면 CPU + GPU 프로세서 역시 제조가 쉬워집니다. 인텔이 새로 공개한 팔콘 쇼어스 (Falcon Shores) XPU는 이런 맥락에서 당연히 등장할 수밖에 없는 제품이라고 할 수 있습니다. 팔콘 쇼어스는 인텔의 x86 CPU와 Xe GPU를 하나로 합친 고성능 및 슈퍼컴퓨팅 프로세서입니다. 물론 현재 판매 중인 인텔 12세대 코어 프로세서 (앨더 레이크) 역시 대부분 내장 GPU를 지니고 있기 때문에 x86 CPU와 Xe GPU의 통합 구조라고 할 수 있으나 팔콘 쇼어스는 서버 및 슈퍼 컴퓨팅 부분에서 처음 도입하는 CPU/GPU 통합 프로세서라는 차이점이 있습니다. 그래 봐야 제온 스케일러블 CPU와 Xe HPC GPU를 하나로 통합한 것에 지나지 않느냐고 반문할 수 있지만, 사실 이 통합이 핵심입니다. 고성능 서버 CPU와 고성능 연산용 GPU는 막대한 양의 데이터를 서로 주고받기 때문에 데이터 및 메모리 병목 현상이 발생하기 쉽습니다.이를 극복할 수 있는 대안 중 하나는 아예 하나의 패키지 안에 CPU, GPU, 메모리를 통합하는 것입니다. 인텔은 팔콘 쇼어스를 통해 전력 대비 성능과 메모리 대역폭을 5배 이상 끌어올릴 수 있다고 보고 있습니다. 물론 이 제품은 목적상 고성능 슈퍼컴퓨팅 및 인공지능 연산용으로 기존의 제온 서버 프로세서를 대체하는 것은 아닙니다. 서버급 CPU와 GPU를 통합하면서 기대할 수 있는 두 번째 이점은 공간 절약입니다. 거대한 서버 CPU와 제법 큰 공간을 차지하는 GPU를 서버용 메인보드에 여러 개 끼워 넣으면 당연히 서버의 부피는 커질 수밖에 없습니다. 아예 메모리까지 하나로 통합한 팔콘 쇼어스 XPU는 기존의 전통적인 CPU + GPU 서버 보다 5배 정도 시스템 밀도를 높일 수 있습니다. 데이터 센터의 크기가 자꾸만 커지는 상황에서 크기가 작은 서버의 등장은 반가운 일입니다. 결국 비용 절감으로 이어지기 때문입니다. 하지만 팔콘 쇼어스는 올해가 아닌 2024년 이후 등장할 예정입니다. 인텔은 최신 20A 이후 공정을 팔콘 쇼어스에 도입할 계획입니다. 인텔은 서버 CPU에서 AMD에 시장을 내주고 있고 엔비디아가 장악한 고성능 GPU 시장에는 진입조차 못하고 있습니다. 다만 전례 없는 수준의 연구와 투자를 병행하고 의욕적인 제품 로드맵을 공개하고 있어 몇 년 후에는 업계 판도가 바뀔 수도 있는 상황입니다. 과연 인텔의 변신이 성공할지 미래가 궁금합니다.

2022-02-26 11:20 나우뉴스

연산과 저장을 한번에…SK하이닉스, 차세대 메모리 반도체 ‘PIM’ 개발

SK하이닉스는 연산 기능을 갖춘 차세대 메모리 반도체인 PIM(Processing-In-Memory)을 개발했다고 16일 밝혔다.PIM은 메모리 반도체에 연산 기능을 더해 인공지능(AI)과 빅데이터 처리 분야에서 데이터 이동 정체 문제를 풀어낼 수 있는 차세대 기술로 꼽힌다. 그간 메모리 반도체는 데이터 저장 역할을 맡고, 사람의 뇌와 같은 기능인 연산(Processing) 기능은 비메모리 반도체인 중앙처리장치(CPU)나 그래픽처리장치(GPU)가 담당한다는 것이 일반적이었다. SK하이닉스는 연산도 할 수 있는 ‘차세대 스마트 메모리’를 꾸준히 연구해왔고, 이번에 첫 결과물을 선보이게 됐다. SK하이닉스는 PIM이 적용된 첫 제품으로 ‘GDDR6-AiM’(Accelerator in Memory) 샘플을 개발했다. 초당 16기가비트(Gbps) 속도로 데이터를 처리하는 GDDR6 메모리에 연산 기능이 더해진 제품이다. 일반 D램 대신 이 제품을 CPU·GPU와 함께 탑재하면 특정 연산의 속도는 최대 16배까지 빨라져 머신러닝, 고성능 컴퓨팅, 빅데이터의 연산과 저장 등에 활용될 수 있을 전망이다. GDDR6의 기존 동작 전압인 1.35V보다 낮은 1.25V에서 구동되며, 데이터 이동을 줄여 기존 제품 대비 에너지 소모는 80%가량 줄어든다. SK하이닉스는 이달 말 미국 샌프란시스코에서 열리는 반도체 분야 세계 최고 권위 학회인 ‘2022 국제 고체 회로 학술회의(ISSCC)’에서 PIM 개발 성과를 공개할 예정이다. SK하이닉스는 최근 SK텔레콤에서 분사한 AI 반도체 기업인 사피온(SAPEON)과 협력해 GDDR6-AiM과 AI 반도체를 결합한 기술도 선보일 계획이다. SK하이닉스 안현 부사장(솔루션 개발 담당)은 “SK하이닉스는 자체 연산 기능을 갖춘 PIM 기반의 GDDR6-AiM을 활용해 새로운 메모리 솔루션 생태계를 구축할 것”이라고 말했다.

2022-02-16 10:12 서울신문

[고든 정의 TECH+] 작년 역대급 실적을 거둔 진격의 AMD. 2022년에도 순항할까?

2017년 라이젠을 내놓으면서 반전의 기회를 마련하기 전까지 AMD는 여러 번 위기를 겪었습니다. 기본적으로 인텔 CPU의 호환칩이 제조가 주력이었는데, 10년 전 내놓은 회심의 대작이었던 불도저 아키텍처 CPU들의 낮은 성능 때문에 시장에서 퇴출당할 위기까지 몰렸습니다. 2006년 인수한 ATI의 라데온 역시 업계 1위인 엔비디아에 밀려 힘을 쓰지 못하는 상황에서 AMD의 미래는 매우 어두워 보였습니다. 하지만 2017년 라이젠 아키텍처를 선보인 이후 성능을 매년 착실하게 올려 결국 인텔을 성능에서 따라잡는 기적 같은 일이 일어났고 GPU 부분 역시 가상화폐 채굴 붐으로 인해 그래픽 카드 가격이 고공행진을 거듭하면서 천덕꾸러기가 아닌 캐시 카우로 거듭났습니다. 여기에 마이크로소프트와 소니의 차세대 콘솔 게임기에 독점적으로 칩을 공급하면서 안정적인 수입을 얻었습니다. 2015년 매출이 전년 대비 28%나 감소한 39억 9100만 달러를 기록했던 AMD는 2018년에는 다시 64억 7500만 달러로 매출을 회복했고 2019년에는 67억 달러, 2020년에는 98억 달러, 2021년에는 164억 달러로 폭풍성장을 기록했습니다. 영업 이익 역시 2019년엔 6억3100만 달러였지만, 2021년에는 36억 달러로 매출보다 더 큰 성장세를 기록했습니다. 인텔이 2019년 720억 달러, 2020년 779억 달러, 2021년 790억 달러를 기록하면서 성장이 거의 정체되었던 것과 상당히 대조적입니다. 이 시기 x86 CPU 수요가 서버와 소비자 제품군 모두 증가했다는 점을 생각하면 AMD가 커진 시장의 대부분을 가져갔다는 점을 알 수 있는 결과입니다. AMD는 올해 사상 최초로 200억 달러 매출을 돌파하면서 성장세를 이어갈 수 있다고 자신하고 있습니다. 최근 AMD의 성장세가 놀랍긴 하지만, 올해는 경쟁사의 강력한 반격과 우호적이지 않은 시장 상황이 변수로 작용할 가능성이 높습니다. 상처 입은 반도체 공룡인 인텔은 작년 취임한 팻 겔싱어 CEO의 지휘 아래 대대적인 체질 개선을 시도하면서 회심의 대작인 12세대 코어 프로세서 (앨더 레이크)를 출시했습니다. 시장의 반응은 매우 호의적입니다. AMD는 3D V 캐시 메모리를 탑재한 신제품을 올해 1분기에 출시하고 올해 하반기에 Zen 4 기반의 신제품을 내놓는다는 계획이지만, 인텔이 지난 몇 년간 그랬던 것처럼 시장을 호락호락 내주지 않을 것이라는 점은 분명합니다. 오랜 세월 사용한 14nm 공정을 벗어나 새로운 미세 공정으로 이전했을 뿐 아니라 아키텍처도 완전히 바꿔 과거처럼 무력하게 당할 이유가 없기 때문입니다. 인텔 역시 올해 하반기에 12세대 코어 프로세서를 개량한 13세대 제품을 투입해 AMD와 치열한 경쟁을 예고하고 있습니다. 그래픽 카드 시장에서는 채굴 붐이 가라앉으면서 가격이 떨어지고 있다는 점이 새로운 변수가 되고 있습니다. 채굴 수요가 한창일 때는 엔비디아 같은 강력한 경쟁자가 있어도 얼마든지 비싼 가격에 팔 수 있지만, 가격이 내려가면 상황이 달라집니다. 여기에 엔비디아는 올해 새로운 그래픽 카드를 투입할 가능성이 높습니다. AMD가 제때 신제품을 내놓으면서 대응하지 못하면 그래픽 카드 시장 매출은 후퇴할 가능성도 있습니다. 설상가상으로 올해 상반기에는 인텔도 그래픽 카드 시장에 새롭게 출사표를 던질 예정입니다. 공교롭게도 선봉장은 과거 라데온 GPU의 개발 책임이었던 라자 코두리입니다. 그래픽 카드 가격이 천정부지로 치솟은 상황에서 인텔이 준수한 성능의 그래픽 카드를 내놓는다면 시장의 반응은 폭발적일 것으로 생각됩니다. 비정상적인 가격 때문에 업그레이드 대기 수요가 엄청나기 때문입니다. 물론 AMD 입장에서는 설상가상인 상황이고 소비자 입장에서는 기대가 되는 상황입니다. 이런 변수에도 불구하고 AMD의 사정이 몰라보게 좋아진 것은 부인할 수 없는 사실입니다. 특히 매출과 영업이익이 많이 증가한 만큼 신기술 개발을 위한 인력과 자금 역시 넉넉할 것입니다. 올해 시장 상황을 낙관할 순 없지만, AMD의 미래가 어둡지 않다고 보는 이유입니다.

2022-02-04 08:55 나우뉴스

[고든 정의 TECH+]올해도 어김없는 AMD vs 인텔 CPU 대전. 노트북 시장의 승자는 누가 될까?

올해 노트북 시장에는 또 한 차례 큰 변화가 예정되어 있습니다. 바로 노트북 시장에서 AMD의 라이젠 6000 시리즈와 인텔 코어 12세대 프로세서가 같이 링 위로 올라갈 예정이기 때문입니다. 매년 경쟁이 치열하긴 했지만, 올해에는 특히 성능을 대폭 높여 노트북 시장에서 주도권을 잡겠다는 의지가 강력합니다. 물론 노트북 시장은 전통적인 인텔 우위 분야이기 때문에 AMD가 챔피언인 인텔의 몫을 차지하기 위해 도전하고 인텔은 점유율을 지키기 위해 방어하는 입장입니다. 우선 도전자인 라이젠 6000 시리즈 (코드명 렘브란트)를 살펴보면 최신 미세 공정을 적용하고도 덩치가 커진 먼저 눈에 띕니다. 라이젠 6000은 7nm 공정으로 제조된 라이젠 4000/5000 시리즈와 달리 더 최신 미세 공정인 6nm 공정으로 제조됐습니다. 만약 다른 변화 없이 미세 공정만 업그레이드했다면 칩의 크기가 작아져야 하지만, 오히려 더 커져서 경쟁자인 인텔 12세대 코어 프로세서 (엘더 레이크)와 비슷한 208㎟에 달합니다. 코어 숫자를 늘린 인텔과 달리 코어 숫자도 8개 그대로이고 아키텍처도 Zen 3를 개량한 Zen 3+인데 이렇게 커진 이유는 내장 그래픽 성능을 대폭 높였기 때문입니다. AMD는 라이젠 6000의 내장 그래픽에 최신 아키텍처인 RDNA2를 적용했습니다. 전 세대 제품과 비교하면 연산 부분과 메모리 대역폭이 1.5배 커지고 L2 캐시 메모리는 2배 늘어났습니다. 그래픽 코어 숫자도 8개에서 12개까지 늘어났고 하드웨어 레이 트레이싱과 이미지 품질을 높이는 피델리티 FX (Fidelity FX) 기능을 지원해 속도뿐 아니라 사용자가 체감하는 그래픽 품질을 개선했습니다. 라이젠 6000은 5000 시리즈 대비 게임 성능이 2배나 높아져 턱밑까지 추격했던 인텔 내장 그래픽을 여유 있게 따돌릴 수 있을 뿐 아니라 보급형 노트북 그래픽 카드인 엔비디아 지포스 MX 450를 앞서는 성능을 자랑합니다. 이런 성능 향상이 가능한 배경에는 DDR5/LPDDR5 메모리가 있습니다. 내장 그래픽의 성능이 독립 그래픽 카드보다 느릴 수밖에 없는 중요한 이유 중 하나는 메모리 병목 현상입니다. CPU와 시스템 메모리를 함께 쓰다 보니 GPU가 아무리 성능이 좋아도 느린 메모리 때문에 제 성능이 나오지 않는 것입니다. 라이젠 6000은 DDR4보다 더 빠른 DDR5 및 LPDDR5 메모리를 적용해 이전보다 더 강력한 GPU를 감당할 수 있습니다. 물론 DDR5/LPDDR5 적용이 가능한 점은 인텔 12세대 코어 프로세서도 마찬가지입니다. 다만 아직 DDR5 메모리가 비싼 만큼 인텔은 DDR4/LPDDR4x처럼 다소 저렴한 메모리도 선택할 수 있게 옵션을 만들었습니다. 인텔 12세대 코어 프로세서의 경우 내장 GPU의 성능 향상 폭은 상대적으로 적을 것으로 예상되기 때문에 DDR4 메모리를 적용해도 내장 그래픽의 성능 제약은 덜할 가능성이 큽니다. 최대 96개의 EU (실행 유닛)을 사용한 Iris Xe 그래픽은 12.2세대로 타이거 레이크 (11세대)에 탑재된 12세대 그래픽을 약간 개량한 수준입니다. 대신 인텔은 CPU에 힘을 줬습니다. 새로 개발한 골든 코브 고성능 코어(P)와 그레이스몬트 고효율 코어(E)의 조합은 사실 데스크톱이 아니라 배터리 사용 시간이 중요한 노트북과 태블릿에서 진가를 발휘할 수 있습니다. 12세대 코어 프로세서가 라이젠과 진검 승부를 벌일 장소로 노트북 시장이 지목되는 이유입니다. AMD의 라이젠 모바일 CPU는 모두 데스크톱에 사용된 Zen 시리즈 코어를 클럭만 낮춰 사용한 것으로 본래 저전력 환경을 염두에 두고 만든 것은 아닙니다. 반면 인텔의 그레이스몬트 고효율 코어는 처음부터 저전력 환경에 초점을 맞춰 개발된 것이기 때문에 태블릿이나 얇고 가벼운 노트북에 더 유리할 것으로 예상되고 있습니다. AMD의 U 시리즈 프로세서는 6nm 공정이기는 하나 거대해진 그래픽 부분을 생각하면 발열 면에서는 오히려 더 불리할 수 있습니다. 2배 강해진 게임 성능에도 노트북 시장에서 결과를 장담하기 어려운 이유입니다. 참고로 인텔 모바일 CPU 중 고성능 노트북 프로세서인 H 시리즈는 최대 6개의 고성능 코어와 8개의 고효율 코어를 탑재해 처음으로 14코어 노트북 프로세서가 될 예정입니다. 코어 숫자를 생각할 때 노트북 CPU 연산 능력은 매우 강력할 것으로 예상됩니다. 중간 성능을 담당하는 P 시리즈는 고성능 코어 6개에 고효율 코어 8개로 숫자는 동일하나 동작 클럭을 낮춰 전력과 발열을 낮췄습니다. 얇은 노트북이나 태블릿에 탑재되는 U 시리즈는 고성능 코어 숫자를 2개로 줄이고 대신 고효율 코어 8개를 넣어 기본 전력 (Base power, 과거 TDP로 불리던 개념)을 9/15W까지 줄였습니다. 과거 AMD의 노트북 시장 점유율은 미미했으나 2019년 1분기에는 10%를 넘어서고 2021년 4분기에는 25%에 육박한 것으로 알려져 있습니다. 라이젠 6000이 이 기세를 끌고 나가 30% 이상 점유율을 가져올지 아니면 인텔이 고효율 코어를 적용한 12세대 코어 프로세서를 대거 투입해 더 이상의 점유율 추락을 막고 챔피언 자리를 지키게 될지 올해 말 결과가 궁금해집니다.

2022-01-07 10:38 나우뉴스

40대 부사장 10명, 30대 상무 4명… ‘뉴삼성’ 파격의 세대교체

삼성전자가 45살 부사장과 37살 상무 등 젊은 리더를 과감하게 전면으로 앞세우면서 ‘뉴삼성’을 이끌어 갈 세대교체를 예고했다. 누구나 능력만 있으면 연차나 직급에 상관없이 성과주의 원칙에 따라 파격 발탁될 수 있다는 신호탄이다. 삼성전자는 지난 7일 대표이사 3명을 교체한 사장단 인사에 이어 9일 정기 임원인사를 단행했다고 밝혔다. 부사장 68명, 상무 113명, 펠로우 1명, 마스터 16명 등 198명이 이번 인사를 통해 승진했다. 삼성전자는 이번 인사부터 부사장·전무 직급을 통합해 부사장 이하 직급체계를 부사장·상무 2단계로 단순화했다. 삼성전자를 이끌 최고경영자(CEO) 후보군으로 분류되는 부사장은 40대에서만 10명이 배출됐다. 특히 소비자가전(CE)과 IT·모바일(IM) 부문이 통합된 세트부문에서 발탁 인사가 두드러졌다. 클라우드, 인공지능(AI) 기술 전문가로 스마트TV 차별화에 성공한 고봉준(48) 세트부문 영상디스플레이(VD) 사업부 서비스 소프트웨어 랩장, 디바이스 음성인식 기술 개발을 주도한 김찬우(45) 세트부문 삼성리서치 스피치 프로세싱 랩장 등이 대표적인 40대 부사장이다. 반도체(DS) 부문에서도 손영수(47) 메모리사업부 상품기획팀 부사장, 신승철(48) 파운드리사업부 영업팀 부사장, 박찬익(49) 미주총괄 부사장 등 40대 부사장이 탄생했다. 삼성전자 관계자는 “앞으로도 부사장은 나이와 연공을 떠나 주요 경영진으로 성장 가능한 임원을 중심으로 승진시키고 핵심 보직에 전진 배치해 ‘미래 CEO 후보군’으로 경영자 자질을 배양할 것”이라고 밝혔다. 30대 상무도 대거 발탁됐다. 소재민(38) 세트부문 VD사업부 선행개발그룹 상무, 심우철(39) 세트부문 삼성리서치 시큐리티 1랩장 상무, 김경륜(38) DS부문 메모리사업부 D램설계팀 상무, 박성범(37) DS부문 시스템LSI사업부 설계팀 상무 등 4명이다. 특히 최연소 신규 임원 승진자인 1984년생 박 상무는 미국 AMD사와 공동개발하는 GPU 설계 완성도 향상에 기여한 점이 높은 평가를 받았다. 다양성과 포용성 제고 차원에서 여성과 외국인 임원 확대 기조도 유지됐다. 여성·외국인 신임 임원 숫자는 지난해 10명에서 올해 17명으로 2배 가까이 증가했다. 여성 부사장은 폴더블폰 사용자경험(UX) 개발을 주도한 홍유진(49) 세트부문 무선사업부 UX팀장, 프리미엄 가전 브랜드 비스포크(BESPOKE)를 이끈 양혜순(53) 세트부문 생활가전사업부 고객경험(CX)팀장이 대표적이다. 삼성전자는 조만간 조직 개편과 보직 인사를 발표할 예정이다.

서울신문

[고든 정의 TECH+] 그래픽 카드도 복고풍? 구형 카드 다시 출시한 엔비디아의 속사정

컴퓨터나 스마트폰 같은 첨단 전자기기는 일반적으로 제품 수명이 짧습니다. 10년 된 자동차나 20년 된 가구와 달리 몇 년만 지나면 성능이 월등히 좋은 신제품이 쏟아져 나오기 때문입니다. 물론 3~4년 된 스마트폰이나 컴퓨터도 문제없이 사용할 수 있지만, 제품 자체는 이미 단종된 경우를 쉽게 볼 수 있습니다. 컴퓨터 부품 중에서는 CPU나 그래픽 카드가 대표적입니다. 그런데 최근에 이런 일반적인 상식에 역행하는 일이 일어났습니다. 최근 엔비디아는 구형 모델인 RTX 2060의 2021년 버전인 RTX 2060 12GB를 다시 공개했습니다. RTX 2060 자체는 2019년 1월에 출시되었으며 RTX 2060의 업그레이드 모델인 RTX 2060 슈퍼는 그해 7월에 생산됐습니다. 엔비디아가 2020년 하반기부터 RTX 3000 시리즈를 내놓았기 때문에 구형 모델인 RTX 2000 시리즈는 지금쯤 단종 수준을 밟으면서 이제는 RTX 4000 제품 소식이 들려오는 것이 일반적인 상황입니다. 상당히 수명이 짧아 보이지만, GPU 기술이 그만큼 빠르다는 이야기이기도 합니다. 그런데 이런 정상적인 제품 주기를 뒤집은 힘은 바로 암호 화폐 채굴 수요입니다. 비정상적인 채굴 수요로 인해 그래픽 카드 가격이 고공 행진을 하면서 현재 RTX 2060은 80만원 이상, RTX 2060 슈퍼는 100만원 이상에 거래되고 있습니다. 정확히 말하면 초기 출시 때보다 몇 배나 껑충 뛴 가격에도 물량이 별로 없는 상황입니다. 극심한 그래픽 카드 품귀 현상을 해결하기 위해 엔비디아는 고육지책을 내놓았습니다. 생산량을 늘리기 힘든 최신 공정인 8㎚ 대신 상대적으로 여유가 있는 구형 공정인 12㎚ 웨이퍼를 이용해 그래픽 카드 생산을 늘리기로 한 것입니다. 대신 메모리 수급은 안정적이므로 메모리 용량을 RTX 2060의 두 배인 12GB로 높였습니다. RTX 2060 시리즈는 모두 TU106 칩 기반으로 108억 개의 트랜지스터를 집적한 고성능 GPU입니다. 재미있는 부분은 RTX 2060 12GB의 스펙이 메모리 용량과 192bit 메모리 인터페이스를 제외하고 사실 RTX2060 슈퍼와 똑같다는 것입니다. RTX 2060 12GB는 2176개의 쿠다 코어와 272개의 텐서 코어, 34개의 RT 코어를 지니고 있는데 이는 RTX 2060 슈퍼와 같습니다. 메모리를 8GB에서 12GB로 늘리고 대신 대역폭은 448GB/s에서 336GB/s로 줄인 게 유일한 차이입니다. 따라서 전체적인 성능은 RTX 2060 슈퍼와 비슷할 것으로 보입니다. 가격은 미정이지만 출시 가격은 RTX 2060의 349달러와 RTX 2060 슈퍼의 399달러 사이가 될 가능성이 높지만, 그래픽 카드 품귀 현상이 지속하는 한 출시 가격보다 훨씬 높은 가격에 판매될 것으로 보입니다. 그래도 PC 업계에서는 물량 공급이 늘어나면서 조금이라도 숨통이 트일 수 있기를 희망하고 있습니다. 그래픽 카드 품귀로 게이밍 PC 소비자들이 컴퓨터 구매나 업그레이드를 뒤로 미루고 있기 때문입니다. RTX 2060의 복귀는 기본적으로 그래픽 카드 품귀 현상 때문이지만, 한 가지 다른 해석도 가능합니다. 바로 새로 그래픽 카드 시장에 뛰어드는 인텔에 대한 견제입니다. 현재 대부분의 게임이 엔비디아의 지포스 시리즈에 최적화된 점을 생각하면 인텔 아크 그래픽 카드는 초반에는 고전을 면치 못할 것으로 예상됐습니다. 하지만 때마침 찾아온 암호 화폐 채굴 수요 덕분에 인텔 아크는 예상보다 더 큰 기대를 받고 있습니다. 채굴 성능은 별로인데 그래픽 성능이 우수하면 단숨에 지포스의 대안으로 떠오를 가능성이 있기 때문입니다. 따라서 엔비디아가 RTX 2060을 시작으로 구형 그래픽 카드를 복귀시키면 매출 증대는 물론 인텔 아크 시리즈에 대한 견제 효과도 얻을 수 있습니다. 지금 당장에는 인텔이 큰 위협이 아니지만, 미래는 장담할 수 없는 만큼 초반부터 적극적인 견제가 필요할 수 있습니다. 내년 상반기에는 인텔의 시장 참여와 RTX 2000 시리즈의 부활로 그래픽 카드 시장이 정상을 찾아갈 수 있을지 궁금합니다.

2021-12-05 09:50 나우뉴스

[고든 정의 TECH+] GPU도 서로 합쳤다…AMD 인스팅트 MI200 시리즈 공개

최근 CPU 업계의 한 가지 트랜드는 한 번에 큰 칩을 만드는 대신 여러 개의 작은 다이(Die, 집적회로 칩)를 서로 연결해 하나의 큰 칩처럼 만드는 것입니다. 제조사들은 프로세서의 성능을 높이기 위해 점점 더 복잡한 구조를 지닌 CPU를 개발하고 있습니다. 여기에 GPU나 각종 컨트롤러 및 인터페이스를 통합한 결과 프로세서의 크기는 최신 미세 공정으로도 감당하기가 부담스러울 정도로 커지고 있습니다. 최신 미세 공정을 사용할수록 가격이 천정부지로 치솟는 점 역시 제조사들에게 부담입니다. AMD는 7nm 공정 CPU부터 아예 CPU 코어 부분을 별도의 작은 칩렛(Chiplet)으로 분리시키고 여기에 14nm 공정으로 만든 I/O 다이를 붙여 CPU를 제조했습니다. 이렇게 하면 패키징 방식이 복잡해지는 단점이 있지만, 대신 꼭 최신 미세 공정을 적용하지 않아도 되는 부분에 저렴한 공정을 사용하고 칩렛을 여러 개 붙이는 방식으로 코어 숫자를 늘릴 수 있다는 장점이 있습니다. 인텔 역시 AMD의 칩렛 방식에 대응해 타일 방식의 멀티 다이 패키징 방식을 개발했습니다. 인텔은 고성능 GPU에서 이 방식을 먼저 적용한 후 소비자용 CPU인 메테오 레이크에 적용할 계획입니다. 그런데 사실 여러 개의 작은 다이를 하나로 합쳐 큰 프로세서를 만드는 방식은 CPU보다 거대한 GPU에 더 적합한 방식입니다. AMD는 최근 발표한 인스팅트 (Instinct) IM200 시리즈에서 두 개의 다이를 고속 인터페이스로 연결해 하나의 GPU처럼 만드는 방식을 도입했습니다.CPU와 마찬가지로 여러 개의 GPU를 사용해서 성능을 높이는 방식은 사실 오래전부터 사용되어 왔습니다. 엔비디아의 SLI, AMD 크로스파이어 기술이 대표적입니다. 하지만 이 방식은 두 개 이상의 GPU가 서로 데이터를 주고받는 과정에서 상당한 성능 손실이 발생합니다. 두 개의 그래픽 카드를 연결하면 성능이 두 배가 되는 것이 아니라 1.7배가 되는 식입니다. 이 단점을 극복하기 위해 그래픽 카드가 아니라 여러 개의 GPU 다이 사이를 직접 연결하는 방식이 필요했습니다. AMD의 인스팅트 IM200 가속기는 290억 개의 트랜지스터를 집적한 GCD 다이 두 개를 고속 인터페이스로 연결해 580억 개의 트랜지스터를 지닌 하나의 거대한 GPU처럼 작동하게 만들었습니다. (참고로 제조 공정은 TSMC의 N6) 덕분에 47.9TFLOPS의 FP32/64 벡터 역산 성능과 95.7TFLOPS의 FP32/64 메트릭스 연산 능력을 지니고 있습니다. 일반 연산 능력에 있어서는 542억 개의 트랜지스터를 하나의 거대한 다이에 집적한 엔비디아의 A100 가속기를 최대 4.9배 넘어선 것입니다. AMD는 인공지능 연산에 중요한 INT8 메트릭스 연산능력도 383TOPS로 경쟁사보다 좀 더 빠르다고 주장했습니다.IM200 시리즈는 8개의 HBM2E 메모리를 128GB를 탑재했으며 최대 3.2TB/s의 엄청난 대역폭을 자랑합니다. AMD는 OAM이라는 새로운 폼팩터를 도입해 4개에서 8개의 IM200 GPU를 1개 혹은 2개의 에픽 CPU와 조합해 사용할 수 있게 만들었습니다. 각각의 GPU는 560W의 전력을 소모하기 때문에 큰 벽돌 같은 대형 쿨러가 필요합니다. IM200 시리즈는 주로 게임을 구동하기 위한 일반적인 GPU가 아니라 2022년 공개할 엑사스케일 슈퍼컴퓨터에 들어갈 고성능 연산용 GPU입니다. 하지만 여기서 개발한 멀티 다이 패키징 기술은 앞으로 차세대 GPU에도 적용될 수 있습니다. 다이 사이를 연결하는 기술의 발전으로 여러 개를 연결해도 하나처럼 사용할 수 있다면 큰 다이를 만들 이유가 줄어들기 때문입니다. 한 번에 큰 칩을 제조할 경우 실패할 가능성도 높아져 수율은 떨어지고 가격은 올라갑니다. 앞으로 여러 개의 다이를 연결한 CPU나 GPU를 보게 될 가능성이 높아지는 이유입니다. AMD 인스팅트 IM 200 시리즈 자체는 일반 소비자가 사용할 일이 없는 서버, 슈퍼컴퓨터, 인공지능 연산 GPU이지만, 앞으로 소비자용 GPU의 발전 방향을 가늠하게 한다는 점에서 주목됩니다. 인텔과 AMD가 고성능 GPU에서 여러 개의 다이를 연결하는 방식을 이미 선보인 만큼 엔비디아의 대응 역시 주목됩니다.　

2021-11-13 10:10 나우뉴스

[고든 정의 TECH+] 인텔의 역작 ‘앨더 레이크’ (12세대 코어 프로세서) 무엇이 달라졌나

CPU 업계 부동의 1위였던 인텔은 2000년대 중반 코어 프로세서로 경쟁자인 AMD를 따돌린 후 2010년대 중반 이후부터 지지부진한 모습을 보였습니다. 삼성전자와 TSMC 같은 경쟁자를 앞서 있다고 호언장담했던 10nm 공정은 결국 2020년대 와서야 본격적으로 양산에 들어갔습니다. 하지만 그러는 사이 AMD는 젠 (Zen) 아키텍처를 적용한 신제품을 내놓으면서 인텔을 턱밑까지 추격했습니다. 라이젠 5000대에서는 게임 성능에서도 우위를 잃으면서 업계 1위의 위치가 흔들렸습니다. 점유율은 여전히 앞섰지만, 성능에서 앞서지 못했기 때문에 점유율을 계속 잃으면서 흔들린 것입니다. 지난 몇 년간 부진의 늪에서 벗어나지 못했던 인텔은 절치부심 구원 투수가 될 새로운 CPU를 개발했고 이제 그 모습을 공개했습니다. 현지 시각으로 11월 4일 공개된 12세대 코어 프로세서 (앨더 레이크, Alder lake)는 오랜 준비한 만큼 확실한 성과를 보여줬습니다. 초기 벤치마크와 리뷰 결과는 인텔이 왕좌를 다시 찾았다는 것을 보여줬습니다. 위기에서 벗어나기 위해 변화가 필요했던 인텔이 앨더 레이크에서 해답을 들고나온 것입니다. 구체적으로 무엇이 달라졌는지 간단히 살펴보겠습니다.인텔 7 인텔에게 엘더 레이크는 상당히 큰 의미가 있는 회심의 일격입니다. 5세대부터 11세대까지 6년을 사용한 14nm 공정에 종지부를 찍고 인텔의 최신 미세공정인 인텔 7 (과거 10nm ESF)을 사용한 첫 번째 데스크톱 CPU이기 때문입니다. 아키텍처는 이미 전 세대인 11세대 코어 프로세서 (로켓 레이크)에서 갈아탔지만, 한 번 더 개선해 성능을 더 높였습니다. 전력 소모량이나 발열이 많아 다소 아쉬운 부분도 있지만, 게임 성능을 포함한 여러 가지 성능이 모두 높아져 경쟁자인 라이젠 5000 시리즈를 능가하고 있습니다. 이렇게 성능이 개선된 것은 고성능 코어 (P core, P는 Performance) 8개와 고효율 코어 8개 (E core, E는 Efficiency)를 사용해 성능 극대화를 꾀했기 때문입니다. 전작인 로켓 레이크가 미세 공정의 한계로 인해 8코어까지만 제조가 가능했다면 인텔 7 공정을 이용한 앨더 레이크는 여유 있게 16코어를 탑재할 뿐 아니라 32개의 연산 유닛 (EU)을 지닌 GPU와 기타 여러 가지 부분을 탑재하고도 다이 (die) 사이즈를 209㎟로 줄이는 데 성공했습니다. 8코어 로켓 레이크가 276㎟나 되는 다이를 지녔던 것과 비교하면 상당히 크기를 줄인 것입니다. 성능이 높은 프로세서라는 이야기는 사실 더 복잡하고 큰 프로세서라는 이야기입니다. 따라서 더 작게 만들 수 있는 미세공정 없이는 성능을 높이는 데 한계가 있습니다. 인텔은 앨더 레이크에서 아키텍처는 물론 미세공정도 개선할 수 있음을 보여줬습니다. 다만 이 점은 경쟁자인 AMD도 마찬가지여서 인텔 4를 적용할 14세대 (메테오 레이크)와 5nm 공정을 적용할 Zen 4 이후 제품과의 불꽃 튀는 경쟁이 예상됩니다. 하이브리드 아키텍처 앨더 레이크가 과거 인텔 CPU와 가장 다른 점은 바로 고성능 - 고효율 코어의 하이브리드 구조라는 점입니다. 높은 성능을 낼 수 있지만 전력 소모량이 많은 고성능 코어와 성능은 낮지만 전력 효율이 높은 고효율 코어를 상황에 따라 교대로 사용하는 것은 모바일 AP에선 흔한 일입니다. 하지만 배터리 수명을 신경 쓸 필요가 없는 데스크톱 CPU 제품에선 굳이 필요하지 않은 기능이라 지금까지 적용한 제품이 없었습니다. 따라서 앨더 레이크가 데스크톱 CPU에서도 하이브리드 아키텍처를 도입한다고 했을 때 상당히 의아하다는 반응이 대세였습니다. 더구나 이런 식으로 16코어를 구성할 경우 32스레드가 아닌 24스레드(16 x 2+ 8)가 되는 점도 약점입니다. 그러나 벤치마크 결과를 보면 앨더 레이크 i9-12900KF의 멀티 스레드 성능은 라이젠 9 5950X를 넘어서고 있습니다. 단점은 전력 소모도 경쟁자를 넘어선다는 점입니다. 전기를 많이 먹어도 일단은 24스레드로 경쟁자의 32스레드를 앞서는 결과를 보여주니 하이브리드 구조의 성능에 대한 의구심은 풀리는 것 같습니다. 남은 의문은 노트북 제품군에서 하이브리드 구조의 효율성입니다. 하이브리드 아키텍처의 진가는 결국 배터리 사용 시간의 제약이 심한 노트북에서 발휘될 것입니다. 데스크톱 버전부터 공개했지만, 사실 앨더 레이크의 진짜 무대는 높은 성능과 긴 배터리 사용 시간의 두 마리 토끼를 잡을 수 있는 노트북 시장일지도 모릅니다. DDR4 vs DDR5, 그리고 윈도우 10 vs 윈도우 11 앨더 레이크는 DDR4 3200과 DDR5 4800을 지원합니다. 하지만 동시에 두 가지 타입의 메모리를 사용할 순 없고 둘 중 하나만 선택해야 합니다. 메모리 속도는 당연히 DDR5가 빠르지만, 아직 DDR5 도입 초기라 가격이 비싸다는 것이 흠입니다. 그런 만큼 앨더 레이크에서 주목을 끌었던 부분 중 하나는 DDR5와 DDR4의 성능 차이입니다. 결론적으로 말하면 게임에서는 차이가 별로 없지만, 일부 작업에서는 의미 있는 차이를 보여줍니다. 게임은 아직 DDR5 메모리에 최적화되어 있지 않은 상태이고 사실 메모리보다 GPU의 영향을 더 많이 받기 때문에 현재는 차이가 별로 없는 것으로 보입니다. 따라서 주로 어떤 작업을 할지를 생각하고 메모리 종류를 선택해야 할 것으로 보입니다. 또 다른 궁금증은 윈도우 10과 윈도우 11의 성능 차이입니다. 일반적으로 운영체제 업그레이드는 CPU에 더 많은 부하를 주기 때문에 속도가 느려지는 경우가 많지만, 윈도우 11의 경우에는 인텔 스레드 디렉터 (Thread Director) 기능에 최적화되어 있어 하이브리드 아키텍처를 제대로 지원할 수 있습니다. 윈도우 11과 앨더 레이크의 출시 시점이 묘하게 겹치는 점을 생각하면 사전에 인텔과 마이크로소프트의 긴밀한 협조가 있었음을 짐작하게 하는 대목입니다. 하지만 아직은 하이브리드 아키텍처를 활용하는 프로그램 자체가 적은 편이라 윈도우 11의 성능상 이점은 크지 않습니다. 다만 이 부분 역시 저전력 코어가 할 일이 많은 노트북 환경에서는 달라질 수 있습니다. 결론적으로 말하면 앨더 레이크는 인텔이 아직 시장을 주도할 기술력을 지닌 회사라는 점을 다시 한번 입증해 보인 제품이라고 할 수 있습니다. 전력 소모나 발열은 다소 아쉽고 제 성능을 끌어낼 수 있는 DDR5나 DDR5 지원 메인보드 모두 비싸다는 점이 흠이지만, AMD의 정신이 번쩍 들게 만들 제품이라는 점은 확실합니다. 앞으로 한동안 CPU 시장은 새로운 아키텍처와 미세공정을 들고나온 인텔과 내년에 들고나올 AMD 간의 치열한 경쟁이 예상됩니다. 결과적으로 최종 승자는 선택의 폭이 넓어진 소비자가 될 것입니다.

2021-11-06 14:20 나우뉴스

[고든 정의 TECH+] 애플의 야수 M1 프로와 M1 맥스…진짜 괴물칩인 이유

애플은 2010년 아이폰4에 탑재한 A4 SoC부터 프로세서를 스스로 디자인하고 외부에 위탁 생산해 왔습니다. 애플 실리콘(Apple Silicon)이라고 불리는 애플 자체 디자인 프로세서는 아이폰/아이패드를 위한 A 시리즈부터 애플워치를 위한 S 시리즈나 에어팟을 위한 H 시리즈, 블루투스와 와이파이를 위한 W 시리즈 등 상당히 다양한 제품들이 존재합니다. 이들 역시 iOS나 맥OS, 앱스토어처럼 애플 생태계의 중요한 부분이라고 할 수 있습니다. 하지만 이 생태계에는 자체 노트북 및 데스크톱 프로세서가 빠져 있었습니다. 애플은 하드웨어 생태계의 남은 빈칸을 채우기 위해 M 시리즈를 개발했습니다. 애플은 우선 맥북 에어, 아이맥, 맥 미니, 아이패드 프로를 위한 M1 프로세서를 먼저 선보였습니다. M1 프로세서는 160억 개의 트랜지스터를 집적해 비교 대상인 인텔의 CPU보다 더 복잡했지만, TSMC의 5nm 공정으로 제조한 덕분에 크기와 전력 소모를 크게 줄이고 성능은 앞설 수 있었습니다. 기대를 뛰어넘는 M1의 성능에 사람들의 관심은 애플의 차기작에 쏠렸습니다. 그리고 마침내 M1 프로와 M1 맥스가 공개됐습니다. M1 프로는 M1과 마찬가지로 TSMC의 5nm 공정으로 제조되었으나 M1의 두 배에 달하는 337억 개의 트랜지스터를 집적했습니다. 덕분에 10 코어 CPU와 16코어 GPU, 16코어 NPU를 하나의 다이 안에 모두 넣을 수 있습니다. GPU만 있는 경우이지만, 엔비디아의 지포스 RTX 3060(GA106)이 133억 개의 트랜지스터를 집적한 것과 비교하면 M1 프로가 얼마나 큰 프로세서인지 알 수 있습니다. 그런데 사실 M1 프로의 GPU 연상능력은 데스크톱 버전의 RTX 3060의 절반 수준인 5.2 TFOLPS에 불과합니다. 하지만 놀라운 기술적 성취인 이유는 칩 전체 전력 소모가 30W 수준이라 맥북 프로에 탑재해도 긴 배터리 사용 시간을 보장하기 때문입니다. 애플 A 시리즈에서 갈고 닦은 저전력 기술이 M1에서 빛을 발했다고 할 수 있습니다. 현재 같은 수준의 전력을 소모하는 프로세서 가운데 그래픽 성능으로 M1과 경쟁할 수 있는 노트북 프로세서는 존재하지 않습니다. 노트북에 별도 그래픽 카드를 탑재하는 순간 이미 전력 소모는 M1 프로를 몇 배 뛰어넘게 됩니다. CPU가 소모하는 전력까지 생각하면 맥북 프로처럼 가볍고 배터리가 오래가는 노트북은 불가능합니다. 그런데 프로세서가 제 성능을 발휘하기 위해서는 메모리도 중요합니다. M1은 LPDDR4x(4266MT/s) 메모리를 사용했지만, M1 프로는 LPDDR5 메모리를 사용해 대역폭을 200GB/s로 높였습니다. 메모리의 정확한 속도는 공개하지 않았지만 256bit LPDDR5 (128bit x2) 메모리를 사용하는 만큼 LPDDR5-6400일 가능성이 높습니다. 한 가지 독특한 점은 두 개의 16GB LPDDR5 메모리 블록이 바로 옆에 붙어 있다는 것입니다. 이는 애플이 M1에서 선보인 통합 메모리(unified memory) 구조로 메모리를 아예 패키지 내부에 탑재해 메모리까지 접근하는 시간을 극단적으로 줄인 것입니다. 그래픽 카드처럼 별도의 GDDR 메모리를 사용하지 않아도 높은 그래픽 성능을 지닐 수 있는 비결 중 하나입니다. 물론 메모리 확장이 불가능하다는 단점이 있으나 32GB나 되는 용량을 생각하면 확장이 필요한 경우는 드물 것입니다. 여기에 CPU + GPU + 칩셋 + 메모리의 크기를 극단적으로 줄여 노트북의 무게와 부피를 줄일 수 있습니다. 다만 200GB/s의 대역폭은 CPU에게는 충분해도 GPU에게는 부족할 수 있습니다. 앞서 예를 든 RTX 3060의 경우 GPU가 360GB/s의 대역폭을 지닌 GDDR6 메모리 8-12GB를 단독으로 사용할 수 있습니다. 그런데 M1 프로는 200GB/s의 대역폭을 CPU와 나눠야 하죠. 사실 CPU와 통합된 내장 그래픽이 제힘을 내기 힘든 이유가 바로 메모리 병목 현상입니다. 그러나 애플은 통합 메모리 구조와 M1 프로 칩 내부에 탑재된 두 개의 거대한 SLC 메모리 블록을 통해 이 문제를 극복한 것으로 보입니다.M1 맥스는 M1 프로의 확장형으로 GPU와 메모리 컨트롤러, 그리고 SLC 블록을 모두 두 배로 늘린 대신 트랜지스터 숫자가 570억 개로 늘어났습니다. 덕분에 GPU 연산 능력도 10.4 TFLOPS로 높아졌고 메모리 대역폭 역시 400GB/s로 늘어났습니다. 메모리 역시 두 배인 64GB를 사용합니다. 하지만 기존의 고성능 GPU보다 100W나 낮은 전력을 소모하면서 같은 성능을 낼 수 있습니다. 비교적 가볍고 배터리도 오래 가는 노트북에서 이런 성능을 지닌 제품을 찾는다면 맥북 프로가 유일한 해답입니다. 이런 일이 가능한 이유는 경쟁자와 달리 5nm 미세공정을 이용해서 CPU와 GPU를 포함한 모든 부분을 하나의 칩에 넣은 SoC 구조를 지니기 때문입니다. 그리고 전력 소모가 적은 LPDDR5만 사용해 주로 DDR4 메모리를 사용하는 노트북 CPU와 전기를 많이 먹는 GDDR6 메모리를 탑재한 노트북 그래픽 카드에서는 불가능한 높은 에너지 효율을 달성했습니다. 물론 이렇게 최신 기술을 많이 사용하면 가격은 올라갑니다. 특히 TSMC 5nm 같은 최신 미세공정 웨이퍼 가격은 상당히 비싸다고 알려져 있습니다. M1 프로의 다이 크기는 246 ㎟로 M1의 두 배 수준이고 M1 맥스는 432㎟으로 5nm 공정 제품 가운데 가장 큰 편에 속합니다. 따라서 제조 단가가 비쌀 수밖에 없습니다. 다만 요즘 가격이 매우 비싼 외장 그래픽 카드 성능의 내장 그래픽을 지니고 있다는 점, 그리고 본래 맥북 프로가 고급형으로 비싸다는 점을 감안하면 큰 문제는 아닐 것으로 생각됩니다. 애플의 M1 시리즈는 애플의 표현대로 야수(beast)와 같은 성능을 지니고 있습니다. 그래픽 성능은 현존하는 x86 CPU의 내장 그래픽으로는 도저히 따라잡을 수 없는 수준이고 게임 콘솔에 탑재된 커스텀 SoC 정도가 성능을 겨뤄볼 수 있는 수준이지만, 전력 소모량이나 크기가 M1 프로와 맥스가 압도적으로 작아 비교 불가입니다. 개인적으로는 애플 M1 시리즈가 기존 프로세서 제조사들을 크게 자극하리라 생각합니다. 애플 실리콘을 탑재한 맥과 맥북이 많이 팔린다는 이야기는 이들의 입지가 좁아진다는 뜻이기 때문입니다. 애플의 야수에 대응하는 인텔, AMD, 엔비디아의 대항마들을 기대해 봅니다.

2021-10-20 11:21 나우뉴스

[고든 정의 TECH+] 애플 아이폰13을 이해하는 열쇠…A15 바이오닉의 비밀

올해 가을에도 변함없이 새 아이폰은 화제의 중심에 서 있습니다. 몇 세대 동안 크게 변하지 않은 외형과 기능 때문에 혁신이 없다고 말하는 이들도 있지만, 애플은 이번에도 여러 가지 신기술을 담았다고 주장했습니다. 아이폰13에서 특별히 강조한 부분은 영상입니다. 사람을 강조하는 인물사진 모드처럼 새로 추가된 시네마틱 모드는 초점을 바꿔가며 영화처럼 영상을 촬영할 수 있습니다. 더 커진 이미지 센서와 A15 바이오닉 칩 덕분에 아이폰13 사용자들은 이전 세대보다 더 뛰어난 사진과 영상을 얻을 수 있습니다. 물론 최신 스마트폰 가운데 아이폰 카메라만 좋아지는 건 아니지만, 애플은 시네마틱 모드가 남다른 사용자 경험을 줄 것이라고 자신하고 있습니다. 하지만 애플이 강조하고자 했던 장점 외에 말하고 싶지 않은 단점도 눈에 보입니다. 바로 A15 바이오닉 칩입니다. 애플은 A15 바이오닉에 대해서 매우 제한적인 정보만 제공했지만, 트랜지스터 집적도가 150억 개에 이른다는 점 하나만으로도 최첨단 반도체 기술의 성취를 보여줬다고 해도 과언이 아닙니다. 목적이 다른 만큼 1:1 비교는 불가능하지만, 다른 프로세서와 비교해보면 얼마나 놀라운 숫자인지 알 수 있습니다. 예를 들어 CPU 프로세서 중 8코어 1세대 라이젠 프로세서의 경우 트랜지스터 숫자가 48억 개 정도였습니다. 그리고 16코어 라이젠 3세대 프로세서의 경우 100억 개 정도로 알려져 있습니다. 최근 공개한 IBM의 서버 프로세서인 Power10의 경우 180억 개, 애플의 전작인 A14 바이오닉이 118억 개, 애플 M1 프로세서가 160억 개 정도입니다. A15 바이오닉의 150억 개는 5nm 공정으로는 스마트폰 AP에 구현 가능한 최대치라고 봐도 무방한 수준입니다. 하지만 트랜지스터 숫자 증가와 달리 성능 향상 폭은 크지 않습니다. 이번 발표에서 가장 재미있는 부분은 과거처럼 전 세대 제품이 아니라 경쟁사 대비 CPU가 최대 30%, GPU가 최대 50% 빠르다고 한 점입니다. 그런데 사실 전 세대인 A14 바이오닉도 스냅드래곤 888보다 더 빨랐습니다. 자세한 수치는 벤치마크 결과가 나와봐야 알겠지만, 이 이야기를 종합할 때 A15와 A14의 CPU/GPU 성능 차이는 크지 않은 것을 알 수 있습니다. A14 바이오닉 벤치마크 결과를 참고하면 경쟁사 대비 CPU가 30% 빠르다는 것은 A15 바이오닉의 성능 향상 폭이 10% 이내라는 점을 시사합니다. GPU 역시 5코어 기준으로 경쟁사 대비 50%가 빠르다는 것은 A14 바이오닉보다 30% 이상 빠르지 않다는 이야기로 4코어 기준으로는 A14와 A15의 성능 차이가 별로 크지 않을 것으로 추정할 수 있습니다. A13 바이오닉 때처럼 20%만 빨랐어도 굳이 설명을 빼놓지 않았을 가능성이 높습니다.애플이 자신 있게 밝힌 부분은 16코어 뉴럴 엔진의 성능입니다. 전작의 11TOPs에서 15.8TOPs로 44% 정도 빨라졌습니다. 덕분에 이미지의 인공지능 처리도 빨라져 4K 영상도 다양한 효과를 추가할 수 있게 된 것으로 보입니다. 디스플레이 엔진과, 비디오 인코더/디코더 역시 성능이 향상되어 120Hz 디스플레이와 4K HDR 60프레임 영상처리가 더 부드러워졌습니다. 물론 애플이 밝힌 것처럼 아직 경쟁자가 A14 바이오닉을 따라잡지도 못한 상태에서 이보다 더 성능이 좋은 A15 바이오닉을 탑재했으니 역대 최강 성능이라는 점은 의심할 필요가 없습니다. 다만 32억 개나 늘어난 트랜지스터가 어디로 갔는지는 궁금해지는 부분입니다. 아마도 그 대답은 44% 정도 좋아진 AI 처리 성능과 디스플레이, 영상, 이미지 처리 능력에 있을 것입니다. 그리고 더 많은 데이터를 빠르게 처리하기 위해 프로세서에 탑재한 캐시 메모리인 시스템 캐시 메모리가 2배(아마도 32MB)로 늘어난 것도 트랜지스터 증가에 크게 기여한 것으로 보입니다.따라서 애플이 A15 바이오닉에서 추구한 목표는 이미 업계 최고인 CPU/GPU 성능보다 사진, 영상, 디스플레이 처리 능력 개선이라고 할 수 있습니다. 스티브 잡스 시절부터 하드웨어 스펙보다 사용자 경험을 더 중시하는 애플의 철학이 반영된 디자인임과 동시에 최근 프로세서 성능을 과거처럼 빠르게 높이기 힘들어진 업계의 사정을 반영한 결과입니다. 사실 CPU 업계의 경우 이미 한 세대 당 성능 향상 폭이 10% 이내인 경우가 비일비재합니다. 프로세서 클럭은 5GHz 선에서 이제 더 높이기 힘들어진 상황이고 코어 숫자를 늘리는 것 역시 공정 미세화가 점점 어려워지면서 벽에 부딪히고 있습니다. 아키텍처를 개선해 성능을 높이는 건 10-20% 정도면 최선을 다한 결과이고 그나마 같은 공정에서는 전력 소모도 함께 늘어납니다. GPU 업계는 이보다 사정이 낫긴 하지만, 과거처럼 빠르게 성능을 높이기 힘들어진 사정은 비슷합니다. 따라서 인공지능을 이용한 이미지 품질 향상이나 실시간 레이트레이싱 지원 같은 새로운 기능을 추가해 사용자들이 체감할 수 있는 변화를 끌어내고 있습니다. 애플의 시네마틱 모드 같은 새로운 기능 추가도 비슷한 관점에서 볼 수 있습니다. 그렇다고 해서 이제 프로세서 성능 향상이 멈췄다는 이야기가 아닙니다. 과거처럼 1년 만에 50%, 100% 성능이 높아지긴 어렵다는 이야기입니다. 사실 매년 10%만 높아져도 몇 세대가 지나면 복리처럼 누적되어 상당히 큰 변화가 나타나게 됩니다. 데스크톱처럼 모바일 CPU와 GPU의 성능 역시 그렇게 진보할 것입니다. 다만 이미 CPU나 GPU 성능이 이미 상당히 높아져 10-20%로는 체감할 수 있는 변화를 주기 힘들어진 상황에서 사용자 경험에 집중하는 애플의 전략은 매우 타당해 보입니다.

2021-09-16 10:45 나우뉴스

[고든 정의 TECH+] 멀티 타일 구조로 변화를 택한 인텔 사파이어 래피즈 프로세서

현재 우리가 사용하는 대부분의 모바일 AP나 데스크톱, 노트북 CPU는 다이(die)라고 부르는 하나의 집적회로 칩으로 구성되어 있습니다. 물론 두 개 이상의 다이를 사용하는 경우도 있는데, CPU + GPU나 CPU + 캐시 메모리, 혹은 두 개 이상의 CPU 다이를 붙여 만든 멀티 칩 패키징 (MCM) 방식의 프로세서들이 있습니다. 과거에는 한 번에 모든 부분을 제조하기 힘들었기 때문에 캐시 메모리나 보조 프로세서를 별도의 다이에 배치한 경우도 있었습니다. 하지만 반도체 제조 공정이 눈부시게 발전하면서 수십억 개의 트랜지스터를 하나의 다이에 집적할 수 있게 됐고, 덕분에 CPU나 GPU는 물론이고 과거에는 칩셋에 있던 부분까지 하나로 모은 SoC(System on a chip)가 새로운 대세가 됐습니다. 그런데 최근에는 반도체 미세 공정의 발전보다 프로세서가 커지는 속도가 빨라 하나의 다이로 된 모노리식(monolithic) 프로세서의 제조가 매우 어려워지고 있습니다. 여기에 10nm 이하의 최신 미세 공정 웨이퍼의 가격이 비싸지는 것도 부담입니다. 따라서 CPU 제조사들은 여러 개의 다이를 결합한 디자인으로 다시 회귀하고 있습니다. AMD의 경우 8코어 CPU를 모은 CPU 칩렛과 I/O 다이를 별도로 만든 후 이를 조합해 다양한 프로세서를 만들고 있습니다. 오랜 세월 거대한 서버 프로세서에도 모노리식 디자인을 고집했던 인텔 역시 최근 과감한 변화를 시도하고 있습니다. 인텔은 내년 정식으로 출시할 제온 프로세서인 사파이어 래피즈(Sapphire Rapids)에 여러 개의 다이를 인텔의 고속 인터페이스인 EMIB 방식으로 연결한 멀티 타일 구조를 도입했다고 발표했습니다.인텔 7 공정(과거 10nm ESF)으로 제조되는 사파이어 래피즈는 최대 400㎟의 SoC 다이 (타일) 네 개를 연결해 최대 1600㎟ 크기의 CPU를 만들 수 있습니다. 현재 제조 기술로 만들 수 있는 가장 큰 모노리식 다이는 700-800㎟ 정도 크기입니다. 최신 미세 공정과 거대한 크기 덕분에 사파이어 래피즈는 최근 인텔의 최대 약점으로 꼽힌 코어 숫자의 열세를 쉽게 극복할 수 있을 것으로 예상됩니다. AMD는 최대 8개의 칩렛을 붙이는 방식으로 64코어 프로세서를 만든 반면 인텔의 아이스레이크 제온의 경우 최대 38코어에 불과했습니다. 모노리식 다이 구조이다 보니 여러 개의 다이를 결합한 구조를 이기기 힘들었던 것입니다. 인텔은 사파이어 래피즈의 코어 숫자에 대해 언급하지 않았지만, 1600㎟의 거대한 크기를 생각하면 코어 숫자가 대폭 늘어났다고 볼 수밖에 없습니다. 그런데 이렇게 멀티 타일 구조를 선택할 경우 가장 큰 문제점은 타일 간 데이터 전송입니다. 만약에 여기서 병목현상이 생기면 속도는 현저히 느려질 것입니다. 인텔은 EMIB 방식을 통해 이 문제를 최대한 극복했습니다. 다만 얼마나 극복했는지는 실제 프로세서가 나와야 검증이 가능한 부분입니다. 사파이어 래피즈의 가장 큰 변화는 멀티 타일 구조의 채택이지만, 그 밖에도 성능을 높이기 위해 여러 가지 변화를 시도했습니다. 코어의 경우 소비자용 CPU인 앨더 레이크(12세대 코어 프로세서)에 사용된 골든 코브(Gold Cove) 코어를 사용해 성능을 최대 19% 높였습니다(동일 클럭 기준). 그리고 서버용 콜든 코브 코어는 높은 성능을 위해 소비자용에는 없는 몇 가지 추가 기능과 함께 더 많은 L2 캐시를 탑재했습니다. DDR5 메모리 적용과 PCIe 5.0 같은 최신 인터페이스도 적용되어 더 고속으로 데이터를 처리할 수 있습니다. 그러나 이보다 더 눈에 띄는 변화는 차세대 고속 메모리인 HBM2E 메모리 적용입니다.HBM은 비싸지만, 속도가 매우 빠른 메모리로 지금까지는 주로 고가의 GPU에만 탑재되었습니다. 서버칩에 탑재되는 것은 사파이어 래피즈가 처음입니다. HBM2E 메모리 적용 모델의 경우 타일 하나당 HMB2E가 하나씩 붙어 다이가 4+4가 됩니다. HBM2E 메모리를 고속으로 연결하는 역할 역시 EMIB이 담당합니다. HBM2E 메모리는 캐시로 사용할 수도 있고 D램처럼 같이 사용할 수도 있습니다. 본래 인텔은 서버 시장에서 독점적 위치에 있었으나 최근 AMD 에픽이 급성장하고 아마존 같은 대형 고객사가 ARM 기반의 자체 서버 프로세서를 만들면서 최대 위기에 처했다는 평가를 받고 있습니다. 사파이어 래피즈의 파격적인 변화는 더 이상 서버 시장에서 밀리지 않겠다는 의지를 반영한 것으로 풀이됩니다. 과연 인텔이 AMD와 ARM 진영이 거센 도전을 물리치고 서버 시장 1위 자리를 지킬 수 있을지 궁금합니다.

2021-09-02 13:07 나우뉴스

[고든 정의 TECH+] 3D 칩렛 기술 로드맵 발표한 AMD…인텔과 높이 쌓기 경쟁 시작?

최근 열린 반도체 관련 학회인 핫 칩(Hot Chips) 콘퍼런스에서 AMD는 3차원 반도체 패키징 기술에 대한 새로운 내용을 공개했습니다. 리사 수 CEO가 컴퓨텍스 2021에서 3D 칩렛 기술 (3D chiplet technology)을 공개한 지 몇 달 만의 일입니다. 당시 리사 수 박사는 8 코어 라이젠 칩렛 (chiplet, CPU 코어를 모은 반도체) 위에 6x6mm 크기의 64MB L3 캐시를 탑재해 게임 성능을 평균 15% 높일 수 있다고 주장했습니다. CPU가 가장 직접적으로 사용하는 메모리인 캐시 (cache) 메모리는 빠르게 접근할 수 있는 위치부터 L1, L2, L3, L4로 명명합니다. 캐시 메모리는 CPU 입장에서 보면 바로 책상 위에 펼쳐 놓고 쓰는 공책에 해당합니다. 시스템 메모리는 가방 속 참고서, 그리고 하드디스크나 SSD 같은 저장 장치는 도서관에 해당한다고 할 수 있습니다. 당연히 캐시 메모리가 많을수록 CPU 성능이 높아지지만, CPU에서 캐시 메모리가 차지하는 면적을 늘리면 가격도 따라서 올라가기 때문에 적당한 타협이 필요합니다. 최신 8코어 CPU는 대개 16-32MB의 L3 캐시를 지니고 있습니다. 그런데 AMD는 여기에 64MB L3 캐시 메모리를 추가로 쌓을 수 있다는 폭탄선언을 한 셈입니다. 당시에는 이런 일이 어떻게 가능한지 자세히 설명하지 않았지만, 이번 핫 칩 컨퍼러스에서는 보다 구체적인 내용이 공개됐습니다. AMD의 3D 칩렛 기술은 TSMC가 개발한 SoIC (System on Integrated Chip) 적층 기술에 기반하고 있습니다. AMD는 반도체 생산 시설이 없는 팹리스 반도체 회사이고 실제 제조는 TSMC가 위탁 생산을 하고 있으니 당연한 결과입니다. 하지만 이번 발표가 대단하지 않은 것은 아닙니다. L3 캐시 메모리는 CPU와 매우 밀접하게 붙여 있어야 고속으로 데이터를 주고받을 수 있어 하나의 반도체 칩 안에 있는 것이 일반적입니다. 따라서 3D 칩렛 기술은 상당히 일반적이지 않은 결과입니다. AMD와 TSMC가 업계 최초로 L3 캐시 메모리를 CPU 다이 위에 올릴 수 있었던 이유는 아주 미세한 구리 회로를 직접 두 개의 반도체 다이 사이에 정확히 밀착시켜 데이터 전송 속도를 크게 높인 덕분입니다. (사진) AMD에 따르면 3D 칩렛 기술은 기존의 마이크로 범프 3D (Micro Bump 3D)의 50μm 간격 연결 부위보다 훨씬 촘촘한 9μm 간격으로 연결되어 있어 에너지 효율이 3배나 우수하고 밀도는 15배나 높습니다. 덕분에 CPU와 빠른 데이터 전송이 필요한 L3 캐시 메모리를 CPU 칩렛이 아니라 별도의 칩렛으로 만든 후 위에 쌓을 수 있었던 것입니다. 이번 발표에 따르면 L3 캐시 메모리 칩렛 적층은 시작에 불과합니다. 앞으로 CPU 칩렛 위에 다시 CPU 칩렛을 쌓거나 GPU 같이 다른 프로세서를 쌓을 수도 있고 DRAM 같이 위에 올릴 수 있습니다. 또 이렇게 위로 쌓은 칩들을 평면으로 연결해 마치 고층 빌딩이 서로 연결된 것 같은 하이브리드 2D/2.5D/3D 칩을 만들 수도 있습니다. 이 부분은 HBM 메모리 같은 고속 적층형 메모리를 3D 칩렛과 연결해 프로세서+메모리 형태의 고성능 제품을 만들 수 있다는 의미로 해석됩니다. 그런데 사실 이 이야기는 인텔이 내년에 출시할 폰테 베키오 GPU에서 이미 구현된 내용이기도 합니다. 인텔은 5개의 다른 공정에서 만든 47개의 액티브 타일을 연결해 트랜지스터 숫자가 1000억 개가 넘는 거대 GPU를 생산한다고 발표한 상황입니다. 그리고 2년 후 등장할 메테오 레이크 CPU는 CPU/GPU/SoC-LP 세 개의 타일을 결합해 제조할 예정입니다. 인텔 역시 이름만 다를 뿐 여러 개의 다이를 3D 및 2D 패키징으로 연결해 하나의 CPU를 만드는 셈입니다. 3차원 적층 기술은 메모리 반도체 업계에서는 이미 오래전부터 진행됐습니다. 평면으로 확장해서는 필요한 만큼 용량을 늘리기 어렵기 때문입니다. 구조가 매우 복잡한 시스템 반도체는 메모리보다 3차원 적층이 어렵지만, 조금씩 한계를 극복하면서 돌파구를 마련해 이제는 상용화 단계에 이르렀습니다. 현 시점에서 인텔과 AMD 모두 반도체를 높이 쌓으려는 데는 그럴 만한 이유가 있습니다. 미세 공정으로 진행할수록 반도체 웨이퍼 가격은 급등하기 때문에 모든 부분을 최신 미세 공정으로 제조하면 늘어나는 비용을 감당하기 어렵습니다. 좀 더 저렴한 공정을 이용할 수 있는 부분은 따로 제조하면 상당한 비용을 절감할 수 있습니다. 또 큰 반도체 하나보다 작은 부분을 만든 후 조립하면 제조도 쉽게 수율도 올라갑니다. 마지막으로 여러 개의 다이를 하나처럼 연결하면 과거에는 상상하기 힘들었던 초대형 프로세서도 제조할 수 있다는 장점이 있습니다. 현재 개발 중인 3D 패키징 기술을 통해 프로세서 성능은 한 단계 더 업그레이드될 것입니다. 그리고 이런 기술적 진보의 혜택은 최종적으로 소비자에게 돌아갈 것입니다.

2021-08-27 10:07 나우뉴스

[고든 정의 TECH+] 인텔의 숨겨진 한방 ‘앨더 레이크’…이번에는 통할까?

2017년 경쟁자인 AMD가 라이젠을 출시하면서 인텔의 CPU 시장 독점은 서서히 무너졌습니다. 라이젠은 처음 출시 시점만 해도 코어 숫자에서만 인텔을 이겼을 뿐이었지만, 14nm, 12nm, 7nm로 꾸준히 미세 공정을 업데이트하고 아키텍처를 개선해 이제는 거의 모든 부분에서 인텔을 앞서고 있습니다. 인텔은 2011년 샌디브릿지 이후 조금씩 개선한 코어 프로세서의 아키텍처를 대대적으로 개편하고 미세 공정에서 경쟁자를 따라잡지 않으면 완전히 주도권을 빼앗길 위기에 처한 것입니다. 물론 인텔도 보고만 있었던 것이 아니라 새 아키텍처를 적용한 신제품을 순차적으로 출시했습니다. 하지만 10nm 공정의 타이거 레이크(노트북)와 14nm 공정의 로켓 레이크(데스크톱)는 성능을 개선하려는 여러 가지 노력에도 아쉬운 부분이 많았습니다. 성능이 좋아지긴 했는데, 경쟁자도 그에 못지않게 성능이 좋아져 과거처럼 여유 있게 상대방을 따돌리지 못한 것입니다. 인텔은 올해 말 다시 한번 역전의 기회를 노리고 있습니다. 12세대 코어 프로세서인 앨더 레이크(Alder Lake)가 바로 그 기회입니다. 올해 4분기 데스크톱 제품부터 공개될 앨더 레이크는 과거 10nm ESF(Enhanced SuperFin)라고 부른 인텔 7 공정으로 제조됩니다. 10nm 공정이라고 명명하긴 했지만, 사실 TSMC의 7nm 공정보다 트랜지스터 밀도를 더 높일 수 있는 최신 공정이기 때문에 그에 합당한 새로운 명칭이 필요하다고 생각한 것입니다. 하지만 진짜 파격적인 부분은 미세 공정이 아니라 CPU 구성에 있습니다. 앨더 레이크는 인텔 데스크톱 CPU 역사상 처음으로 고성능 프로세서와 저전력 프로세서가 함께 결합한 하이브리드 구조를 지니고 있습니다. 고성능 코어와 저전력 코어를 같이 혼용하는 하이브리드 구조는 모바일 AP에서는 이미 일반적인 형태입니다. 높은 성능만큼 배터리 지속 시간이 중요한 스마트폰에서는 반드시 필요한 기능이기도 합니다. 인텔은 1+4 구조인 레이크필드 CPU에서 이를 처음 도입했는데, 당시에는 일부 저전력 제품에만 도입할 것으로 예상됐습니다. 사실 배터리 대신 일반 전원으로 전력을 공급받는 데스크톱 CPU에는 필요 없는 기술이기도 합니다. 그러나 일반적인 예상을 깨고 인텔은 앨더 레이크에서 하이브리드 CPU를 데스크톱, 노트북 전 모델에 도입할 예정입니다. 지금까지 알려진 내용에 따르면 앨더 레이크는 골든 코브(Golden Cove) 고성능 코어와 그레이스몬트(Gracemont) 고효율 코어의 하이브리드 구조입니다. 이 코어들이 어떤 조합으로 작동하는지는 밝혀지지 않았지만, 최근 유출된 앨더 레이크 엔지니어링 샘플(ES) 벤치마크에서는 최대 24 스레드(thread)로 나타났습니다. 골든 코브 코어는 하나의 코어가 두 개처럼 작동하는 멀티 스레드 코어이고 그레이스몬트 코어는 싱글 스레드 코어이므로 16+8 구조임을 짐작할 수 있는 결과입니다. 이 내용이 사실이라면 많은 수의 코어가 유리한 작업에서는 모든 코어가 다 활성화되어 성능을 높이는 구조로 생각됩니다. 다만 항상 모든 코어가 활성화되는 방식인지 상황에 따라 교대할 수 있는 방식인지는 확실치 않습니다. 가장 이상적인 하이브리드 코어 작동 방식은 문서 작업이나 검색 등 높은 성능이 필요 없는 작업에서는 저전력 코어만 활성화되고 게임처럼 적은 수의 코어가 빠르게 작동하는 것이 유리한 작업에서는 고성능 코어만 활성화되는 것입니다. 그리고 다수의 코어가 필요한 작업에서는 모든 코어가 활성화되는 방식도 생각할 수 있습니다. 그러나 지금까지 실제 작동 방식이나 구체적인 성능에 대해서는 자세히 공개한 적이 없어 올해 10월로 예상되는 발표 시점에 이목이 쏠리고 있습니다. 고성능 + 저전력 하이브리드 구조 다음으로 주목되는 것은 업계 최초의 DDR5 메모리 도입입니다. DDR5 메모리는 4800Mbps 제품부터 등장할 것으로 예상되며 최대 8400Mbps까지 속도를 높일 수 있습니다. 저장 밀도도 DDR4의 네 배에 달해 메모리 속도와 용량을 크게 늘릴 수 있습니다. 덕분에 CPU 자체 성능은 물론 메모리 병목 현상을 심하게 겪는 내장 그래픽 성능을 높이는 데 큰 도움이 될 것입니다. DDR5 수요가 늘어나면 이를 생산하는 국내 반도체 제조사들에게도 호재로 작용할 것으로 기대됩니다. 대신 DDR5를 사용하기 위해서 새로운 메인보드가 필요합니다.앨더 레이크는 새로운 규격인 LGA 1700 소켓을 사용해 기존의 인텔 메인보드와 호환되지 않습니다. 소켓을 자주 바꿔 소비자들이 계속 새로운 메인보드를 구매하게 만드는 인텔의 정책에 대해서는 많은 불만이 제기되고 있지만, 사실 DDR5 및 PCIe 5.0 같은 신기술을 도입하겠다고 발표한 시점에서 구형 메인보드에서 호환될 가능성은 없다고 보는 게 맞을 것입니다. 인텔은 올해 말부터 내년 상반기까지 앨더 레이크를 순차적으로 출시하고 이후 앨더 레이크의 개량 버전인 13세대 코어 프로세서(랩터 레이크)를 투입할 예정입니다. 인텔 4 공정을 사용한 메테오 레이크(14세대)는 2023년 등장할 예정입니다. 메테오 레이크는 CPU, GPU, SOC-LP의 세 개의 타일을 포베로스(Foveros) 기술로 연결한 하이브리드 CPU로 하나의 다이(die)로 생산되었던 전통적인 CPU 생산 방식을 바꿀 것으로 예상됩니다. 인텔이 여러 가지 신기술을 통해 과거의 영광을 되찾고 경쟁자의 추격을 다시 한번 따돌릴지 결과가 주목됩니다.

2021-08-06 09:39 나우뉴스

올 애플·TSMC 주가 껑충… ‘경영 공백’ 삼성은 5% 뚝

연초 대비 애플 12%, TSMC 8% 상승IT 시총 톱10 중 삼성·中 기업만 하락삼성 상반기 최고 매출에도 ‘7만 전자’업계 “전략 변화 등 분위기 반전 필요”올 들어 삼성전자와 그 경쟁 업체들 사이 주가에 희비가 엇갈리고 있다. 가뜩이나 오너 부재로 경영공백 상태인 삼성전자는 연초 대비 주가가 5.42% 감소한 반면 미국의 애플과 대만의 TSMC는 8~12%씩 상승하는 훈풍을 탄 것이다. 1일 업계에 따르면 전 세계 정보기술(IT)·온라인 분야 시가총액 톱10 기업 중 7곳은 연초 대비 주가가 크게 올랐다. 구글의 모회사인 알파벳이 56.10%로 가장 많이 상승했고 그래픽카드(GPU)로 유명한 엔비디아는 48.69%, 페이스북은 32.48% 뛰었다. 삼성전자와 스마트폰 시장에서 다툼을 벌이는 애플도 12.71%, 반도체 위탁생산(파운드리) 분야 경쟁자인 TSMC도 8.21% 상승했다. 하락세를 보인 곳은 정부 규제 정책에 영향을 받은 중국 기업(알리바바, 텐센트)들과 한국의 삼성전자뿐이다. 삼성전자는 지난 1월 4일 8만 3000원으로 출발해 같은 달 11일에는 장중 9만 6800원을 찍기도 했다. 하지만 ‘10만 전자’에 대한 기대감도 잠시였고 이후 8만원 초반대에서 6개월여간 횡보했다. 지난달 30일에는 종가 기준 연중 최저치인 7만 8500원까지 떨어졌고, 같은 날 미래에셋증권, 유진투자증권, 하이투자증권 등은 삼성전자 목표가를 2000원~1만 3000원가량 하향 조정(9만 2000원~10만원)했다. 그렇다고 올해 삼성전자의 실적이 나쁜 것도 아니다. 삼성전자가 강세를 보이는 메모리 반도체를 앞세워 올해 1·2분기 매출이 모두 60조원을 넘겼다. 그 덕에 올해 상반기 매출(약 128조원)은 역대 최고치를 기록했다. 업계에서는 삼성전자 주가가 지지부진한 이유를 반도체와 스마트폰 사업에 드리운 그늘 탓으로 보고 있다. 올해 슈퍼사이클(장기 초호황)이 온다고 했지만 D램값 상승이 정점에 달했다는 분석이 나오는 가운데 메모리 반도체 주요 수요처인 PC와 스마트폰의 생산량도 다소 감소하는 모양새다. 이재용 삼성전자 부회장의 부재 속에 삼성이 넉 달째 미국 파운드리 신규 공장 후보지를 확정짓지 못하고 있는 반면 TSMC과 인텔은 연일 공격적 투자를 아끼지 않고 있다. 또 고급형 스마트폰 시장에서는 애플과 힘겨운 싸움을 벌이고 있고 중저가폰 시장에서는 샤오미·오포·비보와 같은 중국 업체들에게 추격당하는 ‘샌드위치’ 신세에 처했다. 업계 관계자는 “지금은 반도체 업황이 좋지만 내년 상반기에는 메모리 반도체 수요가 급감할 것으로 보는 우려가 많다”면서 “기업 오너의 비전 제시나 회사의 전략 변화와 같은 돌파구가 필요하다”고 말했다.

서울신문

올해 애플 주가 12%↑·삼성은 5%↓…삼성 경쟁사株 ‘훨훨’

올 들어 삼성전자와 그 경쟁 업체들 사이 주가에 희비가 엇갈리고 있다. 가뜩이나 오너 부재로 경영공백 상태인 삼성전자는 연초 대비 주가가 5.42% 감소한 반면 미국의 애플과 대만의 TSMC는 8~12%씩 상승하는 훈풍을 탄 것이다. 1일 업계에 따르면 전 세계 정보기술(IT)·온라인 분야 시가총액 톱10 기업 중 7곳은 연초 대비 주가가 크게 올랐다. 구글의 모회사인 알파벳이 56.10%로 가장 많이 상승했고 그래픽카드(GPU)로 유명한 엔비디아는 48.69%, 페이스북은 32.48% 뛰었다. 삼성전자와 스마트폰 시장에서 다툼을 벌이는 애플도 12.71%, 반도체 위탁생산(파운드리) 분야 경쟁자인 TSMC도 8.21% 상승했다. 하락세를 보인 곳은 정부 규제 정책에 영향을 받은 중국 기업(알리바바, 텐센트)들과 한국의 삼성전자뿐이다.삼성전자는 지난 1월 4일 8만 3000원으로 출발해 같은 달 11일에는 장중 9만 6800원을 찍기도 했다. 하지만 ‘10만 전자’에 대한 기대감도 잠시였고 이후 8만원 초반대에서 6개월여간 횡보했다. 지난달 30일에는 종가 기준 연중 최저치인 7만 8500원까지 떨어졌고, 같은 날 미래에셋증권, 유진투자증권, 하이투자증권 등은 삼성전자 목표가를 2000원~1만 3000원가량 하향 조정(9만 2000원~10만원)했다. 그렇다고 올해 삼성전자의 실적이 나쁜 것도 아니다. 삼성전자가 강세를 보이는 메모리 반도체를 앞세워 올해 1·2분기 매출이 모두 60조원을 넘겼다. 그 덕에 올해 상반기 매출(약 128조원)은 역대 최고치를 기록했다.업계에서는 삼성전자 주가가 지지부진한 이유를 반도체와 스마트폰 사업에 드리운 그늘 탓으로 보고 있다. 올해 슈퍼사이클(장기 초호황)이 온다고 했지만 D램값 상승이 정점에 달했다는 분석이 나오는 가운데 반도체 주요 수요처인 PC와 스마트폰의 생산량도 다소 감소하는 모양새다. 이재용 삼성전자 부회장의 부재 속에 삼성이 넉 달째 미국 파운드리 신규 공장 후보지를 확정짓지 못하고 있는 반면 TSMC과 인텔은 연일 공격적 투자를 아끼지 않고 있다. 또 고급형 스마트폰 시장에서는 애플과 힘겨운 싸움을 벌이고 있고 중저가폰 시장에서는 샤오미·오포·비보와 같은 중국 업체들에게 추격당하는 ‘샌드위치‘ 신세에 처했다. 업계 관계자는 “지금은 반도체 업황이 좋지만 내년 상반기에는 메모리 반도체 수요가 급감할 것으로 보는 우려가 많다”면서 “기업 오너의 비전 제시나 회사의 전략 변화와 같은 돌파구가 필요하다”고 말했다. 한재희 기자 jh@seoul.co.kr

2021-08-01 17:21 서울신문

[고든 정의 TECH+] 반도체 식힐 직접 수랭기술 공개한 TSMC…비장의 카드 될까?

최근 파운드리 시장은 어느 때 보다 뜨거운 관심을 받고 있습니다. 일부 자동차 공장을 멈추게 만든 반도체 수급 대란이나 중국의 반도체 굴기, 미국의 자국 내 반도체 산업 육성, 그리고 국내 반도체 업계의 투자 등 여러 가지 이슈가 겹치면서 과거에는 생소했던 파운드리(반도체 위탁생산)가 이제는 익숙한 용어가 됐습니다. 반도체 생산 공정은 나노미터 단위로 점점 작아질수록 기술적 난이도와 팹(fab) 건설 비용이 천정부지로 치솟는 특징이 있습니다. 그런 만큼 초미세 공정이 가능한 파운드리 업체의 숫자는 이제 TSMC와 삼성전자 단 두 곳에 지나지 않는 상황입니다. TSMC는 최신 미세 공정부터 여전히 수요가 많은 구형 공정까지 다양한 팹을 지니고 있으며 오랜 세월 파운드리 사업에서 잔뼈가 굵은 업체이기 때문에 이 분야에 누구보다도 많은 노하우를 지니고 있습니다. 하지만 과거 파운드리에서 존재가 미미했던 삼성이 엔비디아 같은 오랜 단골을 뺏어갈 정도로 영향력이 커졌고 인텔도 본격적인 투자를 진행하면 어떤 결과가 나올지 모르는 상황이기 때문에 TSMC 역시 경쟁자들을 물리치기 위한 비장의 무기들을 개발하고 있습니다. 그중 하나가 2021년 VLSI 심포지엄에서 발표한 직접 수랭(Direct Water Cooling, DWC) 기술입니다. 열이 많이 나는 고성능 프로세서의 경우 워터 펌프와 라디에이터로 열을 식히는 수랭 방식이 드물지 않기 때문에 수랭 기술이 뭐가 특별하냐고 생각할 수 있지만, 직접 반도체를 식한다는 점이 차이점입니다. 직접 수랭 기술은 반도체 바로 위에 물이 흐르는 미세관을 만들어 반도체를 직접 식힌다는 의미입니다. 첨단 과학기술력의 결정체인 최신 미세 공정 반도체는 사실 매우 약한 존재입니다. 따라서 최신 프로세서들은 반도체를 보호하는 튼튼한 금속판인 히트 스프레더(Heat spreader)로 덮여 있습니다. 그 사이 공간은 열전도율이 높은 물질인 서멀 그리스(Thermal Grease)로 채워 넣습니다. 수랭이든 공랭이든 쿨러는 모두 히트 스프레더 위에 다시 서멀 그리스를 바른 후 장착합니다. 따라서 사실 수백W의 전력을 소모하는 CPU와 GPU는 상당한 많은 단계를 거쳐야 공기나 물과 접촉할 수 있는 것입니다. 당연히 냉각 효율은 떨어집니다. 직접 수랭 기술은 이 문제를 해결하기 위해 몇 년 전부터 선보인 기술입니다. 칩의 위에 아주 작은 미세관이 있는 실리콘 층을 하나 더 쌓아 열을 제거하는 것입니다. 최신 반도체는 아파트처럼 여러 층으로 올리는 경우가 드물지 않기 때문에 사실 한 층을 더 넣는 건 그렇게 큰 문제가 되지 않습니다. 문제는 작은 미세관에 누수 없이 많은 물을 흘려보내 프로세서를 안정적으로 냉각시키는 것입니다. 조금이라도 누수가 발생하면 많은 전류가 흐르는 반도체가 바로 손상되면서 고가의 시스템이 완전히 망가집니다. 이런 문제 때문에 직접 수랭 기술은 이론적으로는 훌륭하지만, 상용화는 어려운 기술로 여겨졌습니다.이런 문제점에도 불구하고 TSMC가 직접 수랭 기술에 도전하는 데는 그럴 만한 이유가 있습니다. 최신 CPU와 GPU의 트랜지스터 집적도는 이미 수백억 개를 돌파했지만, 더 고성능의 프로세서를 만들기 위해서는 더 많은 트랜지스터가 필요합니다. 그런데 더 많은 트랜지스터는 더 많은 발열을 의미합니다. 과거에는 공정 미세화로 이 문제를 극복했지만, 이제는 점점 공정 미세화가 어려워지고 있습니다. 그런데 직접 수랭 방식을 적용하면 500㎟ 이상 크기의 대형 칩에서 200W가 아니라 2000W의 발열도 감당할 수 있다는 게 TSMC의 설명입니다. 이런 일이 실제로 가능하다면 대형 CPU나 GPU도 메모리처럼 여러 층으로 쌓아 집적 밀도를 높일 수 있을 것입니다. 평면으로 더 작게 못 만든다면 아파트처럼 여러 층으로 쌓는 것이 현실적인 대안입니다. TSMC는 여러 가지 반도체를 수직으로 올리는 3D 칩 적층 기술을 적극 도입하려 하지만, 메모리보다 훨씬 큰 발열 문제가 발목을 잡고 있습니다. 직접 수랭 기술은 발열 문제를 타개할 비장의 카드인 셈입니다. 물론 이번에 발표한 내용을 보면 당장 상용화할 수준은 아니고 프로토타입 제품을 만들어 가능성을 검증한 정도입니다. 서버에서 사용할 수 있을 정도로 신뢰성 높은 제품을 개발한다면 새로운 게임 체인저가 될 수 있겠지만 사실 쉬운 일은 아닐 것입니다. 과연 TSMC가 성공할 수 있을지 궁금합니다.

2021-07-21 10:26 나우뉴스

[고든 정의 TECH+] 인텔, 차세대 제온 프로세서 고대역폭 메모리 달고 날아오를까?

최근 인텔은 서버 프로세서 영역에서 거센 도전을 받고 있습니다. x86 서버 영역에서는 가격대 성능비가 우수한 에픽(EPYC) 프로세서를 앞세운 AMD의 공세에 점유율을 잃고 있고 비x86 서버 부분에서는 ARM 서버 프로세서가 무서운 속도로 성장하고 있습니다. 인텔이 오랜 세월 14nm 공정 프로세서만 생산하는 사이 이미 경쟁자들은 7nm 칩을 대량으로 출시해 절대 성능은 물론 전력 대 성능비도 더 우수해진 상황입니다. 인텔은 4세대 제온 스케일러블 프로세서인 사파이어 래피즈(Sapphire Rapids)를 통해 반전을 시도하고 있습니다. 사파이어 래피즈는 인텔의 차세대 10nm 공정인 10ESF(10nm Enhanced SuperFin) 공정과 최신 마이크로 아키텍처가 적용된 골든 코브(Golden Cove) 코어를 사용해 성능을 높였습니다. 여기에 DDR5를 사용해 메모리 대역폭과 용량을 높이고 PCIe 5.0을 도입해 GPU 등 다른 기기와의 연결 속도도 높였습니다. 하지만 이 정도는 사실 남들도 곧 도입 예정인 기술입니다. 그래서 인텔은 한 가지 더 비장의 무기를 준비했습니다. 바로 고대역폭 메모리(HBM)를 제온 프로세서에 탑재하는 것입니다. 고대역폭 메모리(High Bandwidth Memory, HBM) 기술은 삼성, SK 하이닉스, AMD가 협업해 개발한 고속, 고밀도 메모리로 DRAM을 아파트처럼 여러 층으로 쌓고 각 층을 통과하는 통로(TSV)를 이용해 데이터를 고속으로 전송하는 메모리 기술입니다. 2015년 AMD의 GPU에 최초로 탑재된 후 현재까지는 주로 고성능 GPU에만 탑재되어 왔습니다. 속도가 빠르고 크기도 작지만, 대신 가격이 비싸고 전력 소모도 많다는 점이 보급에 발목을 잡고 있습니다. HBM 보급이 더딘 것은 서버 분야도 마찬가지입니다. 언뜻 생각하기에 비싸더라도 높은 성능이 필요한 서버 분야에 적합할 것 같지만, 테라바이트(TB)급 메모리 장착도 가능한 서버용 DDR 메모리와 달리 HBM은 프로세서 옆에 붙이는 방식이라 장착할 수 있는 메모리 용량이 많지 않고 원하는 만큼 확장이나 교체도 불가능합니다. 작년에 양산을 시작한 SK 하이닉스의 HBM2E 메모리도 460GB/s 대역폭을 지녀 속도는 DDR4 메모리가 범접하기 어려운 수준이지만, 용량은 최대 16GB 정도입니다. HBM2E 메모리 네 개를 탑재하면 최대 64GB 용량에 1.82TB/s의 엄청난 속도를 구현할 수 있으나 GPU라면 몰라도 대부분 서버는 이보다 느리더라도 많은 메모리를 탑재하는 것이 작업에 더 유리합니다. 이런 점 때문에 인텔이 개발하는 HBM 탑재 제온 프로세서인 SPR-HBM(Sapphire Rapids Xeon Scalable with High-Bandwidth Memory)는 DDR5도 같이 사용할 수 있습니다. 덕분에 여러 가지 목적의 서버와 고성능 컴퓨터에 이를 적용할 수 있습니다. 일반적인 서버에는 HBM을 탑재하지 않은 제온 프로세서를 사용하고 고속 데이터 처리가 필요한 영역에는 HBM 탑재 제온 프로세서를 DDR5와 함께 이용하거나 아예 HBM 탑재 제온 프로세서만 사용하는 방법도 사용할 수 있습니다. 후자의 장점은 메모리가 CPU와 함께 들어가기 때문에 시스템 크기가 매우 작아진다는 것입니다.사실 사파이어 래피즈가 이런 독특한 형태를 하게 된 이유는 올해 말 등장할 인텔 최초의 엑사스케일 슈퍼컴퓨터인 오로라(Aurora)의 영향이 큰 것으로 보입니다. 오로라의 기본 유닛은 2개의 사파이어 래피즈 프로세서와 6개의 폰테 베키오 GPU를 탑재했습니다. 고성능 연산을 위해서는 대용량보다 빠른 메모리가 더 유리한 만큼 HBM 탑재 버전으로 봐도 무리가 없을 것입니다. 사파이어 래피즈의 초기 물량은 오로라에 우선 사용되고 이후 차례로 주요 고객사에 공급될 것으로 보입니다. 실제 서버 및 HPC 시장에 투입되는 시기는 내년 상반기가 될 것입니다. HBM 탑재 사파이어 래피즈는 비쌀 수밖에 없습니다. 비싼 몸값을 성능으로 입증하는지가 관건이 될 것입니다. 여담이지만, 메모리 기술이라면 경쟁자인 AMD 역시 비장의 카드가 있습니다. 최근 AMD의 리사 수 CEO는 L3 캐쉬 메모리를 CPU 칩렛 위에 쌓는 신기술인 3D V-Cache를 공개했습니다. 같이 공개한 벤치 마크에서는 기존 CPU에 3D V-Cache를 접목하기만 해도 게임 성능이 대폭 향상되는 것을 보여줬습니다. 그런데 사실 대용량 캐쉬는 게임보다 서버에서 더 큰 힘을 발휘합니다. 구체적인 도입 일정은 밝히지 않았지만, 차세대 에픽 프로세서에 이를 도입할 가능성이 높은 셈입니다. 새로운 캐쉬 기술로 무장한 AMD와 고대역폭 메모리를 탑재한 인텔 중 누가 옳은 선택을 했는지도 중요한 관전 포인트가 될 것입니다.

2021-06-30 09:36 나우뉴스

[고든 정의 TECH+] 구글, 자체 개발 동영상 인코딩 프로세서로 인텔 의존 낮춘다

우리가 아침부터 저녁까지 접속하는 모든 인터넷 서비스와 웹 사이트는 서버를 통해 이뤄집니다. 서버에도 여러 가지 형태가 있지만, 현재 가장 일반적으로 사용되는 서버는 인텔의 x86 프로세서(제온 CPU)와 대용량의 메모리, 스토리지(SSD, HDD 등)를 탑재한 것입니다. 운영체제로는 각 회사에 최적화된 리눅스 기반 OS가 주로 사용됐습니다. 그런데 최근 서버 시장에는 큰 변화가 있었습니다. 본래 한 자릿수 점유율도 버거워 보였던 AMD가 서버 시장에서 급성장하면서 이미 두 자릿수 점유율을 확보해 인텔을 크게 위협하고 있습니다. 그런가 하면 본래 인텔의 주요 고객이었던 아마존은 AWS에 사용되는 클라우드 서비스 전용 ARM 서버칩인 그라비톤(Graviton) 시리즈를 개발했습니다. 아마존에 의하면 최신 그라비톤 2 프로세서의 성능은 인텔과 AMD의 최신 서버 CPU를 능가합니다. AMD의 급성장과 더불어 서버 시장의 큰 손들이 자체 프로세서를 개발하고 있다는 소식은 인텔에 큰 악재입니다. 그런데 최근 이 대열에 구글도 참여했습니다. 엄밀히 말해 CPU는 아니지만, CPU 의존도를 낮춰주는 비디오 코딩 유닛(video (trans)coding unit, VCU) 프로세서를 개발했기 때문입니다. 현재 유튜브에는 분당 500시간 이상의 영상이 업로드되고 있습니다. 그런데 이 영상들의 포맷은 모두 제각각입니다. 이를 다양한 서비스 해상도에 맞춰 압축 효율이 높은 동영상 포맷인 H.264, VP9, AV1으로 바꿔줘야 안정적인 동영상 서비스가 가능합니다. 지금까지 이 작업은 인텔 CPU와 그래픽 카드를 통해 이뤄졌습니다. 그런데 최신 CPU와 GPU의 성능으로도 현재 작업량을 해결하기 위해서는 막대한 자원이 필요합니다. 구글이 자체 주문 제작형 반도체인 아르고스 VCU (Argos VCU) 개발에 나서게 된 이유입니다. 아르고스 VCU 칩은 10개의 인코더 코어(Encoder core)와 몇 개의 디코더 코어(Decoder core), 자체 CPU와 메모리 컨트롤러, PCIe 유닛 등으로 이뤄져 있습니다. 구글이 공개한 반도체 다이 (die) 이미지를 보면 사실상 인코더 코어만 무식하게 밀어 넣은 프로세서라는 사실을 알 수 있습니다. 동영상 인코딩만이 이 프로세서의 유일한 목적인 셈입니다. 바로 이런 점 때문에 아르고스 VCU는 CPU나 GPU보다 인코딩 성능이 훨씬 우수할 수밖에 없습니다.CPU는 여러 가지 명령을 수행할 수 있지만, 대신 그래픽 처리 같은 특수 임무를 빠르게 수행하지 못합니다. 따라서 빠른 그래픽 연산 처리를 위해 GPU의 도움을 받습니다. 그러나 그래픽 처리에 특화된 GPU 역시 동영상 인코딩과 관련이 없는 3D 그래픽 처리 관련 로직이 너무 많아 인코딩에 효율적인 구조는 아닙니다. 아르고스 VCU가 왜 동영상 인코딩 성능에 뛰어난지 쉽게 유추할 수 있는 대목입니다. 물론 아르고스 VCU 자체로 컴퓨터를 구성할 순 없기 때문에 구글은 PCIe 인터페이스 기반 인코딩 가속 카드로 개발했습니다. 카드 하나에 2개의 아르고스 VCU가 있고 2소켓 서버에 최대 10개의 카드를 탑재할 수 있습니다. 따라서 서버 한 개에 최대 20개의 아르고스 VCU가 들어가는 것입니다. 구글에 의하면 아르고스 VCU 서버는 스카이레이크 CPU 기반 서버보다 H.264 인코딩 성능이 7배 뛰어나고 VP9 인코딩 성능은 33.3배나 뛰어납니다. 구글은 아르고스 VCU 같은 주문 제작형 반도체를 통해 수백만 개의 인텔 CPU를 대체할 수 있을 것으로 기대했습니다. 사실 이 정도 수요가 없다면 자체 프로세서를 개발하고 생산하는 비용을 회수하긴 힘들 것입니다. 구글은 이미 1세대 아르고스 VCU를 자체 데이터 센터에 보급했으며 2세대 아르고스 VCU 개발에 들어간 상태입니다. 물론 아무리 구글이라도 해도 모든 서비스를 자체 프로세서로 해결할 순 없으며 사실 유튜브 역시 인텔 CPU가 탑재된 막대한 수의 서버를 통해 운영되고 있습니다. 하지만 이렇게 자체 서비스 효율화와 에너지 절약을 위해 주문 제작형 프로세서를 제조하는 IT 기업이 늘어날수록 인텔의 입지도 좁아지는 것이 사실입니다. 다만 인텔도 반격의 카드는 있습니다. 우선 인텔의 제품군을 CPU에서 GPU나 다른 주문 설계 반도체로 확장하는 것입니다. 이는 현재 적극적으로 시도하고 있으며 이미 GPU에서는 하나씩 성과가 나오고 있습니다. 또 파운드리를 통해 아예 다른 회사의 프로세서를 제조하고 수익을 얻는 방법도 있습니다. 그런데 이 두 가지 모두 인텔의 근본적인 변화를 가져올 것입니다. 주요 고객인 구글, 애플, 마이크로소프트, 아마존 등 거대 IT 회사가 큰 변화를 시도하는 만큼 인텔 역시 그에 맞는 변화를 이룩해야 생존할 수 있습니다. 앞으로 자체 주문 프로세서 확산과 함께 서버 생태계가 어떻게 변할지 주목됩니다. 고든 정 칼럼니스트 jjy0501@naver.com

2021-06-08 09:41 나우뉴스

[고든 정의 TECH+] 2.6조 개 트랜지스터를 지닌 인공지능 프로세서 - 2세대 웨이퍼 스케일 엔진 공개

초창기 인공지능 알고리즘은 별도의 연산 하드웨어 없이 CPU를 이용해 모든 연산을 처리했습니다. 그러나 CPU는 복잡한 명령어를 순차적으로 처리하는 데 유리한 구조로 단순한 신경망 밖에 구현할 수 없다는 한계가 있습니다. 따라서 인공지능 연구자들은 CPU의 한계를 극복하기 위해 대용량 그래픽 데이터의 병렬처리에 최적화된 GPU에 주목했습니다. GPU는 수백 개의 코어를 사용해서 한꺼번에 막대한 데이터를 연산하는데, 이는 CPU보다 인공지능 연산에 유리한 구조입니다. 인공지능 연구자들은 GPU 덕분에 과거에는 상상할 수 없었던 수준까지 인공지능 알고리즘의 성능을 끌어올렸습니다. 이제는 아예 최신 GPU도 인공지능 연산을 염두에 두고 개발될 정도로 인공지능 연산을 위한 GPU 수요가 커졌습니다. 그러나 GPU라고 해서 단점이 없는 완벽한 기계는 아닙니다. GPU 가장 큰 문제점은 혼자서 일을 할 수 없다는 것입니다. GPU는 기본적으로 컴퓨터의 그래픽 연산 프로세서이기 때문에 CPU, 메모리, 스토리지와 함께 작업해야 합니다. 따라서 CPU, 메모리와 끊임없이 데이터를 주고받아야 합니다. 데이터의 양이 커질수록 연산 능력이 아니라 데이터 병목현상 때문에 속도가 느려질 수밖에 없는 것입니다. 미국의 인공지능 관련 스타트업인 세레브라스 시스템스 (Cerebras Systems, 이하 세레브라스)는 이 문제를 극복할 수 있는 새로운 대안을 제시했습니다. 이들의 해결책은 300mm (12인치) 웨이퍼 하나를 통째로 하나의 통합 프로세서로 만들어 연산 코어와 메모리를 가득 채우고 가까운 거리에서 고속으로 연결하는 것입니다. 반도체는 웨이퍼라는 동그란 원판에서 한꺼번에 제작된 후 작게 조각내 CPU나 GPU 같은 개별 제품으로 판매됩니다. 컴퓨터에서 CPU와 GPU는 PCIe 같은 인터페이스로 연결되고 역시 CPU 밖에 위치한 메모리는 메모리 컨트롤러를 통해 제어됩니다. 대용량의 데이터를 주고받기 위해 서로 가까이 있어야 하지만, CPU, GPU, 메모리는 사실 서로 멀리 떨어진 셈입니다. 세레브라스의 웨이퍼 스케일 엔진 (Wafer Scale Engine, WSE)은 웨이퍼를 여러 개로 쪼갠 후 별도의 제품으로 만들어 서로 복잡한 과정으로 데이터를 주고받는 대신 작은 연산 코어와 메모리를 그냥 하나의 웨이퍼에 두고 데이터를 한꺼번에 처리하는 새로운 접근법을 택했습니다. 세레브라스의 1세대 웨이퍼 스케일 엔진은 TSMC의 16nm 공정으로 제조되었으며 거의 40만 개의 코어와 18GB의 온 보드 SDRAM을 장착해 고속 AI 연산에 최적화되어 있습니다. 하지만 현재 최신 미세 공정을 생각하면 16nm 공정 프로세서는 시대에 다소 뒤처진 감이 있습니다. 따라서 세레브라스는 최근 TSMC의 7nm 공정을 이용한 2세대 웨이퍼 스케일 엔진을 공개했습니다. 무려 85만 개의 AI 연산 코어와 40GB의 온보드 SDRAM을 탑재했으며 트랜지스터 집적도는 1세대의 1.2조 개에 두 배가 넘는 2.6조 개에 달합니다. 이론적 성능 역시 1세대의 두 배 이상입니다. 신생 스타트업이 기술적 난이도가 상당한 프로세서 개발에 성공한 이유는 인공지능 관련 스타트업에 유리한 미국 내 환경과 정부의 적극적인 지원이 있었기 때문입니다. 1세대 웨이퍼 스케일 엔진은 로렌스 리버모어 국립 연구소 (LLNL) 같은 국책 연구소의 슈퍼컴퓨터에 통합되었고 올해 3분기부터 출하될 2세대 웨이퍼 스케일 엔진은 아르곤 국립 연구소, 로렌스 리버모어 국립 연구소 같은 미국 내 연구소는 우선 도입될 예정입니다. 신개념 인공지능 기술을 국책 연구소에서 선도적으로 도입해서 성능을 검증하고 판로를 열어준 것입니다. 중국 등 다른 나라의 거센 추격을 받고 있긴 하지만, 아직 고성능 인공지능 프로세서 분야에서는 미국이 앞서 나가고 있습니다. 엔비디아, 인텔, AMD 등 미국 반도체 회사들이 이 분야에서 가장 선두를 달리고 있고 구글, 아마존, 마이크로소프트, 페이스북 같은 거대 IT 회사들이 탄탄한 수요를 뒷받침하고 있습니다. 그리고 세레브라스 같은 신생 스타트업도 혁신적인 아이디어만 있으면 민간과 정부에서 자금을 지원받아 새로운 인공지능 프로세서를 개발할 수 있는 길이 열려 있습니다. 세레브라스의 성공 여부와 상관없이 이 분야에서 한동안 미국이 앞서 나갈 것으로 보는 이유입니다. 고든 정 칼럼니스트 jjy0501@naver.com

2021-04-23 10:16 나우뉴스