메뉴 건너뛰기

?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부
?

단축키

Prev이전 문서

Next다음 문서

크게 작게 위로 아래로 댓글로 가기 인쇄 첨부
Extra Form
출처 http://iyd.kr/951

파스칼 아키텍처 분석 : 역대 최고 넓이의 프론트엔드, IPC 15~20% 가량 개선 전망

 

 

2522024457042A922E1FE7

 

 

엔비디아의 차세대 GPU '파스칼'이 마침내 윤곽을 드러냈다. 최상위 칩셋인 GP100은 3840개의 쿠다코어와 1.4TB/s 대역폭의 HBM2 메모리로 무장하며, 현재 양산 중에 있고 내년 1분기 중 선적될 것이라고 전해졌다. GP100을 사용한 최초의 제품은 고성능 컴퓨팅용 연산 가속장치 '테슬라'의 차세대 모델이 될 것으로 알려졌으며 여기에는 GP100의 쿠다코어 일부를 비활성화한 컷팅 칩이 탑재될 것이라고 한다. 주목할 점은 작동 속도. 오늘의 주인공 테슬라 P100의 베이스 클럭은 1328MHz, 부스트 클럭은 무려 1480MHz에 달한다.

 

2521F74457042A162DBC99

 

이로써 3584개로 컷다운된 쿠다코어에도 불구하고 총 10.6 테라플롭스에 달하는 단정밀도 연산성능을 구현, AMD의 피지가 차지하고 있던 최고 연산성능 GPU의 타이틀을 10개월여만에 탈환하게 되었으며, 특히 양사의 현세대 플래그십이 공히 배정밀도 연산성능을 소홀히 했던 것에서 차별화하여 단정밀도의 1/2에 해당하는 높은 배정밀도 연산성능을 갖게 되었다. 최근 각광받는 딥러닝 분야에 널리 쓰이는 '반정밀도' 연산의 경우 단정밀도의 2배에 해당하는 속도로 처리할 수 있어, 이론적으로 반정밀도 기준 21.2 테라플롭스의 성능을 낼 수도 있다. 일찍이 20 테라플롭스급 성능을 갖는 단일 칩셋은 존재한 적 없다.

 

2422A14457042A172EA0D5

 

그러나 지금까지 나열한 수치는 액면 그대로의 최소한도일 뿐이다. 세대가 교체되며, 그리고 아키텍처가 교체되며 가장 관심을 끄는 부분은 과연 개별 코어당 성능이 얼마나 향상되었느냐는 부분일 것이다. 이 글에서는 VGA 계산기를 활용, GP100 칩셋을 아키텍처 단위에서 분석해 볼 것이다. 우선 블럭 다이어그램을 보자. 쿠다코어 갯수가 증가한 만큼 전체 구성이 조밀해지는 것은 당연한 수순이나, 자세히 살펴보면 개별 '스트리밍 멀티프로세서' 단위가 쿠다코어가 전체적으로 늘어난 정도보다 훨씬 가파르게 세밀해졌음을 알 수 있다.

 

2124FD4457042A182CAB56

 

앞서 IYD에서는 이 글(링크)을 통해, 마찬가지로 이례적인 아키텍처 변경이 동반되었던 케플러-맥스웰 세대교체기의 아키텍처 분석과 그로부터 도출되는 성능향상폭을 계측해본 바 있다. 뒤이어 엔비디아의 기술문서를 통해 실제 맥스웰의 IPC 향상폭이 IYD에서 예측한 수치와 맞아 떨어짐으로써(링크) 이러한 분석법이 효율적이라는 것이 증명되었는데, 이때 중요한 요소로 고려되었던 것이 바로 개별 SM의 '프론트엔드'에 해당하는 스케줄러와 디스패치 유닛이었다. 케플러에서 쿠다코어 48개당 하나씩 배치되던 스케줄러는 맥스웰 아키텍처 하에서 32개당 하나로 비율이 증가했으며, 파스칼에서는 그보다도 더욱 증가율을 높여 16 쿠다코어당 하나씩의 비율로 배치되게 되었다. 한 마디로 GPU 내부(SM 내부)에서 멀티프로세싱 효율을 더욱 높일 수 있게 된 것이다.

 

2722864457042A192CE644

 

또한 주목할 부분은 블럭 다이어그램상 파스칼의 '메모리컨트롤러 블럭'이 8개로 그려져 있단 점이다. 현세대 최상위 GPU인 GM200의 경우 해당 블럭 여섯개가 SM들 주위를 둘러싸고 있다. 전통적으로 엔비디아의 GPU 아키텍처에서 GPU의 백엔드에 해당하는 ROP는 메모리 대역폭과 밀접한 관계에 있으며, 물리적으로도 메모리컨트롤러와 한 덩어리로 취급된다. 케플러까지는 GDDR5 메모리컨트롤러 64비트분(分)과 8개의 ROP가 한 묶음이었으나 맥스웰 들어 이 덩어리는 '느슨한 큰 덩어리'화 되어, 표면적으로는 GDDR5 메모리컨트롤러 64bit분 + 16 ROP가 한 단위를 형성하나 내부적으로는 이를 절반으로 분절해 선택적으로 활성/비활성화하는 것이 가능하다. 우리는 모두 지포스 GTX 970을 둘러싼 소동을 기억하고 있다.

 

물론 세대가 바뀌었으니만큼 '메모리컨트롤러 블럭'에 포함되는 ROP의 비율은 더 늘었을 수도 있다. 다만 글의 목적상 보수적인 접근을 취해 맥스웰 시절의 비율이 그대로 유지된다고 가정하면 블럭당 ROP 갯수는 16개가 된다. 산술적으로 16개의 ROP를 담은 블럭이 여덟 개 배치되었으니 GP100의 ROP 갯수는 총 128개가 될 가능성이 높다.

지금까지 얻은 내용을 정리해 보자.

 

GM200 : 3072 쿠다코어, 192 TMU, 96 ROP, 384bit GDDR5 7.0Gbps
<embed allowscriptaccess="never" enablecontextmenu="false" flashvars="&callbackId=iydkr9519632&host=http://iyd.kr&embedCodeSrc=http%3A%2F%2Fiyd.kr%2Fplugin%2FCallBack_bootstrapper%3F%26src%3D%2F%2Fs1.daumcdn.net%2Fcfs.tistory%2Fresource%2F3979%2Fblog%2Fplugins%2FCallBack%2Fcallback%26id%3D951%26callbackId%3Diydkr9519632%26destDocId%3Dcallbacknestiydkr9519632%26host%3Dhttp%3A%2F%2Fiyd.kr%26float%3Dleft" height="1" id="bootstrapperiydkr9519632" src="http://iyd.kr/plugin/CallBack_bootstrapperSrc?nil_profile=tistory&nil_type=copied_post" style="box-sizing: border-box; max-width: 100%;" swliveconnect="true" type="application/x-shockwave-flash" width="1" wmode="transparent">GP100 : 3840 쿠다코어, 240 TMU, 128 ROP, 4096bit HBM2 1.4Gbps

 

이상의 자료를 바탕으로, VGA 계산기에 대입해 구한 상대성능비는 아래와 같다.

 

27141039573457CE03CA7E

 

이에 따르면 GM200과 GP100이 동일한 작동속도를 가질 때 GP100쪽이 해상도에 따라 최대 45%까지 더 높은 성능을 보인다. 다만 이 수치가 그대로 '코어당' IPC로 환산되는 것은 아니고, 기술했다시피 둘의 쿠다코어 갯수가 다르니 이를 반영해 코어당 IPC를 구하는 과정은 아래의 식과 같다. 고해상도일수록 병목현상이 적을 것이라는 경험칙에 의거, GP100 풀 칩의 클럭당 성능은 GM200의 1.45배로 가정했다.

 

1 : 1.45 = 3072 : 3840 * IPC_improvement

IPC_improvement = 1.45 * 3072 / 3840

IPC_improvement = 1.16

 

즉 파스칼은 쿠다코어당 동클럭 성능이 맥스웰보다 15~20% 가량 향상되었을 가능성이 높다. 맥스웰은 케플러 대비 35%의 IPC 향상을 가져왔던 만큼 이번 세대에서는 상대적으로 완만한 개선이 이뤄진 것이라 볼 수 있다. 한편, 이 수치는 맥스웰과 파스칼이 동일한 작동속도를 갖는다는 전제 하에 구해진 것이지만 실제 둘의 작동속도는 같지 않다. 현 시점에 파스칼 아키텍처에 기반한 '상용 제품'으로 알려진 것이 테슬라 P100 단 하나뿐이라 이것을 파스칼측 대표로 삼는 것이 다소 정확성을 떨어뜨리는 요인일 수 있겠으나, 적어도 훗날 리테일 시장에 출시될 'GP100 기반 지포스' 그래픽카드의 성능을 가늠해 볼 유일한 지표란 점에서 테슬라 P100의 사양을 그대로 대입해 이론상의 게임 성능을 구해 보는 것도 의미가 있다. 위 그래프에서 맨 오른쪽이 테슬라 P100의 게임 성능을 나타낸다. (엄밀히 말해 테슬라는 "그래픽카드"가 아니기 때문에, 해당 결과는 테슬라 P100과 동일한 사양을 갖는 임의의 지포스의 그것에 해당한다.)

 

앞서 설명했듯 테슬라 P100은 GP100의 풀 칩을 사용하지 않았다. 전체 60개의 SM 중 4개가 비활성화되어 56 SM만을 탑재하고 있으나, 대신 작동 속도가 GM200보다 훨씬 높아져 거의 1.5GHz에 육박한다. 이러한 특징들이 모두 반영된 결과 VGA 계산기를 통해 환산된 성능지표는 위와 같다. 테슬라 P100은 현존하는 최상위 그래픽카드인 지포스 GTX 타이탄 X보다 2배 가까이 빨라진다.

 

또한 파스칼의 차상위 칩셋 GP104를 짚어보지 않을 수 없다. 40개의 SM을 탑재해 2560 쿠다코어를 가질 것으로 예상되는 이 GPU야말로 가까운 장래에 우리가 직접 만져볼 수 있을 "지포스" 라인업을 담당할 가능성이 높다. 클럭을 1000MHz로 통제한 경우 GP104의 성능은 GM204보다는 높고 GM200보다는 낮은 정도이나, 앞서 GP100 GPU를 탑재한 테슬라 P100이 무려 1480MHz라는 고클럭으로 데뷔한 것을 생각할 때 GP104 역시 이제까지의 상식에 대입해 볼 수는 없을 것이다. GM200과 GM204를 대표하는 타이탄 X와 GTX 980이 약 100MHz 언저리의 클럭 차이를 가졌었으니, GP104 기반 지포스가 최소 1580MHz (=1480+100) 이상의 클럭을 가지더라도 별로 놀라운 일은 아니다. 이 클럭이 적용될 경우, (가칭) 지포스 GTX X80 Ti의 성능은 타이탄 X를 약 9~10%가량 상회할 것으로 보인다.

 

한편, 케플러에서 맥스웰로의 세대교체를 코어 갯수의 변화에 한정해 보았을 때 의외로 매우 소폭의 업그레이드였다는 사실을 아는 이는 많지 않다. GK110이 이미 2880개의 쿠다코어를 내장하고 있었는데, 최초의 하이엔드 맥스웰로써 투입되었던 GM204는 오히려 그보다 적어지기까지 했었고(2048 쿠다코어), 최종병기로 등장한 GM200 역시 3072개로 겨우 6.7% 증가하는 데 그쳤기 때문이다. 굳이 이 이야기를 꺼내는 것은 AMD / 엔비디아 양사 공통적으로 GPU 설계 패러다임이 큰 전환기를 맞았단 조짐이 보이는 까닭이다.

 

2571C43557345ADD2A9938

 

올해는 28nm 제조공정이 도입된 지 AMD에게는 6년, 엔비디아에게는 5년차가 되는 유서깊은 해이다. 실로 오랜만의 제조공정 진화치고는 양사 모두 코어 갯수의 증가폭이 지나치게 보수적이지 않은가. 그린란드는 아예 피지와 코어 갯수가 똑같고, GP100의 '3840'이라는 숫자 역시 GM200의 3072보다 겨우 25% 증가했을 따름이다. 과거의 제조공정 교체기를 생각해보면 한층 의아해질법 하다. 케플러 GK104는 페르미 GF100/110보다 무려 3배 더 많은 쿠다코어를 내장하게 되지 않았던가. 글쓴이는 그 미스테리의 해답을 'ROP의 상대적 증가'에서 찾아보고자 한다. 제조사들의 깊은 속내는 모르겠으나 연산성능과 ROP 성능이라는 전형적인 '두 마리 토끼' 클리셰에서 이젠 집토끼를 다시 찾기로 작정한듯 하다. 게이머들에게는 어느 때보다 은혜로운 한 해가 될 것이다. 가령, 위 그래프같은 메인스트림~퍼포먼스 라인업이 갖춰진다면 어떻겠는가.


Who's DGLee

profile

페북/drmolaByIYD

트위터/iyd_twit

팔로우 및 친추 환영합니다! :D

▼ 펼쳐 보기
Atachment
첨부 '1'
  • profile
    코코넛먹자 2016.04.06 07:18
    돗자리 깔았네요 과연적중할것인가!
  • profile
    잼아저씨 2016.04.06 13:36

    대근님은 사랑입니다.

    그나저나 Titan X 베이스클럭이 1000인데 GP100은 1328.... 현재 제 980Ti도 전압 추가 인가 없이 1450내외로 최대 부스트 클럭이 나오는 데 레퍼런스에서 저정도면 미친 클럭향상이네요.

  • profile
    algalon 2016.04.06 18:16
    어제 새벽에 흥미롭게 봤었습니다!
    GP100의 실 성능이 정말 궁금해지네요 ㅎ
  • profile
    ipuni 2016.04.19 13:15
    980샤 내년까지 안고 가서 ti 새로 나오는거 봐서 갈아 타던가 해야겠네요 성능 차이가 그리 크지 않다면 또 다음 세대를 노려 보고...
  • profile
    coyan 2016.04.26 10:23
    일단 새로운 칩 기대가 많이 됩니다!!!

  1. 제온의 모든 것 : 22코어 브로드웰-EP 전격 대해부

    초판 발행으로부터 일년, 준비기간을 합치면 2년을 끈 제온 E5 리뷰를 이제야 탈고하게 되었습니다. 오랜 준비 끝에 선보이는 만큼 독자의 입장, 필자의 입장 모두에서 만족스러운 퀄리티를 담아내기 위해 많은 고민과 끊임없는 수정을 거쳤습니다만 최종 결...
    Date2016.05.08 ByDGLee Views1749
    Read More
  2. Her Story 리뷰 및 가이드/워크스루

    이번에는 특별한 주제를 잡진 않았고, 일반적인 형태의 리뷰를 하게 되었습니다. 저의 생각의 흐름을 따라 언어를 사용했기에 다른 분들께 저의 생각을 전하는 데 문제가 있을지도 모르겠습니다. 저는 언제나 토론할 준비가 되어 있습니다. 궁금하시거나 이야...
    Date2016.05.06 Category게임 By잼아저씨 Views2616
    Read More
  3. ASRock BTC PRO Kit - 디앤디컴

      이번에 소개해 드릴 제품은 ASRock 디앤디컴에서 유통하는 PCI-E 라이저 키트로 주로 비트코인이나, 라이트코인 채굴을 위해 다수의 그래픽카드를 연결할 떄 사용되는 제품입니다.   PCIe-E 라이저 키트로 구형 방식으로는 IDE 데이터 케이블과 전원을 연결...
    Date2016.05.04 BynameGT Views972
    Read More
  4. ASRock Fatal1ty Z170 Gaming-ITX/ac(디앤디컴) - 프리뷰

    이번 프리뷰는 ASRock 디앤디컴에서 출시한 고성능 미니 ITX PC를 구축할 수 있는 제품으로, 인텔 6세대 스카이레이크를 지원하는 Z170칩셋과 8-Phase 전원부를 채택하여 오버클럭킹에서도 높은 안정성과 미니 ITX의 풀 스펙을 자랑하고 있기 때문에 ITX 기반...
    Date2016.05.03 BynameGT Views919
    Read More
  5. IYD 리포트 : 랩탑 & 투인원 가이드 (2016년 3/4월호)

      지난 글에서 IYD가 던졌던 화두를 기억하시나요. 양 극단과 '그램'만이 존재하는 것 같던 노트북 시장에 이들 외에도 좋은 선택지가 많이 있다는, 진흙 속 진주를 발굴하는 마음으로 시장의 균형 발전을 유도하고자 미약하게나마 힘을 보태려는 것이 저희가...
    Date2016.05.03 ByDGLee Views561
    Read More
  6. 마이크로닉스 Frontier S300 Mini Black

            PC 케이스 및 파워서플라이, 올인원 PC 등을 전문 개발/제조/유통하는 (주)마이크로닉스(http://www.micronics.co.kr/)에서 매년 진행하는 신제품 발품회때 선보여 많은 관심을 받았던 새로운 'Frontier(프론티어)' 시리즈를 출시하였습니다.   새롭...
    Date2016.04.29 ByReignXx Views767
    Read More
  7. AMD의 승부수, 인텔 뒷통수를 치다

    AMD, 중국 회사와 서버용 x86 CPU 개발 위한 조인트 벤처 설립 금일 2016년 1분기 실적을 발표한 것과 동시에(링크 참조) AMD는 중국 회사와 x86 SoC 개발을 위한 합작 자회사를 설립한다는 소식을 새로 전했다. 아직 이 자회사의 이름은 정해지지 않았으나, ...
    Date2016.04.22 ByDGLee Views1112
    Read More
  8. '더 디비전'을 즐기기 위해 색다롭게 구성해본 High-End 게이밍 Mini PC

    2016년 1월과 2월 베타 테스트를 진행하면서 발매 전부터 뜨거운 관심을 받아오던 Ubisoft사의 'Tom Clancy’s The Division™'이 지난 3월 7일 정식 출시하면서 해외뿐 아니라 국내 게임 시장에서도 그 인기는 '더 디비전'의 지하...
    Date2016.04.20 ByReignXx Views2213
    Read More
  9. 신스는 전기 양의 꿈을 꾸는가

    신스는 전기양의 꿈을 꾸는가 - 폴아웃 4의 인조인간-   잼아저씨 1. Humanity       중학교 3학년 과정의 단어이지만 저는 아직도 이 단어의 뜻을 잘 모르겠습니다. 무엇이 인류와 인간성을 나누는 것인가요? 과연 인류와 인간성이라는 것을 하나의 단어로 뭉...
    Date2016.04.16 Category게임 By잼아저씨 Views2568
    Read More
  10. THE DIVISION for High-End Mini PC Build Guide

    이번 사용기는 지극히 개인적으로 오래전 부터 목말라해 왔던 시스템 구성 중 50% ~ 60%(?) 정도 완성된 상태에서 ITCM 커뮤니티를 비롯한 많은 PC 사용자들과 공유하고 직접 사용을 목적으로 작성된 사용기이니 참고하시고 봐주시기 바랍니다. 먼저, PC 패키...
    Date2016.04.11 ByReignXx Views2307
    Read More
  11. Battleborn Early Access Review

       배틀본(Battleborn)은 기어박스 소프트웨어에서 제작하고 2K 게임즈가 퍼블리시 예정인 FPS 게임 입니다. 한차례 발표가 딜레이가 된바, 스팀상점에서는 올해 3월에 출시 예정이라 써있지만, H2 INTERACTIVE 에서는 5월 3일에 전 플랫폼(ps4, xboxone, pc)...
    Date2016.04.08 Category게임 By실기 Views1443
    Read More
  12. 파스칼 아키텍처 분석 : 역대 최고 넓이의 프론트엔드, IPC 15~20% 가량 개선 전망

    파스칼 아키텍처 분석 : 역대 최고 넓이의 프론트엔드, IPC 15~20% 가량 개선 전망         엔비디아의 차세대 GPU '파스칼'이 마침내 윤곽을 드러냈다. 최상위 칩셋인 GP100은 3840개의 쿠다코어와 1.4TB/s 대역폭의 HBM2 메모리로 무장하며, 현재 양산 중에 ...
    Date2016.04.06 ByDGLee Views1213
    Read More
Board Pagination Prev 1 ... 15 16 17 18 19 20 21 22 23 24 ... 49 Next
/ 49
CLOSE

SEARCH

CLOSE