NVIDIA, Reddit Q&A에서 Geforce RTX 30 시리즈에 대한 답변을 했습니다. - It 정보 공유
NVIDIA, Reddit Q&A에서 Geforce RTX 30 시리즈에 대한 답변을 했습니다.

상세 컨텐츠

본문 제목

NVIDIA, Reddit Q&A에서 Geforce RTX 30 시리즈에 대한 답변을 했습니다.

본문



NVIDIA Reddit Q & A를 통해 NVIDIA Geforce RTX 30 Series (엔비디아 지포스 RTX 30 시리즈) 그래픽 카드에 대해 소개를 하다.


NVIDIA는 공식적으로 NVIDIA subreddit (Vidieocardz  Hardwareluxx 통해 나온 내용입니다.) 에서 Q & A를 통하여 NVIDIA Geforce RTX 30 Series (엔비디아 지포스 RTX 30 시리즈)에 대한 내용을 알렸습니다. NVIDIA 직원 중 일부는 댓글에 답변했습니다.

(↓아래 내용은 해외 기사의 번역으로 오역, 오타, 의역, 등이 있을 수 있습니다. 참고 부탁드립니다.)

[ NVIDIA Geforce RTX 30 시리즈 GPU 및 기능이 Reddit Q & A 세션 ]

Reddit 세션에는 NVIDIA의 커뮤니티 관리자는 댓글에 답변을 달았습니다. Videocardz에 의하면 이번 주 예정된 언론 브리핑과 첫 암페어 카드 출시일인 9월 17일 이후 많은 내용을 알 수 있을 것이라고 했습니다.  

[Ampere 게임용 GPU를 위한 새로운 NVIDIA 스트리밍 멀티 프로세서]


[ NVIDA RTX IO - 작동원리 및 작동에 필요한 사항 및 기타 정보 ]

라이브 이벤트 중, NVIDIA에서 공개한, RTX I/O에 관하여 Tony는 답변했습니다. RTX IO에  내용에 답변을 했습니다.  RTX IO는 GPU 기반으로 게임 로딩 및 감압을 제공하는 것을 목표로 하는 '기술 적합성'으로 묘사되며, 이 회사는 표준 하드 드라이브 및 스토리지 API에 비해 I/O성능을 100배까지 향상할 수 있다고 주장합니다. 

NVIDIA는 SATA SSD가 아닌 NVMe 드라이브 요구 사항과 같은 세부 정보를 제공했습니다. 정보는 다음과 같습니다.

[ID : Pengwin17523 ]

Q : Pengwin17523 - RTX I / O에 특정 SSD 속도 요구 사항이 있나요?

A: [Tony Tamasi]  RTX IO는 SSD의 요구되는 속도는 없지만, 최신 세대의 Gen4 NVMe SSD와 같은 더빠른 SSD는 더 좋은 결과를 가져다주며, 더 빠른 로딩 시간과 게임에서 더 많은 데이터를 스트리밍 할 수 있는 기능을 제공합니다. 일부 게임은 향후 SSD 성능에 대한 최소 요구 사항들이 있을 수 있지만 게임 개발자가 결정하는 부분입니다. RTX I/O에 필요한 CPU 부하를 줄이고 GPU 기반 압축 해제를 활성화하여 게임 자산을 압축 형식으로 저장하고 잠재적으로 수십 개의 CPU 코어를 오프로드함으로써 SSD 성능을 가속화 합니다. 압축 비율은 일반적으로 2:1이므로 SSD의 읽기 성능을 2배 증가시킵니다. 링크 ]

[ID :  SBMS-A-Man108 ]

Q : SBMS-A-Man108 – RTX IO에서 SSD 공간을 VRAM으로 사용할 수 있습니까? 아니면 내가 잘못 이해하고 있는 것인가요?

A : [Tony Tamasi]  RTX IO는 기존 방식보다 훨씬 빠른 속도로 SSD에서 데이터를 읽을 수 있으며, GPU에서 압축 해제 및 사용을 위해 데이터를 압축 된 형식으로 저장하고 읽을 수 있습니다. SSD가 프레임 버퍼 메모리를 대체 할 수는 없지만 SSD의 데이터가 GPU 및 GPU 메모리에 훨씬 더 빠르게 도달하고 CPU 오버헤드가 훨씬 적습니다. 링크 ]

[ ID : Aztec47]

Q:  Aztec47 – Pytorch와 같은 기계 학습 라이브러리에 RTX IO가 제공되는 것을 볼 수 있습니까? 이것은 실시간 응용 프로그램의 성능에 좋습니다.

A: [Tony Tamasi]  :NVIDIA는 약 1 년 전에 NVIDIA GPU DirectStorage를 통해 다양한 데이터 분석 플랫폼을 위한 고속 I / O 솔루션을 제공했습니다. 특히 AI 및 HPC 유형의 애플리케이션과 워크로드를 위해 GPU와 스토리지 간의 고속 I / O를 제공합니다. 자세한 내용은 https://developer.nvidia.com/blog/gpudirect-storage / [ 링크 ] 를 확인 하십시오 .

[ ID : Qrios1ty ]

Q:  Qrios1ty – RTX I / O 기능이 마음에 들지만, 정확히 어떻게 작동하는지 부분적으로 모르겠습니까?

A : [Tony Tamasi] : RTX IO 및 DirectStorage는 새로운 API를 통합하여 이러한 기능을 지원하는 애플리케이션이 필요합니다. Microsoft는 내년에 게임 개발자를 위한 Windows 용 DirectStorage의 개발자 프리뷰를 목표로하고 있으며, NVIDIA RTX 게이머는 RTX IO 향상된 게임이 출시되는 즉시 활용할 수 있습니다.

[ NVIDIA 암페어 스트리밍 멀티 프로세서 ]

첫 번째 질문은 NVIDIA에 게이밍 Ampere GPU에 특화된 새로운 아키텍처 디자인에 관하여 묻는 질문입니다. 이 질문에서 NVIDIA의 콘텐츠 및 기술 담당 수석 부사장이 답변한 내용입니다. 

* CUDA 코어의 이러한 두 배 증가에 대해 조금 더 자세히 설명해 줄 수 있나요?
* GPC의 일반 아키텍처에 어떤 영향을 미치나요?
* 모든 FP32 장치를 계속 공급하는 것이 얼마나 어려운가요?
* 높은 점유율을 보장하기 위해 무엇을 했습니까?

[Tony Tamasi] : Ampere 30 시리즈 SM의 주요 설계 목표 중 하나는 Turing SM에 비해 FP32 작업 처리량을 두 배로 늘리는 것이었습니다. 이 목표를 달성하기 위해 Ampere SM에는 FP32 및 INT32 작업을 위한 새로운 데이터 경로 설계가 포함되어 있습니다. 각 파티션의 데이터 경로는 클럭 당 16개의 FP32 작업을 실행할 수 있는 16개의 FP32 CUDA 코어로 구성됩니다. 또 다른 데이터 경로는 16개의 FP32 CUDA 코어와 16개의 INT32 코어로 구성됩니다. 이 새로운 디자인의 결과로 각 Ampere SM 파티션은 클럭 당 32개의 FP32 작업 또는 클럭 당 16개의 FP32 및 16 개의 INT32 작업을 실행할 수 있습니다. 결합한 4개의 SM 파티션은 모두 클럭 당 128개의 FP32 작업을 실행할 수 있습니다. 이는 Turing SM의 FP32 속도의 두 배 또는 클럭 당 64개의 FP32 및 64 개의 INT32 작업입니다.

P32의 처리 속도를 두 배로 늘리면 여러 일반적인 그래픽과 컴퓨팅 작업 및 알고리즘의 성능이 향상됩니다. 최신 셰이더 워크로드에는 일반적으로 FFMA, 부동 소수점 추가 (FADD) 또는 부동 소수점 곱셈 (FMUL)과 같은 FP32 산술 명령어가 혼합되어 있으며, 데이터 주소 지정 및 가져오기, 부동 소수점 비교 또는 최소를 위한 정수 추가와 같은 더 간단한 명령어와 결합합니다. / max 처리 결과 등. 성능 향상은 명령 조합에 따라 셰이더 및 응용 프로그램 수준에서 달라집니다. 레이트 레이싱 노이즈 제거 셰이더는 FP32 처리량을 두 배로 늘리면 큰 이점을 얻을 수 있는 좋은 예입니다.

수학 처리량을 두 배로 늘리려면 이를 지원하는 데이터 경로를 두 배로 늘려야 했기 때문에 Ampere SM은 SM의 공유 메모리와 L1 캐시 성능을 두 배로 늘 렸습니다. (Ampere SM 당 128바이트 / 클럭 대 Turing의 64 바이트 / 클럭). GeForce RTX 3080의 총 L1 대역폭은 219GB / 초이고 GeForce RTX 2080 Super의 경우 116GB / 초입니다.

이전 NVIDIA GPU와 마찬가지로 Ampere는 그래픽 처리 클러스터 (GPC), 텍스처 처리 클러스터 (TPC), 스트리밍 다중 프로세서 (SM), 래스터 연산자 (ROPS) 및 메모리 컨트롤러로 구성됩니다.

GPC는 GPC 내부에 모든 주요 그래픽 처리 장치가 있는 지배적인 고수준 하드웨어 블록입니다. 각 GPC에는 전용 Raster Engine이 포함되어 있으며 이제 NVIDIA Ampere Architecture GA10x GPU의 새로운 기능인 2개의 ROP 파티션 (각 파티션에 8개의 ROP 장치 포함)이 포함됩니다. NVIDIA Ampere 아키텍처에 대한 자세한 내용은 앞으로 발행될 NVIDIA의 Ampere 아키텍처 백서에서 확인할 수 있습니다. 




Hardwareluxx에서 제작한 차세대 NVIDIA GeForce RTX 30 시리즈 그래픽 카드의 Ampere Gaming SM 블록 다이어그램을 Turing Gaming SM과 비교한 것입니다.


Tony가 제공 한 정보를 바탕으로 Hardwareluxx 는 Ampere SM의 블록 다이어그램 표현을 만들었습니다. 새로운 SM 블록은 최종 블록에 가깝게 보이며 두 개의 데이터 경로에서 이중 FP32 장치를 확인할 수 있습니다. 각 SM은 128 개의 CUDA 코어로 구성되어 있기 때문에 Ampere GPU에서 코어 수가 두 배로 늘어났습니다. 9 월 17일에 Ampere GPU 및 기본 아키텍처에 대한 자세한 기사가 있을 예정이므로 기대해주세요.


Tony가 공개한 정보를 기반으로 HardWareluxx 는 Ampere SM의 블록 다이어그램 표현을 만들었습니다. 새로운 SM 블럭은 최종 블럭에 가깝게 보이며, 두 대의 데이터 경로에서 이중 FP32 장치를 확인할 수 있습니다. 각 SM은 128개의 CUDA 코어로 구성되어 있기 때문에 Ampere GPU에서 코어 수가 두 배 늘어났습니다. 

2020년 9월 17일 Ampere GPU가 출시되는 부분에 대해서 정확하게 알 수 있을 것으로 보입니다.

[ ID :  Ben10lightning ]

Q : Ben10lightning – RTX 2080에서 RTX IO가 지원됩니까? (wccftech에서 추가한 Reddit 문)

A : [내슬레 드링크] : 네, (튜링과 암페어 )


PCIe 4.0과 PCIe 3.0은 얼마나 많은 차이가 있나요?  (wccftech에서 정리 내용)

Tony가 대답한 또 다른 중요한 질문은 PCIe 4.0과 PCIe 3.0 인터페이스의 차이입니다. NVIDIA Ampere Gaming GPU의 경우 3.0 세대 프로토콜과 4.0 세대 프로토콜의 성능 차이가 몇 퍼센트 미만이며 주요 영향은 CPU 자체에서 발생한다고 합니다. NVIDIA는 완전한 Gen 4 플랫폼으로 잠재적인 성능 향상을 언급하고 있으며 PC를 업그레이드하는 사람들은이를 염두에 두어야 하므로 PCIe Gen 4 플랫폼 소유자를 훼손해서는 안 됩니다.

Q : PCIe 3.0이 RTX 3090에 병목 현상을 발생시키나요? 가지고 있는 인텔 시스템은 4.0을 지원하지 않기 때문에 걱정됩니다.

A : [Tony Tamasi ]– 시스템 성능은 여러 요인의 영향을 받으며 그 영향은 응용 프로그램마다 다릅니다. 영향은 일반적으로 x16 PCIE 4.0에서 x16 PCIE 3.0으로 이동하는 몇 퍼센트 미만입니다. CPU 선택은 종종 성능에 더 큰 영향을 미치며, 잠재적인 성능 향상을 위해 Gen4 기능을 완전히 활용할 수 있는 새로운 플랫폼을 기대합니다.

[DLSS 2.1]

Q : EeK09 – DLSS에서 어떤 종류 발전을 기대할 수 있나요? 대부분의 사람은 DLSS 3.0 또는 최소한 DLSS 2.1과 같은 것을 기대하고 있었습니다.  DLSS를 계속 개선하고 동일한 버전을 유지하면서 더 많은 게임에 대한 지원을 제공하는 건가요?

A : [NV-Randy] : DLSS SDK 2.1이 출시되었으며 세 가지 업데이트가 포함되어 있습니다.

– 8K 게임을 위한 새로운 초고성능 모드. 새로운 9x 확장 옵션으로 GeForce RTX 3090에서 8K 게임을 제공합니다.
– VR 지원. 이제 VR 타이틀에 DLSS가 지원됩니다.
– 동적 해상도 지원. 입력 버퍼는 출력 크기가 고정되어있는 동안 프레임에서 프레임으로 차원을 변경할 수 있습니다. 렌더링 엔진이 동적 해상도를 지원하는 경우 DLSS를 사용하여 디스플레이 해상도에 필요한 업 스케일을 수행 할 수 있습니다. 링크 ]

[ RTX 인코더]

Q : Carmen813 – Turing 릴리스에서 본 것과 유사한 Ampere 시리즈 카드의 RTX 인코더에 대한 개선 사항이 있나요? 방송 소프트웨어에 대한 정보를 보았지만 동일한 비트 전송률에서 전반적인 이미지 품질이 향상될 것이라고 생각하고 있습니다.

A : [Jason Paul] : RTX 30 시리즈의 경우 비디오 디코드 측면에 중점을 두기로 결정하고 AV1 디코드 지원을 추가했습니다. 인코딩 측면에서 RTX 30 시리즈에는 RTX 20 시리즈 GPU와 동일한 훌륭한 인코더가 있습니다. 또한 최근 NVIDIA Encoder SDK를 업데이트했습니다. 앞으로 몇 달 안에 라이브 스트림 애플리케이션이 새로운 버전의 SDK로 업데이트되어 스 트리머를위한 새로운 성능 옵션이 제공됩니다.

[Reflex]

Q : Akanash94 – Nvidia reflex가 파스칼 GPU와 함께 작동하나요? 아니면 Turing / Ampere 기능일 뿐인가요?

A : [NV_Tim] : RTX 20 시리즈를 포함한 900 시리즈 + GPU에서 작동합니다.


NVIDIA RTX 30 시리즈 Founders Edition Cooler-Turing Founders Edition보다 조용하고 효율적입니다.


NVIDIA의 GeForce 제품 관리자인 Qi Lin은 커뮤니티 구성원에게 GeForce RTX 30 시리즈 Founders Edition 디자인이 Turing 카드에서 사용하는 Founders Edition보다 시원하고 조용하다고 설명합니다. 그는 또한 섀시가 GPU로 신선한 공기를 공급하고 PC 케이스에서 공기를 효율적으로 이동하도록 구성되어있는 한 대부분의 사용자는 공기 흐름에 대해 걱정할 필요가 없다고 말합니다.


Q1 : iCinn – 이중 공기 흐름 설계가 반전된 경우 엉망이 될 것입니다. 경우 어떤 생각? 이전 디자인보다 더? 그것은 CPU에 그것을 날리는 것 처럼 보인다. 그러나 CPU 쿨러는 여전히 사건을 날려 버릴 것입니다. 어쩌면 그렇게 나쁘지 않을 수도 있습니다. (의역필요)

( Storm, Hong 생각 + 번역 : 암페어의 공기 역학 구조도에 대한 이야기라고 생각합니다. 
이번에 바뀐 내용으로 뜨거운 공기를 배출하는 배기 팬이 컴퓨터 전면에 가까우며 더워진 공기가 위로 올라가는 그림을 내놨습니다. 이에 대한 쿨링 시스템에 대해서 문의하며 CPU 쿨러가 그래픽 카드 공기도 같이 식히니 나쁘지 않을 수 있다는 이야기를 한 것 같습니다.  )

Q2 : 두 번째 질문입니다. RTX 3090 용 Titan보다 10배 더 조용하며 NVIDIA GeForce RTX 2080 Super (예 로: Evga ultra fx)보다 다소 조용한가요?

A : [Qi Lin] u / iCinn 섀시 팬이 GPU에 신선한 공기를 공급한 다음 GPU를 통해 흐르는 공기를 섀시 밖으로 이동하도록 구성되어있는 한 새로운 흐름을 통한 냉각 설계는 훌륭하게 작동합니다. 섀시가 거꾸로 되어 있는지는 중요하지 않습니다.

Founders Edition RTX 3090은 Titan RTX 및 Founders Edition RTX 2080 Super보다 조용합니다. 우리는 특정 파트너 디자인에 대해 테스트하지는 않았지만, 당신이 듣는 것에 감명을 받을 것이라고 생각합니다… :-)

원문 기사 참조 :  Reddit, HardwareLuxx   기사(NEWS) 참조 : Videocardz, wccftech

* 댓글 창 로그인이 되지 않거나 구독 버튼이 작동하지 않은 분은 1차 주소로 접속하여 주시기 바랍니다. ->티스토리 공지사항 내용은 이곳을 참조하시기 바랍니다. 


관련글 더보기

댓글 영역