Do đã đầu tư hàng tỷ USD để phát triển kiến trúc GPU mới, có thể Nvidia sẽ thu hồi lại số tiền lớn này bằng cách bán những chip AI B200 vừa ra mắt với giá rất cao, gấp nhiều lần chi phí sản xuất tại TSMC, tương tự như hai thế hệ chip H100 và H200 trước đây. Các tin không chính thức cho biết, chi phí sản xuất của Nvidia H200, kiến trúc Hopper chỉ khoảng 4500 USD, nhưng được bán ra thị trường với giá dao động từ 25 đến 40 nghìn USD mỗi chip.
Một nguồn tin cho biết, Blackwell đã tiêu tốn 10 tỷ USD của Nvidia để phát triển, vì vậy thế hệ kiến trúc GPGPU mới này phải đạt được hiệu suất xử lý đáng kể trong việc xử lý các mô hình AI quy mô lớn, ít nhất là gấp đôi so với H200.
Với số tiền đầu tư này, Nvidia mong muốn đạt được tỷ suất hoàn vốn (ROI) cao. Theo kênh CNBC dẫn lời của CEO Jensen Huang, mỗi GPU Blackwell B200 sẽ được bán với giá từ 30 đến 40 nghìn USD trên thị trường.
Một nguồn tin khác cho biết rằng, mỗi chip B200 có thiết kế MCM với 2 die GPU sẽ tốn kém hơn 6 nghìn USD để gia công, đắt hơn cả chi phí gia công của chip Hopper H200. Lý do Nvidia lựa chọn thiết kế chiplet là vì mỗi die trên chip B200 có kích thước tối đa mà công nghệ hiện tại có thể gia công được trên tiến trình 4NP của TSMC. Để đạt được hiệu suất xử lý AI gấp từ 2 đến 5 lần so với Hopper, Nvidia đã phải sử dụng giải pháp ghép 2 die GPU lại thành 1 con chip hoàn chỉnh. GPU B200 có tổng số 104 tỷ transistor trên mỗi die GPU, tổng cộng 2 die MCM là 208 tỷ transistor, được chia thành 160 Stream Microprocessor, tương đương với 20480 nhân CUDA.
Con chip xử lý Blackwell được hợp tác gia công bởi Synopsys và TSMC, sử dụng công nghệ và thư viện phần mềm CuLitho của Nvidia, kết hợp với sức mạnh của máy tính để tăng tốc quá trình nghiên cứu và phát triển chip. So với Hopper, B200 có nhiều hơn 128 tỷ transistor. Hiệu suất xử lý số thực dấu phẩy động FP8 và FP6 của B200 nhanh gấp 2.5 lần, còn xử lý FP4 nhanh gấp 5 lần so với H200. Trên bề mặt con chip, có 8 stack chip nhớ HBM3e với dung lượng tối đa là 192GB, tốc độ 8TB/s, được kết nối qua bus interface 8192-bit.
Công suất tiêu thụ điện tối đa của con chip này lên tới 700W, tuy nhiên con số này tương tự như các phiên bản H100 và H200 hiện đang có trên thị trường, được sử dụng trong các hệ thống data center để vận hành các mô hình AI của các tập đoàn lớn.