忍者ブログ
コンピューターとかゲームの最新ニュースはまとめるのが面倒なので Twitter を追ってください。もしくは1日分のツイートをまとめて簡素な HTML にするスクリプトください。

NVIDIA の次世代 GPU アーキテクチャ 「Pascal」

シロツメクサの 花がさいたら さあ いこう Pascal
六月の風が 渡る道を ロックリバーへ 遠乗りしよう
NVIDIA ありがとう 僕に 夢を見せてくれて


Pascal に 合わせてくれて Pascal に 合わせてくれて
ありがとう 僕には買えない Pascal に 合わせてくれて




詳細まで判りやすい Pascal 解説

僕の理解は怪しいものなので、専門家の解説を読むのを推奨します。

寸評

「AI のための~」とかどうでもいいです。
チップメーカーが使い方を制限するもんじゃないです。

ようやく倍精度浮動小数点 (double/FP64) 演算性能にメスが入った

多分、現在 Tesla 採用のスパコンユーザーは ”FP64 の演算性能が飛躍的に向上したこと” と ”可能な限り FP32 で計算しないと速度が出ないことに悩まなくて良くなった” という2つの意味で、
この点に注目していると思います。


一時期は 「フドウショウスウテン? 何それ?食えるの?」 という認識だった unsigned char 大好き人間が言えたセリフではありませんが、
浮動小数点演算をする際には最終的な計算結果の精度を維持しつつ、可能な限り FP32 を使うというのは神経を使う作業だったと思いますので
これを機に Tesla 採用しようという企業が出るくらいうれしいポイントじゃないでしょうか?

一方で FP16 は1サイクルで2つのデータを処理できるようになった

Tegra X1 から NVIDIA イチ押しとなった 16bit 浮動小数点 ”FP16” が、ハイエンドで300Wクラスの Tesla にも流入してきました。
と言っても、"パック型の FP16 を扱った場合には FP32 の倍速になる” という限定的なシーンでしか威力を発揮しないので、
Tegra X1 とは違った扱いをすべきなんでしょうけど…


AI、AI と騒いでいるのは、多分この FP16 によるより高速な小数演算性能に関係していて、人口知能みたいなシロモノには精度が低くても構わないから高速に処理したい計算が沢山あるのでしょう。
後藤さんはそう言ってますので。

CUDA Core のパーテーションが細かくなった

これについては、さっぱりわからないのでコメントを控えます。
が、 素人でも より汎用コンピューティングを意識した のだと思えます。

広帯域メモリ規格 HBM2 の採用によるメモリ帯域改善

メモリインターフェースが 384bit から 4096bit になるという点を気に留めておくべきでしょうが、近年のコンピューターで問題視され続けている
"メインメモリが遅い" という大問題に対して HBM2 を採用することで対応したのも注目すべき点でしょう。
それでもまだまだ遅いのですが、メモリの階層構造がそのままでメインメモリへのアクセスが高速化したことはとても重要です。


メモリ帯域を有効活用するシーンを考えると、GPGPU 業界ではビッグデータを使ったディープラーニングだと思われますので、こちらも AI 向けたる由縁なのかもしれません。

これは、HPU 向けのお話になるのですが、NVIDIA 謹製のインターコネクト規格 NV LINK のリンク数が 4 に増えました。
詳しいことはさておき、スパコンの構成単位である ノード あたりに搭載できる GPU の数が 2 から 8 に増やすことが出来ます。冷却できれば。

それ以外

もう全然わかりませんが、CUDA のバージョンが上がり、より汎用コンピューティングの敷居が下がったらしいです。

最後に

これは大本営発表に過ぎませんので、過度な期待をしてはいけません。
とりあえずは 「FP64 が使いやすくなるよ」 とだけ考えておきましょう。 このご時世、導入してくれるところも多くないでしょうし…


ちなみに、GPU としての Pascal は6月の Computex で公開されるらしいです。
「Async Shader はさておき、仮想化に力を注いだよ」 が公式見解ですので、DirectX12 厨はご注意ください。



PR