A6000のベンチマーク

  • GPUサーバ増設とA6000のベンチマーク | ALBERT Official Blog
  • BFLOAT16とかも調べてる
  • FP32
    • ピーク性能 38.7 TFlops

    • M=640, N=480, K=320 のFP32の計算  10TFlops出ていますが、行列サイズも小さいのでピーク性能にはまだまだです。

  • FP16
    • cudaTensorCoreGemm (FP16 Tensor)

    • A6000:TFLOPS: 77.85

    • M=4096, N=4096, K=4096の行列積演算で、いわゆる混合演算(Mixed precision)です。行列A, Bはhalf (FP16)で、積和を行列Cのfloat(FP32)で受け取り、推論だけではなく学習にも十分有効であるとして利用されています。

  • 半精度を使った方が2〜7倍くらい早い可能性がある

歴史 2016のGeForce GTX 1080 Tiではとても遅かった

2017

2019

  • ファーウェイ制裁

  • ファーウェイは2019年8月、Ascend 910 AIコンピューティングチップを発表し、ライバルのNvidiaのTesla v100の2倍の性能を備えていると主張した。同社の発表に拠ると、半精度浮動小数点演算(FP16)では256テラフロップスを実現している。

    • https://www.axion.zone/hisilicon/amp/
    • なるほど、エッジコンピューティングのために半精度演算のニーズが高いからアメリカと中国で技術競争が発生してるのか
    • エッジでの画像認識、智能化戦争に書いてあった無人小型機による作戦の質に影響しそうだしね、中国としてはアメリカの企業に依存したくないだろうね

2020: NVIDIA RTX A6000リリース

2022

  • 米政府からの制裁により、GoogleやQualcommを含む米企業と取引ができないばかりか、米企業製の半導体装置を使用するTSMCからもチップが購入できず、事業が大幅に衰退しているHuaweiが、早ければ2022年に、中国・武漢でKirinチップ生産を開始すると、台湾メディアDigiTimesが伝えています。