【GPU】 TITAN Vで特定の計算結果に誤差?本当に?

GeForce

海外メディアのThe Registerは、TITAN Vで特定の計算結果に誤差が生じると報じました。

    NVIDIAのTITAN Vでたんぱく質と酵素の相互作用を繰り返しシミュレーションしたところ、4つのGPUのうち2つに10%もの誤差が生じたと、あるエンジニアはThe Registerに語った。これらのテストは毎回同じ出力値が生成されるものであり、前世代のNVIDIAのハードウェアでは問題なかったという。この問題は、メモリのエラー、あるいは設計上の問題と考えられている。

    (Source:The Register)

本当であればTITAN Vユーザにとってはかなり気になる問題だと思います。

The Registerはメモリのエラーか設計に問題がある可能性を伝えていますが、NVIDIAは 「全てのTeslaラインはECCを備えており、大規模で高性能なシミュレーション用に正しく設計されています。何らかの問題を経験した人はsupport@nvidia.comまでご連絡ください」 とThe Registerに語っています。 (ここでなぜTeslaが出てくるのかはわかりませんが、TITAN VもECCを備えているということでしょうか?)

また、ここで注意しなくてはいけないことは、The Registerの記事は 「あるエンジニア」 の発言に基づいており、実際に誤差が生じるという証拠は提示されていません。

この問題が発生すると言われているAmberという分子シミュレーションプログラムのWebサイトでは下記の案内をしています。

    私たちはTITAN Vカードがバリデーションテストに失敗するとの報告を受けていました。しかし、その後の数多くのテストで、これを再現できませんでした。

    (Source:Amber)

ほとんどのテストでは再現できなかったけど少しは再現できたという意味なのか、それとも、いっぱいテストをしたけど全然再現できなかったという意味なのか、どっちのニュアンスで受け取っていいのかは微妙なところです。原文は 「but many subsequent tests have failed to reproduce this.」 です。いずれにしても、TITAN Vは気をつけて扱い、繰り返し実行して同じ結果が得られるか確認することをAmberのサイトではすすめています。

つい先日、株価下落を狙ったAMDに対するネガティブキャンペーンがあったばかりなので、自分はこの手の話題が 「どこまで本当なのか」 疑い深くなっています/(^o^)\

個人的に 「ん?」 となった部分は、The Registerで言われている『4つのGPUのうち2つ』という部分。繰り返しやって、2台しか問題が発生しないということは、その2台が初期不良なんじゃ……と……。

他にも使用者の設定ミスや、ソフトウェア側の問題といった可能性も考えられます。具体的な証拠が何も提示されておらず、ましてや2台が正常であるなら、TITAN V固有の問題と指摘するには根拠が乏しく思えます。

なんにしても、TITAN Vをお持ちの方で、もし、挙動に異常を感じた場合は直接NVIDIAに問い合わせてみるのがよさそうです。

GeForce,GPU,Volta

Posted by にっち