2021年6月25日金曜日

Enable Nvidia V100 GPU in Passthrough mode on vSphere

 普段はNVIDIA T4を使うことが多くて特に意識することなくパススルーで利用していたのですが、今回V100をPass Throughで使おうとしたら電源が入らない。。。

表示されたエラーは、、、

仮想マシンのパワーオンに失敗しました。モジュール「DevicePowerOn」のパワーオンに失敗しました。

これって他の仮想マシンでパススルーで使っている場合に出た気がするけど、今回は1台しか使ってないしということで調べてみたら、ハイエンドのPCIデバイスはBIOSじゃなくEFIで仮想マシンを設定する必要があるそうです。

こんなのがあるなんて落とし穴でした。。。

ちなみにハイエンドのPCIデバイスというのは16GBメモリ以上搭載のデバイスなので、NVIDIAのV100、V100S、A100などなどのほかにも、AMDやいくつかのFPGAも対象となるようです。

なので、まずはOSのEFIでインストールが必要なのと、仮想マシンオプションを2つ設定する必要があります。

1つ目はこちら。気にせずこのまま設定して大丈夫です。

pciPassthru.use64bitMMIO=“TRUE”


2つ目が注意が必要です。下の例は128を設定していますが、実際にはPCIデバイスメモリ*枚数*2の値が必要なので、32GBメモリのV100*2枚使う場合は、32GB*2枚*2で128を指定する必要があります。

pciPassthru.64bitMMIOSizeGB=“128

ちなみに、32GBモデル*1枚の場合はこんな感じです。



この値が間違っていると、仮想マシンの電源は入るのですが入った直後にエラーもなく電源落ちます。。。


パススルーは特に意識する必要がないと思っていましたが落とし穴がありますのでご注意ください。