2021年8月25日水曜日

VMware Bitfusion on Home Lab

前回記事で紹介したDell Precisionですが、自宅でKubernetesなどなど試してみるためのリソース追加とKubernetest環境でのGPU利用、あとはBitfusion環境を作りたかったのが目的だったので、まずはBitfusionを構築してみることにしました。

VMware社のCompatibilityにはサポートするGPUとしてV100/S、A100、P40、T4の4種類が記載されています。
ただ、次のようにも記載がされています。

Bitfusion has general support for datacenter class, CUDA-supporting, NVIDIA GPUs, which qualify for DirectPath I/O on ESXi.

前回の記事にも記載しましたが購入したPrecisionにはGPUが搭載されていますが、GeforceのGTX1060なので、datacenter classではないのですが、Cudaは動くのでなんとかなるかもしれないという期待で構築を試してみました。

Bitfusionの大まかなインストールは次の手順なんですが、注意点としてはBitfusion ServerへGPUドライバを手動でインストールする必要があります。
1.Bitfusion Server Applianceの展開
2.Bitfusion ServerへGPUのパススルー設定
3.GPUドライバの手動インストール
4.Bitfusion Clientのインストール
5. vCenterへBitfusion Clientの登録

詳細な手順はVMware社の公式マニュアルを参照してもらえればいいのですが、BitfusionでGTX1060を利用するためには 1のBitfusion Server Applianceの展開時に次スクリーンショットのNvidia Packagesの項目でチェックボックスを未選択でBitfusion Applianceを展開します。



Appliance展開時にチェックボックスを未選択で展開しているので、手順4で必要なDriverなどをインストールします。 VMware社のドキュメントでは、Bitfusion Serverにログインして次のコマンドを実行するように記載されています。

$sudo install-nvidia-packages --defaults --yes

ですが、このコマンドではV100やA100などCompatibilityに記載してあったDatacente ClassのGPUであればドライバやFablic Managerがインストールされるのですが、GTXなどのGPU関連のドライバはインストールされないので、別途ダウンロードする必要があります。

私の環境ではNVIDIAのサイトから次のパッケージをダウンロードしました。
 ※Bitfusion Server ApplianceはPhotonOSが利用されているため、ダウンロードするパッケージはcentos版をダウンロードしました。

ドライバ:NVIDIA-Linux-x86_64-470.63.01.run
Fabric Manager:nvidia-fabricmanager-460.32.03-1.x86_64.rpm

インストール自体は特に難しいこともなく通常のインストール手順を実行すれば問題なくインストールが完了します。

$ chmod +x NVIDIA-Linux-x86_64-470.63.01.run
$ sudo ./NVIDIA-Linux-x86_64-470.63.01.run
$ wget http://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/nvidia-fabricmanager-460-460.32.03-1.x86_64.rpm
$ sudo rpm -ivh ./nvidia-fabricmanager-460-460.32.03-1.x86_64.rpm
$ reboot

インストール後にvCenterで確認すると次のようにAPIのミスマッチなど若干エラーが出ていますが、簡単な動作確認しても特に問題は無いので色々と試してみたいと思います。


※見た感じ特に問題はなさそう。
$ bitfusion smi
+----------------------------------------------------------------------------------------+
| 192.168.68.41:56001 Driver Version: 470.63.01 |
+--------------------------------------+-------------------------+-----------------------+
| GPU Name Persistence-M | Virt Mem Alloc / All | BusId Vol Uncorr ECC |
| Fan Temp Perf Pwr:Usage/Cap | Phy Mem Used / All | GPU-Util Compute M. |
|======================================+=========================+=======================|
| 0 NVIDIA GeForce GTX ... Disabled | 0 MB / 6078 MB | 00000000:13:00.0 N/A |
| 42% 36C P8 8W / 120W | 2 MB / 6078 MB | 0% Default |
+--------------------------------------+-------------------------+-----------------------+
$ bitfusion list_gpus
- server 0 (leader) [192.168.68.41:56001]: running 0 tasks
|- GPU [0]: free memory (6078 / 6078MiB) NVIDIA GeForce GTX 1060 6GB (6.1)

2021年8月18日水曜日

vSphere7 on Dell Precision

自宅ではNUCのSkull canyonを検証機材として使っていたのですが、リソースが足りない!!
最近はTanzuやその他のKubernetesを試すのにリソースが足りなかったり、Jetson Nanoは GPU使えるけどできることが限られたりと、試したいこともできなくなってきました。

ということで自宅検証機としてリソースもまぁまぁあって、GPUが積める or 積んでいるPCを 探していたところ、ヤフオクでいいのを見つけました。

Dell Precision 3630!

メモリはできれば64GB以上ほしかったのですが、32GBですがまぁよしとして、CPUはi7-8700の6コア、 GPUはNVIDIAのGTX1060を搭載しています。※最大メモリサイズは128GBなので、足りなくなったら足す ことも検討。

vSphere7をインストールしているような情報は海外含めて見つけることはできなかったので、 最終的にインストールできるかドキドキしながらのヤフオク入札&落札となりましたが、全く問題なく vSphere7のインストールが完了しました。



リソースも増え、GPUも使えて、今後できることが増えたので色々と試していきたいと思います。