前回はBitfusionのコンポーネントや基本構成について調べた内容を紹介いたしました。
今回は導入手順のまえに、Requirementを見ていきます。
<vSphere>
まずベースとなるvSphereですが、Bitfusionサーバが稼働するESXi(GPUプール)はvSphere7が必要になります。 噂ではU1からという噂もありましたが、Install GuideにはU1の文字はないので後日確認してみたいと思います。
GPUリソースを利用するBitfusionクライアントはvSphere6.7か7であればいいようなので、既存のvSphere環境が6.7であってもESXiのアップデートを行わずにBitfusionが利用できるようです。
<Client OS>
Bitfusionクライアントをインストールする仮想OSは、現時点ではUbuntuとCentOS、Redhatの3種類になります。 ※ベアメタルは現時点では未サポートです。
Ubuntu16.04, 18.04
CentOS7
RHEL7.4以降
HorizonとかのWindowsでも利用できればCAD VDI環境などにも利用することができるのですが、BitfusionはAIやMLでの利用を想定しているので、このあたりはしょうがないですね。。。
あとはDockerコンテナにもインストールが可能です。
<GPU>
GPUはTeslaのV100かT4がサポートされるようです。ここもやはりAI/MLを想定しているからこのGPUなんだと思います。
<Network>
前回の記事にも書きましたが、Bitfusionはネットワーク経由でGPUリソースを利用するので最低でも10Gbpsで、できればそれ以上のネットワークが必要になります。
・10G Ethernet
・RoCE
Bitfusionを試した感じだと1msecだとかなり影響がでるなぁ。。。と思っていましたが、
予想以上に低遅延なネットワークが必要で、ノード間で50マイクロ秒もしくはそれ以下だそうです。
クライアントからBitfusionサーバに対して次の通信ポートを開ける必要があります。
通信ポート:56001, 55001-55100, 45201-46225
要件をまとめてみると一番のポイントは高速なネットワークですね。