2022年4月28日木曜日

Add disk to worker node

今回はvsphere with tanzuのworkerノードへのディスク追加方法についてご紹介します。

コンテナは軽量という印象をお持ちの人も多いと思いますが、コンテナイメージによっては数GBのサイズがあったりで意外とサイズの大きいものもあります。

私はAI系のコンテナイメージを利用することが多いのですが、これがイメージサイズが大きくてpull imageで時間がかることがあります。時間がかかるだけであればいいのですが、ディスクサイズに収まらないということも発生します。

通常のKubernetesやDockerであればホストOSのディスクサイズは仮想マシンでも数十GBから数百GB程度取ることがあるのであまり問題はないのですが、TanzuでTKCを作成してWoker Nodeを展開すると私の環境の場合はディスクサイズが16GBで、Workerノードのディスク容量が足りずにコンテナイメージを展開できないことがありました。


状況としてはkubetctl get pod でStatusがEvictedになります。

kubectl describe podで詳細を確認すると、The node was low on resource: ephemeral-storage.のメッセージが、、、


色々ためしたのですがWorkerノードのディスクを拡張するしかなく、tkcを作成するyamlファイルに以下を追加することで回避できました。


volumes:

  - name: containerd

    mountPath: /var/lib/containerd

    capacity:

      storage: 64GiB


ネット探してもこのあたりに困っている人は少なそうだったんですが、Workerノードのディスクサイズに困っている人は少ないのか、周知の事実なのか、、、

とりあえず、やっとコンテナ使えるようになりました。











2022年4月5日火曜日

AI Enterprise with Tanzu? Virtual Machine?

GTC 2022でもAI Enterpriseのアップデートがありましたね。

これまでのTanzuの他にOpenshift、Bareメタルもサポートされると発表がありましたので多くの環境で利用することができるようになります。

私もまずはvSphere上の仮想マシンでAI Enterpriseを試してみて、今はTanzuでのAI Enterpriseの構築にチャレンジしています。

Tanzuも仮想サーバも基本はNGCからコンテナを取得してAI環境を展開、利用することになるのでデータサイエンティストからしたら代わりなく利用できますし、どちらもGPUリソース割り当てなどは使い慣れたvCenterでできるので、インフラ管理者にも優しい仕様になっています。

まだ触りだけなので、もうちょっと使いこなせるようになったらMIGやNGCなどなどの使い勝手を記事にしていきたいと思います。