VMware Docs by Broadcomのサイトで、VMware Private AI Foundation with NVIDIAのリリースノートをを見ていて思ったこと。
新機能としてAria Automationのセルフサービスカタログについて以下の記載がありました。
VMware Cloud Foundation 5.2
VMware Aria Automation のセルフサービス カタログには、RAG ワークロードをプロビジョニングするためのアイテムが個別に用意されています。
VMware Cloud Foundation 5.2.1
VMware Aria Automation のセルフサービス カタログは、pgvector データベースを使用した Retrieval-Augmented Generation (RAG) AI ワークロード、または VMware Data Services Manager 上のスタンドアローン pgvector データベース用に個別のアイテムを提供します。
5.2.1ではpgvectorの名称が出ていますが、具体的にはどのように変わったかはわかりませんが、何かアップデートされていると思われます。
VMware Private AI Foundation with NVIDIA ガイドも見てみました。
Private AI Foundation環境にディープラーニングVMやTKGへのAIワークロードの展開について記載がされています。
そんなかに、"VMware Aria Automationのセルフサービスカタログアテムを使用したRAGワークロードの展開"のをみてみると、確かにAriaを使って簡単にRAGを構築できそうです。
ただ、仮想マシンのリソースはどの程度のユーザ数だったりを想定しているのかが不明ですね。。。 RAGでH100*2ということはNVLではなさそうなので、80G*2=160GB
FP32で8BのLLMだとすると、100 - 120人くらいの同時接続を想定しているんでしょうかね。 ちょっとそのあたりが知りたいです。
ちなみに冒頭のVCF 5.2と5.2.1の新機能の違いは、以下のような記載があったので、5.2.1でpgvectorあり・なしのカタログが提供されたようです。
VMware Aria Automation のセルフサービス カタログ内の各カタログ アイテムを要求することで、PostgreSQL データベースの有無に関係なく RAG ワークロードを展開できます。
Private AIも徐々に機能追加されているので、今後のアップデートに期待です。