Jakho

Jakho

Full Stack developer.
x

老主板使用 Tesla V100 グラフィックカードの苦難の歴史

背景#

フロントエンド開発は、現在一般的な開発シーンで使用されるコンピュータの性能が高くないため、以前に 1k 未満で闲鱼で I5-6600 + Mini ITX マザーボードの小型ケースを手に入れ、主力の開発に使用してきました。32G のメモリを搭載した後、内蔵グラフィックスドライバでも日常的な開発には十分であり、iOS 端の開発タスクに直面した際には MacBook も使用できます。この期間、注目を集めている AI は本当に熱いです。偶然にも、会社のいくつかの業務で Stable Diffusion を使用して小さなアプリケーションを作成しているため、試してみたところ、非常に面白いと感じました。会社の開発環境は計算リソースが共有されているため、古いハードウェアをできるだけ活用して、グラフィックスカードをアップグレードして AI を楽しむことができないかと考えました。

配件选型#

AI 絵画にはモデルやトレーニングデータを保存するために大量のビデオメモリが必要です。そのため、ビデオメモリの容量が大きいほど、AI 絵画の効果が良くなります。ビデオメモリの容量は私にとって非常に重要な選択要因です。ネット上の多くの投稿を見たところ、一般的には AI 絵画のタスクをこなすには少なくとも 8GB のビデオメモリが必要ですが、より高解像度の画像を描画し、ビデオメモリが不足しないようにするためには、16GB 以上のビデオメモリ容量を選択することをお勧めします。

闲鱼で検索をすると、P102、P104、P106、P40、M40、P100 などの古い計算カードはコストパフォーマンスが非常に高く、千元未満、さらには二三百元で 8G のビデオメモリや 16G のビデオメモリの門槛を手に入れることができます。本来は P100 を今回のアップグレード用のグラフィックスカードとして選ぶつもりでした。しかし、パスカルアーキテクチャは確かに古くなっていることを考慮し、V100 チップが P100 の次世代であり、性能がより強力で、価格差もそれほど大きくないことを見て、思い切って V100 SXM2 16GB サーバーバージョンの計算カードを選びました(後で SXM2 を選んだ理由について触れます)。

装机配置#

以下は今回の装機の構成です:

マザーボード:GIGABYTE GA-B250M-DS3H
CPU:Intel Core I5-6600
グラフィックスカード:NVIDIA V100 SXM2 16G
メモリ:光威悍将 16G 2666MHz 2 本
ハードディスク:Seagate 酷玩 520 1TB SSD

マザーボードは古いマシンで使用していた 6 世代の I5 を考慮して購入し、大きなグラフィックスカードを搭載する必要があるため、サイズを考慮して M-ATX マザーボードを選びました。少しお金を出せば取引ができます。古いマシンは小型で DC 電源を使用しているため、売ってもあまり価値がないので、闲鱼で 20 元ほどで G4400T の低消費電力チップを手に入れ、Debian をインストールして NAS デバイスとして使用しました。メモリは安いものを選びましたが、古いマザーボードなので、サポートされる周波数は 2400 を超えません。ハードディスクは古いマシンから取り外したもので、ハードディスクの価格が上がる前に东子家国际で 299 元で 1T を購入しました。価格が急騰しているのを見て、今はもっと買っておけばよかったと後悔しています。

グラフィックスカードは重頭の選択で Tesla V100 を選びましたが、SXM2 バージョンであり、家庭用 PC マザーボードで使用するには PCIE 変換カードが必要です。変換カードの価格は基本的にグラフィックスカードと同じで、1300 元以上です。PCIE バージョンを直接購入しない理由は、価格がほぼ同じですが高めだからです。しかし、将来的にグラフィックスカードが時代遅れになった場合、変換カードは引き続き使用でき、他の SXM2 規格のグラフィックスカードに交換することもできます。このタイプのグラフィックスカードは一般的に PCIE バージョンよりも安いです。

なぜ魔改グラフィックスカードを選ばないのか#

ご存知の通り、現在、魔改版の 2080TI 22G は、錬金術や絵画においてコストパフォーマンスが高く、チューリングアーキテクチャもより進んでいますが、やはりビデオメモリチップを交換していることを考慮すると、安定性については多くのネット上の評価があまり良くないため、総合的に考慮してサーバー専用の計算カードを選びました。

BIOS を変更してマザーボードが Above 4G をサポートするようにする#

上記のパーツの組み立てが完了した後、電源を入れましたが、思いがけず起動できず、直接 BIOS 画面に入り、大量の英語のメッセージが表示されました。内容は、あなたの PCI リソースが不足しているため、PCI デバイスをドライブできないというものでした。

image

この時、私は急いでネットで関連する事例を検索し、解決策があるかどうかを調べました。検索してみると、実際にありました。マザーボードの BIOS で「Above 4G」というスイッチを見つけて、それを有効に設定すれば解決できるというものでした。もしあなたのマザーボードの BIOS が Resizable BAR を有効にできる場合は、さらに良いです。一緒に有効にすると、性能が向上します。

また、Above 4G を有効にすると、システムのブート方式も UEFI に変更する必要があり、マザーボードの BIOS 内の CSM オプションを無効に設定する必要があります。UEFI を使用してシステムを再インストールする方法についてのチュートリアルをネットで探すことができ、多くの情報があり、非常に簡単ですので、ここでは詳しく説明しません。

要するに、3 つのオプションを設定する必要があります。

  1. Above 4G を有効にする
  2. Resizable BAR を有効にする(ある場合)
  3. システムブートの CSM 互換性を無効にする

重要なことに、私の GIGABYTE B250M マザーボードにはこのオプションがないことに驚きました。ネット上で同じマザーボードの多くの事例を探しましたが、解決策は見つかりませんでした。したがって、BIOS の隠しオプションを変更するしかありませんでした。

AMIBCP を使用してマザーボードの隠しオプションを有効にする#

まず、グラフィックスカードをマザーボードから取り外します。そうしないと、システムに入ることができません。

システムに正常に起動した後、マザーボードの公式サイトから最新の BIOS ファイルをダウンロードして、魔改のベースとして使用します。

AMIBCP ソフトウェアをダウンロードし、先ほどダウンロードしたオリジナルの BIOS ファイルを開きます。注意点として、ソフトウェアはデフォルトでフォーマットを制限しているため、すべてのタイプのファイルオプションを選択しないと見つかりません。

image

image

次に、図に従って Above 4G オプションを見つけ、Access/Use を User に変更し、後の 2 項目をデフォルトで Enabled に変更します。

image

image

変更が完了したら、新しい BIOS ファイルとして保存または別名で保存し、元の BIOS と区別できるようにして、後で元の BIOS に戻す際に見つからない、または間違ったファイルを見つけないようにします。

AFUWINGUI を使用して BIOS をフラッシュする#

GIGABYTE マザーボードを例にとると、変更後の BIOS ファイルは公式の更新方法でマザーボードの BIOS を更新することができず、必ずサードパーティのフラッシュ方法を使用する必要があります。方法はいくつかありますが、私は最も便利な方法を選び、Windows 上で直接フラッシュします。

まず、AFUWINGUI をダウンロードして開きます。

image

開始ボタンをクリックし、先ほど変更した BIOS ファイルを選択します。

次に、右側の更新ボタンをクリックし、更新状態が完了するのを待ち、Done と表示されたら、変更した BIOS がフラッシュ完了です。

GPU-Z ソフトウェアを使用して、以下の図のオプションに入ることができ、Above 4G がすでに有効になっていることが確認できます。

image

この時、電源を切ってグラフィックスカードを装着し、再起動できます。

後記#

タイトルにあるように、困難な道のりは決して簡単ではありませんでした。グラフィックスカードを装着した後、正常に認識され、NVIDIA のドライバをインストールすると、ビデオメモリの周波数などもすべて正常でした。

私が不思議に思ったのは、再起動後、コマンドラインでnvidia-smiを実行すると、デバイスが見つからないと表示されたことです。デバイスマネージャーを開くと、グラフィックスカードに三角の感嘆符が付いていました。何度も再起動しましたが、効果はありませんでした。どうやら失敗したようです。そこで、ドライバをアンインストールし、再起動して再インストールしたところ、すぐにドライバが正常に認識されました。しかし、再起動すると再び三角の感嘆符が表示されました。

何か設定を見落としているのでしょうか?全く理解できず、数日間試行錯誤しましたが、原因は見つかりませんでした。ネット上にも関連する事例はありませんでした。

ある日、当時撮ったグラフィックスカードの写真を見返していると、実はグラフィックスカードの右上にあるインダクタが一つ外れていることに気付き、すぐに売り手に連絡して交換を依頼しました。原因はここにあると思われます。

image


長い待ち時間の後、交換品を挿入したところ、なんと同じでした。WIN10 を再起動すると、ドライバを再度アンインストールしてからインストールしないと正常に使用できないようです。おそらくマザーボードが古すぎるか、システムドライバのどこかが合っていないのでしょう。しかし、私は元々あまり電源を切らないため、妥協して使っています。後で時間があれば WIN11 をインストールするか、他の方法を研究してみようと思います。


その後、ドライバが正常にインストールされたその一度だけで、NVIDIA ドライバ管理に入り、ECC 検出を無効にするだけで、再起動後にドライバが落ちることはなくなりました。

ついに楽しく錬金術を行えるようになりました。道のりは本当に困難で、2 週間の仕事の時間を費やし、さらにマザーボードを買い足すことになりました。しかし、これは深く学び、装置の知識を得る貴重な経験だったと言えるでしょう。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。