Jakho

Jakho

Full Stack developer.
x

老主板使用 Tesla V100 显卡的坎坷历程 老主板使用テスラV100グラフィックカードの険しい歴史

背景#

現在の一般的な開発環境では、フロントエンド開発はパフォーマンスの低いコンピュータで行われることが多いため、私は以前にも 1k 以下で I5-6600 + Mini ITX マザーボードの小型ケースをフリマアプリで手に入れ、これをメインの開発に使用してきました。32G のメモリを搭載しているため、通常の日常的な開発にも十分な統合グラフィックスドライバがあり、iOS 開発のタスクに取り組む際には MacBook も使用できます。最近、AI が非常に人気があり、会社のいくつかの業務で Stable Diffusion を使用して絵画アプリを作成する必要がありました。試してみた結果、面白いと感じました。会社の開発環境は共有されているため、できるだけ古いハードウェアを使用してグラフィックスカードをアップグレードし、AI の閾値を達成できるかどうかを検討しました。

部品の選択#

AI の絵画には、モデルとトレーニングデータを格納するために大量のグラフィックスメモリが必要です。したがって、グラフィックスメモリの容量が大きいほど、AI の絵画の効果が良くなります。オンラインの多くの記事を見て、一般的には AI の絵画のタスクには少なくとも 8GB のグラフィックスメモリが必要ですが、より高い解像度の画像を描画し、かつディスプレイサイズを爆発させないためには、16GB 以上のグラフィックスメモリを選択することをお勧めします。

フリマアプリを開いて検索すると、P102、P104、P106、P40、M40、P100 などの古い計算カードのコストパフォーマンスが非常に高いことがわかります。8GB または 16GB のグラフィックスメモリを手に入れることができます。元々、このアップグレードに P100 を選ぶ予定でした。しかし、パスカルアーキテクチャは少し古くなっていると考え、P100 の次世代として V100 チップが存在することを知りました。V100 はより高性能で、価格差もそれほど高くないため、V100 SXM2 16GB サーバーバージョンの計算カードを選択することにしました(後でなぜ SXM2 を選んだのかについて説明します)。

ビルドの構成#

以下は今回のビルドの構成です:

マザーボード:GIGABYTE GA-B250M-DS3H
CPU:Intel Core i5-6600
グラフィックスカード:NVIDIA V100 SXM2 16G
メモリ:Gloway HANJIANG 16G 2666MHz x2
ストレージ:Seagate FireCuda 520 1TB SSD

マザーボードは、以前のマシンで使用していた第 6 世代の I5 に対応するために購入しました。また、大きなグラフィックスカードを搭載する必要があるため、M-ATX マザーボードを選択しました。追加のコストは 100 ドル以上で取引ができました。以前のマシンは小さくて DC 電源でしたので、それ自体の価値はありませんでした。そのため、20 ドル程度で G4400T の省電力チップを購入し、Debian をインストールして NAS デバイスとして使用しました。メモリは安価なものを選びました。古いマザーボードなので、サポートされる周波数は 2400 を超えることはありません。ストレージは以前のマシンから取り外したもので、国際的なオンラインストアで 299 ドルで 1TB を購入しました。価格が急騰する前に購入しており、もう少し買えばよかったと後悔しています。

グラフィックスカードについては、重要な選択肢は Tesla V100 でした。また、SXM2 バージョンのものを選択しました。家庭用の PC マザーボードで使用するためには PCIe アダプターカードが必要ですが、アダプターカードの価格は基本的にグラフィックスカードと同じくらいで、1300 ドル前後です。直接 PCIe バージョンを購入することを考えた理由は、価格はほぼ同じですが、少し高価です。ただし、将来グラフィックスカードが時代遅れになっても、アダプターカードは引き続き使用でき、他の SXM2 仕様のグラフィックスカードに交換することもできます。このタイプのグラフィックスカードは通常、PCIe バージョンよりも安価です。

魔改造のグラフィックスカードを選ばない理由#

周知のように、現在、魔改造版の 2080TI 22G は錬金術や絵画においてもコストパフォーマンスが高く、チューリングアーキテクチャもより先進的です。しかし、メモリチップを交換しているため、安定性に関してはオンラインのレビューを見てもあまり良くないということを考慮して、サーバー専用の計算カードを選択しました。

BIOS の変更でマザーボードが 4G 以上をサポートするようにする#

上記の部品を組み立てた後、電源を入れると、BIOS 画面に直接入り、英文の長いメッセージが表示されます。これは、PCI リソースが不足しているため、PCI デバイスをドライブできないことを意味しています。

image

この時点で、私はすぐに関連するケースをオンラインで検索し、解決策があるかどうかを確認しました。検索してみると、実際に解決策がありました。それは、マザーボードの BIOS で Above 4G というスイッチを見つけ、それを起動に設定することで解決できます。もしマザーボードの BIOS で Resizable BAR を有効にできる場合は、それも一緒に有効にすると、パフォーマンスが向上します。

また、注意が必要なのは、Above 4G を有効にすると、システムのブート方法を UEFI に変更する必要があり、マザーボードの BIOS で CSM オプションを無効にする必要があることです。UEFI を使用してシステムを再インストールする方法については、インターネットでチュートリアルを検索することができます。たくさんあり、簡単ですので、ここでは説明しません。

要するに、3 つのオプションを設定する必要があります。

  1. Above 4G を有効にする
  2. Resizable BAR を有効にする(ある場合)
  3. システムのブート方法を CSM 互換モードに設定する

重要なのは、私の GIGABYTE B250M マザーボードにはこのオプションがないことに気づいたことです。同じマザーボードのケースを多数検索しましたが、解決策は見つかりませんでした。そのため、BIOS の非表示オプションを変更するしかありませんでした。

AMIBCP を使用してマザーボードの非表示オプションを有効にする#

まず、グラフィックスカードをマザーボードから取り外す必要があります。そうしないと、システムに入ることができません。

システムに正常に入ったら、マザーボードの公式ウェブサイトから最新の BIOS ファイルをダウンロードして、改造の元にします。

AMIBCP ソフトウェアをダウンロードし、先ほどダウンロードした元の BIOS ファイルを開きます。ソフトウェアはデフォルトでフォーマットを制限しているため、すべてのファイルタイプを選択する必要があります。

image

image

次に、図に示すように、Above 4G オプションを見つけ、Access/Use を User に変更し、後の 2 つのオプションをデフォルトの Enabled に変更します。

image

image

変更が完了したら、保存するか、新しい BIOS ファイルとして保存します。元の BIOS ファイルと区別するために、別の名前で保存してください。

AFUWINGUI を使用して BIOS をフラッシュする#

GIGABYTE マザーボードを例に挙げると、変更後の BIOS ファイルは公式ウェブサイトの更新方法では更新できません。サードパーティのフラッシュ方法を使用する必要があります。方法はいくつかありますが、プログラマーなどを使用する方法もありますが、私は最も便利な方法を選びました。Windows で直接フラッシュする方法です。

まず、AFUWINGUI をダウンロードして開きます。

image

開始ボタンをクリックし、先ほど修正した BIOS ファイルを選択します。

次に、右側のリフレッシュボタンをクリックし、リフレッシュの状態が完了し、Done と表示されたら、修正した BIOS がフラッシュされます。

GPU-Z ソフトウェアを使用して、以下のスクリーンショットのオプションに従って、Above 4G が有効になっていることを確認できます。

image

これで、シャットダウンしてグラフィックスカードを取り付け、再起動することができます。

追記#

タイトルにもあるように、困難な経験となりましたが、それほど簡単ではありませんでした。グラフィックスカードを取り付けた後、起動することができ、NVIDIA のドライバをインストールした後、メモリの周波数なども正常に動作しました。

私にとって驚くべきことは、再起動後にコマンドラインで nvidia-smi を実行すると、デバイスが検出されないというメッセージが表示されることでした。デバイスマネージャーを開いてみると、グラフィックスカードに三角形のエクスクラメーションマークが付いていることがわかりました。何度か再起動しても状況は変わらず、事故が起きたようです。その後、ドライバをアンインストールし、再起動してから再度インストールすると、驚くべきことにドライバが正常に認識されました。再起動すると、再び三角形のエクスクラメーションマークが表示されます。

何か設定の漏れがあるのでしょうか?非常に理解できず、数日間問題の原因を見つけることができませんでした。関連するケースもオンラインで見つかりませんでした。

ある日、当時撮ったグラフィックスカードの写真を見返してみると、グラフィックスカードの右上にコイルが取れていることに気づきました。すぐに売り手に連絡して新しいものに交換しました。原因はおそらくここにあると思われます。

image


長い待ち時間の後、交換品が届いた後、新しいグラフィックスカードを取り付けたところ、驚くべきことに同じ問題が発生しました。WIN10 を再起動すると、ドライバを再度アンインストールしてからインストールしないと、グラフィックスカードを正常に使用することができません。おそらくマザーボードが古すぎるか、システムドライバのどこかが正しくないのだと思いますが、私自身はあまりシャットダウンしないので、そのまま使用しています。後で時間があるときに、WIN11 をインストールしてみたり、他の方法を試してみたりする予定です。


後で気づいたのですが、ドライバを正常に認識した後、NVIDIA ドライバ管理ツールに入り、ECC 検出をオフにするだけで、再起動後にドライバが落ちることはありませんでした。

ついに安心して錬金術を楽しむことができます。この道のりは確かに困難で苦労の連続でしたが、2 週間以上の残業時間を費やして、別のマザーボードをテストするために追加で購入するほどです。ただし、私自身はあまりシャットダウンしないため、妥協して使用しています。後で時間があるときに、WIN11 をインストールしてみたり、他の方法を試してみたりする予定です。

読み込み中...
文章は、創作者によって署名され、ブロックチェーンに安全に保存されています。