Jakho

Jakho

Full Stack developer.
x

老主板使用 Tesla V100 显卡的坎坷历程

背景#

因為前端開發應對現在一般的開發場景下用到的電腦性能不高,所以我之前花了不到 1k 在閒魚撿了一套 I5-6600 + Mini ITX 主板的小機箱一直承擔著我的主力開發使用,上 32G 內存之後即使核顯驅動應對平時日常開發也是綽綽有餘,而且在面對 iOS 端開發任務的時候我也有 MacBook 可以使用。這段時間風口上的 AI 實在是火熱,湊巧公司一些業務中有用到 Stable Diffusion 做一些繪畫小應用,嘗試之後感覺挺有意思,因為公司開發環境算力是公用的,所以想著能不能盡量使用舊硬件的情況升級一下顯卡達到可玩 AI 的門檻。

配件選型#

AI 繪畫需要大量的顯存來存儲模型和訓練數據,因此顯存容量越大,AI 繪畫的效果就越好,所以顯存容量是我非常重要選型考慮的因素。看了網上很多帖子,一般至少需要 8GB 的顯存才能夠勝任 AI 繪畫的任務,但為了能繪制更高分辨率的圖片並且不爆顯寸,建議還是選擇 16GB 或者更高的顯存容量。

打開閒魚一搜索,很多老的計算卡諸如 P102、P104、P106、 P40、M40、P100 之類的計算卡性價比都非常高,不足千元甚至兩三百元就能摸到 8G 顯存甚至 16G 顯存的門檻,本身打算是選擇 P100 作為本次升級使用的顯卡。但是考慮到帕斯卡架構確實是老了一些,又看到 V100 芯片作為 P100 的下一代,性能更強,差價也不算太高,就咬咬牙選擇了 V100 SXM2 16GB 服務器版本的計算卡(後面會提到選擇 SXM2 的原因)。

裝機配置#

以下是本次裝機的配置:

主板:技嘉 GA-B250M-DS3H
CPU:Intel 酷睿 I5-6600
顯卡:NVIDIA V100 SXM2 16G
內存:光威悍將 16G 2666MHz 兩條
硬盤:希捷酷玩 520 1TB SSD

主板方面是照顧著舊主機用著的 6 代 I5 來購買的,而且需要上大顯卡,綜合考慮尺寸選擇了 M-ATX 主板,多多上一百多就能有交易。舊的主機因為小巧又是 DC 供電,出了也不值錢,所以在閒魚 20 多淘了一塊 G4400T 低功耗芯片用來安裝 Debian 做 NAS 設備。內存挑便宜的買,畢竟舊主板,支持的頻率不會超過 2400。硬盤是從舊機器上拆下的,趕在硬盤漲價之前在東子家國際 299 入的 1T,看著價格瘋漲,現在後悔沒買多兩根。

顯卡方面是重頭戲選擇是了 Tesla V100,而且是 SXM2 版本的,需要搭配 PCIE 轉接卡才能用在家用 PC 主板上,轉接卡價格基本和顯卡持平,都是在 1300+ 左右,不直接買 PCIE 版本的考慮是因為價格上差不多但是偏貴,但如果顯卡以後過時了,我轉接卡還能繼續使用,還可以替換其他 SXM2 規格的顯卡,這類型的顯卡一般情況下都會比 PCIE 版本便宜。

為什麼不選擇魔改顯卡#

眾所周知,目前魔改版的 2080TI 22G 做煉丹和繪圖更具性價比,圖靈架構也更先進,但畢竟考慮到是替換了顯存顆粒,穩定性看了很多網上的評價都不太好,綜合考慮之下還是選擇了服務器專用的計算卡。

修改 BIOS 讓主板支持 Above 4G#

在上面的配件組裝完成之後,開機,沒想到機都開不成,直接進到了 BIOS 界面,並且提示一大串英文,意思就是檢測到你的 PCI 資源不足啦,無法驅動你的 PCI 設備。

image

這時候,我當然是急忙地去網上搜索相關的案例,看看有沒有解決方案。一搜,還真的有,就是在主板 BIOS 里找到一個叫 Above 4G 的開關,把它設置為啟動,就可以解決了。如果你的主板 BIOS 能開啟 Resizable BAR 的話更好,也一併開啟,性能會更強一些。

另外。還需要注意的是,開啟了 Above 4G 後意味著系統引導方式也得改為 UEFI 了,並且主板 BIOS 里的 CSM 選項需要設置為 disabled 關閉,可以在網上尋找如何通過 UEFI 來重裝系統的教程,有很多,也很簡單,就不再贅述了。

總而言之,就是需要設置三個選項。

  1. 打開 Above 4G
  2. 打開 Resizable BAR (如有)
  3. 關閉系統引導的 CSM 兼容

重點來了,沒想到我的這個技嘉 B250M 主板竟然沒有這個選項,找了網上很多相同主板的案例也是沒有解決方案,那麼就只能修改 BIOS 隱藏選項了。

使用 AMIBCP 開啟主板隱藏選項#

首先,將顯卡從主板上卸下,不然無法進入系統。

成功開機進入系統後,需要在主板的官網下載到主板的最新 BIOS 文件作為魔改藍本。

下載 AMIBCP 軟件,打開剛才下載的原版 BIOS 文件,注意軟件默認限定了格式,這裡選擇全部類型文件選項才能找到。

image

image

然後按照圖示,找到 Above 4G 選項,把 Access/Use 改為 User,並且後兩項默認改為 Enabled 開啟。

image

image

更改完成後保存或另存為新的 BIOS 文件,記得將它和原版 BIOS 區分開,以免日後想刷回原版 BIOS 後找不到或者找錯文件。

使用 AFUWINGUI 刷入 BIOS#

以技嘉主板為例,如果經過修改後的 BIOS 文件是無法使用官網的更新方法進行主板 BIOS 更新的,必須通過第三方的刷入方式,方式有很多,比如使用編程器之類的,但我選擇最方便的方法,就是直接在 Windows 下刷入。

首先,下載並打開 AFUWINGUI

image

點擊開啟按鈕,選擇剛才上面修改好的 BIOS 文件,

然後,點擊右側刷新按鈕,等待刷新狀態完成,顯示為 Done 後,修改好的 BIOS 就刷入完成了。

可以通過 GPU-Z 軟件,可以按照如下圖的選項進入,可以看到 Above 4G 已經開啟。

image

這時候,就可以關機把顯卡裝上,就能重新啟動了。

後記#

標題說到坎坷歷程,那當然是沒那麼簡單了,裝上顯卡後開機能夠正常識別了,裝上英偉達的驅動後,顯存頻率什麼的也一切正常。

讓我感到離奇的是,重啟後,在命令行執行 nvidia-smi 竟然提示沒有設備。打開設備管理器上一看,顯卡是竟然被打上了三角驚嘆號。重啟了幾遍,依舊是於事無補,看樣子像是翻車了,然後我把驅動卸載掉,重啟再裝上,沒想到裝上後馬上又成功驅動識別了。再重啟,又顯示三角感嘆號。

難道是有什麼遺漏的設置嗎?讓我十分摸不著頭腦,折騰了好幾天也沒找到原因,網上也沒有相關的案例。

直到有一天,看回當時拍的顯卡照片,發現原來顯卡右上角掉了一顆電感,馬上聯繫賣家換新,我估計原因可能是出在這裡了。

image


經過漫長的等待換貨之後,新顯卡插上之後沒想到也是一樣,WIN10 重啟後需要重新卸載驅動再打驅動才能正常使用顯卡,估計還是主板太老了或者系統驅動哪一塊沒對,但是畢竟我本身比較少關機,也就將就用了,回頭有空試試安裝 WIN11 或者找別的辦法研究一下。


後面發現,只需要在裝成功驅動的那一次,進入英偉達驅動管理,將 ECC 檢測關閉,親測重啟後就不會再掉驅動了。

終於可以愉快地煉丹了,一路可謂坎坷艱辛,折騰了好兩周的下班時間,還專門去買多了一塊主板測試。不過,這也算是一次深刻且學習到不少裝機知識的經歷了吧。

載入中......
此文章數據所有權由區塊鏈加密技術和智能合約保障僅歸創作者所有。