當(dāng)前位置：首頁 > 攻略教程 > 游戲資訊 > 突破算力極限!4090單卡實現(xiàn)DeepSeek-R1滿血運行

突破算力極限!4090單卡實現(xiàn)DeepSeek-R1滿血運行

時間：2025-02-16 10:04:33 編輯：易網(wǎng)VIP游戲門戶閱讀：0

IT之家 2 月 15 日消息，現(xiàn)階段用戶使用 DeepSeek-R1 的主要途徑無外乎云服務(wù)及“本地部署”，但官網(wǎng)服務(wù)器頻頻宕機、個人部署多為參數(shù)量縮水 90% 的蒸餾版。因此，一般用戶要想在普通硬件上運行起真正的 DeepSeek-R1 滿血版可以說很難很難，而租賃服務(wù)器的成本就算是開發(fā)者也倍感壓力。

清華大學(xué) KVCache.AI 團隊與趨境科技聯(lián)合發(fā)布 KTransformers（IT之家注：發(fā)音為 Quick Transformers）開源項目本周宣布迎來重大更新，成功破解千億級大模型本地部署難題，突破標(biāo)志著大模型推理從“云端壟斷”走向“普惠化”的重要一步。

如圖所示，KTransformers 團隊于 2 月 10 日成功在 24 GB 顯存 + 382 GB 內(nèi)存的 PC 上實現(xiàn)本地運行 DeepSeek-R1、V3 的 671B 滿血版，速度提高 3~28 倍。

今日， KTransformers 宣布支持更長的上下文（24GB 單卡支持 4~8K），并實現(xiàn) 15% 加速（每秒最多 16 個 Tokens）。

據(jù)官方介紹，KTransformers 是一個靈活的、以 Python 為中心的框架，其設(shè)計核心是可擴展性、通過用一行代碼實現(xiàn)和注入一個優(yōu)化模塊，用戶就能訪問兼容 Transformers 的界面、符合 OpenAI 和 Ollama 標(biāo)準(zhǔn)的 RESTful API，甚至是類似 ChatGPT 的簡化網(wǎng)頁用戶界面。

該技術(shù)首次支持在單張 24GB 顯存的消費級顯卡（如 RTX 4090D）上運行 DeepSeek-R1 / V3 的 671B 參數(shù)滿血版，預(yù)處理速度最高達 286 tokens/s，推理生成速度達 14 tokens/s，徹底改寫了 AI 大模型依賴昂貴云服務(wù)器的歷史格局。

DeepSeek-R1 基于混合專家（MoE）架構(gòu)，其核心是將任務(wù)分配給不同專家模塊，每次推理僅激活部分參數(shù)。團隊創(chuàng)新性地將非共享稀疏矩陣卸載至 CPU 內(nèi)存處理，結(jié)合高速算子優(yōu)化，顯存需求從傳統(tǒng) 8 卡 A100 的 320GB 壓縮至單卡 24GB。

借助于 KTransformers ，普通用戶只需 24G 顯存即可在本地運行 DeepSeek-R1、V3 的 671B 滿血版。預(yù)處理速度最高達到 286 tokens/s，推理生成速度最高能達到 14 tokens/s。

針對 MoE 架構(gòu)的特點，KTransformers 團隊通過 Marlin GPU 算子實現(xiàn)量化矩陣計算，效率較傳統(tǒng)方案提升 3.87 倍；再加上 CPU 端突破，采用 llamafile 實現(xiàn)多線程并行，結(jié)合英特爾 AMX 指令集優(yōu)化，CPU 預(yù)填充速度較 llama.cpp 提升 28 倍，長序列任務(wù)響應(yīng)時間從分鐘級縮短至秒級。

此外，他們通過減少 CPU / GPU 通信斷點，實現(xiàn)單次解碼僅需一次完整的 CUDA Graph 調(diào)用，生成速度優(yōu)化至 14 tokens/s，功耗僅 80W，整機成本約 2 萬元，僅為傳統(tǒng) 8 卡 A100 方案的 2%。

經(jīng)過開發(fā)者實測，使用 RTX 3090 顯卡和 200GB 內(nèi)存配置，結(jié)合 Unsloth 優(yōu)化，Q2_K_XL 模型推理速度達 9.1 tokens/s，實現(xiàn)千億級模型的“家庭化”運行。

必須要說明的是，KTransformers 并非一個單純的推理框架，也不限于 DeepSeek 模型，它可以兼容各式各樣的 MoE 模型和算子，能夠集成各種各樣的算子，做各種組合的測試，同時還提供了 Windows、Linux 的平臺的支持，感興趣的用戶可自行嘗試。

當(dāng)然，要想使用 KTransformers 也有一點硬性條件，而不是說只要有一張 RTX 4090 就能無障礙運行。先決條件要保證：

CPU：英特爾至強 Gold 6454S 1T DRAM（2 個 NUMA 節(jié)點）

GPU：RTX 4090D（24G VRAM）

內(nèi)存：標(biāo)準(zhǔn) DDR5-4800 服務(wù)器 DRAM（1 TB）

CUDA 12.1 或更高版本

RTX 4090D + 雙路 Xeon Gold 實測數(shù)據(jù)：

對于 Linux-x86_64 系統(tǒng)，您需要 gcc、g++ 和 cmake 使用以下命令進行安裝：

sudo apt-get updatesudo apt-get install gcc g++ cmake ninja-build

這里強烈建議使用 Conda 創(chuàng)建一個包含 Python 3.11 的虛擬環(huán)境。使用以下命令創(chuàng)建并激活環(huán)境：

conda create --name ktransformers python=3.11

conda activate ktransformers # 您可能需要運行 ‘conda init’

安裝 PyTorch、packaging、ninja、cpufeature 和 numpy：

pip install torch packaging ninja cpufeature numpy

安裝 KTransformers

pip install ktransformers --no-build-isolation

快速使用

python -m ktransformers.local_chat --model_path <your model path> --gguf_path <your gguf path> --prompt_file <your prompt txt file> --cpu_infer 65 --max_new_tokens 1000<when you see chat, then press enter to load the text prompt_file>

參數(shù)解釋：

model_path：模型路徑。gguf_path: gguf 文件路徑。

prompt_file：包含提示文本的文件路徑。

cpu_infer 65：指定用于推理的 CPU 核心數(shù)。如果使用雙路 CPU，因此設(shè)置為 65。

max_new_tokens 1000：設(shè)置生成 token 的最大數(shù)量。

上一篇：晨報|分析師稱《馬克思佩恩1&2》重制版2026年發(fā)布《哪吒2》票房突破114億下一篇：返回列表

相關(guān)文章

更多+