近期 AI 領域再掀熱潮!DeepSeek-R1 的復刻研究顯示,只需 26 分鐘、16 顆 H100 GPU、約 20 美元(約 656 NT) ,就能讓 Qwen2.5-32B-Instruct 模型達到更高效的推理表現。 關鍵技術 Budget Forcing ,透過控制思考時間,優化推理過程,讓 僅 1,000 筆高品質數據 (涵蓋數學、物理、統計等)達成 高效學習 ,比傳統大規模數據訓練更節省資源。 自我提問:Budget Forcing 的影響與限制? 💡 Budget Forcing 能取代大型語言模型嗎? Budget Forcing 主要應用於 推理階段 (Inference),而非全新的訓練機制,更像是一種 蒸餾技術 ,提升模型運算效率,但不改變模型的核心能力。 💡 更大模型仍有優勢嗎? 即使 Budget Forcing 讓 32B 模型提升 7%,但若 70B 模型天生就比 32B 強 20%,那麼使用者仍傾向選擇更大的 LLM,這點無法取代。 💡 Budget Forcing 如何與大型語言模型共存? 它可與 RLHF(強化學習微調) 或 RAG(檢索增強生成) 結合,形成新的 AI 訓練策略,拓展應用場景,並提升開源模型的競爭力。 產業與供應鏈影響:AI 運算模式轉變 🔹 對 GPU 需求的影響 預測未來 AI 訓練方式可能轉變——企業將 減少對超大規模 GPU 叢集(如 NVIDIA H100、B200)的需求 ,但仍需中等規模 GPU 進行模型微調與蒸餾。 🔹 雲端 AI 的崛起 s1 的研究證明, 雲端 GPU 運算更適合「推理加速」,而非訓練超大模型 。未來企業可 透過雲端 AI 建立推理服務 ,降低 AI 部署與運行成本。 🔹 開源 AI 競爭力提升 Budget Forcing 讓小型開源模型有更多機會優化自身性能,使其在 特定應用場景下與 GPT-4、Claude 3 等封閉式 LLM 競爭 ,推動開源 AI 發展。 完整技術細節可參考 GitHub:🔗 simplescaling/s1 歡迎留言討論!
source: 20美元、26分鐘就搞定! 李飛飛團隊復刻DeepSeek-R1模型 ,效能更勝Open AI o1 關於 S1 的一些簡單想法 recap 採用的方法,是基礎於 Qwen2.5-32B-Instruct 訓練的 . - 團隊構建了一個精選的 1,000 個高質量問題與推理過程的數據集 (s1K),涵蓋多個領域(數學、物理、統計等) - 問題的選取基於三個標準:難度 (Difficulty)、多樣性 (Diversity)、品質 (Quality)。 - Budget Forcing, 其中有兩個要素,思考時間,過長或過短都會進行處理讓其達到最適化。 訓練結果 1. 訓練效率節省,s1-32B 模型的訓練時間 僅需 26 分鐘 (16 個 H100 GPU),比傳統方法更省時省力。 2. 採用 1,000 個精選數據,而非數十萬甚至百萬級的數據,顯示「高效樣本學習」的可能性 自我提問 Q.Budget Forcing 此方法能否完全取代大型語言模型的創新? Budget Forcing 主要是 推理階段 (Inference) 的方法,並非是一種全新的訓練機制,以自己的認知來說,某方面他比較算是其中一種蒸餾的方法之一。 . Q. 更大的模型仍然有優勢? 以結論來說即使 Budget Forcing 能讓 32B 模型提升 7%,但如果 70B 模型天生就比 32B 強 20%,那麼大家如果有生成的需求,其實還是會需要更大型的 LLM, 這是肯定的。 . Q. Budget Forcing 跟大型語言模型之間的相處? Budget Forcing + RLHF (強化學習微調) 或者 Budget Forcing + Retrieval-Augmented Generation (RAG),總之 Budget Forcing 其實就是一個機制,再這樣組合拳之下就會有很多應用可以展開和想像的空間 產業與供應鏈影響 . 推測,的確以整體面向,可能會減少對超大規模 GPU 叢集(如 NVIDIA H100、B200)的需求降低,但仍然會購買大量中等規模 GPU 來微調,蒸餾模型。 . s1 ...