熱血漢誌 - 技術新鮮人到技術經理人，必懂的事

發表文章

產業趨勢分析，S1 訓練方式和 DeepSeek R1 對於小型模型影響

近期 AI 領域再掀熱潮！DeepSeek-R1 的復刻研究顯示，只需 26 分鐘、16 顆 H100 GPU、約 20 美元（約 656 NT），就能讓 Qwen2.5-32B-Instruct 模型達到更高效的推理表現。關鍵技術 Budget Forcing ，透過控制思考時間，優化推理過程，讓僅 1,000 筆高品質數據（涵蓋數學、物理、統計等）達成高效學習，比傳統大規模數據訓練更節省資源。自我提問：Budget Forcing 的影響與限制？ 💡 Budget Forcing 能取代大型語言模型嗎？ Budget Forcing 主要應用於推理階段（Inference），而非全新的訓練機制，更像是一種蒸餾技術，提升模型運算效率，但不改變模型的核心能力。 💡 更大模型仍有優勢嗎？即使 Budget Forcing 讓 32B 模型提升 7%，但若 70B 模型天生就比 32B 強 20%，那麼使用者仍傾向選擇更大的 LLM，這點無法取代。 💡 Budget Forcing 如何與大型語言模型共存？它可與 RLHF（強化學習微調）或 RAG（檢索增強生成）結合，形成新的 AI 訓練策略，拓展應用場景，並提升開源模型的競爭力。產業與供應鏈影響：AI 運算模式轉變 🔹 對 GPU 需求的影響預測未來 AI 訓練方式可能轉變——企業將減少對超大規模 GPU 叢集（如 NVIDIA H100、B200）的需求，但仍需中等規模 GPU 進行模型微調與蒸餾。 🔹 雲端 AI 的崛起 s1 的研究證明，雲端 GPU 運算更適合「推理加速」，而非訓練超大模型。未來企業可透過雲端 AI 建立推理服務，降低 AI 部署與運行成本。 🔹 開源 AI 競爭力提升 Budget Forcing 讓小型開源模型有更多機會優化自身性能，使其在特定應用場景下與 GPT-4、Claude 3 等封閉式 LLM 競爭，推動開源 AI 發展。完整技術細節可參考 GitHub：🔗 simplescaling/s1 歡迎留言討論！

繼續閱讀>>

關於 S1 的一些簡單想法，關於 20美元、26分鐘就復刻 DeepSeek-R1

source: 20美元、26分鐘就搞定！李飛飛團隊復刻DeepSeek-R1模型，效能更勝Open AI o1 關於 S1 的一些簡單想法 recap 採用的方法，是基礎於 Qwen2.5-32B-Instruct 訓練的 . - 團隊構建了一個精選的 1,000 個高質量問題與推理過程的數據集 (s1K)，涵蓋多個領域（數學、物理、統計等） - 問題的選取基於三個標準：難度 (Difficulty)、多樣性 (Diversity)、品質 (Quality)。 - Budget Forcing, 其中有兩個要素，思考時間，過長或過短都會進行處理讓其達到最適化。訓練結果 1. 訓練效率節省，s1-32B 模型的訓練時間僅需 26 分鐘 (16 個 H100 GPU)，比傳統方法更省時省力。 2. 採用 1,000 個精選數據，而非數十萬甚至百萬級的數據，顯示「高效樣本學習」的可能性自我提問 Q.Budget Forcing 此方法能否完全取代大型語言模型的創新？ Budget Forcing 主要是推理階段 (Inference) 的方法，並非是一種全新的訓練機制，以自己的認知來說，某方面他比較算是其中一種蒸餾的方法之一。 . Q. 更大的模型仍然有優勢? 以結論來說即使 Budget Forcing 能讓 32B 模型提升 7%，但如果 70B 模型天生就比 32B 強 20%，那麼大家如果有生成的需求，其實還是會需要更大型的 LLM, 這是肯定的。 . Q. Budget Forcing 跟大型語言模型之間的相處？ Budget Forcing + RLHF (強化學習微調) 或者 Budget Forcing + Retrieval-Augmented Generation (RAG)，總之 Budget Forcing 其實就是一個機制，再這樣組合拳之下就會有很多應用可以展開和想像的空間產業與供應鏈影響 . 推測，的確以整體面向，可能會減少對超大規模 GPU 叢集（如 NVIDIA H100、B200）的需求降低，但仍然會購買大量中等規模 GPU 來微調，蒸餾模型。 . s1 ...

繼續閱讀>>

LLM 與佛學的對話：從向量解釋到人類角色的深刻再思

首次接觸 LLM 的 CrossOver, 感謝台大文學院舉辦這樣的活動，從謝老師和耿老師的分享，對於大型語言模型對於佛學的觀點，闡述了許多變與不變，以及可能性的延伸討論。其中讓我印象最深刻的部分是，謝老師提到，大型語言模型解釋和 Embedding 能力其實有其應用化和場域化。例如，『空』向量和空間化後的，『空』，這個字！此時的向量解釋，這個字的解釋，更超越語意的意義，透過 LLM 的理解力，讓人類有新的不同視野，看到更多可能性，以及連接性，這只是其中一個例子。而其中，很有可能，透過 RAG 的方式，可以將佛經以及經過語料分析，讓現代的人可以透過現代的語言，直接與過去千年的語料進行互動的直接的過程，而不再是以艱澀難懂的方式讓人更容易親近，人類，可以透過 LLM 了解更多古往今來的史料經典。同時，耿老師也提到，結合 LLM 理解的方式，他可能還是處在人們可能理解的範圍內處理，但是透過 LLM 能夠更有效率的在 CBETA 裡面找到關聯與相異性，找出更多千年以前的譯者團，譯者群所過去經歷的過程，過去的脈絡... 結論人類的角色始終還是會在，短期內，可能還是很難透過 LLM 直接超脫，不過這次的 Cross Over，可以看到 LLM 在不同領域上的確都是個震撼，也短短就發生在這兩年多，從語料上，到知識性上，到系統性上，到多模態上，大家正在不斷地從變動中，找到許多不變的，也從變動中，找到許多共時性的項目出來。而這些正是人存在的價值，善用 LLM，創造且使用更多不同的 AI，重新組合出更多可能性的價值。 #正信不迷信 #我佛慈悲 CBETA, https://www.cbeta.org/ Humanistic Buddhism Corpus https://www.fgstranslation.org/hbc/ 臺大文學院跨領域論壇：佛學研究與AI https://liberal.ntu.edu.tw/web/news/news_in.jsp?dm_id=DM1639553959015&np_id=NP1729819383333 工商服務 JSDC 2024 JavaScript Developer 年度盛會售票中。 JSDC 2024 網站： https://2024.jsdc....

繼續閱讀>>

2024 推薦關注的 JavaScript 知識

以 js 整體發展來看，目前自己最看好的發展是在於兩個面向，一個部分是 Storybook ，一個部分是 Web container ，為何會是這兩個部分，這邊也分享一下自己的見解。 Storybook Storybook, 如果有用過的朋友都知道，他是屬於前端的展示，可以從 UI 的結構，到 parameter 的傳入，以及 component 如何使用的方式細節呈現等完全呈現。 AI 的到來，加上 Storybook 的呈現，可以讓新發展，或者更新版本的 UI Component 不再是孤兒，很快的 AI 可以學習如何使用新的 Component, 且在同時可以讀取 UI 畫面（Vision) 的狀態下進行識別 UI 在呈現上可以使用的方式。同時也可以直接了解整體程式碼在使用上可以有怎麼樣參數傳入的方式，甚至是，你只要發展出一套 react 的版本，透過 AI 可以直接透過 Storybook 的版本，直接用最典型的狀態（但不一定效果最佳）轉換成 Vue, 或者 Villina JS 的版本。這對於開發者，是一個多大的福音，Do Once, Call Everywhere. Web Container Web Container, 正所謂，Container 之下無蟒夫，容器化不只是能夠跑在後端，現在也能夠跑在前端，加速了整體的部署，同時也加速了以往的 SSR 的限制，以往很多時候『it works on my pc』的窘境將不再復見，你的瀏覽器將是我的雲端，You are the edge of mine, 聽起來有多浪漫，光靠這招就是一個歡呼！完全就是一個端到端，環境的問題接下來將再不是一個問題，以往會有的 Node.js 的問題，接下來都可以在 Web Container 裡面排除掉，直接快速的進行部署實現，同時執行出應用端應該有的樣子。當然瀏覽器支援度會是一個問題，不過我相信這只是時間的問題而已，相信在座的各位，最多的就是時間！等吧！ JSDC 2024 JavaScript Developer 年度盛會，線上展開。這次講師要講什麼，就是要講這些有的沒的，還不來聽嗎？聽懂幾個關鍵字，開心學會一輩子！ JSDC 2024 網站： https://2024.jsdc.tw/ JSDC 2024 售票連結： https://www.a...

繼續閱讀>>

AI 時代工程師要懂的十件事情！

AI 時代工程師要懂什麼 AI 時代工程師要學 Prompt AI 時代工程師要學 template AI 時代工程師要學 RAG AI 時代工程師要學專案規格 AI 時代工程師要學需求規範 AI 時代工程師要學通用格式概念情境 AI 時代工程師要學說人話 AI 時代工程師要學通俗的方式插入關鍵字、簡易的方式形容一件事情 AI 時代工程師要學倒果為因的能力 AI 時代工程師要學允許不到 90 分的答案

繼續閱讀>>

AI 時代下的年輕開發者學習提示

AI時代下的年輕開發者學習提示我百分之一百支持各位用AI工具建立一個簡單的應用最簡單的方式就是透過網頁，AI工具建立網頁的應用是非常完整再接下來我才會建議，基本功還是要學習網路上的資訊固然很多，但還是建議買幾本書回來看比較實在書中沒有黃金屋，書中有經過編輯的滋滋教誨！參與課程其實也是一個方式，學習完一套之後記得先試著把應用做出來很多時候你用什麼技術，用什麼框架並不重要工具都只會是輔助，但是更重要的是，最終，如果你的目的是成為一位工程師，那就要看懂 AI 工具所產出的程式碼，理解他並了解他如果你只是想要驗證商業模式，那就是另外一段故事，我們可以另外開一個章節來說明 ...

繼續閱讀>>

熱血漢誌 - 技術新鮮人到技術經理人，必懂的事

搜尋此網誌

發表文章

2025 肯定要認識 MCP - 以 Cursor + Figma MCP = Self page builder

產業趨勢分析，S1 訓練方式和 DeepSeek R1 對於小型模型影響

關於 S1 的一些簡單想法，關於 20美元、26分鐘就復刻 DeepSeek-R1

LLM 與佛學的對話：從向量解釋到人類角色的深刻再思

2024 推薦關注的 JavaScript 知識

AI 時代工程師要懂的十件事情！

AI 時代下的年輕開發者學習提示