跳到主要內容

發表文章

產業趨勢分析,S1 訓練方式和 DeepSeek R1 對於小型模型影響

近期 AI 領域再掀熱潮!DeepSeek-R1 的復刻研究顯示,只需 26 分鐘、16 顆 H100 GPU、約 20 美元(約 656 NT) ,就能讓 Qwen2.5-32B-Instruct 模型達到更高效的推理表現。 關鍵技術 Budget Forcing ,透過控制思考時間,優化推理過程,讓 僅 1,000 筆高品質數據 (涵蓋數學、物理、統計等)達成 高效學習 ,比傳統大規模數據訓練更節省資源。 自我提問:Budget Forcing 的影響與限制? 💡 Budget Forcing 能取代大型語言模型嗎? Budget Forcing 主要應用於 推理階段 (Inference),而非全新的訓練機制,更像是一種 蒸餾技術 ,提升模型運算效率,但不改變模型的核心能力。 💡 更大模型仍有優勢嗎? 即使 Budget Forcing 讓 32B 模型提升 7%,但若 70B 模型天生就比 32B 強 20%,那麼使用者仍傾向選擇更大的 LLM,這點無法取代。 💡 Budget Forcing 如何與大型語言模型共存? 它可與 RLHF(強化學習微調) 或 RAG(檢索增強生成) 結合,形成新的 AI 訓練策略,拓展應用場景,並提升開源模型的競爭力。 產業與供應鏈影響:AI 運算模式轉變 🔹 對 GPU 需求的影響 預測未來 AI 訓練方式可能轉變——企業將 減少對超大規模 GPU 叢集(如 NVIDIA H100、B200)的需求 ,但仍需中等規模 GPU 進行模型微調與蒸餾。 🔹 雲端 AI 的崛起 s1 的研究證明, 雲端 GPU 運算更適合「推理加速」,而非訓練超大模型 。未來企業可 透過雲端 AI 建立推理服務 ,降低 AI 部署與運行成本。 🔹 開源 AI 競爭力提升 Budget Forcing 讓小型開源模型有更多機會優化自身性能,使其在 特定應用場景下與 GPT-4、Claude 3 等封閉式 LLM 競爭 ,推動開源 AI 發展。 完整技術細節可參考 GitHub:🔗 simplescaling/s1 歡迎留言討論!
最近的文章

關於 S1 的一些簡單想法,關於 20美元、26分鐘就復刻 DeepSeek-R1

source: 20美元、26分鐘就搞定! 李飛飛團隊復刻DeepSeek-R1模型 ,效能更勝Open AI o1 關於 S1 的一些簡單想法 recap 採用的方法,是基礎於 Qwen2.5-32B-Instruct 訓練的 .   - 團隊構建了一個精選的 1,000 個高質量問題與推理過程的數據集 (s1K),涵蓋多個領域(數學、物理、統計等)  - 問題的選取基於三個標準:難度 (Difficulty)、多樣性 (Diversity)、品質 (Quality)。  - Budget Forcing, 其中有兩個要素,思考時間,過長或過短都會進行處理讓其達到最適化。 訓練結果 1. 訓練效率節省,s1-32B 模型的訓練時間 僅需 26 分鐘 (16 個 H100 GPU),比傳統方法更省時省力。 2. 採用 1,000 個精選數據,而非數十萬甚至百萬級的數據,顯示「高效樣本學習」的可能性 自我提問 Q.Budget Forcing 此方法能否完全取代大型語言模型的創新?  Budget Forcing 主要是 推理階段 (Inference) 的方法,並非是一種全新的訓練機制,以自己的認知來說,某方面他比較算是其中一種蒸餾的方法之一。 .  Q. 更大的模型仍然有優勢?  以結論來說即使 Budget Forcing 能讓 32B 模型提升 7%,但如果 70B 模型天生就比 32B 強 20%,那麼大家如果有生成的需求,其實還是會需要更大型的 LLM, 這是肯定的。 .  Q. Budget Forcing 跟大型語言模型之間的相處?  Budget Forcing + RLHF (強化學習微調) 或者 Budget Forcing + Retrieval-Augmented Generation (RAG),總之 Budget Forcing 其實就是一個機制,再這樣組合拳之下就會有很多應用可以展開和想像的空間 產業與供應鏈影響 . 推測,的確以整體面向,可能會減少對超大規模 GPU 叢集(如 NVIDIA H100、B200)的需求降低,但仍然會購買大量中等規模 GPU 來微調,蒸餾模型。 .  s1 ...

LLM 與佛學的對話:從向量解釋到人類角色的深刻再思

首次接觸 LLM 的 CrossOver,  感謝台大文學院舉辦這樣的活動, 從謝老師和耿老師的分享,對於大型語言模型對於佛學的觀點,闡述了許多變與不變,以及可能性的延伸討論。 其中讓我印象最深刻的部分是,謝老師提到,大型語言模型解釋和 Embedding 能力其實有其應用化和場域化。 例如,『空』 向量和空間化後的, 『空』 ,這個字! 此時的向量解釋,這個字的解釋,更超越語意的意義,透過 LLM 的理解力,讓人類有新的不同視野,看到更多可能性,以及連接性,這只是其中一個例子。 而其中,很有可能,透過 RAG 的方式,可以將佛經以及經過語料分析,讓現代的人可以透過現代的語言,直接與過去千年的語料進行互動的直接的過程,而不再是以艱澀難懂的方式讓人更容易親近,人類,可以透過 LLM 了解更多古往今來的史料經典。 同時,耿老師也提到,結合 LLM 理解的方式,他可能還是處在人們可能理解的範圍內處理,但是透過 LLM 能夠更有效率的在 CBETA 裡面找到關聯與相異性,找出更多千年以前的譯者團,譯者群所過去經歷的過程,過去的脈絡... 結論 人類的角色始終還是會在, 短期內,可能還是很難透過 LLM 直接超脫,不過這次的 Cross Over,可以看到 LLM 在不同領域上的確都是個震撼,也短短就發生在這兩年多,從語料上,到知識性上,到系統性上,到多模態上,大家正在不斷地從變動中,找到許多不變的,也從變動中,找到許多共時性的項目出來。 而這些正是人存在的價值,善用 LLM,創造且使用更多不同的 AI,重新組合出更多可能性的價值。 #正信不迷信 #我佛慈悲 CBETA,  https://www.cbeta.org/ Humanistic Buddhism Corpus  https://www.fgstranslation.org/hbc/ 臺大文學院跨領域論壇:佛學研究與AI  https://liberal.ntu.edu.tw/web/news/news_in.jsp?dm_id=DM1639553959015&np_id=NP1729819383333 工商服務 JSDC 2024  JavaScript Developer 年度盛會 售票中。 JSDC 2024 網站: https://2024.jsdc....

2024 推薦關注的 JavaScript 知識

以 js 整體發展來看,目前自己最看好的發展是在於兩個面向,一個部分是 Storybook ,一個部分是 Web container ,為何會是這兩個部分,這邊也分享一下自己的見解。 Storybook Storybook, 如果有用過的朋友都知道,他是屬於前端的展示,可以從 UI 的結構,到 parameter 的傳入,以及 component 如何使用的方式細節呈現等完全呈現。 AI 的到來,加上 Storybook 的呈現,可以讓新發展,或者更新版本的 UI Component 不再是孤兒,很快的 AI 可以學習如何使用新的 Component, 且在同時可以讀取 UI 畫面(Vision) 的狀態下進行識別 UI 在呈現上可以使用的方式。 同時也可以直接了解整體程式碼在使用上可以有怎麼樣參數傳入的方式,甚至是,你只要發展出一套 react 的版本,透過 AI 可以直接透過 Storybook 的版本,直接用最典型的狀態(但不一定效果最佳)轉換成 Vue, 或者 Villina JS 的版本。 這對於開發者,是一個多大的福音,Do Once, Call Everywhere. Web Container Web Container, 正所謂,Container 之下無蟒夫,容器化不只是能夠跑在後端,現在也能夠跑在前端,加速了整體的部署,同時也加速了以往的 SSR 的限制,以往很多時候『it works on my pc』的窘境將不再復見,你的瀏覽器將是我的雲端,You are the edge of mine, 聽起來有多浪漫,光靠這招就是一個歡呼! 完全就是一個端到端,環境的問題接下來將再不是一個問題,以往會有的 Node.js 的問題,接下來都可以在 Web Container 裡面排除掉,直接快速的進行部署實現,同時執行出應用端應該有的樣子。 當然瀏覽器支援度會是一個問題,不過我相信這只是時間的問題而已,相信在座的各位,最多的就是時間! 等吧! JSDC 2024  JavaScript Developer 年度盛會,線上展開。 這次講師要講什麼,就是要講這些有的沒的,還不來聽嗎? 聽懂幾個關鍵字,開心學會一輩子! JSDC 2024 網站: https://2024.jsdc.tw/ JSDC 2024 售票連結: https://www.a...

AI 時代工程師要懂的十件事情!

 AI 時代工程師要懂什麼 AI 時代工程師要學 Prompt AI 時代工程師要學 template AI 時代工程師要學 RAG AI 時代工程師要學 專案規格 AI 時代工程師要學 需求規範 AI 時代工程師要學 通用格式概念情境 AI 時代工程師要學 說人話 AI 時代工程師要學 通俗的方式插入關鍵字、簡易的方式形容一件事情 AI 時代工程師要學 倒果為因的能力 AI 時代工程師要學 允許不到 90 分的答案

AI 時代下的年輕開發者學習提示

AI時代下的年輕開發者學習提示 我百分之一百支持各位用AI工具建立一個簡單的應用 最簡單的方式就是透過網頁,AI工具建立網頁的應用是非常完整  再接下來我才會建議,基本功還是要學習 網路上的資訊固然很多,但還是建議買幾本書回來看比較實在 書中沒有黃金屋,書中有經過編輯的滋滋教誨! 參與課程其實也是一個方式,學習完一套之後記得先試著把應用做出來 很多時候你用什麼技術,用什麼框架並不重要 工具都只會是輔助,但是更重要的是,最終,如果你的目的是成為一位工程師,那就要看懂 AI 工具所產出的程式碼,理解他並了解他 如果你只是想要驗證商業模式,那就是另外一段故事,我們可以另外開一個章節來說明 ...

RAG 和 Prompt 原理超簡單解說!想知道 AI 怎麼找答案看這篇

這篇文章是給對於你已經開始使用所謂的 ChatGPT / Claude / Gemini 之類的 AI 服務,甚至是 Siri (嘿丟,他也是一種 AI 應用服務喔) 簡單來說是非 技術人員, PM,小白,想要趕快惡補的人 ,直接花十分鐘可以看完的一篇科普業配文章。 或者是概念僅止於,AI 這東西會幻想,會有誤差,會對於生活有些幫助但沒有幫助的人們,做個簡單又不是太簡單的介紹,希望用一個非常入門的方式讓你們有個了解。 當然,這篇文章目的很簡單, 就是引流 ,如果你身邊有已經對於 Web 技術開發的人員,歡迎報名分享給他,年末出國不如學一技在身,參加今年我們舉辦最後一場 RAG 實作工作坊,報名連結 , https://exma.kktix.cc/events/ai-for-dev-course-rag-2 注意: 接下來每個大段落結束都會有一段工商導入,但文章絕對精彩,請注意! 為了讓各位容易想像,我們將整個世界的資訊,先濃縮到這本『西遊記』的世界觀當中,我們整個世界都在這個 『西遊記』 ,而 大型語言模型 我們用 『書精靈』 來描述。 PS. 我們先預設各位,應該都有聽過,西遊記!如果沒有聽過西遊記的,請右轉出去,謝謝! 先來談談向量 在《西遊記》的世界裡,我們可以把 向量想像成一種「內容座標」 ,讓系統知道每個角色、場景、法術等的 「位置」和「距離」 。向量幫助語言模型知道不同內容之間的關聯程度。 向量就像內容的「距離」和「位置」 比方說,唐三藏的 「位置」(向量)會接近「佛經」和「取經」 的概念,因為他一路上都是為了取經而前進。孫悟空的 向量位置則會更靠近「金箍棒」和「七十二變」 這些概念,因為這些是他的特徵。 相似內容靠得更近:像「佛經」和「取經」會靠近唐三藏的向量,因為它們彼此有很強的關聯。 相差較大內容會離得較遠:像「取經」和「妖怪」「妖怪的寶藏」就距離比較遠,因為妖怪的寶藏和取經的目標關聯性不大。 是誰決定的這些位置? 簡單來說,這些位置和關係是模型自己學出來的。語言模型會閱讀大量的資料和這世界觀的資訊,觀察哪些詞語經常一起出現,根據「共同出現的頻率」來決定它們的關係,並且自動生成向量。例如: 如果模型看到 「唐三藏」 總是和 「取經」 一起出現,它就會讓「唐三藏」的向量靠近「取經」。 ...