https://www.youtube.com/watch?v=HCVkBC1Vhcw
這段影片彙整了本週重大的 AI 新聞與工具更新,涵蓋了從模型進化、影音生成到機器人
技術的多個領域。以下是詳細的內容摘要:
1. 視覺與影音生成技術
Google Spark VSR:目前最強的開源影片超解析(Upscaler)工具,能將低畫質影
像轉換為高清晰度,並已釋出推理與訓練代碼(約 42.2 GB)。
Dreamverse (FastVideo):極速影片生成系統,僅需單個 GPU 即可在 4.5 秒內生
成 5 秒的 1080p 影片,並支援近乎即時的風格編輯(如轉為動漫風)。
Soul World Model:能生成極其真實的城市巡禮影片(首波為首爾),支援自由導航
且長時間生成也不會出現畫質衰減,未來可用於打造地球的數位孿生。
ID-LoRA:新一代 Deepfake 工具,將聲音複製與口型同步整合為單一統一模型,生
成的深偽影片更自然,且背景聲音(如敲擊聲)也能精準同步。
2. 模型進化與研究代理人
MiniMax M2.7:首款實現「深度自我進化」的模型。在訓練中能自主運行實驗並更新
技能。其程式碼能力逼近頂尖閉源模型,且價格極具競爭力(每百萬 Token 僅約 0.5 美
元)。
小米 MiMo V2 系列:
V2 Pro:兆級參數的 MoE 模型,專為 Agent 任務優化,表現直逼 Claude 4.6
Opus。
V2 Omni:多模態模型,能理解並生成圖文影音,甚至能自主操作瀏覽器上傳影
片到 TikTok。
MiroThinker 1.7 & H1:強大的研究型代理人,擅長預測(如精準預測金價、超級盃
冠軍、葛萊美獎)。H1 版本加入了「驗證循環」,使其在科學與數學研究上超越了 GPT
和 Claude 的部分指標。
Terminator:一個輕量化插件,能偵測 AI 何時已得出答案並及時終止其「碎碎念」
過程,最高可節省 55% 的 Token 消耗與一半的生成時間。
3. 開發者與設計工具
Google AI Studio 升級:現在轉型為「全棧開發環境」,Agent 能一次搞定前端、
後端、資料庫(Firebase)與身分驗證,挑戰 Replit。
Google Stitch 更新:AI 版 Figma,現在支援參考圖導入、語音指令修改設計,並
能輸出給 AI 編碼代理人的設計指南。
MetaClaw:讓 AI 代理人在日常對話中學習的框架,會自動總結經驗並存入技能庫,
避免重蹈覆轍。
4. Nvidia GTC 2026 重點
Vera Rubin 平台:新一代 AI 超級電腦架構,垂直整合了 Reuben GPU 和 Vera CPU
,旨在以極低成本大規模運行 AI Agent。
Groq 3 LPU:專為極速推理設計,讓 AI 代理人的回應幾乎無延遲。
NemoClaw:企業版 OpenClaw,加入「OpenShell」安全沙盒,讓公司能受控地部署自
主代理。
DLSS 5.0:邁向「神經渲染」,讓 AI 預測像素,以更低的算力產生更寫實的遊戲畫
面。
5. 機器人與 3D 技術
人型機器人應用:北京街頭出現機器人為馬拉松自主訓練;此外,Latent 項目透過
強化學習,讓機器人學會打網球。
機器手技術:Hexa Circle 實現了一人操控數十隻機器手的蜂群控制;Orca Hand 則
展示了耐打(被鐵鎚敲擊可自動復位)且高抓力的 3D 列印機器手。
3D 工具:SegViGen(自動分割 3D 模型零件)與 SK-Adapter(根據骨架生成 3D 模
型)。
6. 教育應用
OpenMAIC:開源的 AI 虛擬教室,只要輸入主題,AI 就會自動生成簡報、測驗、教
學互動,甚至幫你安排 AI 同學一起討論。
--
Gemini整理
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.136.198.76 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1774152392.A.5F9.html
※ 編輯: error405 (220.136.198.76 臺灣), 03/22/2026 12:29:35
補 https://henghuiding.com/GlyphPrinter/
GlyphPrinter 是由復旦大學與南洋理工大學團隊開發的一項突破性 AI 技術(發表於
CVPR 2026),專門解決目前主流圖生文(Text-to-Image)模型在生成文字時常出現的「
錯字、筆畫缺失」或「複雜符號失真」等問題。
以下是該技術的簡短摘要:
核心功能: * 精準渲染: 能夠在圖片中精確呈現複雜的漢字、多國語言(如泰語、
韓語、法語)、甚至特殊字體。
多模態輸入: 除了文字,還能根據提示詞生成精確的 Emoji (繪文字)、古老符
號或特定藝術字形。
技術創新:
區域群組直接偏好優化 (R-GDPO): 與傳統 DPO 不同,它針對圖片中的「局部
區域」進行優化,專門糾正細微的筆畫錯誤,而非只看整張圖的好壞。
GlyphCorrector 數據集: 團隊構建了一個包含大量正確與錯誤筆畫標記的數據
集,讓模型像人類校對員一樣學會「修正」文字。
應用場景:
海報與 UI 設計(確保標題與標語正確無誤)。
多語言電玩封面或書籍封面生成。
需要高度準確性的品牌 Logo 或藝術創作。
開源狀況: 該項目已全面開源,提供推理代碼與訓練模型,支援在具備 24GB VRAM
的 Nvidia GPU 上本地運行。
※ 編輯: error405 (220.136.198.76 臺灣), 03/22/2026 12:47:43