看板 AI_Art
https://www.youtube.com/watch?v=HCVkBC1Vhcw
這段影片彙整了本週重大的 AI 新聞與工具更新,涵蓋了從模型進化、影音生成到機器人 技術的多個領域。以下是詳細的內容摘要: 1. 視覺與影音生成技術 Google Spark VSR:目前最強的開源影片超解析(Upscaler)工具,能將低畫質影 像轉換為高清晰度,並已釋出推理與訓練代碼(約 42.2 GB)。 Dreamverse (FastVideo):極速影片生成系統,僅需單個 GPU 即可在 4.5 秒內生 成 5 秒的 1080p 影片,並支援近乎即時的風格編輯(如轉為動漫風)。 Soul World Model:能生成極其真實的城市巡禮影片(首波為首爾),支援自由導航 且長時間生成也不會出現畫質衰減,未來可用於打造地球的數位孿生。 ID-LoRA:新一代 Deepfake 工具,將聲音複製與口型同步整合為單一統一模型,生 成的深偽影片更自然,且背景聲音(如敲擊聲)也能精準同步。 2. 模型進化與研究代理人 MiniMax M2.7:首款實現「深度自我進化」的模型。在訓練中能自主運行實驗並更新 技能。其程式碼能力逼近頂尖閉源模型,且價格極具競爭力(每百萬 Token 僅約 0.5 美 元)。 小米 MiMo V2 系列: V2 Pro:兆級參數的 MoE 模型,專為 Agent 任務優化,表現直逼 Claude 4.6 Opus。 V2 Omni:多模態模型,能理解並生成圖文影音,甚至能自主操作瀏覽器上傳影 片到 TikTok。 MiroThinker 1.7 & H1:強大的研究型代理人,擅長預測(如精準預測金價、超級盃 冠軍、葛萊美獎)。H1 版本加入了「驗證循環」,使其在科學與數學研究上超越了 GPT 和 Claude 的部分指標。 Terminator:一個輕量化插件,能偵測 AI 何時已得出答案並及時終止其「碎碎念」 過程,最高可節省 55% 的 Token 消耗與一半的生成時間。 3. 開發者與設計工具 Google AI Studio 升級:現在轉型為「全棧開發環境」,Agent 能一次搞定前端、 後端、資料庫(Firebase)與身分驗證,挑戰 Replit。 Google Stitch 更新:AI 版 Figma,現在支援參考圖導入、語音指令修改設計,並 能輸出給 AI 編碼代理人的設計指南。 MetaClaw:讓 AI 代理人在日常對話中學習的框架,會自動總結經驗並存入技能庫, 避免重蹈覆轍。 4. Nvidia GTC 2026 重點 Vera Rubin 平台:新一代 AI 超級電腦架構,垂直整合了 Reuben GPU 和 Vera CPU ,旨在以極低成本大規模運行 AI Agent。 Groq 3 LPU:專為極速推理設計,讓 AI 代理人的回應幾乎無延遲。 NemoClaw:企業版 OpenClaw,加入「OpenShell」安全沙盒,讓公司能受控地部署自 主代理。 DLSS 5.0:邁向「神經渲染」,讓 AI 預測像素,以更低的算力產生更寫實的遊戲畫 面。 5. 機器人與 3D 技術 人型機器人應用:北京街頭出現機器人為馬拉松自主訓練;此外,Latent 項目透過 強化學習,讓機器人學會打網球。 機器手技術:Hexa Circle 實現了一人操控數十隻機器手的蜂群控制;Orca Hand 則 展示了耐打(被鐵鎚敲擊可自動復位)且高抓力的 3D 列印機器手。 3D 工具:SegViGen(自動分割 3D 模型零件)與 SK-Adapter(根據骨架生成 3D 模 型)。 6. 教育應用 OpenMAIC:開源的 AI 虛擬教室,只要輸入主題,AI 就會自動生成簡報、測驗、教 學互動,甚至幫你安排 AI 同學一起討論。 -- Gemini整理 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.136.198.76 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1774152392.A.5F9.html ※ 編輯: error405 (220.136.198.76 臺灣), 03/22/2026 12:29:35 https://henghuiding.com/GlyphPrinter/ GlyphPrinter 是由復旦大學與南洋理工大學團隊開發的一項突破性 AI 技術(發表於 CVPR 2026),專門解決目前主流圖生文(Text-to-Image)模型在生成文字時常出現的「 錯字、筆畫缺失」或「複雜符號失真」等問題。 以下是該技術的簡短摘要: 核心功能: * 精準渲染: 能夠在圖片中精確呈現複雜的漢字、多國語言(如泰語、 韓語、法語)、甚至特殊字體。 多模態輸入: 除了文字,還能根據提示詞生成精確的 Emoji (繪文字)、古老符 號或特定藝術字形。 技術創新: 區域群組直接偏好優化 (R-GDPO): 與傳統 DPO 不同,它針對圖片中的「局部 區域」進行優化,專門糾正細微的筆畫錯誤,而非只看整張圖的好壞。 GlyphCorrector 數據集: 團隊構建了一個包含大量正確與錯誤筆畫標記的數據 集,讓模型像人類校對員一樣學會「修正」文字。 應用場景: 海報與 UI 設計(確保標題與標語正確無誤)。 多語言電玩封面或書籍封面生成。 需要高度準確性的品牌 Logo 或藝術創作。 開源狀況: 該項目已全面開源,提供推理代碼與訓練模型,支援在具備 24GB VRAM 的 Nvidia GPU 上本地運行。 ※ 編輯: error405 (220.136.198.76 臺灣), 03/22/2026 12:47:43