[閒聊] AI教室 自進化AI NvidiaGTC ..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] AI教室自進化AI NvidiaGTC ..本週AI新聞

時間Sun Mar 22 12:06:30 2026

https://www.youtube.com/watch?v=HCVkBC1Vhcw

這段影片彙整了本週重大的 AI 新聞與工具更新，涵蓋了從模型進化、影音生成到機器人技術的多個領域。以下是詳細的內容摘要： 1. 視覺與影音生成技術 Google Spark VSR：目前最強的開源影片超解析（Upscaler）工具，能將低畫質影像轉換為高清晰度，並已釋出推理與訓練代碼（約 42.2 GB）。 Dreamverse (FastVideo)：極速影片生成系統，僅需單個 GPU 即可在 4.5 秒內生成 5 秒的 1080p 影片，並支援近乎即時的風格編輯（如轉為動漫風）。 Soul World Model：能生成極其真實的城市巡禮影片（首波為首爾），支援自由導航且長時間生成也不會出現畫質衰減，未來可用於打造地球的數位孿生。 ID-LoRA：新一代 Deepfake 工具，將聲音複製與口型同步整合為單一統一模型，生成的深偽影片更自然，且背景聲音（如敲擊聲）也能精準同步。 2. 模型進化與研究代理人 MiniMax M2.7：首款實現「深度自我進化」的模型。在訓練中能自主運行實驗並更新技能。其程式碼能力逼近頂尖閉源模型，且價格極具競爭力（每百萬 Token 僅約 0.5 美元）。小米 MiMo V2 系列： V2 Pro：兆級參數的 MoE 模型，專為 Agent 任務優化，表現直逼 Claude 4.6 Opus。 V2 Omni：多模態模型，能理解並生成圖文影音，甚至能自主操作瀏覽器上傳影片到 TikTok。 MiroThinker 1.7 & H1：強大的研究型代理人，擅長預測（如精準預測金價、超級盃冠軍、葛萊美獎）。H1 版本加入了「驗證循環」，使其在科學與數學研究上超越了 GPT 和 Claude 的部分指標。 Terminator：一個輕量化插件，能偵測 AI 何時已得出答案並及時終止其「碎碎念」過程，最高可節省 55% 的 Token 消耗與一半的生成時間。 3. 開發者與設計工具 Google AI Studio 升級：現在轉型為「全棧開發環境」，Agent 能一次搞定前端、後端、資料庫（Firebase）與身分驗證，挑戰 Replit。 Google Stitch 更新：AI 版 Figma，現在支援參考圖導入、語音指令修改設計，並能輸出給 AI 編碼代理人的設計指南。 MetaClaw：讓 AI 代理人在日常對話中學習的框架，會自動總結經驗並存入技能庫，避免重蹈覆轍。 4. Nvidia GTC 2026 重點 Vera Rubin 平台：新一代 AI 超級電腦架構，垂直整合了 Reuben GPU 和 Vera CPU ，旨在以極低成本大規模運行 AI Agent。 Groq 3 LPU：專為極速推理設計，讓 AI 代理人的回應幾乎無延遲。 NemoClaw：企業版 OpenClaw，加入「OpenShell」安全沙盒，讓公司能受控地部署自主代理。 DLSS 5.0：邁向「神經渲染」，讓 AI 預測像素，以更低的算力產生更寫實的遊戲畫面。 5. 機器人與 3D 技術人型機器人應用：北京街頭出現機器人為馬拉松自主訓練；此外，Latent 項目透過強化學習，讓機器人學會打網球。機器手技術：Hexa Circle 實現了一人操控數十隻機器手的蜂群控制；Orca Hand 則展示了耐打（被鐵鎚敲擊可自動復位）且高抓力的 3D 列印機器手。 3D 工具：SegViGen（自動分割 3D 模型零件）與 SK-Adapter（根據骨架生成 3D 模型）。 6. 教育應用 OpenMAIC：開源的 AI 虛擬教室，只要輸入主題，AI 就會自動生成簡報、測驗、教學互動，甚至幫你安排 AI 同學一起討論。 -- Gemini整理 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 220.136.198.76 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1774152392.A.5F9.html ※ 編輯: error405 (220.136.198.76 臺灣), 03/22/2026 12:29:35 補 https://henghuiding.com/GlyphPrinter/ GlyphPrinter 是由復旦大學與南洋理工大學團隊開發的一項突破性 AI 技術（發表於 CVPR 2026），專門解決目前主流圖生文（Text-to-Image）模型在生成文字時常出現的「錯字、筆畫缺失」或「複雜符號失真」等問題。以下是該技術的簡短摘要：核心功能： * 精準渲染：能夠在圖片中精確呈現複雜的漢字、多國語言（如泰語、韓語、法語）、甚至特殊字體。多模態輸入：除了文字，還能根據提示詞生成精確的 Emoji (繪文字)、古老符號或特定藝術字形。技術創新：區域群組直接偏好優化 (R-GDPO)：與傳統 DPO 不同，它針對圖片中的「局部區域」進行優化，專門糾正細微的筆畫錯誤，而非只看整張圖的好壞。 GlyphCorrector 數據集：團隊構建了一個包含大量正確與錯誤筆畫標記的數據集，讓模型像人類校對員一樣學會「修正」文字。應用場景：海報與 UI 設計（確保標題與標語正確無誤）。多語言電玩封面或書籍封面生成。需要高度準確性的品牌 Logo 或藝術創作。開源狀況：該項目已全面開源，提供推理代碼與訓練模型，支援在具備 24GB VRAM 的 Nvidia GPU 上本地運行。 ※ 編輯: error405 (220.136.198.76 臺灣), 03/22/2026 12:47:43