[閒聊] AI地圖 實時3D世界 動畫模型..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] AI地圖實時3D世界動畫模型..本週AI新聞

時間Sun Mar 15 12:02:31 2026

https://www.youtube.com/watch?v=qWzo3ws0uWU

這段影片彙整了近期 AI 領域的多項重大進展，涵蓋了影片生成、3D 建模、機器人技術及大型語言模型等多個面向。以下是根據影片資訊欄整理的內容簡介： 1. 影像與影片生成技術 (Video & Animation) MatAnyone 2: 影片去背（Matting）技術的進階版，能更精準地將影片中的主體與背景分離。 WildActor: 專注於在各種複雜環境中生成自然的人物動作與演員表現。 Anima V2: (動漫風格圖像模型) Higgsfield Cinema Studio: 專為專業影視創作設計的 AI 影片工具，提供更強的鏡頭控制力。 ShotVerse: 影片創作與鏡頭設計的輔助工具。 EffectMaker: 用於快速生成各類視覺特效。 2. 3D 建模與空間智能 (3D & SpatialAI) RL3Dedit: 利用強化學習（Reinforcement Learning）來進行 3D 模型編輯。 Inspatial WorldFM: 空間智能的「世界模型」，旨在讓 AI 更理解現實物理空間。 Holi Spatial: 專注於空間計算與互動。 MobileGS: 優化了 3D 高斯潑濺（Gaussian Splatting）技術，使其能在行動裝置上流暢運行。 TADA: (開源語音生成) 3. 大型語言模型與基礎設施 (LLMs & Infrastructure) Gemini Embedding 2: Google 推出的新一代向量嵌入模型，提升了資訊檢索與語義理解能力。 Nemotron 3 Super: NVIDIA 推出的高效能語言模型系列更新。 Flux 2 Klein KV: 針對熱門的 Flux 圖像模型進行的優化或變體，可能涉及推理效率的提升。 DiagDistill: 一種用於提升模型對圖表、圖形理解能力的知識蒸餾技術。 4. 機器人與硬體 (Robotics) DeepRobotics horse: 宇樹科技（DeepRobotics）研發的四足機器人（機械馬），展現卓越的平衡與地形適應力。 Reflex Robotics: 展示了其在自動化操作、物體抓取方面的最新進展。 5. 開發工具與實用應用 (Tools & Apps) ComfyUI App Mode: 知名 AI 繪圖工具 ComfyUI 推出的新界面模式，讓工作流轉化為更易用的應用程式介面。 Ask Maps: 將 AI 整合進地圖導航，提供更智慧的地理資訊查詢。 FishAudio S2: 新一代語音合成（TTS）模型，音質更自然。 Loger :(3D幾何重建技術) BrandFusion: :(置入性行銷影片工具) 6. 其他 AMI labs: 分享了相關研究室的最新動態。 Nvidia giveaway: 影片最後提到了 NVIDIA 的抽獎活動。這部影片反映了 AI 正在從單純的「文字/圖像生成」快速演進到對「物理世界（3D/空間 /動作）」的深度理解與模擬。 -- Gemini整理 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.194.42 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1773547353.A.FB5.html Anima preview 2 https://www.reddit.com/r/StableDiffusion/comments/1rqy92r/ ※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 12:18:52 https://www.hume.ai/blog/opensource-tada TADA (Text-Acoustic Dual Alignment) 這是一個**「文本-音訊雙向對齊」**的開源語音語言模型，核心理念是將文字和語音同步成單一資訊流。 1:1 Token 對齊：傳統語音 AI 的文字與音訊長度不一（非同步），容易導致漏字或胡言亂語。TADA 讓每個文字 Token 直接對應一個連續的音訊向量，實現「同步生成」。徹底解決「幻覺」問題：由於文字與語音是 1:1 鎖定的，模型生成時無法跳過單字或隨意發揮，在測試中達到了 0 幻覺（Zero Hallucinations）。極速生成（5倍速）：比同等級的 LLM 語音系統快 5 倍，且能支撐長達 700 秒（約 11 分鐘）的超長對話上下文，而不損失穩定性。端側部署友好：其架構非常輕量，1B 或 3B 版本可直接在手機或一般電腦（如 24GB RAM 環境）上流暢運行，無需依賴雲端。簡單來說，TADA 解決了過去語音 AI 常見的「斷句奇怪、字對不起來、速度慢」等痛點，是目前最頂尖的開源 TTS（文字轉語音）與語音理解框架之一。 -- Gemini降智有感搞到第三次才對 ※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 13:00:05 https://loger-project.github.io/ LoGeR：長文本幾何重建技術這是一項專門解決「超長影片 3D 重建」難題的 AI 技術。核心功能：它能將長達數分鐘、甚至數公里的影片路徑（最高支援 19,000 幀）轉化為高精度的 3D 模型與相機軌跡。技術突破：混合記憶體架構：結合了「滑動視窗注意力（SWA）」來確保局部細節對齊，以及「測試時訓練（TTT）」來維持長距離的全局一致性。解決漂移問題：傳統技術在處理長影片時容易產生「尺度漂移」（Scale Drift ），導致地圖歪斜，LoGeR 則能維持公里級規模的幾何結構穩定。高效處理：採用 Chunk-based（分塊）處理方式，避開了傳統模型在處理長序列時計算量爆炸的問題。應用場景：自動駕駛、無人機測繪、以及需要在大規模環境中進行 3D 場景數位化的技術。 https://zihao-ai.github.io/brandfusion/ BrandFusion：文字轉影片的品牌整合框架 BrandFusion 的核心目的是讓 AI 在生成影片時，能精準且自然地嵌入特定品牌的視覺元素，同時不損失影片的語義品質。多智能體協作 (Multi-Agent System)：它將複雜的整合任務拆解給五個由大型語言模型（如 GPT-4/5）驅動的「專家級智能體」： Brand Selector：挑選合適的品牌風格。 Strategy Generator：制定整合策略。 Prompt Refiner：改寫提示詞以優化視覺呈現。 Critic：進行品質審核。 Experience Learner：從過去的成功案例中學習。雙階段架構：離線階段：建立品牌知識庫與輕量化的 LoRA 插件。在線階段：透過智能體協作，動態調整生成指令。技術優勢：在確保品牌識別度（例如商標外觀、色彩方案、產品特質）的同時，大幅提升了生成影片與原始文字描述的契合度，有效解決了傳統方法中「品牌嵌入後畫面變得不自然」的痛點。這項技術對廣告產業與社交媒體內容創作非常有價值，因為它能將品牌識別（Brand Identity）與生成式影片技術更緊密且自動化地結合在一起。 ※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 13:11:22

→ error405: 幹這星期gemini也太低能 03/15 13:11

→ error405: 應該要加那段提示詞的 03/15 13:13

→ AoWsL: https://i.urusai.cc/zkcoJ.jpg 03/15 14:02

推 zero790425: Anima不是動畫模型吧 03/15 20:06

※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 20:09:13 Anima：具備 LLM 理解能力的圖像生成模型 Anima 不是單純的影片動畫工具，而是一個全新架構的開源圖像生成模型（ Text-to-Image），其核心特色在於極強的指令遵循能力。 LLM 驅動的文本編碼器：與傳統模型（如 SDXL）不同，Anima 採用了強大的大型語言模型（LLM）作為文本編碼器。這讓它能像聊天機器人一樣理解極度複雜、充滿細節的提示詞（Prompt），並將其轉化為準確的視覺構圖。優化的模型架構：體積更小：模型大小約為 4GB 左右，比 SDXL 更輕量，對顯卡（VRAM）的要求更低。推理速度快：在生成速度上優於同等級的擴散模型，適合在消費級硬體（如你的 24GB RAM 環境）上運行。高品質視覺表現：專門針對現代藝術風格（如 Booru、DeviantArt 風格）進行了深度訓練，在人物構造、光影處理與背景細節上表現卓越。 V2 版本的進步：V2 進一步優化了生成品質與模型的穩定性，解決了早期版本可能出現的偽影問題，使其成為目前開源社群中，挑戰 SD3 或 Flux 的有力競爭者。 ※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 20:16:15

→ error405: 本來就知道這拿來生動漫圖的結果介紹錯誤給漏了 03/15 20:16

推 Kroner: 樓下關節痛都吃鞏固力 03/15 20:16

推 AoWsL: 韓國人都在聊 ShotVerse 不知道有什麼特別 03/15 20:47

→ error405: https://shotverse.github.io/ 可以把鏡頭修好看? 03/15 21:10

→ AoWsL: 不知道可能有點類似Seedance2技術吧話說Seedance2不開國 03/15 21:19

→ AoWsL: 際版了 03/15 21:19

推 Kroner: 不動對關節最好，拎北都躺著 03/15 21:19

推 Bustycat: 還有Perplexity把Kimi K2.5、Grok 4.1拿掉換成規模 03/16 12:33

→ Bustycat: 更小的Nemotron 3 Super再次惹怒訂戶 03/16 12:33