作者error405 (流河=L)
看板AI_Art
標題[閒聊] AI地圖 實時3D世界 動畫模型..本週AI新聞
時間Sun Mar 15 12:02:31 2026
https://www.youtube.com/watch?v=qWzo3ws0uWU
這段影片彙整了近期 AI 領域的多項重大進展,涵蓋了影片生成、3D 建模、機器人技術
及大型語言模型等多個面向。以下是根據影片資訊欄整理的內容簡介:
1. 影像與影片生成技術 (Video & Animation)
MatAnyone 2: 影片去背(Matting)技術的進階版,能更精準地將影片中的主體與背
景分離。
WildActor: 專注於在各種複雜環境中生成自然的人物動作與演員表現。
Anima V2: (動漫風格圖像模型)
Higgsfield Cinema Studio: 專為專業影視創作設計的 AI 影片工具,提供更強的鏡
頭控制力。
ShotVerse: 影片創作與鏡頭設計的輔助工具。
EffectMaker: 用於快速生成各類視覺特效。
2. 3D 建模與空間智能 (3D & SpatialAI)
RL3Dedit: 利用強化學習(Reinforcement Learning)來進行 3D 模型編輯。
Inspatial WorldFM: 空間智能的「世界模型」,旨在讓 AI 更理解現實物理空間。
Holi Spatial: 專注於空間計算與互動。
MobileGS: 優化了 3D 高斯潑濺(Gaussian Splatting)技術,使其能在行動裝置上
流暢運行。
TADA: (開源語音生成)
3. 大型語言模型與基礎設施 (LLMs & Infrastructure)
Gemini Embedding 2: Google 推出的新一代向量嵌入模型,提升了資訊檢索與語義
理解能力。
Nemotron 3 Super: NVIDIA 推出的高效能語言模型系列更新。
Flux 2 Klein KV: 針對熱門的 Flux 圖像模型進行的優化或變體,可能涉及推理效
率的提升。
DiagDistill: 一種用於提升模型對圖表、圖形理解能力的知識蒸餾技術。
4. 機器人與硬體 (Robotics)
DeepRobotics horse: 宇樹科技(DeepRobotics)研發的四足機器人(機械馬),展
現卓越的平衡與地形適應力。
Reflex Robotics: 展示了其在自動化操作、物體抓取方面的最新進展。
5. 開發工具與實用應用 (Tools & Apps)
ComfyUI App Mode: 知名 AI 繪圖工具 ComfyUI 推出的新界面模式,讓工作流轉化
為更易用的應用程式介面。
Ask Maps: 將 AI 整合進地圖導航,提供更智慧的地理資訊查詢。
FishAudio S2: 新一代語音合成(TTS)模型,音質更自然。
Loger :(3D幾何重建技術)
BrandFusion: :(置入性行銷影片工具)
6. 其他
AMI labs: 分享了相關研究室的最新動態。
Nvidia giveaway: 影片最後提到了 NVIDIA 的抽獎活動。
這部影片反映了 AI 正在從單純的「文字/圖像生成」快速演進到對「物理世界(3D/空間
/動作)」的深度理解與模擬。
--
Gemini整理
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.194.42 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1773547353.A.FB5.html
Anima preview 2
https://www.reddit.com/r/StableDiffusion/comments/1rqy92r/
※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 12:18:52
https://www.hume.ai/blog/opensource-tada
TADA (Text-Acoustic Dual Alignment)
這是一個**「文本-音訊雙向對齊」**的開源語音語言模型,核心理念是將文字和語音同
步成單一資訊流。
1:1 Token 對齊:傳統語音 AI 的文字與音訊長度不一(非同步),容易導致漏字或
胡言亂語。TADA 讓每個文字 Token 直接對應一個連續的音訊向量,實現「同步生成」。
徹底解決「幻覺」問題:由於文字與語音是 1:1 鎖定的,模型生成時無法跳過單字或隨
意發揮,在測試中達到了 0 幻覺(Zero Hallucinations)。
極速生成(5倍速):比同等級的 LLM 語音系統快 5 倍,且能支撐長達 700 秒(約 11
分鐘)的超長對話上下文,而不損失穩定性。
端側部署友好:其架構非常輕量,1B 或 3B 版本可直接在手機或一般電腦(如
24GB RAM 環境)上流暢運行,無需依賴雲端。
簡單來說,TADA 解決了過去語音 AI 常見的「斷句奇怪、字對不起來、速度慢」等痛點
,是目前最頂尖的開源 TTS(文字轉語音)與語音理解框架之一。
--
Gemini降智有感 搞到第三次才對
※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 13:00:05
https://loger-project.github.io/
LoGeR:長文本幾何重建技術
這是一項專門解決 「超長影片 3D 重建」 難題的 AI 技術。
核心功能:它能將長達數分鐘、甚至數公里的影片路徑(最高支援 19,000 幀)轉化
為高精度的 3D 模型與相機軌跡。
技術突破:
混合記憶體架構:結合了「滑動視窗注意力(SWA)」來確保局部細節對齊,以
及「測試時訓練(TTT)」來維持長距離的全局一致性。
解決漂移問題:傳統技術在處理長影片時容易產生「尺度漂移」(Scale Drift
),導致地圖歪斜,LoGeR 則能維持公里級規模的幾何結構穩定。
高效處理:採用 Chunk-based(分塊)處理方式,避開了傳統模型在處理長序列
時計算量爆炸的問題。
應用場景:自動駕駛、無人機測繪、以及需要在大規模環境中進行 3D 場景數位化的
技術。
https://zihao-ai.github.io/brandfusion/
BrandFusion:文字轉影片的品牌整合框架
BrandFusion 的核心目的是讓 AI 在生成影片時,能精準且自然地嵌入特定品牌的視覺元
素,同時不損失影片的語義品質。
多智能體協作 (Multi-Agent System):它將複雜的整合任務拆解給五個由大型語言
模型(如 GPT-4/5)驅動的「專家級智能體」:
Brand Selector:挑選合適的品牌風格。
Strategy Generator:制定整合策略。
Prompt Refiner:改寫提示詞以優化視覺呈現。
Critic:進行品質審核。
Experience Learner:從過去的成功案例中學習。
雙階段架構:
離線階段:建立品牌知識庫與輕量化的 LoRA 插件。
在線階段:透過智能體協作,動態調整生成指令。
技術優勢:在確保品牌識別度(例如商標外觀、色彩方案、產品特質)的同時,大幅
提升了生成影片與原始文字描述的契合度,有效解決了傳統方法中「品牌嵌入後畫面變得
不自然」的痛點。
這項技術對廣告產業與社交媒體內容創作非常有價值,因為它能將品牌識別(Brand
Identity)與生成式影片技術更緊密且自動化地結合在一起。
※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 13:11:22
→ error405: 幹這星期gemini也太低能 03/15 13:11
→ error405: 應該要加那段提示詞的 03/15 13:13
推 zero790425: Anima不是動畫模型吧 03/15 20:06
※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 20:09:13
Anima:具備 LLM 理解能力的圖像生成模型
Anima 不是單純的影片動畫工具,而是一個全新架構的開源圖像生成模型(
Text-to-Image),其核心特色在於極強的指令遵循能力。
LLM 驅動的文本編碼器:與傳統模型(如 SDXL)不同,Anima 採用了強大的大型語
言模型(LLM)作為文本編碼器。這讓它能像聊天機器人一樣理解極度複雜、充滿細節的
提示詞(Prompt),並將其轉化為準確的視覺構圖。
優化的模型架構:
體積更小:模型大小約為 4GB 左右,比 SDXL 更輕量,對顯卡(VRAM)的要求
更低。
推理速度快:在生成速度上優於同等級的擴散模型,適合在消費級硬體(如你
的 24GB RAM 環境)上運行。
高品質視覺表現:專門針對現代藝術風格(如 Booru、DeviantArt 風格)進行了深
度訓練,在人物構造、光影處理與背景細節上表現卓越。
V2 版本的進步:V2 進一步優化了生成品質與模型的穩定性,解決了早期版本可能出
現的偽影問題,使其成為目前開源社群中,挑戰 SD3 或 Flux 的有力競爭者。
※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 20:16:15
→ error405: 本來就知道這拿來生動漫圖的 結果介紹錯誤給漏了 03/15 20:16
推 Kroner: 關節痛這種東西靠UC2就對了 03/15 20:16 推 AoWsL: 韓國人都在聊 ShotVerse 不知道有什麼特別 03/15 20:47
→ AoWsL: 不知道 可能有點類似Seedance2技術吧 話說Seedance2不開國 03/15 21:19
→ AoWsL: 際版了 03/15 21:19
推 Chricey: 求推薦UC2,樓下請提供三家 03/15 21:19 推 Bustycat: 還有Perplexity把Kimi K2.5、Grok 4.1拿掉換成規模 03/16 12:33
→ Bustycat: 更小的Nemotron 3 Super再次惹怒訂戶 03/16 12:33