看板 AI_Art
https://www.youtube.com/watch?v=qWzo3ws0uWU
這段影片彙整了近期 AI 領域的多項重大進展,涵蓋了影片生成、3D 建模、機器人技術 及大型語言模型等多個面向。以下是根據影片資訊欄整理的內容簡介: 1. 影像與影片生成技術 (Video & Animation) MatAnyone 2: 影片去背(Matting)技術的進階版,能更精準地將影片中的主體與背 景分離。 WildActor: 專注於在各種複雜環境中生成自然的人物動作與演員表現。 Anima V2: (動漫風格圖像模型) Higgsfield Cinema Studio: 專為專業影視創作設計的 AI 影片工具,提供更強的鏡 頭控制力。 ShotVerse: 影片創作與鏡頭設計的輔助工具。 EffectMaker: 用於快速生成各類視覺特效。 2. 3D 建模與空間智能 (3D & SpatialAI) RL3Dedit: 利用強化學習(Reinforcement Learning)來進行 3D 模型編輯。 Inspatial WorldFM: 空間智能的「世界模型」,旨在讓 AI 更理解現實物理空間。 Holi Spatial: 專注於空間計算與互動。 MobileGS: 優化了 3D 高斯潑濺(Gaussian Splatting)技術,使其能在行動裝置上 流暢運行。 TADA: (開源語音生成) 3. 大型語言模型與基礎設施 (LLMs & Infrastructure) Gemini Embedding 2: Google 推出的新一代向量嵌入模型,提升了資訊檢索與語義 理解能力。 Nemotron 3 Super: NVIDIA 推出的高效能語言模型系列更新。 Flux 2 Klein KV: 針對熱門的 Flux 圖像模型進行的優化或變體,可能涉及推理效 率的提升。 DiagDistill: 一種用於提升模型對圖表、圖形理解能力的知識蒸餾技術。 4. 機器人與硬體 (Robotics) DeepRobotics horse: 宇樹科技(DeepRobotics)研發的四足機器人(機械馬),展 現卓越的平衡與地形適應力。 Reflex Robotics: 展示了其在自動化操作、物體抓取方面的最新進展。 5. 開發工具與實用應用 (Tools & Apps) ComfyUI App Mode: 知名 AI 繪圖工具 ComfyUI 推出的新界面模式,讓工作流轉化 為更易用的應用程式介面。 Ask Maps: 將 AI 整合進地圖導航,提供更智慧的地理資訊查詢。 FishAudio S2: 新一代語音合成(TTS)模型,音質更自然。 Loger :(3D幾何重建技術) BrandFusion: :(置入性行銷影片工具) 6. 其他 AMI labs: 分享了相關研究室的最新動態。 Nvidia giveaway: 影片最後提到了 NVIDIA 的抽獎活動。 這部影片反映了 AI 正在從單純的「文字/圖像生成」快速演進到對「物理世界(3D/空間 /動作)」的深度理解與模擬。 -- Gemini整理 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.194.42 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1773547353.A.FB5.html Anima preview 2 https://www.reddit.com/r/StableDiffusion/comments/1rqy92r/ ※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 12:18:52 https://www.hume.ai/blog/opensource-tada TADA (Text-Acoustic Dual Alignment) 這是一個**「文本-音訊雙向對齊」**的開源語音語言模型,核心理念是將文字和語音同 步成單一資訊流。 1:1 Token 對齊:傳統語音 AI 的文字與音訊長度不一(非同步),容易導致漏字或 胡言亂語。TADA 讓每個文字 Token 直接對應一個連續的音訊向量,實現「同步生成」。 徹底解決「幻覺」問題:由於文字與語音是 1:1 鎖定的,模型生成時無法跳過單字或隨 意發揮,在測試中達到了 0 幻覺(Zero Hallucinations)。 極速生成(5倍速):比同等級的 LLM 語音系統快 5 倍,且能支撐長達 700 秒(約 11 分鐘)的超長對話上下文,而不損失穩定性。 端側部署友好:其架構非常輕量,1B 或 3B 版本可直接在手機或一般電腦(如 24GB RAM 環境)上流暢運行,無需依賴雲端。 簡單來說,TADA 解決了過去語音 AI 常見的「斷句奇怪、字對不起來、速度慢」等痛點 ,是目前最頂尖的開源 TTS(文字轉語音)與語音理解框架之一。 -- Gemini降智有感 搞到第三次才對 ※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 13:00:05 https://loger-project.github.io/ LoGeR:長文本幾何重建技術 這是一項專門解決 「超長影片 3D 重建」 難題的 AI 技術。 核心功能:它能將長達數分鐘、甚至數公里的影片路徑(最高支援 19,000 幀)轉化 為高精度的 3D 模型與相機軌跡。 技術突破: 混合記憶體架構:結合了「滑動視窗注意力(SWA)」來確保局部細節對齊,以 及「測試時訓練(TTT)」來維持長距離的全局一致性。 解決漂移問題:傳統技術在處理長影片時容易產生「尺度漂移」(Scale Drift ),導致地圖歪斜,LoGeR 則能維持公里級規模的幾何結構穩定。 高效處理:採用 Chunk-based(分塊)處理方式,避開了傳統模型在處理長序列 時計算量爆炸的問題。 應用場景:自動駕駛、無人機測繪、以及需要在大規模環境中進行 3D 場景數位化的 技術。 https://zihao-ai.github.io/brandfusion/ BrandFusion:文字轉影片的品牌整合框架 BrandFusion 的核心目的是讓 AI 在生成影片時,能精準且自然地嵌入特定品牌的視覺元 素,同時不損失影片的語義品質。 多智能體協作 (Multi-Agent System):它將複雜的整合任務拆解給五個由大型語言 模型(如 GPT-4/5)驅動的「專家級智能體」: Brand Selector:挑選合適的品牌風格。 Strategy Generator:制定整合策略。 Prompt Refiner:改寫提示詞以優化視覺呈現。 Critic:進行品質審核。 Experience Learner:從過去的成功案例中學習。 雙階段架構: 離線階段:建立品牌知識庫與輕量化的 LoRA 插件。 在線階段:透過智能體協作,動態調整生成指令。 技術優勢:在確保品牌識別度(例如商標外觀、色彩方案、產品特質)的同時,大幅 提升了生成影片與原始文字描述的契合度,有效解決了傳統方法中「品牌嵌入後畫面變得 不自然」的痛點。 這項技術對廣告產業與社交媒體內容創作非常有價值,因為它能將品牌識別(Brand Identity)與生成式影片技術更緊密且自動化地結合在一起。 ※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 13:11:22
error405: 幹這星期gemini也太低能 03/15 13:11
error405: 應該要加那段提示詞的 03/15 13:13
AoWsL: https://i.urusai.cc/zkcoJ.jpg 03/15 14:02
zero790425: Anima不是動畫模型吧 03/15 20:06
※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 20:09:13 Anima:具備 LLM 理解能力的圖像生成模型 Anima 不是單純的影片動畫工具,而是一個全新架構的開源圖像生成模型( Text-to-Image),其核心特色在於極強的指令遵循能力。 LLM 驅動的文本編碼器:與傳統模型(如 SDXL)不同,Anima 採用了強大的大型語 言模型(LLM)作為文本編碼器。這讓它能像聊天機器人一樣理解極度複雜、充滿細節的 提示詞(Prompt),並將其轉化為準確的視覺構圖。 優化的模型架構: 體積更小:模型大小約為 4GB 左右,比 SDXL 更輕量,對顯卡(VRAM)的要求 更低。 推理速度快:在生成速度上優於同等級的擴散模型,適合在消費級硬體(如你 的 24GB RAM 環境)上運行。 高品質視覺表現:專門針對現代藝術風格(如 Booru、DeviantArt 風格)進行了深 度訓練,在人物構造、光影處理與背景細節上表現卓越。 V2 版本的進步:V2 進一步優化了生成品質與模型的穩定性,解決了早期版本可能出 現的偽影問題,使其成為目前開源社群中,挑戰 SD3 或 Flux 的有力競爭者。 ※ 編輯: error405 (114.36.194.42 臺灣), 03/15/2026 20:16:15
error405: 本來就知道這拿來生動漫圖的 結果介紹錯誤給漏了 03/15 20:16
Kroner: 關節痛這種東西靠UC2就對了 03/15 20:16
AoWsL: 韓國人都在聊 ShotVerse 不知道有什麼特別 03/15 20:47
error405: https://shotverse.github.io/ 可以把鏡頭修好看? 03/15 21:10
AoWsL: 不知道 可能有點類似Seedance2技術吧 話說Seedance2不開國 03/15 21:19
AoWsL: 際版了 03/15 21:19
Chricey: 求推薦UC2,樓下請提供三家 03/15 21:19
Bustycat: 還有Perplexity把Kimi K2.5、Grok 4.1拿掉換成規模 03/16 12:33
Bustycat: 更小的Nemotron 3 Super再次惹怒訂戶 03/16 12:33