看板 AI_Art
https://www.youtube.com/watch?v=6Il0CJx9yU8
這段影片詳細介紹了近期人工智慧領域的多項重大進展,涵蓋了影像修復、3D 生成、智 慧代理(Agents)以及大型語言模型等多個面向。以下是根據時間軸所做的詳細 摘要: 1. 影像與視覺技術 (Image & Visuals) 0:00 AI 新聞導覽: 影片開場,概述本次更新將涵蓋從影片生成到機器人技術的尖 端進展。 1:00 Real Restorer: 一款強大的影像修復工具,專注於「盲圖像修復」,能將模 糊、低解析度或受損的照片轉化為細節極致、極其真實的高畫質影像。 29:40 RealMaster: 另一款高階修復技術,強調達到「大師級」的影像細節重建, 特別適合專業影視後期製作。 36:53 LagerNVS: 專注於新型視角合成(Novel View Synthesis),能從有限的影 像中生成大規模場景的流暢視角切換。 38:30 Pulse of Motion: 針對人體動態生成的 AI,能讓生成的角色動作更加自然 且符合物理規律。 2. 3D、遊戲與世界模型 (3D & World Models) 2:45 Matrix Game 3.0: 一款生成式遊戲引擎的重大更新,讓開發者能透過簡單指 令構建具有深度互動性的複雜虛擬世界。 10:00 RetimeGS: 基於 Gaussian Splatting (GS) 技術,專門解決 3D 場景重建中 的時間軸重新調整問題,讓動態 3D 場景的快慢動作切換更自然。 19:00 Video to World: 一項具備野心的技術,旨在將 2D 影片轉換為可互動、具 物理屬性的 3D 模擬世界,這被視為邁向 AGI 的重要一步。 3. 虛擬人與創意工具 (Digital Humans & Creative Tools) 4:25 Davinci Magihuman: 頂尖的虛擬人生成工具,強項在於精準的服裝物理模擬 以及極其逼真的皮膚紋理。 20:58 LumosX: (將身份與屬性連結的個人化影片生成框架) 23:03 Cinema Studio: 專為 AI 製片設計的整合式工作站,簡化了從劇本到分鏡、 再到最終影像生成的流程。 4. AI 代理與自動化 (Agents & Workflows) 11:46 Tribe v2:(人類大腦模型) 15:21 ActionPlan: (即時串流動作合成) 17:21 WorldAgents: 能夠理解並在數位或物理世界中進行導航與操作的智慧代理。 40:00 MegaFlow: (視覺感知技術) 41:45 CUA Suite: 「通用用戶代理」套件,旨在讓 AI 能夠跨應用程式操作各類軟 體。 5. 效能優化與底層技術 (Technical & Efficiency) 13:34 Comfy dynamic vram: 針對 ComfyUI(Stable Diffusion 工作流)的技術優 化,允許更靈活的顯示記憶體(VRAM)管理,讓低配備電腦也能執行大型模型。 24:20 TurboQuant: 一種新型的量化技術,旨在不損失精度的前提下,大幅縮小模 型體積並提升推論速度。 6. 模型更新與市場動態 (Models & Market) 25:44 GLM 5.1: 智譜 AI 推出的最新模型更新,在邏輯推理與多語言處理上展現了 強大實力。 26:42 ARC AGI 3: 討論由 François Chollet 提出的 ARC-AGI 基準測試最新進展 ,探討 AI 距離真正具備人類水平的推理能力還有多遠。 31:30 RIP Sora: (正式停止sora服務 太燒錢 deepfake問題) 33:29 Cohere Transcribe: Cohere 推出的全新高精度語音轉文字服務,強調在商 用環境下的低延遲與準確性。 43:18 Gemini realtime voice: Google Gemini 最新推出的即時語音互動功能,展 現了極低延遲且具備情緒起伏的對話體驗,直接對標 GPT-4o。 7. 機器人與音效 (Robotics & Audio) 7:40 PrismAudio: 專注於高品質音訊生成的 AI 工具,能精確生成與影像內容高度 契合的音效或背景音樂。 35:27 AheadForm bionic robot: 介紹了最新的仿生機器人硬體,展示了在模仿人 類動作與表情方面的最新突破。 總結: 這段新聞摘要呈現了 AI 正在從「單純生成內容」轉向「模擬現實世界」與「自 主執行任務」的關鍵轉折點。 -- Gemini整理 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.57 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1774756926.A.096.html
error405: Davinci Magihuman測試贏LTX2.3 但目前檔案挺大要量化 03/29 12:12
https://aidemos.atmeta.com/tribev2/ 根據 Meta 提供的最新官方資訊,TRIBE v2 是由 Meta AI 研究團隊開發的一款尖端「人 類大腦基礎模型」,旨在模擬大腦對視覺、聽覺及語言刺激的反應。 以下是針對 TRIBE v2 的重新簡介: TRIBE v2:人類大腦的數位鏡像 TRIBE v2 是一項突破性的 AI 研究,它能將傳統神經科學中需要數月實驗室工作(如 fMRI 掃描)才能獲得的數據,轉化為僅需幾秒鐘的運算。這款模型充當了人類大腦活動 的「數位鏡像」,能夠精準預測大腦在面對影像、聲音和文字時的神經反應。 核心技術架構:三階段預測流程 三模態編碼 (Tri-modal Encoding): 利用預訓練的音訊、影片和文本嵌入技術,捕 捉 AI 模型與人類大腦共享的特徵。 通用整合 (Universal Integration): 透過 Transformer 模型學習跨感官刺激、跨 任務且跨個體的通用大腦表徵。 大腦映射 (Brain Mapping): 將這些通用表徵映射到個人的 fMRI 體素(Voxel)上 ,實現精確的腦區活動預測。 相較於第一代 (v1) 的重大升級 解析度大幅提升: v2 可預測全腦約 70,000 個體素 的活動,遠高於 v1 的 1,000 個皮層預測,構建出更細緻的大腦圖像。 強大的泛化能力 (Zero-shot Generalization): 訓練數據從 4 名志願者擴展到大 規模群體,模型無需針對特定對象重新訓練,即可預測新個體對全新刺激的反應。 超越真實掃描的純淨度: 由於真實 fMRI 容易受到心跳、移動等雜訊干擾,TRIBE v2 預測出的「典型反應」往往比單次真實掃描更能精準反映群體的平均神經活動。 未來應用價值 神經科學: 透過數位模擬實驗(In-silico)幫助科學家規劃實驗,深化對大腦機制 的理解。 人工智慧: 引導 AI 架構的開發,使其效能更接近人類大腦的運作效率。 醫療保健: 為腦部疾病的診斷與治療提供基礎模型支持。 總結來說,TRIBE v2 將大腦研究從繁瑣的物理實驗轉向高效的科學模擬,是邁向理解人 類認知規律的重要一步。 ※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:19:00
error405: dynamic vram跑wan2.2看起來不錯 03/29 12:21
https://coral79.github.io/ActionPlan/ 根據 ActionPlan 官方專案網頁的資訊,這是一項關於**動作生成(Motion Synthesis) **的突破性研究。以下是針對 ActionPlan 的詳細重新簡介: ActionPlan:具備未來意識的即時串流動作合成 ActionPlan 是一個統一的動作擴散框架(Motion Diffusion Framework),其核心目標 是打破「即時串流生成」與「高畫質離線生成」之間的界限。這項研究由圖賓根 AI 中心 (Tübingen AI Center)與馬克斯·普朗克資訊學研究所(Max Planck Institute for Informatics)的研究團隊於 2026 年發表。 核心理念:每幀動作規劃 (Per-Frame Action Planning) ActionPlan 的關鍵創新在於引入了「逐幀動作計畫」。模型會預測每一幀的文字潛變量 (Text Latents),這些變量在去噪(Denoising)過程中充當了密集的語義錨點( Semantic Anchors)。這使得模型在生成當前動作時,能夠結合語義線索與動作脈絡,產 生更精準且連貫的結果。 三大技術亮點 具備未來意識的串流模式 (Future-Aware Streaming): 不同於傳統方法在處理長序 列時容易迷失目標,ActionPlan 在即時生成過程中能「預見」未來的動作計畫。與目前 的最佳模型相比,其串流速度提升了 5.25 倍,且動作指標(FID)優化了 18%。 離線與串流的統一架構: 同一個模型既可以執行高品質的離線完整序列生成,也可 以在低延遲需求下進行即時串流。這使其能夠直接部署於實體硬體,例如影片中展示的 Unitree G1 仿生機器人。 強大的 Zero-shot 編輯能力: 無需重新訓練或微調,ActionPlan 即可實現: 動作編輯 (Motion Editing): 例如將一段「走路」的動作,精準替換成「側向 滑步」或「側翻」,同時保持其餘動作不變。 中間補全 (In-Betweening): 在給定起始和結束姿勢的情況下,根據文字指令 自動填補中間的複雜動作(如開合跳或上樓梯後轉身)。 效能比較與應用 在文字轉動作(Text-to-Motion)的測試中,ActionPlan 能處理極其複雜的組合指令( 例如:運球、換手、跳投),其生成的動作精準度與物理合理性顯著優於 MotionStreamer 與 MARDM 等先前技術。 總結來說,ActionPlan 是目前動作生成領域中最具實用價值的工具之一,它將複雜的人 體動作邏輯轉化為可即時執行的計畫,為機器人控制與影視動畫製作提供了全新的可能性 。 ※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:25:09 https://jiazheng-xing.github.io/lumosx-home/ 根據 Lumos 官方專案網頁的最新資訊,這是一項由浙江大學、阿里巴巴達摩院與新 加坡國立大學合作開發的個人化影片生成技術。以下是針對 Lumos 的重新簡介: Lumos:將身份與屬性連結的個人化影片生成框架 Lumos 是一個先進的 AI 框架,專注於解決個人化影片生成中一個長期存在的難點: 精確的「身份-屬性」對齊。當影片中出現多個角色或特定物體時,傳統模型往往難以確 保每個角色的外貌、服裝與其特定的動作或背景屬性保持一致,而 Lumos 透過創新 的數據處理與模型架構優化了這一過程。 核心創新技術 關係型注意力機制 (Relational Attention): 關係型自注意力 (Relational Self-Attention): 在模型內嵌入位置感知( Position-aware)訊息,強化視覺 Token 的表達能力。 關係型交叉注意力 (Relational Cross-Attention): 顯式地刻畫「主體與屬性 」之間的依賴關係,確保模型能準確區分並對應不同角色的特徵,增強群體內部的連貫性 。 自動化數據收集流水線 (Data Collection Pipeline): 利用多模態大語言模型(MLLM)從原始影片中自動提取、推理並分配主體與其對 應的屬性標籤。 這種「關係先驗」的提取方法,讓模型在訓練階段就具備了極強的表達控制能力 。 主要功能與優勢 多主體一致性 (Multi-Subject Consistency): 能在同一個影片中同時維持多個不 同角色(如兩個人物)的身份特徵,不會發生特徵混淆或崩壞。 語義對齊與微調控制: 使用者可以透過簡單的指令,精確控制特定人物的細節(例 如:讓特定的某個人穿上紅色外套,而另一人保持不變)。 卓越的生成品質: 在與 ConsisID、Phantom 等現有主流模型的對比測試中,Lumos 在身份一致性、語義對齊度與畫質表現上均達到了 SOTA(State-of-the-art)領先 水平。 應用場景 Lumos 基於 Wan2.1 基礎模型構建,非常適合用於個人化電影製作、廣告創意生成以 及虛擬角色內容創作。它讓創作者能夠以極高的精度,將特定的現實人物或虛擬身份融入 到複雜的動態場景中。 總結來說,Lumos 不僅是生成一段影片,它更像是一位能精準執行導演指令的「智能 攝影師」,確保鏡頭下的每一個角色都能準確呈現其應有的特質與身份。 ※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:37:33 https://kristen-z.github.io/projects/megaflow/ 根據 MegaFlow 官方專案網頁的最新資訊,這是一項由 蘇黎世聯邦理工學院(ETH Zurich)、微軟(Microsoft)及圖賓根 AI 中心的研究團隊開發的視覺感知技術。 以下是針對 MegaFlow 的詳細重新簡介: MegaFlow:零樣本(Zero-Shot)大位移光流估計與點追蹤 MegaFlow 是一款專為處理影片中「大位移(Large Displacement)」光流(Optical Flow)問題而設計的高性能模型。在電腦視覺中,當物體移動速度極快或鏡頭大幅度晃動 時,傳統模型往往難以追蹤像素的移動,而 MegaFlow 透過創新的架構設計,在這些極端 情境下展現了卓越的穩定性與精確度。 核心技術架構:全球一致性與循環優化 特徵提取 (Feature Extraction): 模型結合了凍結的 DINO 模型(用於提取密集 的 Patch Tokens)以及一個可訓練的 CNN(用於提取局部結構特徵)。 注意力機制 (Global Attention): 透過交替進行「幀內」與「全球」注意力處理, 模型能夠學習到在長序列中具備全球一致性的影像表徵。 全球匹配與循環細化 (Global Matching & Recurrent Refinement): 首先計算初始光流,捕捉大致的移動方向。 隨後使用循環模組(Recurrent Module),結合空間卷積與時間注意力,反覆迭 代修正,最終達到**次像素級(Sub-pixel)**的極高精度。 三大技術亮點 極致的大位移處理能力: 在 Sintel 等基準測試中,隨著位移距離增加,MegaFlow 的誤差(EPE)顯著低於其他現有模型,證明其在高速運動場景下的強大韌性。 零樣本點追蹤 (Zero-Shot Point Tracking): 無需針對特定任務修改架構, MegaFlow 即可直接應用於點追蹤(Point Tracking),在 TAP-Vid 測試中表現優異。 靈活的輸入長度: 模型設計允許處理變長的影片輸入,並能無縫擴展到不同長度的 序列。 應用價值 影片剪輯與特效: 為複雜的影片合成、慢動作補幀提供精確的像素移動數據。 自動駕駛與機器人: 在高速移動環境下提供穩定的視覺里程計與障礙物追蹤。 科學研究: 用於分析流體力學或生物運動等需要極高位移精度捕捉的領域。 總結來說,MegaFlow 重新定義了光流估計的邊界,特別是在傳統方法最容易失效的「快 動作」與「大場景跳轉」中,它提供了目前業界最領先的解決方案。
ZMTL: 我午餐也看到AheadForm 我來發一篇 03/29 12:38
error405: https://www.koc.com.tw/archives/636664 TurboQuant 03/29 12:40
※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:49:04 ※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:57:51
error405: Gemini本周也瞎掰好幾個 也許是影片太長了 03/29 13:04
Chricey: 我有在用UC2,感覺效果還不錯欸! 03/29 13:04
ZMTL: 機器老婆我發在下面 03/29 13:10
Bustycat: 大部分討論TurboQuant的都在瞎扯 03/30 10:22