[閒聊] 機器老婆 AI腦掃描 估狗語音..本週AI新聞

作者error405 (流河=L)

看板AI_Art

標題[閒聊] 機器老婆 AI腦掃描估狗語音..本週AI新聞

時間Sun Mar 29 12:02:04 2026

https://www.youtube.com/watch?v=6Il0CJx9yU8

這段影片詳細介紹了近期人工智慧領域的多項重大進展，涵蓋了影像修復、3D 生成、智慧代理（Agents）以及大型語言模型等多個面向。以下是根據時間軸所做的詳細摘要： 1. 影像與視覺技術 (Image & Visuals) 0:00 AI 新聞導覽：影片開場，概述本次更新將涵蓋從影片生成到機器人技術的尖端進展。 1:00 Real Restorer：一款強大的影像修復工具，專注於「盲圖像修復」，能將模糊、低解析度或受損的照片轉化為細節極致、極其真實的高畫質影像。 29:40 RealMaster：另一款高階修復技術，強調達到「大師級」的影像細節重建，特別適合專業影視後期製作。 36:53 LagerNVS：專注於新型視角合成（Novel View Synthesis），能從有限的影像中生成大規模場景的流暢視角切換。 38:30 Pulse of Motion：針對人體動態生成的 AI，能讓生成的角色動作更加自然且符合物理規律。 2. 3D、遊戲與世界模型 (3D & World Models) 2:45 Matrix Game 3.0：一款生成式遊戲引擎的重大更新，讓開發者能透過簡單指令構建具有深度互動性的複雜虛擬世界。 10:00 RetimeGS：基於 Gaussian Splatting (GS) 技術，專門解決 3D 場景重建中的時間軸重新調整問題，讓動態 3D 場景的快慢動作切換更自然。 19:00 Video to World：一項具備野心的技術，旨在將 2D 影片轉換為可互動、具物理屬性的 3D 模擬世界，這被視為邁向 AGI 的重要一步。 3. 虛擬人與創意工具 (Digital Humans & Creative Tools) 4:25 Davinci Magihuman：頂尖的虛擬人生成工具，強項在於精準的服裝物理模擬以及極其逼真的皮膚紋理。 20:58 LumosX： (將身份與屬性連結的個人化影片生成框架) 23:03 Cinema Studio：專為 AI 製片設計的整合式工作站，簡化了從劇本到分鏡、再到最終影像生成的流程。 4. AI 代理與自動化 (Agents & Workflows) 11:46 Tribe v2：(人類大腦模型) 15:21 ActionPlan： (即時串流動作合成) 17:21 WorldAgents：能夠理解並在數位或物理世界中進行導航與操作的智慧代理。 40:00 MegaFlow： (視覺感知技術) 41:45 CUA Suite：「通用用戶代理」套件，旨在讓 AI 能夠跨應用程式操作各類軟體。 5. 效能優化與底層技術 (Technical & Efficiency) 13:34 Comfy dynamic vram：針對 ComfyUI（Stable Diffusion 工作流）的技術優化，允許更靈活的顯示記憶體（VRAM）管理，讓低配備電腦也能執行大型模型。 24:20 TurboQuant：一種新型的量化技術，旨在不損失精度的前提下，大幅縮小模型體積並提升推論速度。 6. 模型更新與市場動態 (Models & Market) 25:44 GLM 5.1：智譜 AI 推出的最新模型更新，在邏輯推理與多語言處理上展現了強大實力。 26:42 ARC AGI 3：討論由 François Chollet 提出的 ARC-AGI 基準測試最新進展，探討 AI 距離真正具備人類水平的推理能力還有多遠。 31:30 RIP Sora： (正式停止sora服務太燒錢 deepfake問題) 33:29 Cohere Transcribe： Cohere 推出的全新高精度語音轉文字服務，強調在商用環境下的低延遲與準確性。 43:18 Gemini realtime voice： Google Gemini 最新推出的即時語音互動功能，展現了極低延遲且具備情緒起伏的對話體驗，直接對標 GPT-4o。 7. 機器人與音效 (Robotics & Audio) 7:40 PrismAudio：專注於高品質音訊生成的 AI 工具，能精確生成與影像內容高度契合的音效或背景音樂。 35:27 AheadForm bionic robot：介紹了最新的仿生機器人硬體，展示了在模仿人類動作與表情方面的最新突破。總結：這段新聞摘要呈現了 AI 正在從「單純生成內容」轉向「模擬現實世界」與「自主執行任務」的關鍵轉折點。 -- Gemini整理 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 114.36.200.57 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/AI_Art/M.1774756926.A.096.html

→ error405: Davinci Magihuman測試贏LTX2.3 但目前檔案挺大要量化 03/29 12:12

https://aidemos.atmeta.com/tribev2/ 根據 Meta 提供的最新官方資訊，TRIBE v2 是由 Meta AI 研究團隊開發的一款尖端「人類大腦基礎模型」，旨在模擬大腦對視覺、聽覺及語言刺激的反應。以下是針對 TRIBE v2 的重新簡介： TRIBE v2：人類大腦的數位鏡像 TRIBE v2 是一項突破性的 AI 研究，它能將傳統神經科學中需要數月實驗室工作（如 fMRI 掃描）才能獲得的數據，轉化為僅需幾秒鐘的運算。這款模型充當了人類大腦活動的「數位鏡像」，能夠精準預測大腦在面對影像、聲音和文字時的神經反應。核心技術架構：三階段預測流程三模態編碼 (Tri-modal Encoding)：利用預訓練的音訊、影片和文本嵌入技術，捕捉 AI 模型與人類大腦共享的特徵。通用整合 (Universal Integration)：透過 Transformer 模型學習跨感官刺激、跨任務且跨個體的通用大腦表徵。大腦映射 (Brain Mapping)：將這些通用表徵映射到個人的 fMRI 體素（Voxel）上，實現精確的腦區活動預測。相較於第一代 (v1) 的重大升級解析度大幅提升： v2 可預測全腦約 70,000 個體素的活動，遠高於 v1 的 1,000 個皮層預測，構建出更細緻的大腦圖像。強大的泛化能力 (Zero-shot Generalization)：訓練數據從 4 名志願者擴展到大規模群體，模型無需針對特定對象重新訓練，即可預測新個體對全新刺激的反應。超越真實掃描的純淨度：由於真實 fMRI 容易受到心跳、移動等雜訊干擾，TRIBE v2 預測出的「典型反應」往往比單次真實掃描更能精準反映群體的平均神經活動。未來應用價值神經科學：透過數位模擬實驗（In-silico）幫助科學家規劃實驗，深化對大腦機制的理解。人工智慧：引導 AI 架構的開發，使其效能更接近人類大腦的運作效率。醫療保健：為腦部疾病的診斷與治療提供基礎模型支持。總結來說，TRIBE v2 將大腦研究從繁瑣的物理實驗轉向高效的科學模擬，是邁向理解人類認知規律的重要一步。 ※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:19:00

→ error405: dynamic vram跑wan2.2看起來不錯 03/29 12:21

https://coral79.github.io/ActionPlan/ 根據 ActionPlan 官方專案網頁的資訊，這是一項關於**動作生成（Motion Synthesis） **的突破性研究。以下是針對 ActionPlan 的詳細重新簡介： ActionPlan：具備未來意識的即時串流動作合成 ActionPlan 是一個統一的動作擴散框架（Motion Diffusion Framework），其核心目標是打破「即時串流生成」與「高畫質離線生成」之間的界限。這項研究由圖賓根 AI 中心（Tübingen AI Center）與馬克斯·普朗克資訊學研究所（Max Planck Institute for Informatics）的研究團隊於 2026 年發表。核心理念：每幀動作規劃 (Per-Frame Action Planning) ActionPlan 的關鍵創新在於引入了「逐幀動作計畫」。模型會預測每一幀的文字潛變量（Text Latents），這些變量在去噪（Denoising）過程中充當了密集的語義錨點（ Semantic Anchors）。這使得模型在生成當前動作時，能夠結合語義線索與動作脈絡，產生更精準且連貫的結果。三大技術亮點具備未來意識的串流模式 (Future-Aware Streaming)：不同於傳統方法在處理長序列時容易迷失目標，ActionPlan 在即時生成過程中能「預見」未來的動作計畫。與目前的最佳模型相比，其串流速度提升了 5.25 倍，且動作指標（FID）優化了 18%。離線與串流的統一架構：同一個模型既可以執行高品質的離線完整序列生成，也可以在低延遲需求下進行即時串流。這使其能夠直接部署於實體硬體，例如影片中展示的 Unitree G1 仿生機器人。強大的 Zero-shot 編輯能力：無需重新訓練或微調，ActionPlan 即可實現：動作編輯 (Motion Editing)：例如將一段「走路」的動作，精準替換成「側向滑步」或「側翻」，同時保持其餘動作不變。中間補全 (In-Betweening)：在給定起始和結束姿勢的情況下，根據文字指令自動填補中間的複雜動作（如開合跳或上樓梯後轉身）。效能比較與應用在文字轉動作（Text-to-Motion）的測試中，ActionPlan 能處理極其複雜的組合指令（例如：運球、換手、跳投），其生成的動作精準度與物理合理性顯著優於 MotionStreamer 與 MARDM 等先前技術。總結來說，ActionPlan 是目前動作生成領域中最具實用價值的工具之一，它將複雜的人體動作邏輯轉化為可即時執行的計畫，為機器人控制與影視動畫製作提供了全新的可能性。 ※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:25:09 https://jiazheng-xing.github.io/lumosx-home/ 根據 Lumos 官方專案網頁的最新資訊，這是一項由浙江大學、阿里巴巴達摩院與新加坡國立大學合作開發的個人化影片生成技術。以下是針對 Lumos 的重新簡介： Lumos：將身份與屬性連結的個人化影片生成框架 Lumos 是一個先進的 AI 框架，專注於解決個人化影片生成中一個長期存在的難點：精確的「身份-屬性」對齊。當影片中出現多個角色或特定物體時，傳統模型往往難以確保每個角色的外貌、服裝與其特定的動作或背景屬性保持一致，而 Lumos 透過創新的數據處理與模型架構優化了這一過程。核心創新技術關係型注意力機制 (Relational Attention)：關係型自注意力 (Relational Self-Attention)：在模型內嵌入位置感知（ Position-aware）訊息，強化視覺 Token 的表達能力。關係型交叉注意力 (Relational Cross-Attention)：顯式地刻畫「主體與屬性」之間的依賴關係，確保模型能準確區分並對應不同角色的特徵，增強群體內部的連貫性。自動化數據收集流水線 (Data Collection Pipeline)：利用多模態大語言模型（MLLM）從原始影片中自動提取、推理並分配主體與其對應的屬性標籤。這種「關係先驗」的提取方法，讓模型在訓練階段就具備了極強的表達控制能力。主要功能與優勢多主體一致性 (Multi-Subject Consistency)：能在同一個影片中同時維持多個不同角色（如兩個人物）的身份特徵，不會發生特徵混淆或崩壞。語義對齊與微調控制：使用者可以透過簡單的指令，精確控制特定人物的細節（例如：讓特定的某個人穿上紅色外套，而另一人保持不變）。卓越的生成品質：在與 ConsisID、Phantom 等現有主流模型的對比測試中，Lumos 在身份一致性、語義對齊度與畫質表現上均達到了 SOTA（State-of-the-art）領先水平。應用場景 Lumos 基於 Wan2.1 基礎模型構建，非常適合用於個人化電影製作、廣告創意生成以及虛擬角色內容創作。它讓創作者能夠以極高的精度，將特定的現實人物或虛擬身份融入到複雜的動態場景中。總結來說，Lumos 不僅是生成一段影片，它更像是一位能精準執行導演指令的「智能攝影師」，確保鏡頭下的每一個角色都能準確呈現其應有的特質與身份。 ※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:37:33 https://kristen-z.github.io/projects/megaflow/ 根據 MegaFlow 官方專案網頁的最新資訊，這是一項由蘇黎世聯邦理工學院（ETH Zurich）、微軟（Microsoft）及圖賓根 AI 中心的研究團隊開發的視覺感知技術。以下是針對 MegaFlow 的詳細重新簡介： MegaFlow：零樣本（Zero-Shot）大位移光流估計與點追蹤 MegaFlow 是一款專為處理影片中「大位移（Large Displacement）」光流（Optical Flow）問題而設計的高性能模型。在電腦視覺中，當物體移動速度極快或鏡頭大幅度晃動時，傳統模型往往難以追蹤像素的移動，而 MegaFlow 透過創新的架構設計，在這些極端情境下展現了卓越的穩定性與精確度。核心技術架構：全球一致性與循環優化特徵提取 (Feature Extraction)：模型結合了凍結的 DINO 模型（用於提取密集的 Patch Tokens）以及一個可訓練的 CNN（用於提取局部結構特徵）。注意力機制 (Global Attention)：透過交替進行「幀內」與「全球」注意力處理，模型能夠學習到在長序列中具備全球一致性的影像表徵。全球匹配與循環細化 (Global Matching & Recurrent Refinement)：首先計算初始光流，捕捉大致的移動方向。隨後使用循環模組（Recurrent Module），結合空間卷積與時間注意力，反覆迭代修正，最終達到**次像素級（Sub-pixel）**的極高精度。三大技術亮點極致的大位移處理能力：在 Sintel 等基準測試中，隨著位移距離增加，MegaFlow 的誤差（EPE）顯著低於其他現有模型，證明其在高速運動場景下的強大韌性。零樣本點追蹤 (Zero-Shot Point Tracking)：無需針對特定任務修改架構， MegaFlow 即可直接應用於點追蹤（Point Tracking），在 TAP-Vid 測試中表現優異。靈活的輸入長度：模型設計允許處理變長的影片輸入，並能無縫擴展到不同長度的序列。應用價值影片剪輯與特效：為複雜的影片合成、慢動作補幀提供精確的像素移動數據。自動駕駛與機器人：在高速移動環境下提供穩定的視覺里程計與障礙物追蹤。科學研究：用於分析流體力學或生物運動等需要極高位移精度捕捉的領域。總結來說，MegaFlow 重新定義了光流估計的邊界，特別是在傳統方法最容易失效的「快動作」與「大場景跳轉」中，它提供了目前業界最領先的解決方案。

推 ZMTL: 我午餐也看到AheadForm 我來發一篇 03/29 12:38

→ error405: https://www.koc.com.tw/archives/636664 TurboQuant 03/29 12:40

※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:49:04 ※ 編輯: error405 (114.36.200.57 臺灣), 03/29/2026 12:57:51

→ error405: Gemini本周也瞎掰好幾個也許是影片太長了 03/29 13:04

推 Chricey: 關節痛這種東西，比鬼還可怕！ 03/29 13:04

推 ZMTL: 機器老婆我發在下面 03/29 13:10

推 Bustycat: 大部分討論TurboQuant的都在瞎扯 03/30 10:22

→ Bustycat: 最近TurboQuant的學術爭議吵很兇，PTT沒什麼討論 03/31 10:57

→ error405: 記憶體股價的討論倒是很多 03/31 11:26

推 Kroner: 關節痛睡覺就能治了，吃什麼UC2 03/31 11:26