核心提示
距離OpenAI發布Sora過去一年多,視頻AI視頻賽道上演了一出「王座交替」的工具爽文故事。在Sora發布後,視頻AI視頻賽道玩家以對標它為目標,工具流傳在社交媒體上的視頻一張梗圖是這樣描繪的:坐在
距離OpenAI發布Sora過去一年多,視頻AI視頻賽道上演了一出「王座交替」的工具爽文故事。在Sora發布後,視頻AI視頻賽道玩家以對標它為目標,工具流傳在社交媒體上的視頻一張梗圖是這樣描繪的:坐在王座上的Sora看著眼前膜拜者——Runway、Pika、工具PixVerse等十餘個競對。視頻圖源:網絡但現在隨著可靈、工具即夢等中國玩家成為牌桌上的視頻新玩家,總被吐槽「期貨」的工具Sora光芒逐漸變得黯淡,一位AI視頻從業者告訴「矽基研究室」,視頻對標Sora早已不是工具他們的目標,現在他們把關注點放在加快縮短AI視頻生產和消費間的視頻GAP。在不少AI論壇的工具現場,AI視頻玩家們談Sora的視頻少了,談DeepSeek的多了,這背後是對AI視頻加速商業化和普及的一種期待。似乎也是某種默契,進入2025年,不到半年時間裏,AI視頻玩家紛紛發布最新的視頻生成模型和產品更新,AI視頻的戰火也越燒越旺。從著力解決視頻生成的一致性和可控性再到降低產品門檻,增強可編輯能力,融入工作流,讓產品更好用,行業玩家也以一個月,甚至是半月一迭代加速AI視頻落地,但新的問題也逐漸擺在台前。有多位中腰部AIGC創業者向「矽基研究室」表達了自己的焦慮,從商用角度看,當前AI視頻落地還存在諸多困難,商單報價在走低,抽卡不穩定下,製作成本還是偏貴。除此以外,就現有產品功能看,「矽基研究室」梳理發現,多數AI視頻產品功能正趨於同質化——除了創意特效外,大多數AI視頻產品都支持主體參考、音效生成、多模態編輯等,隨著功能的豐富、選擇的增多,也將賽道玩家間視頻生成的質量、成本和交互形式等能力的競爭擺在了眼前。展開全文這也意味著,即便不提Sora,國產AI視頻玩家的壓力也並沒有減輕。一、不提Sora的AI視頻玩家,在卷什麽?比起此前對生成時長、模型參數的強調,大半年來,不提Sora的AI視頻玩家將這場「軍備競賽」的重點放在了三個維度上——卷一致性、卷可用性、卷可玩性。所謂的「一致性」指的是視頻生成過程中幀與幀之間的過渡性、動作的連續性和場景的真實性等。由於視頻畫麵往往包含了人物角色、道具、環境等不同元素,如何在生成過程中實現這些元素的交互,在連貫視頻內保持一致性,這也是AI視頻玩家長期一直在解決的問題。而在卷「一致性」上,AI視頻玩家的動作也整齊劃一。一方麵是提升圖生視頻能力,比如增加首尾幀、筆刷工具和多圖參考等,讓用戶自定義視頻的開頭和結尾的同時,筆刷支持運動方向控製,模型可以根據用戶上傳的參考圖像提取人物、場景或風格特征,從而保證生成內容中的一致性。在輸入端加強控製力,不止是卷首幀。包括Runway在內的AI視頻玩家還在輸入端就打出多模態融合,比如視頻轉視頻、多圖混合生成等。去年10月,Runway就推出了Act-One功能,用戶可以直接錄製一段視頻,將素材中對象的麵部表情直接轉移到AI生成的角色上。Runway在去年10月推出Act-One功能圖源:官方「一致性」本質上是為了視頻生成的質量,這又與底層模型性能和訓練數據的質量相關,目前走在前列的AI視頻玩家雖並未高調大打「基模牌」,但強大底座模型的穩定迭代是頭部玩家的標配。快手自去年6月推出可靈大模型後,目前可靈大模型已迭代至2.0版本,字節低調上線Seaweed和PixelDance,Runway在今年4月推出Gen-4,同月生數科技也發布Vidu的Q1模型,頭部AI視頻玩家至少保持半年一次基座模型更新的節奏。而所謂的卷「可用性」則是完善創作者工作流相關配套工具。AIGC從業者可可告訴「矽基研究室」,據她觀察,在「可用性」上,創作者主要關注三個核心問題:一是動態編輯能力,可以圍繞視頻一次性生成的結果進行再調整;二是鏡頭運動能力,包括大幅度運動、特色運動視角等等,這體現畫麵表現力;三是端到端能力,包括從分鏡、視頻生成、音效、剪輯到分發的一站式能力。針對動態編輯,目前可靈等玩家支持多模態編輯,給視頻替換、添加或刪減元素,比如Pika推出的Pikawaps;而在端到端能力上,標配的「音效生成」,即夢的「故事創作」模式可批量生成分鏡,Runway也上線了視頻編輯器。除了一致性、可用性外,通過創意特效和模版卷「可玩性」則是不少玩家引流的關鍵手段。吃到這波紅利的典型代表也有不少,比如靠著Pikaffects、Pikadditions走紅互聯網的Pika,靠著毒液效果走紅的PixVerse,還有承接GPT-4o吉卜力風流量外溢的Vidu......Pika近期推出的發型AI特效圖源:Pika官方「矽基研究室」梳理發現,多數AI視頻產品功能正趨於同質化,所謂的「特色功能」會很快被相互借鑒。除了創意特效外,大多數AI視頻產品都支持主體參考、音效生成、多模態編輯等,有業內人士表示,這是正常現象。“現在AI視頻的交互形式和產品形態各家都還在探索,互相抄作業和‘致敬’很正常。”二、AI視頻難打「價格牌」更多的工具、更豐富的功能,廠商打著「人人都是導演時代」的口號,但有AI視頻創作者卻覺得越來越焦慮了。2024年抱著對AI視頻的好奇,可可開始嚐試AI視頻創作,就是「焦慮大軍」中的一員,從2024年下半年開始,她明顯感覺到AI視頻玩家加速迭代模型和產品,甚至是以周為單位。但快速迭代下,像可可這樣的腰部創作者正在經曆陣痛——降不下去的製作成本,被逐漸壓低的報價。「矽基研究室」了解到,AI視頻多為定製化項目,一般按照視頻時長或鏡頭數報價,一般三分多鍾的AI短片製作周期在1-2周,但可可提到,隨著客戶對AI視頻降本需求的增加,預算也在降低。與之對應的則是AI視頻工具堅挺的價格。以可靈2.0為例,目前2.0生成一條5秒鍾的視頻需要100靈感值,黃金會員月費58元可獲得660靈感值,能抽卡6次,一次生成約為10元。可可提到,如果對畫質要求低,單個鏡頭(一般1-5s)需要抽卡5次左右,這意味生成一個鏡頭就需要50元,如果涉及更複雜的場景和效果抽卡次數可能高達數十次,她曾經單個鏡頭抽卡次數達40次,以此計算,單個鏡頭就需要400元,一個三分鍾的AI短片在不算人力成本下保守估計就要數萬元,和她此前的製作成本相比,是不劃算的。較高的成本,這也是為什麽有一批AIGC創作者並未使用新版本,而是繼續使用可靈1.6的原因所在。有業內人士也提到,此次可靈2.0主要針對是影視商用領域,並非是如可可此類的小B用戶。據可靈此前發布的《AI影像創作者手冊》,中信證券測算其單部短劇成本測算約為8100元,即便可靈2.0很貴,但與真人短劇製作成本相比,依舊能看得見降本的空間,但降本幅度在縮減。梳理主要AI視頻玩家的商業化方案,「矽基研究室」認為,比起此前各大主流模型廠商掀起的「價格戰」,推動行業邁入「按厘計價」時代,視頻大模型的價格下降趨勢並不明顯。C端目前采取的階梯付費訂閱模式,國內對比國外玩家價格優勢明顯,比如大打價格優勢的Vidu甚至效仿DeepSeek上線了「錯峰模式」。但在最先進模型上,頭部廠商的定價並未鬆動,譬如可靈2.0生成一個5s視頻約為10元,而RunwayGen4則為8.6元。反倒是在B端API上,國內廠商的價格優勢明顯高於國外廠商。一位行業人士預測,短期內視頻大模型的定價不會出現激烈的變化。一方麵,從現有產品層看,盡管目前開源視頻生成模型中也不乏如阿裏通義萬相Wan2.1等玩家,但取得身位領先的依舊是閉源大模型。阿裏萬相團隊在技術報告中也提到,目前視頻生成賽道,盡管開源模型與閉源商業模型間的差距在不斷縮小,但目前還存在性能不佳、能力有限、效率不足等問題,Sand.ai創始人曹越也提到,在視頻生成領域,技術路徑還尚未收斂。另一方麵,降價本質上也是一種定價營銷策略,目的也是讓更多人將AI視頻用起來,但前提是產品形態和交互已經ready,但現階段各大廠商還在探索產品形態,不斷完善AI視頻生產環節,如前文所說,去跨越生產和消費那道鴻溝。三、「保證自己在牌桌上」和那些熱門的垂直領域一樣,AI視頻早已成為巨頭和創業公司下一個押注的沃土,擠滿了躍躍欲試的玩家。據「矽基研究室」不完全統計,2025年開年,就有十餘家AI視頻領域初創企業斬獲融資,既包括了像Runway這樣的明星獨角獸,也不乏Sand.ai等新玩家。從所屬領域來看,既有「模型+產品」兩步走的通用型選手,也有聚焦在企業級市場、視頻編輯領域的垂直型選手。和曾經熱鬧的「百模大戰」類似,AI視頻領域當前呈現出巨頭和初創公司共同競逐的局麵,但也有初創企業提前給出預判,比如RunwayCEO就曾預言:「我認為AI公司的時代已經結束了。」但從現實來看,AI視頻的競逐還遠未到終局,初創公司需要做的是「保證自己在牌桌上」。牌桌上的分化也已經開始顯現。一類大廠和初創企業選擇的是「模型+產品」兩步走,這之中又可以分為兩條路線——「AGI派」和「平台派」。海外如穀歌DeepMind和OpenAI是典型的前者。可可提到,在視頻生成模型上,DeepMind的Veo係列強於可控性,視頻生成質量也更高,他們的方向更偏向於構建通往AGI的世界模型,阿裏通義則以開源加速構建視頻模型的新生態。而所謂的「平台派」則是從一家AI視頻企業轉型為集合內容和生產消費為一體的平台型公司,比如Runway、可靈、即夢和海螺等。另一類則偏向於產品驅動,快速迭代,比如聚焦在AI特效爆款迭代的Pika,以視頻編輯生產力出圈的OpusClip和Capsule等。AIGC藝術家海辛在播客「十字路口」也提到,現階段沒有一家能攻克AI視頻所有的方向,視頻的玩法太多了,這也給創業公司入局帶來了機會。而從不少創作者的AI視頻實際體感來看,視頻創作的需求是複雜的,因此多平台多產品的組合使用也是常態,現階段沒有一家能大包大攬。比如在可控性上,可可提到Runway、可靈、PixVerse和Luma的表現都不錯,能實現較為精細化的運鏡控製;從畫麵表現力和視頻風格來看,海螺、Pika、Luma強於二次元、動漫效果,Vidu、可靈在寫實風格上輸出比較穩定。「我感覺大家都在摸著石頭過河」。LumaAI產品經理Barkley曾在播客「十字路口」裏這樣形容。多模態是上限很高,它的星辰大海也絕不止是視頻生成。從這一點來說,互相摸著過河的AI視頻玩家來說,2025年,依舊是繼續卷的一年。