新華社北京8月1日電(記者張漫子)在對話(huà)框中輸入一句話(huà)或添加一張照片,點(diǎn)擊“生成視頻”按鈕,不到一分鐘,一條6秒的短視頻立馬生成?!翱?,照片動(dòng)起來(lái)了?!钡谝粨?chē)L鮮國產(chǎn)視頻生成產(chǎn)品“清影”的“00后”用戶(hù)施司羽說(shuō)。
今年初,文生視頻大模型Sora在全球人工智能業(yè)內外引發(fā)廣泛關(guān)注。近日,多個(gè)中國科技企業(yè)自主研發(fā)的視頻生成產(chǎn)品扎堆上線(xiàn),引發(fā)關(guān)注。這意味著(zhù)中國人工智能大模型的“應用試驗田”又多了一塊。
生數科技今年4月聯(lián)合清華大學(xué)發(fā)布了視頻大模型Vidu,并于7月底正式上線(xiàn)?!按舜蜼idu正式上線(xiàn),并全面開(kāi)放了文生視頻、圖生視頻兩大功能,提供4s、8s兩種時(shí)長(cháng)選擇,分辨率最高達1080P,將讓更多人感受文生視頻、圖生視頻的美好體驗?!鄙鷶悼萍悸?lián)合創(chuàng )始人兼首席執行官唐家渝說(shuō)。
Vidu上線(xiàn)前數天,北京另一家人工智能公司智譜AI也上線(xiàn)了基于其大模型開(kāi)發(fā)的視頻生成產(chǎn)品Ying(清影)?!扒逵安粌H支持文本生成視頻、圖片生成視頻,還支持視頻生成視頻?!敝亲VAI首席執行官張鵬說(shuō)。
今年6月,快手發(fā)布的視頻生成大模型“可靈”,在文生視頻、圖生視頻方面展現出了創(chuàng )造逼真運動(dòng)場(chǎng)景、精確模擬物理特性的能力與潛力。
唐家渝和張鵬表示,當前中國視頻生成產(chǎn)品的主流技術(shù)路線(xiàn),采用的是深度學(xué)習模型與擴散模型相結合的架構,遵從“規模定律”,強依賴(lài)算法、算力、數據。
當前,全球范圍內文本、圖片生成視頻模型賽道上已有多家科技企業(yè)參與競逐。除OpenAI的Sora之外,還有Runway的Gen系列、微軟的Nuwa、Meta的Emu、谷歌的Phenaki等。中國最早的入局者有生數科技的Vidu、智譜AI的清影、快手的可靈、商湯的日日新等。
張鵬說(shuō),目前中國的視頻生成技術(shù)還處于起步階段,并不完美;接下來(lái)還有高質(zhì)量數據、算法等一系列問(wèn)題有待逐一破解。然而加速人工智能技術(shù)發(fā)展的最好方式就是并行加速技術(shù)的研發(fā)與應用,而不是把技術(shù)關(guān)在實(shí)驗室里閉門(mén)造車(chē)。
“從今天的技術(shù)實(shí)現角度,視頻大模型的迭代將顛覆影視動(dòng)畫(huà)制作在內的內容產(chǎn)業(yè)?!碧萍矣孱A判,未來(lái)十年,影視創(chuàng )作生產(chǎn)的門(mén)檻與影視動(dòng)畫(huà)制作的成本將進(jìn)一步降低,更好地將想象力、創(chuàng )造力轉化為生產(chǎn)力。