
全面指南:API測試定義、測試方法與高效實踐技巧
視覺AI
視覺應用特別廣泛:從感知增強,感知到視覺最初的一個信息,然后到怎么把這些信息傳輸出去,對這些信息的一個認知和理解,它安全性、搜索,還有生成、編輯重建、 3D 重建以及互動這一系列的技術。它實際上在感知端,云計算,或者交互端,它是無處不在的,這些也是它存在的非常廣泛的一個原因。
視覺AI 在各個場景的應用
比如說我們在手淘就可能會用到其中的一個圖像搜索(一個視覺相關的技術),這是當前在視覺搜索領域最大的搜索引擎基礎。當然也會在特別大的城市級別例如數字平行世界,這上面也有非常多的視覺相關的核心技術,同時也包括像醫療,養豬或者生產安全等等這一系列上面都會用到各種各樣的感知、理解類的視覺技術。
當然還有很多大類,例如生產編輯類的技術,比如說早期的時候做的像 鹿班banner 的生成,或者服裝設計、包裝設計,視頻的編輯、短視頻生產等等,這上面用到了一系列的偏生產類的視覺技術,大家也能夠感知到它在各個地方都有網上的一個應用。
“人”的一天中用到的視覺技術
用另外一個視角,比如說我們一個人一天當中從起床,到工作,到去玩或者社交等等一系列的動作中,其實也有很多能夠用到視覺技術的地方。比如要打卡時要用自己的照片生成一個卡牌,從圖片中摳出人像,然后要通過打卡機或考勤機識別是誰。或者除了識別人臉以外還需要識別有什么一系列的動作?比如說做一些仰臥起坐,俯臥撐等等這一系列的。
或者有時可能照片不是那么清晰,老照片做一些畫質的提升或者美化或者變成數字人等等,這些都是在生活當中與視覺技術相關的。
視覺技術分類樹
前面是一些示例,是從行業/人類生活碰到的視覺技術,接下來我們也可以從這幾個維度去分享,視覺一般有這么幾種模態:
最早研究的是平面圖像-二維的圖像,如果二維圖像我們加上一個時間軸的信息,變成有時間序列的,那就變成視頻的模態。
前一陣子元宇宙特別火的時候,就是在原來 2D 這種維度上再加一個維度,它變成一個 3D 的一個維度,然后從這些維度其實可以區分這種模態的一個分類的方式。
從另外一個維度看。視覺真正的目標千變萬化的,針對人,文字或者商品的都有,所以從這個維度又可以分出若干個技術。
還有一個最基本的,視覺技術是為了完成什么樣的功能,用來識別/檢測/生成還是分割?從這個維度也可以去區分。
技術想要真的在行業當中應用,還根據不同的場景,可以細分成互娛互樂,社交,工業或電商。
所以從 4 個維度,可以對視覺技術進行一個相對比較合理的分類。從視覺樹中可以看到視覺在模態、對象、功能、場景上面有各種各樣的應用,這是從分類的體系來說。
趨勢:從理解到生產
可以看到,人一出生而首先我要認識這個世界,理解世界。像讀文章要先能夠讀懂,到后面可以寫文章,然后可以去修改我的視覺內容,可以生產這些視覺內容。所以趨勢肯定是從先理解,再到生產。
最近大家關注 AIGC 的內容是偏生產編輯這一類的。
趨勢:從小到大,從單到多,從閉到開
(1)從小到大
另外一個趨勢,像現在各種各樣的模型,從早期的比較經典的、比較小的模型,到現在的模型越來越大,像初期的比較經典的 VGG 的 ,到現在 VIT 的再到現在多模態的這種技術,發展得越來越快,所以這個參數量也會越來越大。從萬級別、百萬級別、千萬,再到億,還有更大萬億級別的,模型參數從小到大,也是當前的一個趨勢。
(2)從單模態到多模態
從單模態到多模態,尤其大模型開始流行起來以后,是非常典型的一種趨勢。早期給一張圖,打一個標,或者給個分值等。現在基本上是圖相對自然語言的描述,作為訓練模型的輸入,同時進行encoding,然后再來進行訓練。現在大部分都是文本,視覺或者圖像這一塊的多模態。當然在對聲音或者對其他的東西也可能是多模態的方式。總而言之,從單模態到多模態這個趨勢非常明顯。
(3)從單任務到全能
以前只解決檢測問題,或者只解決分割問題,甚至它只能解決對某一個特定對象,特定場景的。但是從不久以前,阿里做了一個新的模型開始,就開始強調全能/多功能的模態,既可以做視覺的任務,也可以做文本的任務等等。所以從單任務到多任務的進行,也是一種趨勢。這種趨勢最后會發展成什么樣的狀態?是不是真的能夠從一個全能/全任務的模型解決所有問題?這個可能有待考察和發展。
(4)從閉集到開集
另外可能還有一個經常會遇到的方式,以前的模型或者數據集,只能在一些閉集當中去做,比如說我們在訓練得到它的標簽就是在這個集合當中,當出來openset 的一個問題,它能不能解?其實現在這個趨勢也是比較明顯的,尤其是像現在的多模態大模型,其實它很多的時候能夠解決就這種這個問題,可以解決以前在訓練的過程當中或者是閉集的狀態走上一個開集的狀態,這也是其中一個趨勢。
趨勢:基于知識和反饋的訓練
在訓練的時候,可能需要把這種人的知識以及反饋,例如像 ChatGPT 半監護,半反饋的強化學習(RHLF)的方式加入到訓練當中去,這也是一個趨勢,使得我們的模型的表征能力越來越強。
視覺感知理解技術
事實上視覺感知理解,應該是人類獲取認識這個世界最主要的最基本的任務。
視覺理解
例如最基礎需要先識別上方圖像中有什么東西?想知道是個貓還是個狗?然后要知道這個貓和狗在圖像當中的位置,這是更進一步。當要知道每一個像素是什么東西的時候,就要做分割的問題,這是最經典的幾類任務。
當然視覺理解還有一些表征或者識別行為等等一系列的任務。總的來說,基本上它的模式是輸一個圖,然后出來一個標簽,一個 tag 這種方式,也可能是一個 score 或者是一個數字等等,所以我們可以從日常的生活當中發現非常多的有關于識別或者檢測、理解相關的一些任務。
人的識別及檢測
最經典的是去地鐵站坐車或者坐飛機,打卡等等,或者要識別一個人,或者識別有多少人等等這一系列的任務,都是屬于這類的。
生物識別系列模型
識別系列模型其實有很多,這里只舉個幾個最典型的,比如說對人臉的一個關鍵點識別, 1: 1 的識別或者 1: n 的識別。
(1)對人臉的識別來說,有三個關鍵的核心的模塊,對于人臉的檢測,人臉關鍵點的識別,人臉的識別本身。當然還有一些前序的,例如人臉的質量,圖像質量的糾正,還有事后的等等也有非常多的模型,在人臉這個最經典的研究的最早的視覺任務,上面也另外沉淀非常多的技術。這個技術可以在 Model Scope 的官網去訪問。
(2)分類檢測上面也有非常多實際的任務可以去研究。
(3)在工業場景下面,例如給一個電池版,或者給一個果凍,能不能檢測到其中有些瑕疵?這些都可能是現實當中碰到的問題,這可能是檢測問題,也可能是分割問題,或者是識別問題。這就是對這種工業場景下面的一個場景理解。
(4)達摩院也開放了DAMO-YOLO這個非常厲害的檢測模型,它可以兼顧速度和精度同時去識別。大家都知道,視覺任務做到最后都面臨精度、速度、成本等等的兼顧平衡,只有這樣的話才能夠使得這個模型真正的能夠落到行業當中去,所以這是經典的檢測模型,可以對單個人檢測,也可以對多種目標、多種物體、動態的、靜態的等等都可以去做檢測。
(5)延展一下,自然圖像例如手機照片,是普通的 RGB 圖,但事實上還有很多,例如CT 圖還是 X光,MRI ,超分,超聲或者是 PET 等等這一系列的針對物體或者人體內部的掃描結構得到的影像,也算一種特殊的一種視覺。在這個層面也有很多事情可做,比如說對各個器官的一個分割/檢測/識別,對病灶/病的種類等等這一系列,這些都是對人的內部,外部的感知理解的一系列的視覺技術。
(6)前面舉的例子都是對靜態的識別,同時可能對一個動態的視頻,想要知道這個人做什么動作,識別出來是什么動作,以及做的標不標準,或者對人進行一個教學,做這個動作做得好不好?做了多少個?等等這一系列技術其實就是對人體的關鍵點,以及對人體連起來骨架,基于這個去做的動作識別。這個可以用于做一些app,或者記錄今天做了哪些事情等有意思的應用。
(7)在城市級別或者是交通感知,交通事件等也有很多的視覺技術可以使用,比如識別車或者是交通是不是有擁堵,事故,違法等等都是視覺技術可以發揮價值的地方。此類發揮價值是通過城市級別,或者交通系統級別,對實時采集到的攝像頭的數據,進行分析理解。所以這塊除了算法技術以外,實際上還有一系列系統級的工程技術去配合的系統。
分割摳圖-難點
除了前面的識別檢測以外,還有技術相對不太一樣的地方。比如說可能需要針對圖像像素點是屬于什么類別的檢測識別問題,實際上屬于分割摳圖的問題。
如果經常使用PS等,就會經常使用到它。比如面對復雜背景/遮擋/發絲/或者是透明材質,像婚紗等等這一系列都是在識別當中會遇到的挑戰。這些挑戰 還有一個很大的問題在于標注成本非常多,導致高質量的數據本身也會嚴重不足。
(1)分割摳圖-模型框架
在解決這個問題上也有很多的方法,這里只列出一個例子。例如解決高質量的標注語料問題時,設計了粗分割精分割相互結合的方式,去促使這個方法可以快速的既能夠兼顧粗分割,就是低級分割所帶來的圖像數量比較多,同時我們又能夠利用精分割的質量比較高的情況,使得這個分割能夠兼顧效果和數量上的統一。
(2)分割摳圖-效果展示
發絲級別的這種精度,或者圖像它是鏤空,或者是它跟背景相似的時候,怎么把它分割出來?這是一個非常有技術含量和應用面在里面的事情。
(3)分割摳圖-圖元解析
同時還有一個非常有意思的分割,是更復雜的圖源解析的一個問題。如果大家用過 PS 就應該知道,一張圖如果是 PSD 結構的話,它實際上是多個圖層合起來變成一個圖像的。
但反過來給一張圖,你是否能把里頭的各種元素,各種圖層反向識別出來,分割出來?這就是一個對圖像的反向解析的過程,這是相對更復雜的一個對圖像的理解的問題。
感知理解系列開放模型
在 ModelScope 上面開放了這么幾大類,包括分類、檢測、分割,還包括視頻里的一系列的理解能力,這個是最基礎的一系列能力。
當然另外一系列能力例如先認識世界、感知理解到了世界,然后這個時候我要改造或者是生成我們的視覺信息,那么我們就可以歸結為生成編輯類。
經典生成編輯技術
編輯類的大家可能知道,由于現代 ATC 大模型技術發展,可以把它分成兩個階段,一個階段是經典的生成編輯技術,這里主要是指這一塊。
視覺生產的定義
相當于輸入一個視覺,然后出來一個視覺,產生一個新的視覺表達,它產生的不是一個標簽,也不是一個特征。而且它輸出的和輸入的還不一樣。
比如說經典的我生成一個從 0 到1,或者是我有了一個圖,我生成更多的圖是從 1 到n,或者是我有一個摘要,或者是一個升維,包括前面的平面圖像到視頻,或者是從視頻到 3D 的圖像,當然還有一些從 a 到b 增強/變換,或者我把兩張圖合到一起,或者是想從一個視覺當中移除一個東西。
視覺生產通用框架
從上面可以看到,視覺生產實際上是包含了非常多的任務,這其中最經典的,是一個通用的框架,我們可以輸入參數、素材或者是各種各的成品,當然也可以在早期的時候通過模型+知識的方式生成引擎去做,也可以通過一個搜索引擎去做,找相似的素材和案例,去產生一個輸出,所以這是個通用框架。
視覺生成技術發展
當然視覺生成技術其實發展的時間也比較長,雖然它跟理解力技術對比還是在之后的。包括我們最早些時候,大家應該知道,大概11年 12 年的時候,一個非常火的模型叫 GAN,它可以通過對抗的方式,通過判別器和識別器然后對抗的方式來獲得圖像的生成。
它是早期的一個最經典的生成式模型。當然之后也有很多的技術在發展,像 GAN 技術它也會有很多一系列的發展,包括條件生成CGAN 或者是styleGAN等等這一系列技術在當前還在不斷地往前發展。
當然現在也有兩大類非常火的技術,像那個 VAE 技術,變分自動編碼器,這里面也有條件生成。運用的面最廣的,當前最火的是基于擴散模型方式的一個生成方式。
視覺生成-五個關鍵維度
要想使得視覺生產技術或者生產技術能滿足業務的需要,那么我們應該在哪些方面來衡量它呢?
(1)比如說我們首先肯定要滿足視覺或者美學的一個表現,是可看的,不能說我們生成一個東西你看起來都不認識或者不知道,那這個肯定是沒法滿足的。
(2)第二個它相對來說要合理,它要合乎語義的邏輯或者是內容的邏輯,這點也很重要,我不能說生成個a,結果你給我個b這也不行。
(3)還有一個你要保證你結果的豐富性,它是個多樣可變的,你不能說每次生成的都一模一樣,它也是一個不是那么可用的狀態。
(4)還有它要是可控的,我想要生成什么樣子,它就要生成什么樣子。不能說生成a,結果它生成b,或者說我沒法控制它,這個也是不成的,所以我們要提供一個給用戶預期的抓手。
(5)最后達成一個目標,使得這個結果生成結果是可用的,它能夠給用戶帶來使用價值或者商業價值,這是最核心的。
所以從可看、合理、多樣、可控和可用上面這幾個維度來看,我們可以回過頭去看一看我們的視覺生產這個過程,這個技術是不是合理的。
視頻增強相關能力
前面介紹到有若干種視覺生產,這里介紹兩個最主要的。第一個就是視頻增強技術,實際上是滿足從 a 到 b 的一個過程。如果大家了解過底層視覺,就是比如說我一個視覺,那么我一出生以來,我不管是人,一只狗,或者是一個貓,或者是只要有眼睛能感知光的,那么它可能就對這個圖像的清晰度、細節或者色彩或者它是否流暢等等這一方面東西它天然的就能夠感知得到,這就是所謂的底層視覺。
對底層視覺我們永遠是追求更高畫質的視覺表現,包括我們在清晰度上面更清晰,然后在色彩上面要更鮮艷,然后在流暢度上面要刷新的更快,這些都是跟視頻增強相關的一系列能力。
圖像與視頻的畫質問題
視頻增強的問題從哪來的?其實有很多,比如從采集,運輸處理,還有存儲等等各方面,由于我們早期的時候在拍攝圖像,它的設備/環境/其它的東西導致的各種各樣的內容不夠,甚至更早期的時候圖像只有黑白等情況。這些情況基本上可以分為三大類:
(1)一大類是細節損傷,分辨的不夠,或丟失了一些信息,這是第一類的。
(2)第二類色彩表現不好,以前可能是黑白的,后面只有8bit,或者就是馬賽克形式,10bit的像素的表達,所以這種色彩的表現,有可能是RGB三個通道,也可能ARGB的四個通道。這一系列也是屬于色彩表現添加的問題。
(3)或者可能是跳幀的,它連續性不夠流暢等等。從這幾方面來說的話,從傳統的圖像處理理論當中來說,想要把這些問題修復其實是非常困難的。所以也就是相當于在這幾個方面,可以有很多的技術去專門攻克這一塊。
空域增長-超分
在空域增強上面,在細節上面做一些超分的任務,超分任務其實是比較典型的底層視覺的問題,而且這塊問題其實發展的時間也非常長了,從早期的基于 CN 的圖像超分,一直到現在利用這種domain手段去做這種增強任務,所以這一系列的技術也在不停地往前發展,使得的效果也不斷地去往前提升,使得從早期的720P,到1080P,然后到后面的4K、2K,或者甚至到現在的 8K 的視頻,細節越來越豐富,這是最基本的問題。
色彩增強示例
另外色彩,有時可能不是那么通透,或者是帶有一點點灰蒙蒙這種感覺,使得從8位的一個像素深度變成一個 10 位,或使得色彩表現力更豐富。上圖這里應該是從 SDR 到HDR,大家用過電視機或者是比較好的一些手機都支持 HDR 的方式,但早期的時候很多是都是 SDR 的格式,所以在這些方面都可以做很多的事情,使得即便當時的視頻質量不是那么好,經過 AI 的處理以后它可以變得更好一些。
圖像去噪開放模型
同時也開放了一些其他的跟底層視覺相關的一些模型或者算法,比如說兩個最經典的。圖像拍的特別模糊,或者是噪聲點特別多,那么這個時候能不能有個辦法呢?其實也有一些專門的辦法去解,比如不管是對文字的噪點的去除,還是對拍攝過程當中因為運動模糊帶來的一系列的問題都可以去解。
人像增強開放模型
還有針對人像的增強,在github 上很早就開放了GPEN 人像增強模型。基于 StyleGAN2 作為 decoder 的方式嵌進去的一個方式實現的。在這一塊的話可以對一些老照片來進行修復。
例如早期拍的家庭合照或者早期的一些影視劇,質量不好的時候可以使用這個模型,把其中相對于人的這塊識別做的更好一點。
生成編輯相關能力
增強相對來說偏底層視覺相關的,但是生成編輯還有非常多的其他任務。包括對這個風格變化,或者是從 0 到 1 生成一個東西,或者生成以后對它進行一個增、刪、查、改等等一系列的視覺能力。
視覺編輯開放模型
如果接觸到玩得非常火一系列的風格變換,給個圖變成各種各樣的風格,這些風格當然很多時候都是色彩+內容的變化,還有卡通畫:把一個正常的人變成一個各種各樣的模式的卡通畫,或者是變一個風格。是比較清新的風格?還是迪士尼的風格?還是 3D 的風格?等等。
或者一個人的皮膚不是那么好,但是又想使這個人美化以后還能保持真實的感覺,這是相對比較高級的美膚能力,這一系列都是屬于視覺編輯。一張圖生成各種文的風格,這些風格也可能是日漫風、 3D 風、手繪風、迪士尼風,而且這一個當前買可以定制化的。
比如以上是一個非常受歡迎的一個例子,例如給一張圖,可以生成各種各樣的風格,這些風格可能是日漫風,3D風,迪士尼風,或者還可以定制化,例如我希望得到一個風格,那么可以上傳若干個風格的圖片,然后根據這幾張圖片提取其中的一個風格特性,同時生成這種方式。所以這也是玩法非常多的一個方式,如果大家去試用會覺得很有趣。
電商海報設計
在一些特定的領域,比如說電商的海報領域,能不能生成一些banner圖/廣告圖?如果大家早期關注過阿里的鹿班這個產品,就應該關注到這其中的一系列。
例如可以通過給一個商品主圖以及一些文本,去生成一段背景,同時這個背景還能夠非常好的和前景以及商品相互融合起來,包括這些細節也是非常使用的一個技術,是非常經典的生成編輯的能力。
視覺大模型技術
隨著大模型技術的發展,以及算力,還有數據規模化的不斷發展,還有多模態技術等等這一系列。前面的這些經典的像感知理解類的技術,或者生成編輯類的技術,現在都在往前發展。
視覺統一分割任務模型:SAM
對這種感知理解的技術,大家如何關注?前不久,Meta公司發表 SAM,通過模型可以對所有視覺分割任務進行統一的處理,且是zero shot 的問題。他可以對看得到、認識到之前識別不到的一系列目標對象進行識別分割,且能夠達到精準的像素級別分割。這塊它也可以在視頻當中去做,比如我們看到視頻當中有一個人,就能夠把他檢測出來,并且能夠給出識別。在 3D 領域也都是可以去做的。
所以這個模型在兩個地方很有意義,第一個解決很多目標中的分割問題。另外數據量也是非常龐大的。訓練圖像應該有 1000 多萬,做一個 billion 的一個 mask, 去做監督的訓練。
這個模型也可以結合其他的模型做綜合玩法。比如說像國內 grounding DINO 這個檢測模型,然后跟這個 SAM 模型結合起來。還可以把一些像生成類的模型,例如Stable Diffusion,甚至 ChatGPT 這種領域的一些問題,或者語音領域的一些問題。可以結合起來去做一些事情。
例如希望把這個坐在椅子上面的狗狗換成 一個猴子, change the dog to a monkey,這也是一個多模態的輸入,結合這個分割模型,把這個狗識別出來,同時結合生成的技術,把這個前景的這個目標換掉,然后變成一個新的猴子這個目標,這也是非常有意思的一個玩法。
文生圖大模型發展
像文生圖這種模型,其實最近是特別火的。右上角這一張圖,是MJ公司一戰成名生成的一個圖像。文生圖這個領域越來越成熟,應用越來越多。同時也有非常多的經典的大模型的發展,包括早期的像 DALLE,到谷歌的imagen 方法,然后到現在最火的形成Stable Diffusion 。
這其中國內外也涌現了一批比較知名的專門在這個領域做,且做的得非常好的產品。業界中公認的做的最好的是Midjourney。
國內像文心一格,包括阿里也發布了若干個相關的一些文生圖的大模型。當然想要把這些模型訓練出來也是非常不容易的,這里也舉例了干個大數據集,如果真的想要 去訓練起來一個大模型,我們可能要消耗好幾百塊的 GPU 卡,而且是需要訓練很長的過程,其中除了算法本身以外,在算力和數據方面還有很多工作要做。所以要想做這一類的大模型其實是一個系統工程的問題。
“通義”預訓練大模型系列
阿里發布了一系列的通義預訓練大模型,包括M6-OFA這種包括文生圖,這系列的基礎模型都可以訪問。
我們關注的是跟視覺領域相關的技術更多一些,在自己的這個文生圖大模型上面,其實是基于一個知識重組的大模型訓練。
相當于把知識信息這種先驗信息,不管是語言的,視覺的或語音的,通過知識重組方式或者分組的方式作為編碼器輸入訓練得到大模型,此時在規模越大的時候會產生更加良好的一個效果。
上圖是舉的幾個例子,像生成這種動物或者 3D 的動物,或者跟人相關的,卡通畫的人相關的。用的比較多的可能是國外的Midjourney或者是開源社區的 Stable Diffusion,此類文生圖的大模型用的比較多,同時也歡迎大家去Model Scope 上使用。
基于擴散模型的圖像超分
除了文生圖以外基于擴散模型,其實還可以帶來對于其他任務的一系列的增強和更新。比如說我們在前面說的圖像超分其實也可以利用這種擴散模型去做,使得它的效果能夠變得非常好。
這款它有自己特定的問題需要去解答。比如說在這種任務上面,我們怎么能夠使得這個成本降低,速度加快,然后能夠真的可以部署?這是一個現實的問題,因為大模型在生成的效率上面和消耗上面還是有比較多的問題。另外很多的任務可能不一定需要文本引導或需要多模態,它可能就是一個純粹的視覺領域的問題。這也是在這個領域嘗試的用大模型技術去解決的問題。
可控的圖像生成:ControlNet
還有一種情況,我們希望以一種更可控的去做圖像生成。去年年底的時候出的ControlNet模型在這個領域目前應用最廣的,它可以對我們生成的目標進行一個預期的控制,無論是在輪廓上面還是在骨架上面、動作行為或者色彩上面,都可以通過這種方式去做。
其實它是將某個結構分成可訓練的部分和不可訓練部分,然后分別去針對這種模型進行充分的迭代,既能保留非常明顯自身的學習能力,同時又能使得約束及控制存在。
可組合圖像生成:Composer
當然在可控的投入量生產我們在達摩院上面也做了一個非常有意思的研究,此研究的核心特點是可以支持多個條件引導的圖像合成,可以更加可控的生成方式去完成圖片可控的生產。
例如在 8 個維度上,不管是形狀還是深度形狀或者 mask 等等,這上面都可以對生產的結果進行一系列的可控。
除了純粹的文生圖以外,怎么可控的去生產?舉了兩個例子,一個是那個業界用的比較早期的ControlNet,包括我們達摩院自研的一個 Composer 的一個模型。
文本生成圖像
其實文本生成圖像,現在的視頻越來越用得廣,那么文本能不能直接生成視頻?其實這一塊達摩院也在做相應的研究。
視頻的生成確實要比圖像的生成質量和可控性相對來說差一點,離真正的使用還是有一定的距離,它不像Midjourney或者文心一格,或者我們自己發布的一系列圖像的生成產品慢慢的已經達到可用或者是商業可用的狀態。但是對于視頻的生產還是有比較多的問題要去解決。
發布的通義大模型文本生成視頻,業界大家如何關注到?Runway 公司有個Gen-2, 也就是Gen的一代、二代都可以生成一系列的視頻。已經可以預測到文生視頻的巨大潛力,這也是一個非常有前景,有意思,有挑戰的技術方向。
當然文生視頻其實還有另外一個做成的方式,例如想要做一個通用的文生視頻其實非常難,生成的結果質量,不管是高清的這方面還是流暢性的這種控制還是語義的符合,是有非常大的一個挑戰。那么我們在特定的環境或者是特定的范式下面能不能做一些事情?
例如我們希望什么樣的人,在什么樣的地方做什么樣的動作,這樣一個特定的模式能不能做呢?是可以的。比如說,我們做一個在蓋有城堡的沙灘上跳舞,然后右邊就是我希望秋天的樹葉,在這個下跳舞。
這就是我們可以把這種特定范式下的視頻生成做得相對可控和高清。
達摩院視覺AI開發服務
能力開放的不同形態
上面介紹到的這些能力達摩院和業界或者學業界做了非常多的探索,這些能力想要放開的話,無外乎是要要通過一個方式使得開發者/研發者/供給社研發出的模型或能力,能夠滿足用戶的需要。這些需要是多個層面的,例如對于學生或學術圈來說,可能發一篇論文就夠,把方法思想開放出去。對一些中高級的開發者,需要使用模型,使用數據,還有一些需要直接調用 API ,甚至有些人只需要一個組件或者一個 SDK 就可以滿足。當然對于行業,政企,大行業或者解決方案的時候,需要提供一系列完整的產品和解決方案去滿足用戶的需求。
能力開放的深度和自學習服務
所以隨著預訓的大模型的發展,還有非常重要的是,怎么能夠基于這些預訓練模型進行二次開發,基于統一的范式去滿足一次開發或基礎模型不能滿足用戶定制化需求的時候的一種方式。
達摩院視覺AI開放服務
所以達摩院開放了開放了兩種模式,一種是模型即服務的方式ModelScope,一種就是通過 API 平臺去滿足業界所有的需要,也就是前面所說的所有的模型或者 API 都可以從這兩個地方去找得到。
文章轉載自 @ModelScope小助理?