36氪獲悉,「Tiamat」已于日前完成近千萬美元A輪融資,由老股東DCM和綠洲資本聯合領投,遠識資本擔任獨家財務顧問。本輪融資額將用于繼續(xù)打磨產品和自研大模型,拓展商業(yè)化能力等。數月前,「Tiamat」已經獲得由DCM獨家領投的數百萬美元天使輪融資。
36氪曾報道過的「Tiamat」是一家國內AI圖像生成技術服務商,成立于2021年。其自研的MorpherVLM是國內首個基于概念融合范式提出的近百億級跨模態(tài)生成模型,通過異構的視覺編碼-解碼網絡結構,并引入基于用戶反饋的強化學習(RLHF)和細粒度的提示-隱變量對齊技術,提高了模型對圖像多尺度信息的建模能力,在用戶Prompt輸入的理解能力方面也實現了進步。
圖片來源:Tiamat
【資料圖】
去年夏天,AI Art一躍成為了熱度最高的新興技術,在設計、繪畫等專業(yè)化領域的影響力不亞于如今ChatGPT帶來的全民狂歡。
AIGC的結構性機會下,“不追逐風口,但等到了風口”是技術型創(chuàng)業(yè)者和資本最愿意看到的擁抱創(chuàng)新的方式。而在時間差方面,「Tiamat」從2021年開始進行模型訓練,以自研并自主訓練底層模型的方式,始終與海外技術節(jié)點、開源社區(qū)等保持著同頻。
“我們拼命地想告訴大家,這件事情很快就會成為風口?!?/strong>
「Tiamat」創(chuàng)始人青柑告訴36氪,去年上半年融資的時候,他們還需要花很多精力去教育市場,解釋什么是AI生成,什么是多模態(tài),為什么要做圖像。彼時,距離Stable Diffusion、MidJourney這些引領著行業(yè)革新的產品上線還有幾個月左右的時間。
而作為國內AI生成圖像領域的第一批團隊,「Tiamat」如今也成為了為數不多成功融資并實現了商業(yè)化的技術服務商。
為此,36氪對話了「Tiamat」創(chuàng)始人青柑和聯合創(chuàng)始人Eric,從「Tiamat」自研大模型和商業(yè)化的階段性成果出發(fā),探討AIGC未來在國內市場的應用可行性。
36氪:從大模型出發(fā),AI繪畫和以ChatGPT為代表的對話式AI有哪些差異?
青柑:AIGC中的不同賽道其實會有很多細節(jié)上的差異。首先,是這些模型涉及的是單一模態(tài)還是多模態(tài)。我們的模型打通的是多個模態(tài),體現在用戶可以用文本去指導生成的圖像,或者也可以用一張草圖得到新的生成結果。而ChatGPT作為聚焦在文本領域的理解和生成模型,它只有文字這一個模態(tài)。但與此同時,它的參數非常多,需要花大量的時間和數據去清洗有害信息,所以實際上花費的時間精力和算力是遠大于我們AI Art領域的。從一個比較直觀的感受切入,如果文本出現了一些邏輯上的錯誤或對話上的失真,用戶可以很快地感受到,而不像對于圖片的細微瑕疵可能會有更好的包容度。
我們現在正在做的「Tiamat」文本到圖像模型,大概是數十億參數,這個量級實際上要比ChatGPT文本模型的參數量要低將近100倍左右。換算成他們當年發(fā)展的話,大概是在GPT1-2之間。所以,雖然都叫大模型,其實數據和參數量級還是有很大區(qū)別的。在此基礎上,對于我們來說,不停地把模型的參數量級進行擴張并不是最重要的指標。
Eric:除了模態(tài)和輸入種類上的區(qū)別之外,生成的任務是另一個可供參考的維度。我們在談論AI的時候其實有很多解釋空間,比如人臉識別、大數據文本分析等,他們更多地在于理解數據。但回歸到AIGC領域,更多的則是在理解的基礎上生成。ChatGPT首先能夠做到很好地理解你的輸入內容,并調用潛藏在自己參數里的知識,對人類的輸入作出反應。在這一方面我們可以與ChatGPT做一個類比。我們會用多個不同的網絡把用戶的輸入放到一個對AI來說比較自然的空間里,再從這個空間中去找到合適的解答。這與以往生成理解類的AI是不太一樣的。
圖片來源:Tiamat
36氪:那么對于AI生成圖像來說,更重要的指標有哪些?
青柑:更重要的指標在于能不能在垂直領域有更好的精準性和可控性,能不能更好地讓圖像展現出人類理想的構圖、或者一致性的角色等等。除此之外,我們自研的考慮也來自如何能讓研發(fā)的成本結構更加精益和可控。從這一點來說,創(chuàng)業(yè)公司也會有更多機會。剛才提到,圖像文本多模態(tài)生成的領域參數量級更低,在標注數據和訓練上的成本也可以有效壓縮。整個圖像類的AIGC創(chuàng)新更加關注具體的技術路徑和商業(yè)化上的突破,成本壓力相對較小。而文本領域目前的一次訓練可能會花掉幾十到幾百萬美元,成本是巨大的。
Eric:是的,同時可控性也是一個和商業(yè)化應用息息相關的指標。我們在談論大模型的時候會有一個問題,很多大模型都是在大規(guī)模的數據集上構建的,其中大部分來源于互聯網上獲取的知識,問題隨之產生:如何用人類可以操控的方式去做這些大模型可以做的事情?我們都知道,OpenAI的GPT-3和ChatGPT在技術上是同源的,但是ChatGPT效果明顯好得多,大家也直觀感受到了它在各行各業(yè)的應用。而在技術環(huán)節(jié),就是因為ChatGPT比GPT-3多了一個用人類的反饋來自我學習的過程,可以使得它的應用更符合期望。所以,我們在做「Tiamat」生成模型的時候也會格外在意這一點,就是怎么樣能讓生成結果符合用戶的期望。
36氪:從去年下半年開始,AIGC跑得非???,整個行業(yè)在被資本推著走,可能還沒有來得及出現一個得到廣泛印證的商業(yè)模式,「Tiamat」在商業(yè)化方面是如何考慮的?
青柑:從創(chuàng)業(yè)開始,我們就在自研圖像模型,自己去訓練,一步步的優(yōu)化和迭代。所以目前為止,我們應該是國內AI圖像領域在商業(yè)化方面跑得最快的。去年Q4,我們有幾百萬元的合同訂單。因為圖像領域其實需要的是更加專業(yè)化、垂直化的理解生成。以我們正在商業(yè)化的服裝領域為例。服裝領域現在需要AI來代替設計師或者幫設計師尋找靈感,那么首先他們的輸入方式一定是服裝設計領域的“黑話”,比如什么樣的領口版式、版型,不一定是外行能夠理解到的行業(yè)知識。所以我們在去做行業(yè)模型的時候會先去理解設計師之間的溝通語言,再去理解對應的圖片,在此過程中可能需要重新去構建一些圖像文本作為訓練數據集。
此外,我們還會通過一些方法去增強AI對行業(yè)的理解,基于大模型去調整,然后才能做行業(yè)的專有模型。所以比起其他非自研的圖像生成公司,這是我們能夠體現出優(yōu)勢的地方。
36氪:在當下的開源趨勢中,非自研模型還有哪些弊端?
青柑:文本圖像生成這個領域基本上是從去年二三月份開始公開測試,去年七八月份,SD(Stable Diffusion)這一類開源模型放出來之后,緊接著就有大量的創(chuàng)業(yè)者入局。但開源模型的參數本身是固定的,模型中本身沒有特定行業(yè)的知識和術語,未經進一步的有效訓練,很多用戶輸入都難以被理解。而且在我們看來,純開源模型本身在圖像的精準性和可控性上其實還是有一些問題。所以在國內市場經常會遇到的一些情況是,一些廠商需要圖像生成的供應商,可能會找到一些用了開源模型的公司,發(fā)現沒法達到好的效果,然后再來找我們。所以,自研也是我們商業(yè)化比較順利的理由之一,因為非自研的服務商始終不能特別直接地生成一個行業(yè)想要的東西。
Eric:開源的另一個問題是數據訓練細節(jié)上的模仿難度。因為Stable Diffusion雖然本身的模型結果是開源了出來,但其實現在大家對于其中一些具體的訓練方法和細節(jié)仍然是不明確的。就好比說,如果我們想要做一個ChatGPT,這一系列的論文都是開放出來的,大家也大概知道它使用的參數和數據量在什么規(guī)模,但如果真的想要從零去做ChatGPT,遇到的難度會遠比收集這么多數據要大。所以當我們在強調自研的時候,也意味著我們踩過很多圖像生成工程化的坑,現在才能取得一個比較好的階段成果。
圖片來源:Tiamat
36氪:經過一段時間的商業(yè)化沉淀后,發(fā)現了來自哪些具體行業(yè)的商業(yè)化潛力?
青柑:我們最開始聚焦的是一些垂直領域的中小型企業(yè),因為他們有很多定制化屬性或者跨界合作的需求,在市場層面的動作也是最活躍的,接受度更高,客戶反饋也更多。其中目前發(fā)展得最好的行業(yè)其實還是廣告、還有相關設計行業(yè)的,因為無論從調性、感興趣程度、需求強烈度還是預算幾個方面來說,這一領域的中小B表現都比較好。合作大多數都是主動找過來的,通過一些定制化的案例來幫助我們更深入地了解具體商業(yè)場景中的痛點。
36氪:在行業(yè)模型上的積累是AIGC商業(yè)化的核心壁壘嗎?
青柑:從我們的視角出發(fā)是的,甚至于行業(yè)的數據會變得越來越重要。因為隨著之后大家可能都會想要擁有AI技術,拉開差距的可能就是數據量、如何篩選有效數據、哪些數據是獨有的,包括用戶的正反反饋數據也包含在內。這些東西會逐漸成為各個AI公司的壁壘,而且會逐漸走向不同的垂直領域。數據收集的類型不一樣,也會產生不同的影響。
36氪:“大廠”入局AIGC會讓創(chuàng)業(yè)公司產生壓力嗎?
青柑:我們訓練大模型,其實目標是找到一個更有效、更有優(yōu)勢的功能性定義。對于大廠來說,基于產品生態(tài),在訓練語料的數據量上會有一定優(yōu)勢,但可用性上不一定更強。再加上中文的語匯環(huán)境特點更加復雜,數據清洗難度很大,目前實際可用性的文本量級并沒有這么高,可能僅為英文語境可用性的1/20。同時,就圖像生成來說,更并沒有觀察到像文本領域一樣由參數量引發(fā)的質變。
因此,在數據清洗和數據選擇這一方面,大廠要去經歷的流程和創(chuàng)業(yè)公司沒有太大區(qū)別。當然也不排除大廠有更好的驅動力和更多擅長數據清洗的人。但從我們的技術視角來說,我們平時會開玩笑說,其實并不擔心大廠突然做一個非常強的東西出來,而是會擔心再出現一個很聰明的年輕人用有限的資源做出了一個很有意思的技術和方向,解決了一個復雜的問題。因為現在看來,AI可能會離現代技術更近,但如果一項技術的工程化潛力沒有那么強,關于它的任何遐想,很快就會在下一代技術出現的時候被迭代掉。
36氪:如何評價ChatGPT引發(fā)的“AI浪潮”?
Eric:現在的AI技術其實比較像之前的影像技術,到了一個關鍵的技術節(jié)點之后自然會有一些不同的流向。比如有些是做照相機,有些做攝影機,而ChatGPT在產品化方面就像是直接做了個電視。大家現在的沖動可能來自于,有一天看到了電視,看到里面的一個影像化呈現非常感興趣,引發(fā)了對整個成像技術的興趣。但其實在用戶興趣的背后,不同的技術在不同的流向里都是有各自的發(fā)展的。單純地去做影像或者相機本身,也可以發(fā)展出徠卡、佳能這樣的應用端公司,中間層也有蔡司鏡頭等。細分市場的延伸不同,大家都有自己獨有的數據,但技術節(jié)點后的市場空間會非常廣闊,每個賽道都有可能催生非常大的公司。
ChatGPT一個很重要的意義是提高了大家對AI的接受程度。以前AI只是幫人類解決輔助性的問題,比如識別分析和判定。但現在關于AI的討論已經發(fā)展到了如何和人的工作流進行有機結合,哪些環(huán)節(jié)應該直接交給AI來做,要做到什么程度,形成怎樣的互動或者相互依存的關系。但這些都要針對接入特定的商業(yè)場景和工作流。
圖片來源:Tiamat
36氪:我們怎樣去理解將AIGC融合進工作流的重要性?
青柑:在一點上,圖像生成和文本可能又會存在比較大的區(qū)別。比如說AI幫我寫了一封郵件、一段文字,它可以很順滑地融入生產力工具,提高編輯效率,比如Notion AI。但圖像生成的最終判定標準就是圖片本身,比起工具體驗的好壞,大家可能更關注圖片效果。因為SD在開源之后大家其實做了很多插件,放到Blender、Figma等生產力環(huán)境中,但更多用戶并沒有很順滑地去用這些插件,而是更愿意去MidJourney生成一張圖片復制下載到工具中使用。根本原因就是MidJourney的生成質量要好很多。當然,生成圖像之后一些二次編輯的小功能是大家愿意去快速使用的,但這和他們過去使用的軟件并不沖突。整體來說我的感受是,在圖像生成領域,目前工具化的接入方式還沒有成為用戶關注的重點。
36氪:「Tiamat」未來會考慮做文本語言模型嗎?
青柑:我們公司的整體風格和選擇方向都比較專注。我們非常信服前沿技術,但更加關注的是當下的技術能不能解決當下的問題。也許有能力的人會去努力成為“中國的OpenAI”,但目前來說,我們還沒有去做ChatGPT這樣的文本大模型的理由。因為對于一家創(chuàng)業(yè)公司來說,如果能把圖像模型的可控性、精準性和連續(xù)性做到最好,它其實就已經能帶來很多垂直行業(yè)和場景下的商業(yè)化應用了。比如去支持更加細分的、特定的設計行業(yè),幫助它們完成生產力提效。
比較讓我們高興的一點是,我們看到AI技術正在向一個“新的互聯網”形式進發(fā),而我們在產品戰(zhàn)略方面也會更加審慎。一個很具代表性的現象是,OpenAI可能都還沒有想好ChatGPT的商業(yè)化應用場景,國內的創(chuàng)業(yè)公司反而會把這些問題想得更清楚??傮w來說,AI是一個新的主題,每一個細分領域都值得被認真打磨,大家聚焦在各自擅長的地方,才能形成更好的產業(yè)。
網站首頁 |網站簡介 | 關于我們 | 廣告業(yè)務 | 投稿信箱
Copyright © 2000-2020 hngelin.com All Rights Reserved.
中國網絡消費網 版權所有 未經書面授權 不得復制或建立鏡像
聯系郵箱:920 891 263@qq.com
宜兴市| 宜丰县| 壶关县| 永登县| 蓝山县| 邹平县| 政和县| 瓦房店市| 边坝县| 漠河县| 泸定县| 车险| 内黄县| 定州市| 景德镇市| 宁乡县| 西畴县| 泾川县| 特克斯县| 清河县| 星座| 喀喇| 叶城县| 泽普县| 彝良县| 上栗县| 明星| 邯郸市| 余庆县| 永丰县| 保亭| 讷河市| 板桥市| 芜湖县| 新宾| 鹿邑县| 武宣县| 东乌| 哈密市| 循化| 佛坪县|