一個(gè)在 GitHub 上標(biāo)星超 2 萬的數(shù)據(jù)庫,究竟是什么來頭?
原來,這正是最近大火的向量數(shù)據(jù)庫之一、首個(gè)在這一賽道開源產(chǎn)品Milvus。
自大模型爆火以來,它的關(guān)注度也一路飆升,官方顯示,目前 Milvus 已經(jīng)擁有超過 1000+ 企業(yè)用戶。
【資料圖】
Zilliz 專注于研發(fā)面向 AI 應(yīng)用的向量數(shù)據(jù)庫系統(tǒng),旗下有 Milvus、Zilliz Cloud 等產(chǎn)品,目的是為開發(fā)者提供易用性強(qiáng)、性價(jià)比高的向量數(shù)據(jù)庫服務(wù)。
這兩天,Zilliz Cloud發(fā)布 2.0 重磅更新,更是帶起一波業(yè)界對向量數(shù)據(jù)庫的討論熱潮。
大模型技術(shù)進(jìn)展日新月異,向量數(shù)據(jù)在風(fēng)口浪尖上也起起伏伏,不少人說它是給 AI 提供長期記憶的必備基建,也有人認(rèn)為提高大模型上下文長度才是未來方向。
這不,還有谷歌工程師專門為此擺攤舌戰(zhàn)群儒。
眾說紛紜之下,情況究竟如何?不如來聽聽向量數(shù)據(jù)庫一線從業(yè)者怎么說。我們聯(lián)系到了 Zilliz 創(chuàng)始人兼 CEO星爵,希望和他聊一聊向量數(shù)據(jù)庫對于這一輪 AI 浪潮的意義,以及它背后變革的方式。
星爵認(rèn)為,大模型的出現(xiàn)給 AI 帶來了新的計(jì)算范式CVP Stack,向量數(shù)據(jù)庫是不可或缺的關(guān)鍵:
其中,"C" 代表大模型(ChatGPT)負(fù)責(zé)向量計(jì)算;"V" 代表向量數(shù)據(jù)庫(vector database),負(fù)責(zé)向量存儲;"P" 代表 Prompt 工程,負(fù)責(zé)向量交互。
不僅如此,他還系統(tǒng)解答了在大模型發(fā)展過程中,向量數(shù)據(jù)庫具體起到的作用,以及作為向量數(shù)據(jù)庫頭部公司的 Zilliz,又要如何應(yīng)對這一輪 AI 變革浪潮。在不更改原意的基礎(chǔ)上,量子位對與星爵的交流內(nèi)容進(jìn)行了整理,希望能為大家?guī)硪恍┧伎寂c啟發(fā)。
大模型的數(shù)據(jù)基礎(chǔ)設(shè)施
提問:最近向量數(shù)據(jù)庫很火,能不能先簡單科普一下?
星爵:向量數(shù)據(jù)庫是一種為了高效存儲和索引 AI 模型產(chǎn)生的向量嵌入(embedding)數(shù)據(jù)而專門設(shè)計(jì)的數(shù)據(jù)庫。
在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,數(shù)據(jù)通常以表格的形式存儲,而在向量數(shù)據(jù)庫中,數(shù)據(jù)以向量的形式存儲。向量(embedding)是一組數(shù)值,可以表示一個(gè)點(diǎn)在多維空間中的位置。向量數(shù)據(jù)庫非常擅長處理大量的高維 embedding 數(shù)據(jù),這種數(shù)據(jù)在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用中很常見。
提問:在最近半年里,向量數(shù)據(jù)庫被廣泛應(yīng)用于大模型領(lǐng)域。向量數(shù)據(jù)庫在大模型領(lǐng)域具體有哪些應(yīng)用?
星爵:諸如 GPT、Bard、Claude 和 LLaMA 這樣的大模型可以產(chǎn)生海量向量嵌入數(shù)據(jù)來表達(dá)復(fù)雜的語義關(guān)系,但模型本身的存儲空間有限,無法持久保存這些數(shù)據(jù)。
向量數(shù)據(jù)庫就像一塊外置的記憶塊,可以長期存儲這些數(shù)據(jù),供模型隨時(shí)調(diào)用。向量數(shù)據(jù)庫在 LLM 領(lǐng)域的應(yīng)用主要可以分為以下幾類 :
1、管理私有數(shù)據(jù)和知識庫
開發(fā)者可以方便高效地將自己的領(lǐng)域數(shù)據(jù)集或者私有數(shù)據(jù)集轉(zhuǎn)換成向量格式,讓大模型直接操作,而無需將這些數(shù)據(jù)暴露給模型訓(xùn)練方,有效保護(hù)了數(shù)據(jù)隱私和產(chǎn)權(quán)。
2、為大模型提供實(shí)時(shí)數(shù)據(jù)更新。
通過向量數(shù)據(jù)庫可以為大模型提供實(shí)時(shí)的數(shù)據(jù)更新,解決大模型 " 胡言亂語 " 的問題,而無需頻繁重訓(xùn)模型。這比直接 fine-tune 模型的成本低很多。
3、實(shí)現(xiàn)大模型的個(gè)性化和增強(qiáng)。
開發(fā)者可以在向量數(shù)據(jù)庫中添加上下文和自己的數(shù)據(jù)來擴(kuò)展大模型的感知能力,實(shí)現(xiàn)個(gè)性化應(yīng)用。
4、提供智能體的記憶。
智能體是大模型的一個(gè)新興應(yīng)用場景,用于構(gòu)建具有獨(dú)立智能的虛擬人物、虛擬代理甚至人形機(jī)器人。向量數(shù)據(jù)庫不僅可以幫助智能體記憶其感知的歷史數(shù)據(jù)和上下文,幫其做出智能決策,還能使其根據(jù)長期記憶來實(shí)現(xiàn)自我演進(jìn)。
5、保存大模型的處理結(jié)果。
向量數(shù)據(jù)庫可以持久保存大模型處理過的數(shù)據(jù),進(jìn)行離線分析和挖掘。而不像大模型那樣,用過即棄。比如說,開源項(xiàng)目 GPTCache 可以將大模型的查詢結(jié)果緩存至向量數(shù)據(jù)庫,避免重復(fù)計(jì)算,提高查詢效率,這有點(diǎn)像 CDN 和 Redis 對網(wǎng)站數(shù)據(jù)的作用。
6、構(gòu)建更復(fù)雜的 AI 系統(tǒng)。
在很多場景下,我們需要將多個(gè)大模型和向量數(shù)據(jù)庫串聯(lián),實(shí)現(xiàn)更強(qiáng)大的功能。其中,多個(gè)大模型甚至是多模態(tài)模型共同負(fù)責(zé)處理語義,向量數(shù)據(jù)庫負(fù)責(zé)數(shù)據(jù)流轉(zhuǎn)。
對于大模型應(yīng)用開發(fā)者來說,向量數(shù)據(jù)庫是一個(gè)非常重要的基礎(chǔ)設(shè)施,可以在最大限度發(fā)揮大模型威力的同時(shí)保護(hù)數(shù)據(jù)隱私,實(shí)現(xiàn)更豐富的功能。LLM 和向量數(shù)據(jù)庫共同推動 AIGC 的發(fā)展,二者缺一不可。
全面擁抱大模型
提問:我們了解到,Zilliz Cloud 在兩周前于硅谷發(fā)布了全面的產(chǎn)品更新和升級。這次產(chǎn)品升級背后的動機(jī)是什么?
星爵:我們的出發(fā)點(diǎn)是all-in 大模型應(yīng)用開發(fā)。
在過去的幾年里,我們的開源產(chǎn)品 Milvus 和商業(yè)產(chǎn)品 Zilliz Cloud 被廣泛應(yīng)用于計(jì)算機(jī)視覺、NLP、推薦系統(tǒng)、搜索引擎、自動駕駛和生物制藥等領(lǐng)域。在過去的半年里,向量數(shù)據(jù)庫經(jīng)歷了它的 iPhone 時(shí)刻,數(shù)百萬 LLM 應(yīng)用開發(fā)者涌入,LLM 應(yīng)用開發(fā)成為了向量數(shù)據(jù)庫的殺手級應(yīng)用場景。眾多的 LLM 應(yīng)用開發(fā)者給我們帶來了大量新興的需求,我們決定擁抱這些變化,為 LLM 應(yīng)用開發(fā)提供更全面、更便利的支撐。
提問:能不能具體介紹下 Zilliz Cloud 做了哪些更新和升級?
星爵:首先,引入了對 RESTful API 的全面支持。我們看到新進(jìn)的 LLM 開發(fā)者大多具有豐厚的 Web 應(yīng)用和移動應(yīng)用開發(fā)背景,他們熟悉基于 RESTful API 將多個(gè)服務(wù)的能力串起來打造強(qiáng)大的應(yīng)用。有了 RESTful API,開發(fā)者可以便捷地將「LLM+ 向量數(shù)據(jù)庫 + 提示詞」三者連接起來,打造 LLM 應(yīng)用程序。我們將這種新開發(fā)范式稱為 CVP Stack,能極大提高開發(fā)效率。舉個(gè)例子說,明道云的一位工程師使用 RESTful API 一天就完成了 Zilliz Cloud 和對方平臺的整合。
其次,提供了動態(tài) schema。此前向量數(shù)據(jù)庫采用靜態(tài) schema 的方式,需要開發(fā)者在建表時(shí)根據(jù)業(yè)務(wù)定義數(shù)據(jù)的 schema,這對于大型企業(yè)的成熟業(yè)務(wù)而言是一種常見的處理方式。然而,當(dāng)下 AIGC 應(yīng)用多處于早期快速迭代階段,面向業(yè)務(wù)效果,需要頻繁調(diào)整向量數(shù)據(jù)庫內(nèi)的字段,對于這類需求,反復(fù)重建 schema 結(jié)構(gòu)以及頻繁的數(shù)據(jù)重導(dǎo)入會嚴(yán)重影響產(chǎn)品的迭代速度。為此我們引入了動態(tài) schema,支持用戶根據(jù)開發(fā)需要動態(tài)靈活地進(jìn)行數(shù)據(jù)處理。
再者,新增了 JSON 數(shù)據(jù)類型的支持。JSON 是目前最流行且最靈活的數(shù)據(jù)表示方式之一,被廣泛地應(yīng)用于應(yīng)用程序開發(fā)中。我們將 MongoDB 的基礎(chǔ)能力搬進(jìn)了向量數(shù)據(jù)庫,用戶在 Zilliz Cloud 上可以將 JSON 與 embedding 這兩種超強(qiáng)能力相結(jié)合,實(shí)現(xiàn)基于 JSON 與 embedding 向量的混合數(shù)據(jù)表示和處理。
另外,我們還引入了 Partition Key,支持基于 Partition Key 的高效數(shù)據(jù)過濾;增加了組織和角色的概念,支持基于 Role-Based Access Control(RBAC)的多粒度訪問控制;增加了全面的 LLM 生態(tài)支持,深度整合了 OpenAI、Claude、Cohere、LLaMA、Bard、Dolly、LangChain、LlamaIndex 和 Semantic Kernel 等熱門項(xiàng)目。
提問:我們看到 Zilliz Cloud 之前只提供專有集群一種產(chǎn)品,此次新增了 Serverless 和云上私有部署兩種產(chǎn)品。這背后的原因是什么?
星爵:Zilliz Cloud 面向不同階段的用戶提供多種用戶計(jì)劃。
基于 Serverless 的入門計(jì)劃為每位用戶提供一個(gè)免費(fèi)的 Serverless 實(shí)例,開箱即用,可支持百萬條數(shù)據(jù)規(guī)模的向量檢索,適合個(gè)人開發(fā)者和小型開發(fā)團(tuán)隊(duì)使用。
專有集群產(chǎn)品
面向大型開發(fā)團(tuán)隊(duì)和企業(yè),專注高性能、高可用、高可擴(kuò)展性、智能運(yùn)維和優(yōu)化、數(shù)據(jù)安全以及敏捷技術(shù)支持等企業(yè)級特性,并提供性能型、容量型、經(jīng)濟(jì)型三類實(shí)例類型,滿足企業(yè)不同維度的業(yè)務(wù)需求。
自托管計(jì)劃
允許用戶在其虛擬私有云(VPC)上部署我們的向量數(shù)據(jù)庫服務(wù),提供完全控制,它是注重隱私、數(shù)據(jù)安全和合規(guī)的大型企業(yè)的理想選擇。
通過提供不同形態(tài)的產(chǎn)品,我們希望滿足 LLM 開發(fā)者在不同發(fā)展階段的需要,讓每一個(gè)開發(fā)者、每一個(gè)開發(fā)團(tuán)隊(duì)、每一個(gè)企業(yè)都能方便地使用向量數(shù)據(jù)庫服務(wù),加速實(shí)現(xiàn) AI 數(shù)據(jù)基礎(chǔ)軟件的普及化。
向量數(shù)據(jù)庫市場的競爭和趨勢
提問:今年以來,多家向量數(shù)據(jù)庫初創(chuàng)公司獲得了大額融資,一些大廠也紛紛把向量數(shù)據(jù)庫的研發(fā)列入日程。你怎么看待日益升溫的競爭?
星爵:競爭意味著市場確認(rèn)和機(jī)會。競爭的加劇說明向量數(shù)據(jù)庫的價(jià)值得到了市場的廣泛認(rèn)可,其市場機(jī)會和潛力得以證實(shí)。與此同時(shí),激烈的競爭也在一定程度上推動了技術(shù)的進(jìn)步,這對消費(fèi)者和整個(gè)行業(yè)而言都大有裨益,是一件實(shí)打?qū)嵉暮檬隆?/p>
當(dāng)然,這種競爭環(huán)境迫使公司更加關(guān)注客戶的需求。這意味著我們必須密切關(guān)注市場趨勢,并適應(yīng)這些變化,以提供客戶真正需要的解決方案。我們必須不斷創(chuàng)新和優(yōu)化我們的產(chǎn)品和服務(wù)。這對 LLM 開發(fā)者和整個(gè)行業(yè)來說都是有益的。我相信在一個(gè)健康的生態(tài)系統(tǒng)中,有多個(gè)玩家是至關(guān)重要的。這為開發(fā)者和客戶提供了選擇,也為行業(yè)設(shè)置了標(biāo)準(zhǔn)。
在 Zilliz,我們作為向量數(shù)據(jù)庫行業(yè)的先行者和開拓者,尤其歡迎這種競爭。我們將繼續(xù)致力于推動向量數(shù)據(jù)庫技術(shù)的發(fā)展,并與其他參與者一起,為用戶提供最先進(jìn)的工具和服務(wù)。
提問:剛才你提到了行業(yè)標(biāo)準(zhǔn),在關(guān)系型數(shù)據(jù)庫領(lǐng)域有 TPC-C 和 TPC-H 這樣的 benchmark,向量數(shù)據(jù)庫領(lǐng)域有類似的 benchmark 么?
星爵:目前還沒有標(biāo)準(zhǔn)的 benchmark,這給開發(fā)者和企業(yè)在向量數(shù)據(jù)庫產(chǎn)品對比和選擇時(shí)造成了很多的疑惑和困難。
為此,我們近期開放了一套開源的向量數(shù)據(jù)庫評測工具 VectorDBBench(https://github.com/zilliztech/VectorDBBench)。
該工具包含一套標(biāo)準(zhǔn)化數(shù)據(jù)集,結(jié)合多個(gè)典型場景,覆蓋數(shù)據(jù)插入與索引構(gòu)建、向量查詢、混合查詢、數(shù)據(jù)容量等多個(gè)能力維度,同時(shí)支持用戶自定義的數(shù)據(jù)集與測試場景。
我們歡迎開發(fā)者們參與到這個(gè)開源 benchmark 的開發(fā)和迭代中來,希望 VectorDBBench 能發(fā)展成為像 ClickBench 這樣的行業(yè)標(biāo)準(zhǔn)。
提問:你認(rèn)為向量數(shù)據(jù)庫賽道未來競爭的核心是什么?
星爵:向量數(shù)據(jù)庫作為一款數(shù)據(jù)庫產(chǎn)品," 更大更快更便宜 " 是未來發(fā)展的核心趨勢。更大是指能處理更大的數(shù)據(jù)量,這意味著支持百億條數(shù)據(jù)甚至更高的可擴(kuò)展性;更快是指更高的性能,包括毫秒級的響應(yīng)時(shí)間和高達(dá)數(shù)萬的 QPS;更便宜是指更少的資源消耗更高的性價(jià)比,在相同資源消耗的情況下提供更強(qiáng)大的性能。
我們的 Zilliz Cloud 基于 Milvus 開源項(xiàng)目,這是全球現(xiàn)在唯一一款真正分布式的向量數(shù)據(jù)庫系統(tǒng),能提供數(shù)百億條向量數(shù)據(jù)的毫秒級查詢。得益于 Milvus 的云原生架構(gòu),Zilliz Cloud 高效地實(shí)現(xiàn)了多租戶能力,在相同的實(shí)例配置下,性能遠(yuǎn)超其他競品。舉個(gè)例子說,在基于 VectorDBBench 的評測中,Zilliz Cloud 性能是 Pinecone 的兩倍以上,綜合性價(jià)比超過 Pinecone 三倍以上。
國內(nèi)云產(chǎn)品即將推出
提問:Zilliz Cloud 現(xiàn)在已經(jīng)支持了 AWS 和 GCP,有沒有計(jì)劃支持國內(nèi)云平臺?
星爵:我們計(jì)劃在今年 7 月上旬推出國內(nèi)的云服務(wù)產(chǎn)品,首期預(yù)計(jì)會支持阿里云、百度云、騰訊云和金山云,并將逐步覆蓋國內(nèi)更多的云廠商。Zilliz Cloud 國內(nèi)云產(chǎn)品定價(jià)相比海外產(chǎn)品將會有較大幅度的下調(diào),致力于為國內(nèi)用戶提供最高性價(jià)比的全托管向量數(shù)據(jù)庫服務(wù)。
Zilliz Cloud:
https://zilliz.com/cloud
Milvus:
https://milvus.io
https://github.com/milvus-io/milvus
VectorDBBench:
https://github.com/zilliztech/VectorDBBench
GPTcache:
https://github.com/zilliztech/GPTCache
— 完—
點(diǎn)這里關(guān)注我,記得標(biāo)星哦~
一鍵三連「分享」、「點(diǎn)贊」和「在看」
科技前沿進(jìn)展日日相見 ~
關(guān)鍵詞: