一個在 GitHub 上標星超 2 萬的數據庫,究竟是什么來頭?
原來,這正是最近大火的向量數據庫之一、首個在這一賽道開源產品Milvus。
自大模型爆火以來,它的關注度也一路飆升,官方顯示,目前 Milvus 已經擁有超過 1000+ 企業用戶。
【資料圖】
Zilliz 專注于研發面向 AI 應用的向量數據庫系統,旗下有 Milvus、Zilliz Cloud 等產品,目的是為開發者提供易用性強、性價比高的向量數據庫服務。
這兩天,Zilliz Cloud發布 2.0 重磅更新,更是帶起一波業界對向量數據庫的討論熱潮。
大模型技術進展日新月異,向量數據在風口浪尖上也起起伏伏,不少人說它是給 AI 提供長期記憶的必備基建,也有人認為提高大模型上下文長度才是未來方向。
這不,還有谷歌工程師專門為此擺攤舌戰群儒。
眾說紛紜之下,情況究竟如何?不如來聽聽向量數據庫一線從業者怎么說。我們聯系到了 Zilliz 創始人兼 CEO星爵,希望和他聊一聊向量數據庫對于這一輪 AI 浪潮的意義,以及它背后變革的方式。
星爵認為,大模型的出現給 AI 帶來了新的計算范式CVP Stack,向量數據庫是不可或缺的關鍵:
其中,"C" 代表大模型(ChatGPT)負責向量計算;"V" 代表向量數據庫(vector database),負責向量存儲;"P" 代表 Prompt 工程,負責向量交互。
不僅如此,他還系統解答了在大模型發展過程中,向量數據庫具體起到的作用,以及作為向量數據庫頭部公司的 Zilliz,又要如何應對這一輪 AI 變革浪潮。在不更改原意的基礎上,量子位對與星爵的交流內容進行了整理,希望能為大家帶來一些思考與啟發。
大模型的數據基礎設施
提問:最近向量數據庫很火,能不能先簡單科普一下?
星爵:向量數據庫是一種為了高效存儲和索引 AI 模型產生的向量嵌入(embedding)數據而專門設計的數據庫。
在傳統的關系型數據庫中,數據通常以表格的形式存儲,而在向量數據庫中,數據以向量的形式存儲。向量(embedding)是一組數值,可以表示一個點在多維空間中的位置。向量數據庫非常擅長處理大量的高維 embedding 數據,這種數據在機器學習和深度學習應用中很常見。
提問:在最近半年里,向量數據庫被廣泛應用于大模型領域。向量數據庫在大模型領域具體有哪些應用?
星爵:諸如 GPT、Bard、Claude 和 LLaMA 這樣的大模型可以產生海量向量嵌入數據來表達復雜的語義關系,但模型本身的存儲空間有限,無法持久保存這些數據。
向量數據庫就像一塊外置的記憶塊,可以長期存儲這些數據,供模型隨時調用。向量數據庫在 LLM 領域的應用主要可以分為以下幾類 :
1、管理私有數據和知識庫
開發者可以方便高效地將自己的領域數據集或者私有數據集轉換成向量格式,讓大模型直接操作,而無需將這些數據暴露給模型訓練方,有效保護了數據隱私和產權。
2、為大模型提供實時數據更新。
通過向量數據庫可以為大模型提供實時的數據更新,解決大模型 " 胡言亂語 " 的問題,而無需頻繁重訓模型。這比直接 fine-tune 模型的成本低很多。
3、實現大模型的個性化和增強。
開發者可以在向量數據庫中添加上下文和自己的數據來擴展大模型的感知能力,實現個性化應用。
4、提供智能體的記憶。
智能體是大模型的一個新興應用場景,用于構建具有獨立智能的虛擬人物、虛擬代理甚至人形機器人。向量數據庫不僅可以幫助智能體記憶其感知的歷史數據和上下文,幫其做出智能決策,還能使其根據長期記憶來實現自我演進。
5、保存大模型的處理結果。
向量數據庫可以持久保存大模型處理過的數據,進行離線分析和挖掘。而不像大模型那樣,用過即棄。比如說,開源項目 GPTCache 可以將大模型的查詢結果緩存至向量數據庫,避免重復計算,提高查詢效率,這有點像 CDN 和 Redis 對網站數據的作用。
6、構建更復雜的 AI 系統。
在很多場景下,我們需要將多個大模型和向量數據庫串聯,實現更強大的功能。其中,多個大模型甚至是多模態模型共同負責處理語義,向量數據庫負責數據流轉。
對于大模型應用開發者來說,向量數據庫是一個非常重要的基礎設施,可以在最大限度發揮大模型威力的同時保護數據隱私,實現更豐富的功能。LLM 和向量數據庫共同推動 AIGC 的發展,二者缺一不可。
全面擁抱大模型
提問:我們了解到,Zilliz Cloud 在兩周前于硅谷發布了全面的產品更新和升級。這次產品升級背后的動機是什么?
星爵:我們的出發點是all-in 大模型應用開發。
在過去的幾年里,我們的開源產品 Milvus 和商業產品 Zilliz Cloud 被廣泛應用于計算機視覺、NLP、推薦系統、搜索引擎、自動駕駛和生物制藥等領域。在過去的半年里,向量數據庫經歷了它的 iPhone 時刻,數百萬 LLM 應用開發者涌入,LLM 應用開發成為了向量數據庫的殺手級應用場景。眾多的 LLM 應用開發者給我們帶來了大量新興的需求,我們決定擁抱這些變化,為 LLM 應用開發提供更全面、更便利的支撐。
提問:能不能具體介紹下 Zilliz Cloud 做了哪些更新和升級?
星爵:首先,引入了對 RESTful API 的全面支持。我們看到新進的 LLM 開發者大多具有豐厚的 Web 應用和移動應用開發背景,他們熟悉基于 RESTful API 將多個服務的能力串起來打造強大的應用。有了 RESTful API,開發者可以便捷地將「LLM+ 向量數據庫 + 提示詞」三者連接起來,打造 LLM 應用程序。我們將這種新開發范式稱為 CVP Stack,能極大提高開發效率。舉個例子說,明道云的一位工程師使用 RESTful API 一天就完成了 Zilliz Cloud 和對方平臺的整合。
其次,提供了動態 schema。此前向量數據庫采用靜態 schema 的方式,需要開發者在建表時根據業務定義數據的 schema,這對于大型企業的成熟業務而言是一種常見的處理方式。然而,當下 AIGC 應用多處于早期快速迭代階段,面向業務效果,需要頻繁調整向量數據庫內的字段,對于這類需求,反復重建 schema 結構以及頻繁的數據重導入會嚴重影響產品的迭代速度。為此我們引入了動態 schema,支持用戶根據開發需要動態靈活地進行數據處理。
再者,新增了 JSON 數據類型的支持。JSON 是目前最流行且最靈活的數據表示方式之一,被廣泛地應用于應用程序開發中。我們將 MongoDB 的基礎能力搬進了向量數據庫,用戶在 Zilliz Cloud 上可以將 JSON 與 embedding 這兩種超強能力相結合,實現基于 JSON 與 embedding 向量的混合數據表示和處理。
另外,我們還引入了 Partition Key,支持基于 Partition Key 的高效數據過濾;增加了組織和角色的概念,支持基于 Role-Based Access Control(RBAC)的多粒度訪問控制;增加了全面的 LLM 生態支持,深度整合了 OpenAI、Claude、Cohere、LLaMA、Bard、Dolly、LangChain、LlamaIndex 和 Semantic Kernel 等熱門項目。
提問:我們看到 Zilliz Cloud 之前只提供專有集群一種產品,此次新增了 Serverless 和云上私有部署兩種產品。這背后的原因是什么?
星爵:Zilliz Cloud 面向不同階段的用戶提供多種用戶計劃。
基于 Serverless 的入門計劃為每位用戶提供一個免費的 Serverless 實例,開箱即用,可支持百萬條數據規模的向量檢索,適合個人開發者和小型開發團隊使用。
專有集群產品
面向大型開發團隊和企業,專注高性能、高可用、高可擴展性、智能運維和優化、數據安全以及敏捷技術支持等企業級特性,并提供性能型、容量型、經濟型三類實例類型,滿足企業不同維度的業務需求。
自托管計劃
允許用戶在其虛擬私有云(VPC)上部署我們的向量數據庫服務,提供完全控制,它是注重隱私、數據安全和合規的大型企業的理想選擇。
通過提供不同形態的產品,我們希望滿足 LLM 開發者在不同發展階段的需要,讓每一個開發者、每一個開發團隊、每一個企業都能方便地使用向量數據庫服務,加速實現 AI 數據基礎軟件的普及化。
向量數據庫市場的競爭和趨勢
提問:今年以來,多家向量數據庫初創公司獲得了大額融資,一些大廠也紛紛把向量數據庫的研發列入日程。你怎么看待日益升溫的競爭?
星爵:競爭意味著市場確認和機會。競爭的加劇說明向量數據庫的價值得到了市場的廣泛認可,其市場機會和潛力得以證實。與此同時,激烈的競爭也在一定程度上推動了技術的進步,這對消費者和整個行業而言都大有裨益,是一件實打實的好事。
當然,這種競爭環境迫使公司更加關注客戶的需求。這意味著我們必須密切關注市場趨勢,并適應這些變化,以提供客戶真正需要的解決方案。我們必須不斷創新和優化我們的產品和服務。這對 LLM 開發者和整個行業來說都是有益的。我相信在一個健康的生態系統中,有多個玩家是至關重要的。這為開發者和客戶提供了選擇,也為行業設置了標準。
在 Zilliz,我們作為向量數據庫行業的先行者和開拓者,尤其歡迎這種競爭。我們將繼續致力于推動向量數據庫技術的發展,并與其他參與者一起,為用戶提供最先進的工具和服務。
提問:剛才你提到了行業標準,在關系型數據庫領域有 TPC-C 和 TPC-H 這樣的 benchmark,向量數據庫領域有類似的 benchmark 么?
星爵:目前還沒有標準的 benchmark,這給開發者和企業在向量數據庫產品對比和選擇時造成了很多的疑惑和困難。
為此,我們近期開放了一套開源的向量數據庫評測工具 VectorDBBench(https://github.com/zilliztech/VectorDBBench)。
該工具包含一套標準化數據集,結合多個典型場景,覆蓋數據插入與索引構建、向量查詢、混合查詢、數據容量等多個能力維度,同時支持用戶自定義的數據集與測試場景。
我們歡迎開發者們參與到這個開源 benchmark 的開發和迭代中來,希望 VectorDBBench 能發展成為像 ClickBench 這樣的行業標準。
提問:你認為向量數據庫賽道未來競爭的核心是什么?
星爵:向量數據庫作為一款數據庫產品," 更大更快更便宜 " 是未來發展的核心趨勢。更大是指能處理更大的數據量,這意味著支持百億條數據甚至更高的可擴展性;更快是指更高的性能,包括毫秒級的響應時間和高達數萬的 QPS;更便宜是指更少的資源消耗更高的性價比,在相同資源消耗的情況下提供更強大的性能。
我們的 Zilliz Cloud 基于 Milvus 開源項目,這是全球現在唯一一款真正分布式的向量數據庫系統,能提供數百億條向量數據的毫秒級查詢。得益于 Milvus 的云原生架構,Zilliz Cloud 高效地實現了多租戶能力,在相同的實例配置下,性能遠超其他競品。舉個例子說,在基于 VectorDBBench 的評測中,Zilliz Cloud 性能是 Pinecone 的兩倍以上,綜合性價比超過 Pinecone 三倍以上。
國內云產品即將推出
提問:Zilliz Cloud 現在已經支持了 AWS 和 GCP,有沒有計劃支持國內云平臺?
星爵:我們計劃在今年 7 月上旬推出國內的云服務產品,首期預計會支持阿里云、百度云、騰訊云和金山云,并將逐步覆蓋國內更多的云廠商。Zilliz Cloud 國內云產品定價相比海外產品將會有較大幅度的下調,致力于為國內用戶提供最高性價比的全托管向量數據庫服務。
Zilliz Cloud:
https://zilliz.com/cloud
Milvus:
https://milvus.io
https://github.com/milvus-io/milvus
VectorDBBench:
https://github.com/zilliztech/VectorDBBench
GPTcache:
https://github.com/zilliztech/GPTCache
— 完—
點這里關注我,記得標星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
關鍵詞: