生成式AI大模型在智能對(duì)話、內(nèi)容創(chuàng)作、編程等人機(jī)交互場(chǎng)景中大放異彩,各行業(yè)企業(yè)也在積極構(gòu)建自己的AI模型,以支撐垂直專業(yè)領(lǐng)域的智能化應(yīng)用,提升企業(yè)洞察力,創(chuàng)造業(yè)務(wù)新價(jià)值。
但AI大模型不具備長(zhǎng)期記憶能力,在服務(wù)垂直專業(yè)領(lǐng)域時(shí)會(huì)存在知識(shí)深度和記憶時(shí)效性不足的問(wèn)題,企業(yè)構(gòu)建屬于自己的大模型面臨挑戰(zhàn)。
基于此現(xiàn)狀,柏睿數(shù)據(jù)推出LLMOps平臺(tái)、向量存儲(chǔ)查詢引擎兩種產(chǎn)品方案,助力企業(yè)高效、簡(jiǎn)單地構(gòu)建和應(yīng)用完美適配業(yè)務(wù)場(chǎng)景的AI大模型。企業(yè)不僅能夠通過(guò)柏睿LLMOps平臺(tái)在大模型上做垂直領(lǐng)域的模型微調(diào),還可通過(guò)向量存儲(chǔ)查詢引擎,基于企業(yè)的自有知識(shí)資產(chǎn)構(gòu)建本地知識(shí)問(wèn)答服務(wù),使得服務(wù)更加專業(yè)、實(shí)時(shí)且智慧。
柏睿LLMOps: 高效微調(diào)大模型
LLMOps本質(zhì)是人工智能研發(fā)運(yùn)營(yíng)體系(MLOps)的子類別。柏睿數(shù)據(jù)智能平臺(tái)Rapids AI 是一個(gè)以數(shù)據(jù)為中心、以MLOps為方法論的機(jī)器學(xué)習(xí)平臺(tái),致力于解決 AI 生產(chǎn)過(guò)程中團(tuán)隊(duì)協(xié)作難、管理亂、交付周期長(zhǎng)等問(wèn)題,最終實(shí)現(xiàn)高質(zhì)量、高效率、可持續(xù)的 AI 生產(chǎn)過(guò)程。
在大模型時(shí)代,柏睿數(shù)據(jù)在基于Rapids AI的已有MLOps生態(tài)鏈中補(bǔ)充LLMOps的能力,更加關(guān)注大語(yǔ)言模型的構(gòu)建和運(yùn)行,其能力特點(diǎn)包括:
訓(xùn)練微調(diào)模型能力。通過(guò)柏睿LLMOps平臺(tái),通過(guò)柏睿LLMOps提供的優(yōu)化的基礎(chǔ)架構(gòu)、資源管理能力和精簡(jiǎn)的開(kāi)發(fā)流程,企業(yè)能夠在本地訓(xùn)練和微調(diào)大模型,確保在模型訓(xùn)練、迭代和部署過(guò)程中提高效率和控制能力,從而充分利用大模型實(shí)現(xiàn)人工智能賦能業(yè)務(wù)場(chǎng)景的變革能力。
可視化編排能力。柏睿LLMOps平臺(tái)的可視化工作流編排能力,使數(shù)據(jù)科學(xué)家和研究人員能夠結(jié)合大模型及其他應(yīng)用,通過(guò)prompt工程,快速構(gòu)建工作鏈,充分發(fā)揮大模型的全部潛力,實(shí)現(xiàn)敏捷交付。
資產(chǎn)管理能力。與傳統(tǒng)MLOps類似,LLMOps也具有數(shù)據(jù)、模型、代碼的統(tǒng)一管理和運(yùn)維能力。對(duì)資產(chǎn)的版本和質(zhì)量進(jìn)行持續(xù)監(jiān)控和高效統(tǒng)一管理,并加以風(fēng)險(xiǎn)防控和安全管理等手段,從而實(shí)現(xiàn)有效治理。
應(yīng)用運(yùn)維能力。通過(guò)可視化的方式編寫Prompt并調(diào)試,并自動(dòng)接入上下文或數(shù)據(jù)集,只需幾分鐘即可發(fā)布AI應(yīng)用。同時(shí)提供模型API服務(wù),助力企業(yè)快速將大模型的能力集成到業(yè)務(wù)場(chǎng)景應(yīng)用中,而無(wú)需關(guān)注復(fù)雜的后端架構(gòu)和部署過(guò)程。
通過(guò)柏睿LLMOps平臺(tái),企業(yè)可以簡(jiǎn)化LLM支持應(yīng)用程序的開(kāi)發(fā)、部署和維護(hù)過(guò)程,更高效地部署好用、可靠、精準(zhǔn)地AI大模型,加速釋放大語(yǔ)言模型(LLM)在垂直應(yīng)用場(chǎng)景中的全部潛力。
柏睿向量存儲(chǔ)查詢引擎:強(qiáng)化LLM記憶的“海馬體”
但 LLM 更像是容易失憶的大腦,需要海馬體來(lái)強(qiáng)化記憶,向量數(shù)據(jù)庫(kù)就是支撐LLM長(zhǎng)期記憶的“海馬體”:基于向量數(shù)據(jù)庫(kù),一方面,LLM 通過(guò)瀏覽專用數(shù)據(jù)與知識(shí)使回答更精準(zhǔn);另一方面,LLM 能回憶自己過(guò)往的知識(shí)和經(jīng)驗(yàn),通過(guò)“反思”為用戶提供更個(gè)性化的服務(wù)。
向量數(shù)據(jù)庫(kù)作為一種能夠存儲(chǔ)和處理圖片、文字、語(yǔ)音等多種數(shù)據(jù)類型的系統(tǒng),通過(guò)embedding加工使LLM接觸和學(xué)習(xí)的數(shù)據(jù)向量化,能夠有效地支持多模態(tài)數(shù)據(jù)的存儲(chǔ)、索引和查詢。向量搜索通過(guò)與向量數(shù)據(jù)庫(kù)中存儲(chǔ)的海量向量進(jìn)行相似度匹配,找到最符合要求的k個(gè)記錄,此過(guò)程可以助力LLM實(shí)現(xiàn)相似文本搜索、文本推薦系統(tǒng)、問(wèn)題回答和知識(shí)檢索等功能。
柏睿數(shù)據(jù)作為一家深耕“Data + AI”技術(shù)的公司,一直致力于將AI的能力與數(shù)據(jù)庫(kù)結(jié)合,面向AI大模型時(shí)代推出向量存儲(chǔ)查詢引擎,支持?jǐn)?shù)據(jù)的向量化存儲(chǔ)和向量索引。柏睿數(shù)據(jù)RapidsDB的數(shù)據(jù)聯(lián)邦機(jī)制能夠支持結(jié)構(gòu)化數(shù)據(jù)和向量數(shù)據(jù)的存儲(chǔ)與查詢,且采用全內(nèi)存分布式架構(gòu)和大規(guī)模并行計(jì)算引擎,具備高性能、高可用、彈性擴(kuò)展等特點(diǎn),切實(shí)解決企業(yè)對(duì)向量的快速檢索需求。
基于柏睿數(shù)據(jù)的大模型訓(xùn)練運(yùn)維管理生產(chǎn)線 LLMOps及向量存儲(chǔ)查詢引擎,結(jié)合特定行業(yè)或應(yīng)用的場(chǎng)景,企業(yè)可獲得匹配自身垂直領(lǐng)域的智能化能力。
LLM+RapidsDB:人人都是數(shù)據(jù)分析師
通過(guò)在具有完全知識(shí)產(chǎn)權(quán)的全內(nèi)存分布式數(shù)據(jù)庫(kù)RapidsDB中引入LLM,柏睿數(shù)據(jù)推出了具有自然語(yǔ)言接口的分析型數(shù)據(jù)庫(kù)。用戶通過(guò)自然語(yǔ)言提問(wèn),可以從RapidsDB的多張數(shù)據(jù)表中快速查詢結(jié)果并返回相應(yīng)分析報(bào)告,進(jìn)一步降低數(shù)據(jù)庫(kù)的使用門檻,真正實(shí)現(xiàn)“人人都是數(shù)據(jù)分析師”。
通常,自然語(yǔ)言轉(zhuǎn)SQL是將數(shù)據(jù)庫(kù)中所有表的schema傳遞給大模型,大模型會(huì)根據(jù)提問(wèn)和schema信息生成相應(yīng)的SQL。但是,如果數(shù)據(jù)庫(kù)中存在大量的數(shù)據(jù)表,則會(huì)導(dǎo)致傳遞給數(shù)據(jù)的schema信息超出token的限制,從而無(wú)法完成自然語(yǔ)言轉(zhuǎn)SQL的任務(wù)。
針對(duì)該問(wèn)題,柏睿數(shù)據(jù)首先將數(shù)據(jù)庫(kù)中的schema通過(guò)embedding轉(zhuǎn)為向量,并存放于向量數(shù)據(jù)庫(kù);再計(jì)算問(wèn)題和schema 向量的相似度,選擇與問(wèn)題匹配的表信息,將篩選后的schema傳遞給大模型,從而大大減少了單次prompt的token消耗。這樣一方面解決了數(shù)據(jù)表過(guò)多無(wú)法生成SQL的問(wèn)題,一方面減少了token數(shù),降低大模型的使用成本。
同時(shí),為讓大模型生成更準(zhǔn)確的SQL,柏睿數(shù)據(jù)也在本地利用LLMOps對(duì)大模型進(jìn)行微調(diào),強(qiáng)化大模型對(duì)中文的理解和輸出,并通過(guò)SQL語(yǔ)料的微調(diào),提高SQL生成的準(zhǔn)確率。
行業(yè)大模型應(yīng)用:物聯(lián)網(wǎng)下的智慧工廠
在工廠設(shè)備全生命周期管理中,各個(gè)環(huán)節(jié)都會(huì)采集、匯聚海量結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)、實(shí)時(shí)流數(shù)據(jù)和歷史數(shù)據(jù)等多種類型的數(shù)據(jù),并需要從這些海量數(shù)據(jù)中高效、實(shí)時(shí)地獲取能夠?yàn)闃I(yè)務(wù)人員所用的有效信息。
柏睿數(shù)據(jù)智慧工廠解決方案通過(guò)將大語(yǔ)言模型與物聯(lián)網(wǎng)技術(shù)相結(jié)合,賦能工廠智能運(yùn)維場(chǎng)景,重塑數(shù)據(jù)追蹤和分析流程,助力工業(yè)企業(yè)獲得更深入的洞察和智能決策,提高生產(chǎn)質(zhì)效、降低成本。
首先,采集工廠設(shè)備大數(shù)據(jù),包括建立設(shè)備靜態(tài)、動(dòng)態(tài)統(tǒng)一的數(shù)據(jù)庫(kù)以及設(shè)備管理全業(yè)務(wù)環(huán)節(jié)的日常業(yè)務(wù)數(shù)據(jù)庫(kù)。
其次,建立“引發(fā)工況的可能問(wèn)題”的樣例庫(kù)。分析不同類型設(shè)備出現(xiàn)的不同故障表現(xiàn)及原因并采取適當(dāng)行為解決該故障,由此形成故障體系。
再次,通過(guò)建立專家知識(shí)庫(kù)配置平臺(tái),將行業(yè)專家的知識(shí)整理后錄入知識(shí)庫(kù),作為工廠故障診斷分析、優(yōu)化運(yùn)行的指導(dǎo)依據(jù)。
最終,一方面將知識(shí)庫(kù)的內(nèi)容向量化存儲(chǔ)到向量數(shù)據(jù)庫(kù)中,與LLM結(jié)合,輸出應(yīng)對(duì)故障和優(yōu)化問(wèn)題的、基于經(jīng)驗(yàn)的回答;另一方面,使用積累的數(shù)據(jù)對(duì)LLM進(jìn)行微調(diào),使得系統(tǒng)在每次處理和分析數(shù)據(jù)的過(guò)程中都能夠通過(guò)持續(xù)的數(shù)據(jù)庫(kù)運(yùn)算進(jìn)行“學(xué)習(xí)”。
由此,大數(shù)據(jù)平臺(tái)從工廠運(yùn)營(yíng)的經(jīng)驗(yàn)中收集新的故障檢修信息,通過(guò)自動(dòng)學(xué)習(xí)架構(gòu)捕捉獲得的經(jīng)驗(yàn)進(jìn)行編譯后,再提供給所有使用者。
未來(lái),柏睿數(shù)據(jù)將持續(xù)發(fā)力“Data + AI”的前沿技術(shù)與應(yīng)用,與客戶、伙伴攜手同行,助力AI大模型深入關(guān)鍵行業(yè)的垂直場(chǎng)景,共同構(gòu)筑數(shù)字化全域能力,共同推動(dòng)產(chǎn)業(yè)數(shù)智化發(fā)展,共同建設(shè)智能美好未來(lái)!