為促進(jìn)金融企業(yè)數(shù)據(jù)管理和數(shù)據(jù)平臺(tái)智能化轉(zhuǎn)型,金科創(chuàng)新社主辦了“鑫智獎(jiǎng)·第七屆金融數(shù)據(jù)智能優(yōu)秀解決方案評(píng)選”活動(dòng)。其中,乘云數(shù)字DataBuff平臺(tái)斬獲 “專家推薦TOP10優(yōu)秀解決方案” 獎(jiǎng)項(xiàng),彰顯了乘云數(shù)字在金融科技領(lǐng)域的創(chuàng)新實(shí)力。
圖:鑫智獎(jiǎng)-專家推薦TOP10優(yōu)秀解決方案
“鑫智獎(jiǎng)”作為金融數(shù)據(jù)智能領(lǐng)域的重要獎(jiǎng)項(xiàng),已連續(xù)舉辦七屆,致力于挖掘并推廣金融科技與數(shù)據(jù)智能深度融合的優(yōu)秀成果,彰顯數(shù)據(jù)智能在金融場(chǎng)景中的落地成效和未來潛力。2025年評(píng)選活動(dòng)共計(jì)收到來自70家企業(yè)的99個(gè)方案參評(píng),經(jīng)過27位專家評(píng)審與答辯打分,評(píng)選出專家推薦TOP10優(yōu)秀解決方案。乘云數(shù)字此次獲獎(jiǎng)的“專家推薦TOP10優(yōu)秀解決方案”,圍繞國內(nèi)銀行新一代核心系統(tǒng)的復(fù)雜性面臨的全新運(yùn)行穩(wěn)定性挑戰(zhàn),在快速的發(fā)現(xiàn)問題、定位問題、處理問題及大模型新技術(shù)的應(yīng)用等方面展現(xiàn)出專業(yè)、系統(tǒng)的技術(shù)優(yōu)勢(shì),獲得專家組高度認(rèn)可。
“通過DataBuff平臺(tái),實(shí)現(xiàn)全棧監(jiān)控與診斷。利用預(yù)測(cè)性AI和因果性AI技術(shù),提前發(fā)現(xiàn)異常并精準(zhǔn)定位故障,大幅降低故障率和處理時(shí)間。同時(shí),自研存儲(chǔ)引擎有效降低成本并提升性能,助力降本增效。”
——吉林銀行首席信息官鄒幫山
“在數(shù)字化轉(zhuǎn)型的推動(dòng)下,銀行等金融機(jī)構(gòu)紛紛轉(zhuǎn)向微服務(wù)、云原生技術(shù)體系,新一代核心系統(tǒng)面臨系統(tǒng)交易鏈路復(fù)雜、業(yè)務(wù)連續(xù)性保障壓力大、運(yùn)維數(shù)據(jù)存儲(chǔ)成本高等痛點(diǎn)。該方案融合因果性AI和生成式AI的預(yù)測(cè)和定位能力,提升故障定位的準(zhǔn)確率和覆蓋度;通過完全自研的時(shí)序與鏈路數(shù)據(jù)存儲(chǔ)引擎,實(shí)現(xiàn)降本提效。有效解決基于云原生技術(shù)平臺(tái)監(jiān)控運(yùn)維工作中的痛點(diǎn)。”
——國新國證基金首席信息官趙天智
一、解決方案概要
銀行新一代核心的復(fù)雜性帶來了全新的運(yùn)行穩(wěn)定性挑戰(zhàn),傳統(tǒng)監(jiān)控技術(shù)面臨嚴(yán)重瓶頸。DataBuff一體化觀測(cè)平臺(tái),通過創(chuàng)新的方式將“業(yè)務(wù)觀測(cè)”、“因果AI”、“生成式AI” 三大領(lǐng)先技術(shù)深度融合,幫助銀行全面解決新一代核心系統(tǒng)的運(yùn)行穩(wěn)定性問題。該平臺(tái)能夠深度感知新一代核心的業(yè)務(wù)運(yùn)行狀態(tài),全面梳理消費(fèi)者的業(yè)務(wù)旅程,構(gòu)建“以業(yè)務(wù)為中心”的新一代監(jiān)控管理體系,提供端到端的交易級(jí)鏈路追蹤能力,快速發(fā)現(xiàn)問題、定位問題、處理問題,實(shí)現(xiàn)故障定位的一鍵直達(dá)。
二、銀行新核心的特點(diǎn)和運(yùn)維難點(diǎn)
隨著新一代核心在銀行業(yè)的廣泛普及,業(yè)務(wù)系統(tǒng)的技術(shù)架構(gòu)正在經(jīng)歷著新舊交替。IT 系統(tǒng)在系統(tǒng)架構(gòu)、開發(fā)方式、部署方式、運(yùn)行環(huán)境等方面經(jīng)歷了多次技術(shù)變革。系統(tǒng)架構(gòu)方面,經(jīng)歷了從整體式、分層式、分布式到云原生的變化;開發(fā)方式方面,經(jīng)歷了從瀑布模式、螺旋模式、敏捷模式到DevOps 的變遷;部署方式方面,由物理機(jī)、虛擬機(jī)、容器化到 Serverless;運(yùn)行環(huán)境方面,由自建機(jī)房、托管機(jī)房、私有云、公共云到混合云。新核心系統(tǒng)要應(yīng)對(duì)高并發(fā)交易處理的壓力,任何微小的故障都可能引發(fā)連鎖反應(yīng),導(dǎo)致業(yè)務(wù)中斷、客戶流失,甚至損害銀行的聲譽(yù)。
新一代核心系統(tǒng)具備業(yè)務(wù)高并發(fā)處理、系統(tǒng)彈性部署、IT自主可控等特點(diǎn),這也為運(yùn)維部門帶來了新的挑戰(zhàn)。為保障該系統(tǒng)的穩(wěn)定運(yùn)行,需要滿足極高的技術(shù)要求,具體表現(xiàn)在以下幾個(gè)方面:
新核心系統(tǒng)交易鏈路復(fù)雜
經(jīng)過微服務(wù)化的新核心系統(tǒng)服務(wù)調(diào)用鏈復(fù)雜,跨節(jié)點(diǎn)、跨集群?jiǎn)栴}難以追蹤,故障排查依賴人工“逐層猜斷”。 如信貸申請(qǐng)和審批業(yè)務(wù)流程復(fù)雜,會(huì)涉及多個(gè)服務(wù)協(xié)作,服務(wù)間通信頻繁,故障排查具有很大難度。
業(yè)務(wù)連續(xù)性保障壓力大
7×24小時(shí)在線服務(wù)要求故障分鐘級(jí)響應(yīng)。支付系統(tǒng)要求高可用性和低延遲,在高并發(fā)情況下可能面臨資源爭(zhēng)奪和響應(yīng)時(shí)間延長等問題。
機(jī)器數(shù)據(jù)存儲(chǔ)成本高、價(jià)值密度低
云原生場(chǎng)景下,日志、指標(biāo)、鏈路等機(jī)器數(shù)據(jù)量大且分散,缺乏關(guān)聯(lián)分析,無法快速支撐核心業(yè)務(wù)問題優(yōu)化決策。運(yùn)維數(shù)據(jù)噪音大,有效告警識(shí)別率低。
目前銀行迫切需要一套擁有創(chuàng)新技術(shù)和獨(dú)特優(yōu)勢(shì)的解決方案,方案須具備對(duì)新核心系統(tǒng)全維度的觀測(cè)、智能化的診斷和多平臺(tái)協(xié)同的能力,能夠滿足銀行的新核心系統(tǒng)監(jiān)控管理需求。銀行迫切需要實(shí)現(xiàn)從“被動(dòng)應(yīng)對(duì)”到“主動(dòng)預(yù)防”的轉(zhuǎn)變,從而更高效地推動(dòng)業(yè)務(wù)發(fā)展,滿足未來更復(fù)雜的運(yùn)營需求。
三、解決方案介紹
乘云數(shù)字 DataBuff 是一款業(yè)界領(lǐng)先的可觀測(cè)性技術(shù)平臺(tái),采用業(yè)界最新水平的設(shè)計(jì)理念,只需在主機(jī)上安裝一個(gè)Agent,即可實(shí)現(xiàn)所有軟件堆棧的監(jiān)控與診斷。其核心優(yōu)勢(shì)在于自動(dòng)化和智能化,能夠?qū)崟r(shí)監(jiān)控并分析復(fù)雜應(yīng)用環(huán)境中的性能問題,快速定位故障根因。
部署架構(gòu)主要包括:
OneAgent 一體化探針:自動(dòng)部署在每臺(tái)主機(jī)上,負(fù)責(zé)數(shù)據(jù)采集和傳輸;
DataHub 遙測(cè)數(shù)據(jù)管道:開放接入外部各種類型的監(jiān)控工具,各種類型的監(jiān)控?cái)?shù)據(jù),實(shí)現(xiàn)遙測(cè)數(shù)據(jù)的可視化編排治理;
OneCenter 一體化平臺(tái):云端或本地部署,負(fù)責(zé)數(shù)據(jù)處理、存儲(chǔ)和分析。
圖:解決方案整體能力架構(gòu)
DataBuff 新核心業(yè)務(wù)觀測(cè)與故障定位解決方案主要包括三個(gè)方面的功能:基于業(yè)務(wù)觀測(cè)的用戶旅程分析、基于因果AI的故障定位能力、基于生成式AI的運(yùn)維自動(dòng)化能力,以下展開詳細(xì)說明:
3.1.基于業(yè)務(wù)觀測(cè)的用戶旅程分析
業(yè)務(wù)觀測(cè)(Business Observability):面向銀行核心交易系統(tǒng)的業(yè)務(wù)級(jí)、用戶級(jí)旅程分析,通過整合技術(shù)性能數(shù)據(jù)與業(yè)務(wù)指標(biāo),幫助銀行實(shí)現(xiàn)從“代碼級(jí)故障定位” 到 “業(yè)務(wù)級(jí)影響評(píng)估” 的全鏈路洞察。其核心價(jià)值在于將系統(tǒng)可用性、交易效率等IT指標(biāo)與客戶體驗(yàn)、營收轉(zhuǎn)化等業(yè)務(wù)目標(biāo)深度關(guān)聯(lián),為技術(shù)運(yùn)維與業(yè)務(wù)決策提供統(tǒng)一數(shù)據(jù)支撐。
圖:業(yè)務(wù)地圖
可觀測(cè)性能力建設(shè)的一個(gè)關(guān)鍵性效益就是對(duì)業(yè)務(wù)支撐能力的提升。重點(diǎn)關(guān)注業(yè)務(wù)指標(biāo)的提升是為保證企業(yè)在市場(chǎng)競(jìng)爭(zhēng)中的領(lǐng)先地位,確??蛻魸M意度和市場(chǎng)份額的增長,以及推動(dòng)持續(xù)的業(yè)務(wù)改進(jìn)和創(chuàng)新。領(lǐng)導(dǎo)者通過關(guān)注這些關(guān)鍵指標(biāo),能夠有效地制定戰(zhàn)略方向、作出數(shù)據(jù)驅(qū)動(dòng)的決策,并激勵(lì)團(tuán)隊(duì)實(shí)現(xiàn)共同的業(yè)務(wù)目標(biāo),從而確保企業(yè)的長期成功和可持續(xù)發(fā)展。在銀行核心交易系統(tǒng)場(chǎng)景中,業(yè)務(wù)觀測(cè)的主要功能包括:
1)業(yè)務(wù)KPI指標(biāo)監(jiān)控,動(dòng)態(tài)追蹤核心交易指標(biāo)(如每秒交易量、成功率、響應(yīng)時(shí)間),通過可視化儀表盤實(shí)時(shí)監(jiān)控支付、清算等關(guān)鍵業(yè)務(wù)流狀態(tài),異常時(shí)觸發(fā)告警(如交易量驟降50%),保障高并發(fā)場(chǎng)景下的業(yè)務(wù)連續(xù)性。
2)端到端交易鏈路透視,基于代碼級(jí)全鏈路追蹤,還原跨系統(tǒng)交易路徑(如客戶發(fā)起轉(zhuǎn)賬→風(fēng)控校驗(yàn)→核心記賬→清算系統(tǒng)),精準(zhǔn)定位業(yè)務(wù)瓶頸(如風(fēng)控規(guī)則引擎延遲或數(shù)據(jù)庫鎖爭(zhēng)用),加速故障修復(fù),避免交易積壓。
3)轉(zhuǎn)化率漏斗分析,分析業(yè)務(wù)流程中用戶轉(zhuǎn)化漏斗(如開戶、貸款申請(qǐng)),識(shí)別關(guān)鍵環(huán)節(jié)流失原因。定位業(yè)務(wù)流程中的流失點(diǎn)(如實(shí)名認(rèn)證步驟失敗率超30%),優(yōu)化身份驗(yàn)證邏輯。對(duì)比不同渠道(APP/網(wǎng)頁)的轉(zhuǎn)化率,指導(dǎo)資源傾斜與體驗(yàn)優(yōu)化。
4)用戶體驗(yàn)與業(yè)務(wù)關(guān)聯(lián)分析,將用戶行為(如手機(jī)銀行APP支付失敗率激增)與后端系統(tǒng)性能(如微服務(wù)超時(shí)、第三方接口異常)深度關(guān)聯(lián),識(shí)別客戶流失的技術(shù)誘因(如身份驗(yàn)證服務(wù)響應(yīng)慢),針對(duì)性優(yōu)化業(yè)務(wù)流程。
3.2.基于因果AI的故障定位能力
因果AI(Causal AI):是通過構(gòu)建動(dòng)態(tài)因果關(guān)系拓?fù)?,將銀行核心交易系統(tǒng)中的上層異常(如交易延遲、失?。┡c底層根因(如代碼缺陷、資源瓶頸)自動(dòng)關(guān)聯(lián),實(shí)現(xiàn)無需人工干預(yù)的精準(zhǔn)問題診斷。其核心邏輯是結(jié)合實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)(指標(biāo)、日志、拓?fù)洌┡c歷史模式,推理出故障傳播路徑,例如從數(shù)據(jù)庫慢查詢追溯到微服務(wù)調(diào)用鏈異常,并進(jìn)一步評(píng)估對(duì)業(yè)務(wù)指標(biāo)(如VIP客戶交易成功率)的影響。
圖:因果AI的類比圖(人體系統(tǒng)的暈厥 vs IT系統(tǒng)的業(yè)務(wù)異常)
在銀行新一代核心交易系統(tǒng)中,因果性CausalAI 故障推理準(zhǔn)確率高。能夠?qū)⑼ǔ5?strong>小時(shí)級(jí)問題排查降低到分鐘級(jí)故障定位,實(shí)現(xiàn)1分鐘發(fā)現(xiàn)問題、3分鐘定位問題。能夠自動(dòng)識(shí)別和數(shù)字化映射新核心系統(tǒng)所在的整個(gè)IT環(huán)境,包括業(yè)務(wù)系統(tǒng)、服務(wù)、容器進(jìn)程、基礎(chǔ)設(shè)施等。通過三維空間拓?fù)洌詣?dòng)分析整個(gè)核心系統(tǒng)各個(gè)組件之間的交互依賴以及影響關(guān)系,結(jié)合核心系統(tǒng)故障場(chǎng)景知識(shí)圖譜的AI推理能力,該方案精準(zhǔn)定位影響核心系統(tǒng)業(yè)務(wù)性能的問題根源。
因果AI通過動(dòng)態(tài)構(gòu)建因果關(guān)系圖譜,自動(dòng)關(guān)聯(lián)交易異常(如延遲、失?。┡c底層根因(如數(shù)據(jù)庫鎖競(jìng)爭(zhēng)、微服務(wù)調(diào)用鏈超時(shí)、第三方接口故障),實(shí)現(xiàn)秒級(jí)精準(zhǔn)定位問題。其功能涵蓋:
1)智能根因診斷,無需人工排查即可追溯至代碼方法或資源瓶頸(如CPU過載);
2)業(yè)務(wù)影響量化,評(píng)估交易中斷對(duì)高價(jià)值業(yè)務(wù)(如大額轉(zhuǎn)賬、實(shí)時(shí)清算)的損失,優(yōu)先修復(fù)關(guān)鍵節(jié)點(diǎn);
3)預(yù)測(cè)性風(fēng)險(xiǎn)預(yù)警,基于歷史數(shù)據(jù)預(yù)判交易洪峰(如月末結(jié)算)或容量瓶頸,觸發(fā)擴(kuò)容預(yù)案;
4)合規(guī)輔助,自動(dòng)生成故障與業(yè)務(wù)指標(biāo)的關(guān)聯(lián)報(bào)告,滿足金融監(jiān)管對(duì)交易可追溯性及SLA合規(guī)審計(jì)的要求,保障系統(tǒng)高可用與業(yè)務(wù)連續(xù)性。
圖:因果AI給出的故障定位結(jié)果展示
3.3.基于生成式AI的運(yùn)維自動(dòng)化效率提升
生成式AI(Generative AI) 是基于DeepSeek 大語言模型的運(yùn)維智能輔助引擎,專注于將復(fù)雜技術(shù)數(shù)據(jù)轉(zhuǎn)化為可操作的業(yè)務(wù)洞察,并自動(dòng)化生成解決方案。在銀行核心交易系統(tǒng)中,它通過自然語言交互與自動(dòng)化能力,幫助技術(shù)、運(yùn)維及業(yè)務(wù)團(tuán)隊(duì)快速理解系統(tǒng)問題并驅(qū)動(dòng)決策,降低跨部門協(xié)作門檻。
圖:基于DeepSeek的自然語言故障診斷
在銀行新一代核心交易系統(tǒng)中,DataBuff 生成式AI基于自然語言交互與自進(jìn)化能力,提供多維度智能支持:
自然語言查詢:業(yè)務(wù)或運(yùn)維人員可直接提問(如“為何大額轉(zhuǎn)賬延遲?”),無需專業(yè)語法即可獲取根因分析;
自然語言可視化:自動(dòng)生成交易成功率趨勢(shì)、鏈路拓?fù)涞葓D表,直觀呈現(xiàn)問題影響范圍;
自然語言診斷:將技術(shù)異常(如接口超時(shí)、風(fēng)控規(guī)則攔截)轉(zhuǎn)化為業(yè)務(wù)描述(例“支付失敗因第三方認(rèn)證超時(shí)”),降低跨團(tuán)隊(duì)溝通成本;
自進(jìn)化知識(shí)庫:持續(xù)學(xué)習(xí)歷史故障與處置方案,提升對(duì)新型問題(如云原生資源爭(zhēng)用)的診斷準(zhǔn)確性;
自動(dòng)化處置建議:結(jié)合上下文推薦修復(fù)動(dòng)作(如調(diào)整數(shù)據(jù)庫連接池、優(yōu)化微服務(wù)超時(shí)配置),加速故障恢復(fù)。通過上述能力,該AI驅(qū)動(dòng)技術(shù)數(shù)據(jù)向業(yè)務(wù)決策的高效轉(zhuǎn)化,保障核心交易高可用與合規(guī)性。
圖:基于DeepSeek的指標(biāo)異常問題分析
四、解決方案亮點(diǎn)
在銀行新一代核心交易系統(tǒng)中,DataBuff 平臺(tái)的核心亮點(diǎn)可概括為以下四方面:
4.1. 故障排查效率提升
通過全棧式代碼級(jí)監(jiān)控與因果AI,實(shí)現(xiàn)分鐘級(jí)根因定位,將平均故障修復(fù)時(shí)間(MTTR)從小時(shí)級(jí)縮短至分鐘級(jí),避免人工逐層排查的低效問題。
4.2. 業(yè)務(wù)轉(zhuǎn)化率與用戶體驗(yàn)優(yōu)化
基于端到端用戶旅程追蹤,分析交易鏈路中高流失環(huán)節(jié),針對(duì)性優(yōu)化關(guān)鍵路徑。同時(shí),結(jié)合業(yè)務(wù)指標(biāo)與性能數(shù)據(jù),量化用戶體驗(yàn)對(duì)營收的影響,推動(dòng)轉(zhuǎn)化率提升10%-20%。
4.3. 數(shù)據(jù)接入開放性
支持多源異構(gòu)數(shù)據(jù)無縫集成,包括日志、指標(biāo)、業(yè)務(wù)事件。通過DataHub 可視化編排靈活定義數(shù)據(jù)清洗、富化規(guī)則,將第三方系統(tǒng)數(shù)據(jù)統(tǒng)一納入分析,打破數(shù)據(jù)孤島,增強(qiáng)全局洞察力。
4.4. 高效數(shù)據(jù)庫技術(shù)與降本增效
底層采用完全自研的時(shí)序數(shù)據(jù)庫MoreDB與全量鏈路存儲(chǔ)TracingX,實(shí)現(xiàn)海量交易數(shù)據(jù)(PB級(jí))的高效存儲(chǔ)與實(shí)時(shí)聚合查詢,成本較傳統(tǒng)關(guān)系型數(shù)據(jù)庫降低50%+。同時(shí),自動(dòng)數(shù)據(jù)生命周期管理按策略歸檔非熱數(shù)據(jù),減少冗余存儲(chǔ)開銷,支撐高并發(fā)場(chǎng)景的穩(wěn)定分析與審計(jì)回溯。
DataBuff 通過上述能力,為銀行新核心系統(tǒng)提供從故障診斷、業(yè)務(wù)價(jià)值挖掘到資源優(yōu)化的閉環(huán)支撐,成為數(shù)字化轉(zhuǎn)型的核心引擎。此次獲獎(jiǎng)是對(duì)乘云數(shù)字在金融領(lǐng)域科技創(chuàng)新成果的肯定。未來,乘云數(shù)字將繼續(xù)秉承創(chuàng)新驅(qū)動(dòng)發(fā)展的理念,深化金融科技應(yīng)用,推動(dòng)數(shù)字化轉(zhuǎn)型向更高水平邁進(jìn),為金融行業(yè)的數(shù)字化轉(zhuǎn)型貢獻(xiàn)力量。
評(píng)論