故障現(xiàn)象
某銀行廣東分行特色業(yè)務(wù)系統(tǒng)不間斷發(fā)生業(yè)務(wù)阻塞的故障,故障時數(shù)據(jù)庫內(nèi)部每次出現(xiàn)“cursor:pin S wait on X”或者”read by other session”或者其他的等待,通過殺掉前臺進程或者重啟數(shù)據(jù)庫的方式故障恢復(fù),但問題原因不明,故障不時發(fā)生,無法根本解決。
故障分析
中亦科技指派資深二線對故障進行了深入分析,發(fā)現(xiàn)雖然每次故障現(xiàn)象不一樣,但根本的原因在于一個關(guān)鍵的 IO 沒有返回。進一步分析,發(fā)現(xiàn)是由于操作系統(tǒng)進程調(diào)度缺陷導(dǎo)致, 雖然 IO 已經(jīng)返回,但操作系統(tǒng)系統(tǒng)未正確調(diào)度該進程獲取 IO,繼而導(dǎo)致了業(yè)務(wù)阻塞。
解決方案
將操作系統(tǒng)從AIX 5306升級到了AIX 5312,升級操作系統(tǒng)后,問題徹底解決。
客戶收益
通過中亦科技根因分析和故障解決方案,客戶徹底解決了這個看似由數(shù)據(jù)庫引起,實質(zhì)由于操作系統(tǒng)版本問題而引發(fā)的故障,幫助客戶同時實現(xiàn)了治標和治本。
故障根因的解決,也為客戶保障業(yè)務(wù)連續(xù)性,提升系統(tǒng)可用率,保護數(shù)據(jù)安全奠定了基礎(chǔ)。