基礎(chǔ)信息
權(quán)利要求
說明書
PDF全文
法律信息
引證文獻(xiàn)
技術(shù)領(lǐng)域\n本發(fā)明涉及采集機(jī)群信息的方法和系統(tǒng),尤其涉及采集機(jī)群中不 同類型節(jié)點的軟、硬件信息的方法與系統(tǒng),這些節(jié)點包括計算節(jié)點、 登錄節(jié)點、I/O節(jié)點。\n背景技術(shù)\n機(jī)群(Cluster)服務(wù)器系統(tǒng)是互相連接的多個獨立計算機(jī)(節(jié)點 機(jī))的集合。這些計算機(jī)可以是PC,也可以是工作站等,每個節(jié)點機(jī) 都有自己的存儲器、I/O設(shè)備和操作系統(tǒng)。這些節(jié)點機(jī)通過高速網(wǎng)絡(luò)連 接在一起,在中間件等配合下,形成一個超級服務(wù)器。機(jī)群服務(wù)器在 大規(guī)??茖W(xué)計算,比如石油地質(zhì)等方面發(fā)揮著重要作用。\n由于機(jī)群節(jié)點數(shù)眾多,如何將機(jī)群系統(tǒng)的各部分信息及時而準(zhǔn)確 地采集,是對機(jī)群進(jìn)行監(jiān)控和維護(hù)的一個重要而緊迫的問題。而機(jī)群 系統(tǒng)包含多種節(jié)點,諸如計算節(jié)點、登錄節(jié)點、I/O節(jié)點,這些類型節(jié) 點的軟、硬件結(jié)構(gòu)存在很大的差異。需要對不同類型的節(jié)點都加以監(jiān) 控才能保證無遺漏地掌握機(jī)群系統(tǒng)的整體運行狀態(tài)。目前尚缺乏能夠 對大機(jī)群系統(tǒng)的不同節(jié)點的軟硬件信息統(tǒng)一進(jìn)行實時監(jiān)控的好方案。\n發(fā)明內(nèi)容\n本發(fā)明的一個目的是提供一種采集機(jī)群中不同類型節(jié)點的軟件和 硬件信息的系統(tǒng)和方法。\n本發(fā)明的一個目的是提供一種采集機(jī)群中不同類型節(jié)點的軟件和 硬件信息的系統(tǒng)和方法,該系統(tǒng)和方法易于對機(jī)群系統(tǒng)中結(jié)點機(jī)數(shù)量 進(jìn)行擴(kuò)展。\n本發(fā)明的再一個目的在于提供一種新的采集機(jī)群中不同類型節(jié)點 的軟件和硬件信息的系統(tǒng)和方法,該系統(tǒng)和方法可以保證對各結(jié)點機(jī) 數(shù)據(jù)采集的同步性。\n本發(fā)明的進(jìn)一步目的在于提供一種新的監(jiān)控系統(tǒng)和方法,該系統(tǒng) 和方法可以減少對系統(tǒng)資源的占用,從而降低運行成本。\n本發(fā)明的進(jìn)一步目的在于提供一種新的采集機(jī)群中不同類型節(jié)點 的軟件和硬件信息的系統(tǒng)和方法,該系統(tǒng)和方法可以分別有效采集和 傳送機(jī)群軟件和硬件信息。\n本發(fā)明提供了一種機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng),所述機(jī)群有至少一 組節(jié)點機(jī),所述系統(tǒng)包括:節(jié)點機(jī)的信息采集裝置,用于采集節(jié)點機(jī) 的信息,所述組的節(jié)點機(jī)的信息匯集裝置,用于匯集各節(jié)點機(jī)信息采 集裝置采集的信息,監(jiān)控裝置,用于接收和匯總所述機(jī)群各節(jié)點機(jī)的 信息,通信線路,將所述組的信息匯集裝置與所述監(jiān)控裝置相連。\n本發(fā)明還提供了一種采集機(jī)群節(jié)點信息的方法,機(jī)群有多個節(jié)點機(jī) 并配有機(jī)群監(jiān)控裝置,所述方法包括如下步驟:將所述機(jī)群的節(jié)點機(jī) 分為節(jié)點機(jī)組,在節(jié)點機(jī)組內(nèi)的各節(jié)點機(jī)上采集信息,在所述節(jié)點機(jī) 組內(nèi)匯集所述各節(jié)點機(jī)采集到的信息,將組內(nèi)匯集的各節(jié)點機(jī)信息發(fā) 送給所述機(jī)群監(jiān)控裝置。\n本發(fā)明的一種采集機(jī)群節(jié)點信息的方法,通過對不同節(jié)點的軟件和 硬件采用分級采集和分級傳送。\n本發(fā)明的一種采集機(jī)群節(jié)點信息的方法,通過對不同節(jié)點的軟件和 硬件采用分別采集和分別傳送。\n附圖說明\n圖1為根據(jù)本發(fā)明的一個機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)的示意圖。\n圖2為根據(jù)本發(fā)明的一個機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)在N個機(jī)柜上 應(yīng)用的示意圖。\n圖3為根據(jù)本發(fā)明的一個機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)在N個機(jī)柜上 應(yīng)用的一個詳細(xì)示意圖。\n圖4為根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)在采集監(jiān)控軟件 信息方法和結(jié)構(gòu)。\n圖5和圖6為根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)在采集監(jiān)控 軟件信息中采集數(shù)據(jù)和匯總過程。\n圖7為根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)的采集裝置的一 個實施例的示意圖。\n圖8為根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)的采集裝置的一 個實施例的電路圖。\n圖9為根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)的匯集裝置的一 個實施例的示意圖。\n圖10為根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)的匯集裝置的一 個實施例的電路圖。\n具體實施方式\n根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)的技術(shù)方案,針對機(jī)群 系統(tǒng)包含的多種結(jié)點的差異,諸如計算結(jié)點、登錄結(jié)點、IO結(jié)點,以 及各結(jié)點軟硬件結(jié)構(gòu)存在的差異,采取不同的途徑獲取其配置、運行 信息,以便加以統(tǒng)一監(jiān)控。\n對于計算結(jié)點,采用兩條途徑獲取其信息。硬件信息(比如風(fēng)扇 轉(zhuǎn)速,CPU溫度等)通過一塊結(jié)點機(jī)信息采集裝置在結(jié)點機(jī)獲取(比 如讀取主板上IIC信息),然后通過一個串行總線發(fā)送到機(jī)柜的信息匯 集裝置,再由匯集裝置將機(jī)柜內(nèi)各結(jié)點機(jī)的信息匯總后發(fā)送給機(jī)群系 統(tǒng)的監(jiān)控主機(jī)。通過結(jié)點機(jī)信息采集裝置對硬件信息的獲取有一大優(yōu) 點,就是不依賴于結(jié)點機(jī)的操作系統(tǒng),甚至不依賴于結(jié)點機(jī)是否處于 開機(jī)狀態(tài),均能采集到硬件信息。同時,通過對傳送通信的分級或分 層安排,大大節(jié)省了資源。另外一些需要經(jīng)過操作系統(tǒng)才能獲取的軟 件信息,諸如CPU利用率、網(wǎng)絡(luò)流量等,可以通過以太網(wǎng)絡(luò)獲取。對 于這類軟件信息的收集傳送,首先在每個結(jié)點機(jī)上運行代理程序進(jìn)行 數(shù)據(jù)采集,經(jīng)運行一中間代理層或中間程序把各結(jié)點機(jī)采集到的數(shù)據(jù) 收集匯總,然后通過以太網(wǎng)統(tǒng)一傳遞給監(jiān)控主機(jī)上運行的服務(wù)程序 (BSP)。\n對于登錄結(jié)點,由于其結(jié)構(gòu)與計算節(jié)點類似,信息也是通過上述 兩種途徑獲取。\n對于IO結(jié)點,由于不適合采用結(jié)點機(jī)信息采集裝置采集硬件信息, 其所有的監(jiān)控信息通過網(wǎng)絡(luò),如以太網(wǎng)獲取。每個結(jié)點機(jī)上運行的代 理程序負(fù)責(zé)查詢收集結(jié)點機(jī)的運行狀態(tài)信息,中間層或中間級把采集 到的數(shù)據(jù)收集匯總后,通過以太網(wǎng)統(tǒng)一傳遞給監(jiān)控主機(jī)上運行的服務(wù) 程序(BSP)。下面對IO對信息采集的特點做詳細(xì)說明。\n由于在IO節(jié)點機(jī)的主板上使用其它類型結(jié)點機(jī)的采集裝置不能正 常工作,所以IO節(jié)點機(jī)的所有信息都是通過以太網(wǎng)獲取。IO節(jié)點機(jī)硬 件信息與其他節(jié)點機(jī)硬件信息的傳輸方式不同,IO節(jié)點機(jī)硬件信息的 采集方式也不同。下面做一說明。\nIO節(jié)點機(jī)上的代理程序NA除完成采集軟件信息的任務(wù)外(這一點 和普通的NA一樣),它還要采集IO節(jié)點機(jī)的硬件信息。其硬件信息的 獲取途徑是通過主板上的BMC芯片和I2C總線,遵循IPMI規(guī)范,讀取硬 件的信息。在給中間代理層或中間程序NP的傳輸?shù)倪^程中,在軟件信 息后附上硬件信息;NP在接收到IO節(jié)點機(jī)的信息時,同時也將硬件信 息抽取出來,附在整個機(jī)柜信息的后面,傳輸給BSP;BSP在接收到IO 節(jié)點機(jī)所在的機(jī)柜的信息時,將硬件信息抽取出來,放在硬件信息的 緩沖區(qū)中,等待存入數(shù)據(jù)庫中(在這一層次上,BSP的分離軟硬件信息, 使得數(shù)據(jù)庫和GCM不用關(guān)心IO節(jié)點機(jī)軟硬件信息的不同之處,從而達(dá) 到隱藏的目的)。\n這樣,各類型結(jié)點的軟硬件信息以不同的方式采集后,匯總到監(jiān) 控主機(jī),由監(jiān)控主機(jī)統(tǒng)一進(jìn)行處理。根據(jù)本發(fā)明的技術(shù)方案,采集的 數(shù)據(jù)豐富全面,涵蓋了機(jī)群中各種類型結(jié)點,另一方面數(shù)據(jù)集中而便 于管理、維護(hù)和控制,從而實現(xiàn)了真正將整個機(jī)群系統(tǒng)作為一個單一映 像進(jìn)行監(jiān)控。\n圖1為根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)一個較佳實施例 的示意圖。如圖1所示,機(jī)群中包含至少一個機(jī)柜10,機(jī)柜中包括至少 一個節(jié)點機(jī)101,機(jī)柜10中均設(shè)置有一個節(jié)點機(jī)信息匯集裝置102,每 個節(jié)點機(jī)101均設(shè)置有一個節(jié)點機(jī)信息采集裝置101A,一個機(jī)柜內(nèi)可能 包含多種類型的節(jié)點(為清晰起見,未示于圖中)。在機(jī)柜中,每個 節(jié)點機(jī)101經(jīng)由串行總線40A連接到節(jié)點機(jī)信息匯集裝置102,而節(jié)點機(jī) 信息匯集裝置102經(jīng)由串行總線40B連接到監(jiān)控主機(jī)401,在本實施例 中,串行總線40A和串行總線40B(統(tǒng)稱為串行總線40)采用485總線。每 個節(jié)點機(jī)101又通過以太網(wǎng)20而經(jīng)由交換機(jī)30與監(jiān)控主機(jī)401連接。在 本實施例中,設(shè)有一個監(jiān)控機(jī)柜(未示出)。監(jiān)控機(jī)柜中除了放置監(jiān) 控主機(jī)401外,還可以放置其他節(jié)點機(jī),I/O節(jié)點機(jī)等。監(jiān)控主機(jī)401 接收匯總來自網(wǎng)絡(luò)20的各種類型的節(jié)點信息。在本發(fā)明實施例中,節(jié) 點則例如有計算節(jié)點、登錄節(jié)點和I/O節(jié)點。\n監(jiān)控主機(jī)401對于機(jī)群信息的獲取主要通過兩條途徑:一條途徑是 串行總線40;另一途徑是以太網(wǎng)20。以下對此分別加以說明。\n首先參見圖1描述本發(fā)明通過串行總線獲取機(jī)群信息工作過程。 通過串行總線40A,各節(jié)點機(jī)信息采集裝置101A所采集到的第一組類 型的信息,諸如風(fēng)扇轉(zhuǎn)速、CPU溫度、內(nèi)存電壓這樣的硬件信息匯集 到機(jī)柜內(nèi)的機(jī)柜信息匯集裝置102。監(jiān)控主機(jī)401經(jīng)由串行總線40B, 通過輪詢方式而將各機(jī)柜的節(jié)點機(jī)信息匯集裝置102所匯集的第一組 類型的信息加以匯總,并存儲在監(jiān)控主機(jī)中的存儲裝置(圖中未示) 中,以便進(jìn)行后續(xù)處理。關(guān)于監(jiān)控主機(jī)所采用的輪詢方式不再贅述, 因其為本領(lǐng)域技術(shù)人員普遍了解的公知技術(shù)。\n參見圖1描述本發(fā)明通過網(wǎng)絡(luò)20獲取機(jī)群信息工作過程。各節(jié)點 機(jī)10經(jīng)由以太網(wǎng)絡(luò)20連接到交換機(jī)30,交換機(jī)30再經(jīng)由以太網(wǎng)20 連接到監(jiān)控機(jī)柜50中監(jiān)控主機(jī)401,將第二組類型的信息送至監(jiān)控主 機(jī)401,在本實施例中該第二組類型的信息為軟件信息。節(jié)點機(jī)101 的操作系統(tǒng)運行代理程序讀取采集到的該第二組類型的信息,然后經(jīng) 一個中間層或程序把采集到的數(shù)據(jù)收集匯總,通過以太網(wǎng)統(tǒng)一傳遞給 監(jiān)控主機(jī)401上運行的服務(wù)程序(BSP)。采用這種途徑采集的第二組 類型的軟信息包括CPU利用率、內(nèi)存利用率、網(wǎng)絡(luò)流量、用戶進(jìn)程等。\n圖2顯示了根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)的應(yīng)用于有 N個機(jī)柜或機(jī)組的一個實施例的示意圖。其中機(jī)群有N個機(jī)柜10N, 每個機(jī)柜中有N個節(jié)點機(jī)101N,每個機(jī)柜中有一個信息匯集裝置102, 每個節(jié)點機(jī)101有一個信息采集裝置101A,將各機(jī)柜的信息匯集裝置 102與監(jiān)控主機(jī)401通過串行總線40B連接起來,建立第一級的串行 通信,又將各機(jī)柜內(nèi)的所有節(jié)點機(jī)的信息采集裝置101A和該柜的信息 匯集裝置102通過串行總線40A連接起來,建立第二級的串行通信。 此外,通過以太網(wǎng)將各節(jié)點機(jī)101的信息采集裝置101A與監(jiān)控機(jī)柜 50中的監(jiān)控主機(jī)401相連。在以太網(wǎng)中設(shè)置交換機(jī)30。監(jiān)控機(jī)柜中除 了監(jiān)控主機(jī)401,還可以裝有登錄節(jié)點機(jī)和IO節(jié)點機(jī),它們也是通過 以太網(wǎng)20并經(jīng)交換機(jī)30與監(jiān)控主機(jī)401建立通信。\n圖3顯示了根據(jù)本發(fā)明的機(jī)群節(jié)點信息采集監(jiān)控系統(tǒng)的應(yīng)用于有 N個機(jī)柜或機(jī)組的一個實施例的更為詳細(xì)的示意圖。其中機(jī)群有N個 機(jī)柜10N,每個機(jī)柜中有N個節(jié)點機(jī)101N,每個機(jī)柜中有一個信息匯 集裝置102,每個節(jié)點機(jī)101有一個信息采集裝置101A,將各機(jī)柜的 信息匯集裝置102與監(jiān)控主機(jī)401通過串行總線40B連接起來,建立 第一級的串行通信,又將各機(jī)柜內(nèi)的所有節(jié)點機(jī)的信息采集裝置101A 和該柜的信息匯集裝置102通過串行總線40A連接起來,建立第二級 的串行通信。從而采集第一類信息,即硬件信息。其中,信息采集裝 置101A可以通過各類傳感器或直接在節(jié)點機(jī)主板上采集節(jié)點機(jī)的硬 件信息。同時,信息匯集裝置102也可以通過各類傳感器直接采集整 個機(jī)柜的硬件信息,并將其采集整個機(jī)柜的硬件信息和信息采集裝置 101A采集的各節(jié)點機(jī)硬件信息,通過串行總線40B發(fā)往監(jiān)控主機(jī)401。 此外,通過以太網(wǎng)將各節(jié)點機(jī)101的信息采集裝置101A與監(jiān)控機(jī)柜中 的監(jiān)控主機(jī)401相連。在以太網(wǎng)中設(shè)置交換機(jī)30。監(jiān)控機(jī)柜中除了監(jiān) 控主機(jī)401,還可以裝有登錄節(jié)點機(jī)和IO節(jié)點機(jī),它們也是通過以太 網(wǎng)20并經(jīng)交換機(jī)30與監(jiān)控主機(jī)401建立通信。從而采集第二類信息, 即軟件信息。監(jiān)控主機(jī)401、信息采集裝置101A和信息匯集裝置102 都可以設(shè)置報警裝置,響應(yīng)監(jiān)控主機(jī)401對匯總的各類信息經(jīng)過處理 后發(fā)出的各類故障信號,作出響應(yīng)的報警。所述系統(tǒng)也可以用于對機(jī) 群的實施其它控制的用途,比如機(jī)群的電源狀況的監(jiān)控和機(jī)群順序上 下電的制動控制等。\n根據(jù)本發(fā)明的以太網(wǎng)通信的組織和串口網(wǎng)絡(luò)類似,也采用了一種 分層的結(jié)構(gòu):一為節(jié)點代理(Node?Proxy,NP)層,一為節(jié)點采集(Node Agent,NA)層。監(jiān)控主機(jī)401把每個機(jī)柜內(nèi)的節(jié)點機(jī)101劃作一個小 組,通過與節(jié)點機(jī)101的NP進(jìn)程通信,在每個小組中選出一個節(jié)點機(jī) 作為小組代理(NP)。監(jiān)控主機(jī)401只與NP通信。NA負(fù)責(zé)采集操作 系統(tǒng)的信息,同時監(jiān)聽來自NP的數(shù)據(jù)收集命令,并將信息數(shù)據(jù)傳輸給 NP。通過這樣的分層結(jié)構(gòu),使得監(jiān)控主機(jī)401面對的是少數(shù)的NP,而 不是許多節(jié)點機(jī)101。同時NP面對的一個機(jī)柜10內(nèi)相對少量的節(jié)點 機(jī)101;這樣減少了通信瞬時爆炸的可能性,同時也增強(qiáng)了監(jiān)控軟件結(jié) 構(gòu)的彈性。\n附圖4顯示了根據(jù)本發(fā)明為采集第二組類型的信息,即軟件信息 (也可包括IO節(jié)點的硬件信息)的采集監(jiān)控系統(tǒng)的一個較佳實施例。在 監(jiān)控主機(jī)上運行著基本服務(wù)模塊或程序(BSP)11,它負(fù)責(zé)在需要了解 機(jī)群系統(tǒng)運行狀態(tài)時發(fā)出數(shù)據(jù)采集命令,然后等待并接收由結(jié)點機(jī)返 回的數(shù)據(jù),對其進(jìn)行匯總和分析處理。機(jī)群系統(tǒng)的所有結(jié)點機(jī)分為若 干個組12,各個組12分別有N個結(jié)點機(jī)(如附圖5和6中所示),但 只有一個結(jié)點機(jī)上運行著結(jié)點代理模塊或程序(NP)14,而每個節(jié)點 機(jī)上都運行著結(jié)點采集模塊或程序(NA)13。其中NP模塊14負(fù)責(zé)在 收到來自BSP的采集命令后,將采集命令傳送給該組中所有結(jié)點機(jī)的 NA模塊,然后等待并接收NA模塊返回的數(shù)據(jù),將其匯總后統(tǒng)一發(fā)送 給BSP;NA模塊13則負(fù)責(zé)周期性地采集所在結(jié)點機(jī)的運行狀態(tài)數(shù)據(jù), 并在收到采集命令后立即返回最新一次的采集數(shù)據(jù)。NA模塊和NP模 塊都是運行于結(jié)點機(jī)操作系統(tǒng)之上的軟件或程序。\n根據(jù)以上所述,我們可以看出,監(jiān)控系統(tǒng)的模塊按照各自的功能 分為三級,BSP為第一級,NP為第二級,NA為第三級。處于不同層 次級別的模塊完成不同的任務(wù),他們相互配合,實現(xiàn)對機(jī)群系統(tǒng)的監(jiān) 控。其中,NA模塊扮演了信息采集裝置的功能,而NP模塊扮演了信 息匯集裝置的功能。\n一次信息采集過程可以分為兩個步驟:\n一、采集命令的發(fā)送。如附圖5所示,BSP模塊11首先通過UDP 廣播方式把采集命令廣播到所有的NP模塊14,這樣,采集命令就同 步到達(dá)所有的NP;NP收到采集命令后,立即以UDP廣播方式把采集 命令廣播到所在組12中的所有NA模塊13,同樣,采集命令又同步到 達(dá)所有的NA模塊。我們不難看出,BSP發(fā)出的采集命令最終同步到 達(dá)整個機(jī)群系統(tǒng)中的所有NA模塊。\n二、采集數(shù)據(jù)的匯總。如附圖6所示,各個NA模塊13周期性地 采集所在結(jié)點機(jī)的運行狀態(tài)數(shù)據(jù),并存儲在緩沖區(qū)中,當(dāng)收到NP模塊 14發(fā)出的采集命令時,就將最新一次采集到的數(shù)據(jù)信息立即傳送給 NP;各NP接收本組12所有NA返回的采集數(shù)據(jù),將其匯總后統(tǒng)一 傳送給BSP模塊11;BSP接收所有NP返回的數(shù)據(jù),進(jìn)行匯總,并插 入數(shù)據(jù)庫中。\n根據(jù)以上所述,由于數(shù)據(jù)采集命令同步到達(dá)所有的NA,NA接到 命令立即返回最新一次采集的數(shù)據(jù),所以,BSP最終收到的是所有結(jié) 點機(jī)在同一時刻的運行狀態(tài)數(shù)據(jù),能夠反映機(jī)群系統(tǒng)的整體運行情況。\n由于NA模塊自身周期性地采集數(shù)據(jù),能夠快速響應(yīng)采集命令, 保證信息采集過程迅速完成。NA模塊的采集周期經(jīng)過合理設(shè)置,既保 證了數(shù)據(jù)的實時性,又最大程度地減少了結(jié)點機(jī)的資源。從而也降低 運行成本。\n監(jiān)控主機(jī)的另一個程序GCM(監(jiān)控顯示模塊)從數(shù)據(jù)庫中讀出數(shù) 據(jù),并可以以圖形化的方式顯示出來。\n下面作為本發(fā)明較佳實施例的一個運用給出一個例子。\n一個機(jī)群系統(tǒng)由256個結(jié)點機(jī)(服務(wù)器)組成,256個結(jié)點機(jī)分別 安放在16個機(jī)柜中,每個機(jī)柜中安放16個結(jié)點機(jī)。這256個結(jié)點機(jī) 通過以太網(wǎng)絡(luò)設(shè)備連接成一個大型機(jī)群系統(tǒng)。\n為了對該系統(tǒng)每個結(jié)點機(jī)的運行情況進(jìn)行監(jiān)控,根據(jù)本發(fā)明,我 們將這256個結(jié)點機(jī)按照其物理布局(機(jī)柜)分組,每個機(jī)柜中的16 個結(jié)點機(jī)為一組,共16個組。在每個結(jié)點機(jī)上都運行結(jié)點采集模塊 NA,在每組16個結(jié)點機(jī)的其中一個上還運行著結(jié)點代理模塊NP。監(jiān) 控主機(jī)上運行BSP,它通過485串口網(wǎng)絡(luò)和以太網(wǎng)絡(luò)與NP和NA通信。\n當(dāng)監(jiān)控主機(jī)BSP需要了解機(jī)群運行狀態(tài)時,首先將采集命令以 UDP廣播方式發(fā)送到16個組的NP;每個NP在接到該命令后,立即 以UDP廣播方式將該命令發(fā)送到該組的16個NA。這樣,BSP發(fā)出 的采集命令就同步到達(dá)全部(256個)結(jié)點機(jī)的NA。\n各個NA周期性地采集所在結(jié)點機(jī)的數(shù)據(jù),存放在緩沖區(qū)中,當(dāng) 它收到NP的采集命令后,立即返回最新一次的采集數(shù)據(jù);每個NP收 到該組中16個NA發(fā)回的數(shù)據(jù),將其匯總后發(fā)送給BSP。\n從上面對本發(fā)明實施例的描述可以看出,本發(fā)明的機(jī)群監(jiān)控系統(tǒng) 和方法很容易對機(jī)群結(jié)點機(jī)的數(shù)量進(jìn)行擴(kuò)展。比如,在上述例子中從 256個結(jié)點機(jī)擴(kuò)展到320個結(jié)點機(jī)時,對于BSP而言,只增加了4個 接受和發(fā)送信息的NP模塊。\n圖7和圖8分別為本發(fā)明一實施例所用的節(jié)點機(jī)信息采集裝置101A 的一個示意圖和電路圖。其中設(shè)有中央處理器(微處理器),以及與 該中央處理器連接并且用于和監(jiān)控主機(jī)401傳遞信息的通信接口;該中 央處理器通過其I2C總線接口與節(jié)點機(jī)主板連接。在本實施例中,該通 信接口為RS-485接口,用于監(jiān)控節(jié)點機(jī)主板傳遞信息。單片機(jī)通過其 I2C總線接口與節(jié)點機(jī)主板連接并接收節(jié)點機(jī)主板傳送的檢測信息。上 述的裝置在中央處理器的地址線上還設(shè)有用于定本裝置ID地址的開 關(guān),該裝置直接與所在節(jié)點機(jī)的5VSB電源連接。通過I2C總線接收節(jié)點 機(jī)(主板)傳感器所測量節(jié)點內(nèi)的溫度及風(fēng)扇運行狀態(tài),并可以根據(jù) 需要自行設(shè)置測溫點和安置風(fēng)扇,可擴(kuò)展性好;\n本實施例的開關(guān)和復(fù)位信號與單片機(jī)連接,可以方便地進(jìn)行遠(yuǎn)程 開關(guān)機(jī)等操作,由于節(jié)點機(jī)信息采集裝置101A直接與所在節(jié)點機(jī)的 5VSB電源連接,因此可以獨立運行。\n參見圖8,設(shè)有一單片機(jī)U1,單片機(jī)U1通過其端口P1.6、P1.7組成 的I2C總線接口與節(jié)點機(jī)主板相應(yīng)的接口連接,讀取節(jié)點機(jī)主板的電壓、 溫度和風(fēng)扇的檢測信息,并且讀取控制溫度、風(fēng)扇轉(zhuǎn)速監(jiān)控芯片。上 述的裝置還設(shè)有用于顯示監(jiān)控狀態(tài)的指示燈,該指示燈連接到中央處 理器的輸出端口。單片機(jī)U1通過其輸出信號LED1-LED6與發(fā)光二極管 LEDS1及LED4-LED6連接,構(gòu)成報警燈。\n在實施例中,還設(shè)有開關(guān)控制芯片U6,用于輸出單片機(jī)U1的主板 開關(guān)信號、和復(fù)位信號RST,因此,可以在出現(xiàn)損壞性故障時自動關(guān)閉 節(jié)點機(jī),以保護(hù)節(jié)點機(jī)不受嚴(yán)重毀壞;另外,上述的裝置在單片機(jī)U1 的地址線上還設(shè)有ID地址的開關(guān)S1,該開關(guān)用于設(shè)定本裝置在整個監(jiān) 控系統(tǒng)中地地址信息。本實施例中,其電源直接與所在節(jié)點機(jī)的5VSB 電源連接,可以獨立于該節(jié)點機(jī)運行。\n本發(fā)明實現(xiàn)了對機(jī)群系統(tǒng)各節(jié)點機(jī)的實時監(jiān)控與報警,保護(hù)節(jié)點 機(jī)不受損壞,用戶可以快捷地掌握機(jī)群當(dāng)前運行狀態(tài),并方便地進(jìn)行 遠(yuǎn)程開關(guān)機(jī)等操作;通過485高速串行總線與機(jī)柜的節(jié)點機(jī)信息匯集裝 置102通信;接受并執(zhí)行機(jī)柜的節(jié)點機(jī)信息匯集裝置102的信息匯集命 令、加/斷電命令和復(fù)位命令等,實現(xiàn)遠(yuǎn)程信息定位、遠(yuǎn)程開關(guān)機(jī)等操 作;本發(fā)明不依賴于節(jié)點機(jī)是否啟動;并且具有地址自動識別功能。\n圖9和圖10分別為本發(fā)明一實施例所用的節(jié)點機(jī)信息匯集報警裝 置102的一個示意圖電路圖。信息匯集裝置102位于被監(jiān)控節(jié)點機(jī)和監(jiān) 控主機(jī)之間,匯集被監(jiān)控節(jié)點機(jī)的信息,并與監(jiān)控主機(jī)進(jìn)行交互,可 滿足對大規(guī)模機(jī)群系統(tǒng)進(jìn)行監(jiān)控管理的需要,并可以大規(guī)模的擴(kuò)展被 監(jiān)控對象可讀取節(jié)點機(jī)101的各個硬件信息。如圖2所示,該監(jiān)控信息 匯集報警裝置將來自機(jī)柜內(nèi)各節(jié)點機(jī)101上的信息采集裝置101A的信 息加以匯集,并通過485總線與監(jiān)控主機(jī)401通信。\n信息匯集裝置102至少包括中央處理器、一個以上用于與節(jié)點機(jī)采 集裝置102和監(jiān)控主機(jī)進(jìn)行通信的通信接口和存儲單元;該通信接口與 中央處理器連接,該中央處理器與該存儲單元連接。信息匯集裝置102 還設(shè)有用于直接連接檢測機(jī)柜整體狀況的傳感器的接口,如供電電源 的傳感器的連接接口,該連接接口連接到中央處理器的模數(shù)轉(zhuǎn)換輸入 端。從而信息匯集裝置102也可以直接對機(jī)柜整體狀況進(jìn)行信息采集和 匯集,同時對機(jī)柜整體某些運行實施直接的監(jiān)控和操作,如機(jī)柜供電 電源的狀況信息采集和對機(jī)柜上下電的控制。\n信息匯集裝置102還設(shè)有用于設(shè)定ID地址的裝置,該裝置與中央處 理器的數(shù)據(jù)總線連接。它還設(shè)有用于設(shè)定硬件板卡標(biāo)識的裝置,該裝 置與中央處理器的數(shù)據(jù)總線連接。該節(jié)點機(jī)信息匯集裝置還設(shè)有用于 顯示其工作狀態(tài)以及顯示報警信息的指示燈,該指示燈與中央處理器 連接。\n參見圖10,本發(fā)明的信息匯集裝置102設(shè)有中央處理器U1、由 RS485串行通信接口U16、U6以及存儲器U3、U4構(gòu)成;其中,該RS485 串行通信接口U16與中央處理器U1直接連接,該RS485串行通信接口 U6經(jīng)過串行通信芯片U18與中央處理器U1連接,緩沖地區(qū)中央處理器 U1與該存儲器U3、U4通過數(shù)據(jù)地址總線連接。中央處理器U1通過其 模數(shù)轉(zhuǎn)換信號端口P5.0/ADC0、P5.1/ADC1連接一連接接口J9,該接口 J9用于檢測機(jī)柜供電電源的傳感器;另外,本實施例中還設(shè)有用于設(shè) 定ID地址的裝置SW8,其為一與中央處理器的數(shù)據(jù)總線連接的多路開 關(guān),用于人工設(shè)定該本發(fā)明的識別地址。中央處理器U1不通過其輸出 端口P4.2-P4.2分別連接和控制用于顯示其工作狀態(tài)以及顯示報警信息 的指示燈U7、U8、U9、U10。\n信息匯集裝置102置于機(jī)柜內(nèi),可直接采集機(jī)柜內(nèi)的機(jī)柜風(fēng)扇、溫 度等信息,并可根據(jù)需要增放風(fēng)扇和溫度傳感器,其接口J1用于與風(fēng) 扇連接,中央處理器U1通過該接口J1連接并控制風(fēng)扇的轉(zhuǎn)速。本發(fā)明 的信息匯集裝置102對自己采集的信息進(jìn)行監(jiān)控;同時通過RS485高速 串行總線與設(shè)置在節(jié)點機(jī)的信息采集裝置通信,將自己采集的信息和 機(jī)柜內(nèi)各節(jié)點機(jī)運行狀態(tài)和運行參數(shù)送往監(jiān)控主機(jī)。接受監(jiān)控主機(jī)發(fā) 出的命令,實現(xiàn)遠(yuǎn)程上信息采集和監(jiān)控。并根據(jù)監(jiān)控指令控制,如節(jié) 點機(jī)的電源和機(jī)柜電源的開關(guān)。當(dāng)出現(xiàn)嚴(yán)重故障時,對單機(jī)實施斷電 保護(hù)。\n通過以上描述,對本領(lǐng)域技術(shù)人員來說顯而易見的是,根據(jù)本發(fā) 明而使得硬件信息在采集后匯總到監(jiān)控主機(jī),由監(jiān)控主機(jī)統(tǒng)一處理, 進(jìn)行定位和報警,從而實現(xiàn)了將整個機(jī)群作為一個單一映象來加以監(jiān) 控,因此可提高機(jī)群運行的可靠性并可在此基礎(chǔ)上進(jìn)一步擴(kuò)展機(jī)群的 應(yīng)用范圍。\n由于在IO節(jié)點機(jī)的主板上使用其它類型結(jié)點機(jī)的采集裝置不能正 常工作,所以IO節(jié)點機(jī)的所有信息都是通過以太網(wǎng)獲取。IO節(jié)點機(jī)硬 件信息與其他節(jié)點機(jī)硬件信息的傳輸方式不同,IO節(jié)點機(jī)硬件信息的 采集方式也不同。下面做一說明。\nIO節(jié)點機(jī)上的NA除完成采集軟件信息的任務(wù)外(這一點和普通的 NA一樣),它還要采集IO節(jié)點機(jī)的硬件信息。其硬件信息的獲取途徑 是通過主板上的BMC芯片和I2C總線,遵循IPMI規(guī)范,讀取硬件的信息。 在給NP的傳輸?shù)倪^程中,在軟件信息后附上硬件信息;NP在接收到IO 節(jié)點機(jī)的信息時,同時也將硬件信息抽取出來,附在整個機(jī)柜信息的 后面,傳輸給BSP;BSP在接收到IO節(jié)點機(jī)所在的機(jī)柜的信息時,將硬 件信息抽取出來,放在硬件信息的緩沖區(qū)中,等待存入數(shù)據(jù)庫中(在 這一層次上,BSP的分離軟硬件信息,使得數(shù)據(jù)庫和GCM不用關(guān)心IO 節(jié)點機(jī)軟硬件信息的不同之處,從而達(dá)到隱藏的目的)。\n下面對監(jiān)控裝置(監(jiān)控主機(jī))-信息匯集裝置(匯集卡)-信息 采集裝置(采集卡)的工作流程舉例說明。\n監(jiān)控裝置和匯集卡的通信交互是通過BSP進(jìn)行。下面就講BSP和匯 集卡的傳輸過程。\nBSP按照格式組成如下的包:(發(fā)送的順序是由低到高)\n\n然后BSP等待匯集卡的回復(fù)。匯集卡在監(jiān)聽串口網(wǎng)絡(luò)數(shù)據(jù)的過程中,發(fā) 現(xiàn)串口線有信號,就試圖找到“包起始標(biāo)志”和“包終止標(biāo)志”,然 后判斷其中的目標(biāo)地址是否和自己的ID相同,如果不同,那么就丟棄 該數(shù)據(jù)包,繼續(xù)監(jiān)聽串口網(wǎng)絡(luò)。如果目標(biāo)地址和自己的ID相同,那么 檢查檢驗和,如果不對,那么也丟棄該數(shù)據(jù)包,繼續(xù)監(jiān)聽串口網(wǎng)絡(luò)。\n如果上述的檢查都對,那么匯集卡將根據(jù)包的類型做相應(yīng)的操作 (收集數(shù)據(jù),上電或下電等)。如果是收集數(shù)據(jù),那么將保存在緩沖 區(qū)的一個完整機(jī)柜數(shù)據(jù)傳輸給BSP,數(shù)據(jù)格式如下:\n\n\nBSP在等待匯集卡回復(fù)的過程中,如果超過一定的時間還沒有匯集 卡的回復(fù),那么重新發(fā)送命令。在接收到匯集卡的回復(fù)之后,首先檢 查數(shù)據(jù)包的格式,如果不對,那么重新發(fā)送命令,并等待新的回復(fù)。 如果通過檢查,那么將數(shù)據(jù)包中的信息抽取出來,存入BSP自己維護(hù)的 緩沖區(qū)中。\n如果BSP收到的是匯集卡對上/下電操作的回復(fù),那么這個回復(fù)需 要傳達(dá)給CMS的(因為CMS是上/下電操作的發(fā)起者)。\n\nBSP通過包中的狀態(tài)值,就可以知道該操作是否被匯集卡成功執(zhí) 行。無論匯集卡執(zhí)行該操作成功與否,BSP根據(jù)成功與否,返回執(zhí)行的 結(jié)果給CMS。\n下面對采集卡和匯集卡之間采集數(shù)據(jù)到報警工作過程舉例說明。\n1.采集命令通信過程如下:發(fā)出結(jié)點機(jī)地址,符合地址的采集卡 回復(fù)結(jié)點機(jī)地址。匯集卡發(fā)出采集數(shù)據(jù)命令(命令類型0x03),該采 集卡收到后回復(fù)命令類型0x03。匯集卡再發(fā)出命令命令類型0x03,該 采集卡就把查詢的數(shù)據(jù)發(fā)出。\n采集卡采集數(shù)據(jù)的發(fā)送格式:\n節(jié)點機(jī)地址+CPU電壓+CPU1溫度+CPU1風(fēng)扇+CPU2溫度+ CPU2風(fēng)扇+機(jī)箱溫度+系統(tǒng)風(fēng)扇1+系統(tǒng)風(fēng)扇2+節(jié)點機(jī)電源3.3V+ 節(jié)點機(jī)電源5V+節(jié)點機(jī)電源12V+校驗和;\n加上校驗和,每個節(jié)點機(jī)傳送數(shù)據(jù)為13個字節(jié)。\n2.采集卡報警(故障顯示)\n匯集卡發(fā)出結(jié)點機(jī)地址,符合地址的采集卡回復(fù)結(jié)點機(jī)地址。匯 集卡發(fā)出故障顯示命令(命令類型0x01),該采集卡收到后回復(fù)命令 類型0x01,匯集卡再次發(fā)出故障顯示命令,該采集卡收到后發(fā)動報警 裝置(使相應(yīng)的故障顯示燈亮、閃),并返回命令類型0x01,如果通 信過程中出錯,則恢復(fù)初始狀態(tài)。\n顯然,本技術(shù)領(lǐng)域的技術(shù)人員可以根據(jù)不同情況或習(xí)慣等原因,對 上面例子中的數(shù)據(jù)格式或字節(jié)多少進(jìn)行調(diào)整或改變。此外,結(jié)點機(jī)信 息采集裝置負(fù)責(zé)采集硬件部分的信息,包括溫度電壓風(fēng)扇等,以約定 的協(xié)議格式將數(shù)據(jù)發(fā)給信息匯集裝置,再由信息匯集裝置發(fā)給監(jiān)控裝 置。監(jiān)控裝置再按照協(xié)議規(guī)定的順序?qū)?shù)據(jù)歸位。比如第一個數(shù)據(jù)是 CPU電壓,第二個數(shù)據(jù)是風(fēng)扇轉(zhuǎn)速,是這樣來確定數(shù)據(jù)的含義。所以這 個地方的信息類型可以在通信傳輸?shù)膬?nèi)容中明確示出,也可以只傳輸 數(shù)據(jù),而在通信協(xié)議中隱含給出。\n同時通過上述描述不難看出,對于各類型節(jié)點的軟件信息和IO節(jié) 點的硬件信息的采集和監(jiān)控過程與上述硬件信息的采集和監(jiān)控過程類 似,但是是NA程序(另一種采集裝置)和NP程序(另一種匯集裝置) 通過以太網(wǎng)與監(jiān)控主機(jī)間進(jìn)行的。此外,關(guān)于NA程序(采集裝置) 和NP程序(匯集裝置)的內(nèi)部結(jié)構(gòu),本技術(shù)領(lǐng)域的技術(shù)人員根據(jù)本發(fā) 明對其編程是很容易的,這里就不再贅述。\n這樣,對于各類型節(jié)點的軟、硬件信息,使用不同的方式加以采 集,再匯總到監(jiān)控主機(jī),由其統(tǒng)一進(jìn)行處理。因此,本發(fā)明實現(xiàn)了對 機(jī)群中所有的類型節(jié)點信息的采集。\n通過以上描述,對本領(lǐng)域技術(shù)人員來說顯而易見的是,根據(jù)本發(fā) 明而使得不同類型節(jié)點的軟、硬件信息在采集后匯總到監(jiān)控主機(jī),由 監(jiān)控主機(jī)統(tǒng)一處理,從而實現(xiàn)了將整個機(jī)群作為一個單一對象來加以 監(jiān)控,因此可提高機(jī)群運行的可靠性并可在此基礎(chǔ)上進(jìn)一步擴(kuò)展機(jī)群 的應(yīng)用范圍。\n最后所應(yīng)說明的是,以上實施例僅用以說明本發(fā)明而并非限制本 發(fā)明所描述的技術(shù)方案;因此,盡管本說明書參照上述的各個實施例 而對本發(fā)明進(jìn)行了詳細(xì)的說明,但是,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理 解,仍然可以對本發(fā)明進(jìn)行修改或者等同地替換;而一切不脫離本發(fā) 明的精神和范圍的技術(shù)方案及其改進(jìn),其均應(yīng)涵蓋在本發(fā)明的權(quán)利要 求范圍當(dāng)中。
引用專利(該專利引用了哪些專利)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 | 該專利沒有引用任何外部專利數(shù)據(jù)! |
被引用專利(該專利被哪些專利引用)
序號 | 公開(公告)號 | 公開(公告)日 | 申請日 | 專利名稱 | 申請人 | 該專利沒有被任何外部專利所引用! |