酷!學園

其他討論區 => MIS 討論區 => 主題作者是: ccdm 於 2010-11-11 17:40

主題: 大量伺服器管理
作者: ccdm2010-11-11 17:40
想請教站上先進,若手間有上百台Server需要管理,通常是用什麼方式確認該機器是否存活,

如果是
刀鋒:可進入MM Module設定Alert
VM:可進入vCenter設定VM Alert

我們公司是有買SCOM軟體,所以會自動寄發alert mail,

如果沒買軟體的人事如何管的呢?

我目前想到的是寫一個script定期去ping這些機器
主題: 回覆: 大量伺服器管理
作者: 日京三子2010-11-11 18:32
先說,我是笨蛋,而且是很蠢的那種.........


如果這台是網頁伺服器,我會在監控主機上面寫一個簡單的Script,定時的透過wget去抓網頁伺服器上面固定的檔案, 例如 wget http://127.0.0.1/file_id (http://127.0.0.1/file_id) ,然後比對;如果不同,或者抓不到(反正就訊息不同),就丟Email 出來.....

如果這台是網路磁碟機或者 NAS 或者 SAMBA 之類的,沿用上面的構想,利用 smbget 去抓檔案回來......

其他,應該差不多都有機會這樣做吧!
------
當然,這是笨蛋作法,如果每天仔細看 LOG 會看到兩眼拖窗就是了!
主題: 回覆: 大量伺服器管理
作者: 蜜蜂2010-11-11 19:05
如果 server 有到上百台的規模, 預算應該不是問題. 有預算當然就買軟體監控囉.
沒預算又不想自己DIY寫 script的, 就找 free 的監控軟體, 只是這些軟體大部分都有監控數量或頻率限制.

主題: 回覆: 大量伺服器管理
作者: slime2010-11-11 21:51
如果主機有安裝軟體權限, 網路又沒有 NAT ,
我個人覺得 SNMP 協定 + Cacti 軟體不錯用.
由 Cacti 主動發出 SNMP 訊息, 各主機回應.

主題: 回覆: 大量伺服器管理
作者: ZMAN2010-11-11 22:53
網路出問題時MAIL可能是失效的
半夜睡覺時簡訊可能是無效通知
甚至很多簡訊機制是靠MAIL去轉的
再多想想



主題: 回覆: 大量伺服器管理
作者: redjack2010-11-12 11:28
這類的通知機制最好是包含以下項目:
1) 環境
2) 網路
3) 主機
4) 服務

猜想樓主只專管主機,覺得slime 的建議比較好。
不過最好也是確定前二項也能做到,並且將樓主納入通知對象的清單之一。
主題: 回覆: 大量伺服器管理
作者: dark2010-11-12 13:10
ping 的到未必服務正常阿

分出重要性
若答案是上百台一樣重要
... 其實就是上百台都不重要囉

讓網管軟體畫出上百台架構
每台都綠綠的 .. 應該也沒太大實際面意義

但 show 給老闆客戶看就很有必要 ..
(mv offline.gif offline_bk.gif;cp online.gif offline.gif;sleep 3600;mv offline_bk.gif offline.gif) &
主題: 回覆: 大量伺服器管理
作者: hikohan2010-11-12 13:17
用簡訊貓如何?監控發現時,立刻發一封簡訊至管理者手機。

如果管理者沒開手機呢?

再多想想...  ;D

網路出問題時MAIL可能是失效的
半夜睡覺時簡訊可能是無效通知
甚至很多簡訊機制是靠MAIL去轉的
再多想想
主題: 回覆: 大量伺服器管理
作者: redjack2010-11-12 14:14
如果要保證有效連絡的話,就變成需要要求人員回傳簡訊以確認。

假設在人員沒有在限定的時間內回傳,再需要再發簡訊給上一層的人員以啟動應變計劃或是由他去找人。

(迷之聲:那如果上一層的人也沒有回傳的話呢~~)
(迷之聲二:那就等著給他死吧~~)
主題: 回覆: 大量伺服器管理
作者: Darkhero2010-11-12 14:34
通常會建議用網管軟體..

另外像是 cacti , nagios , monit 等都是很方便的軟體..

前面提到關於網路斷了 email 發不出去等等...
我覺的要分層來思考..

首先先以網路沒斷得情況下來思考.. 就用 web or meail 的方式發送簡訊..

而網路斷線這部份則由另外的一個系統進行處理發送 gsm modem 簡訊通知...

有點類似物理還是數學推導公式的方式, 先把某一些情況固定下來.. 再來考慮其他的狀況...
接著再回過頭針對原來特定的點進行判斷跟規劃...
畢竟要是全部都是變動元素, 那公式基本上會無解....
主題: 回覆: 大量伺服器管理
作者: ZMAN2010-11-13 23:41
空調故障一段時間後主機可能會出問題
市電喪失一段時間後主機可能會出問題
族繁不及備載.................
究竟是空調掛了就該通知
還是要等主機掛了再通知
再多想想

簡訊不適合拿來當重大狀況的通知方式
主題: 回覆: 大量伺服器管理
作者: 夜雲2010-11-15 11:01
看來只能看  誰誰誰的 能作出 觀落陰這種托夢方式的通知方法  ;D
想說 人總要睡覺嘛~~~
主題: 回覆: 大量伺服器管理
作者: ZMAN2010-11-15 14:56
就是因為人總要睡覺
簡訊才不適合當作重大事件的通知方式
主題: 回覆: 大量伺服器管理
作者: 夜雲2010-11-15 23:39
那看來只有用最原始的方法 ~~~
就三班制~~~
24小時至少都有一個人在場~~~~    8)
主題: 回覆: 大量伺服器管理
作者: dark2010-11-16 03:00
-> 資訊化才能減少人力 , 才能省錢
-> 資訊部門要花錢 , 才能彌補人力不足的缺失
-> 資訊服務公司才有錢賺

然後就惡性循環 ...

若真重要到非三班制
那也不可能日夜顛倒的產能作業方式
(貓頭鷹養殖場嗎 ?)
就算你能 ... 合作廠商呢 ?
(貓頭鷹 ? 合作 ?)
必定有些事 , 大夜也只能紀錄完交給早班


樓主公司既然有買軟體了
為何還想自己寫呢 ?
... 稀有設備偵測機制恐怕要自訂 script
是這類問題嗎 ? (上百隻稀有品種 ?)

主題: 回覆: 大量伺服器管理
作者: James Li2010-11-17 10:23
解決方式其實可以很簡單,找Z教主借設備。

現在的監控設備很方便,會自動打電話給你,
還可以設定多組人員,錢花下去功能就都有了。
主題: 回覆: 大量伺服器管理
作者: yufeng2010-12-08 23:14
解決方式其實可以很簡單,找Z教主借設備。

現在的監控設備很方便,會自動打電話給你,
還可以設定多組人員,錢花下去功能就都有了。

人要睡覺, 會關機, 所以打電話不適合 XXXXXX.........

我來亂的, 快跑......