供電系統可靠性指標MTBF的定義,計算與比較.doc_第1页
供電系統可靠性指標MTBF的定義,計算與比較.doc_第2页
供電系統可靠性指標MTBF的定義,計算與比較.doc_第3页
供電系統可靠性指標MTBF的定義,計算與比較.doc_第4页
供電系統可靠性指標MTBF的定義,計算與比較.doc_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

供電系統可靠性指標MTBF 的定義、計算與比較摘 要比較資料中心基礎設施系統時,平均故障間隔時間 MTBF 通常作為制定決策的關鍵依據。供應商提供的數值通常具有誤導性,使得用戶無法進行有效的比較。如果不瞭解或錯誤理解了這些數位背後隱含的可變因素和假設,難免做出錯誤的決定。本文通過明確的假設情況分析,來說明 MTBF 如何才能有效地用作系統規範和系統選擇的依據之一。關鍵字:MTBF、定義、計算方法簡介避免資料中心和網路系統出現故障始終是頭等重要的任務。如果短時間的停機可能會對業務的市場價值產生負面影響,那麼,支援這個網路環境的物理基礎設施就一定要可靠。如何才能確信自己實施的解決方案是可靠的?MTBF(平均無故障工作時間) 是比較可靠性最常用的指標。不過,如果沒有透徹地瞭解 MTBF,可能就無法實現業務可靠性目標。如果故障定義不明確或者假設不現實或被曲解,MTBF 就毫無意義。 本文說明應如何使用 MTBF, 以及將 MTBF 用作規格和選擇依據時的限制。本文還提供一個核對表,作為確保公平有效地進行跨系統比較的指導性原則。MTBF 的比較性分析-現場資料評估法預測 MTBF 的方法有多種。由於有如此多種可用的方法,似乎不可能找到使用同一方法的兩個系統。不過,還是有一種方法可以適用於大多數系統的各種不同過程,即現場資料評估方法,此方法使用實際的現場故障資料,因此能夠提供比類比情況更準確的故障率評估。對於小批量生產的產品或新產品,此資料可能找不到;不過,對那些已在現場獲得廣泛應用的產品,由於有大量的資料,使用此方法就容易了。因此,對於跨系統比較,從現場資料評估開始比較是最合理也是最現實的。本文還介紹了完成此方法的步驟,列舉並說明了各個步驟中可能影響結果的可變因素。如果要進行比較的系統間的關鍵假設或可變因素發生變化,那麼評估這些變化對 MTBF 估計結果的可能存在的影響就非常重要了。圖 1 說明現場資料評估過程的時間流程。隨後的過程步驟將說明這個時間流程中的每個階段。第 1 步:定義並估計抽樣總體的大小在確定年故障率 (AFR) 並最終確定產品的 MTBF 的過程中,第一步是確定要分析的特定產品抽樣總體。是基於特定產品型號還是整個產品系列進行計算?此抽樣總體中產品的生產時間跨度應該多大(以天或月計)?生產日期何時開始何時結束?為抽樣總體選擇的產品應該在設計方面非常相似,並具有足夠多的數量以保證所採集資料的統計有效性,這非常重要。 第 2 步:確定採集資料的樣本時間範圍過程的第二步是確定從抽樣總體中採集故障資料的樣本時間範圍。通常在產品的用戶給供應商報告故障時採集資料。抽樣總體中產品的最晚生產日期和樣本開始日期之間的時間間隔,因產品、地理位置、分銷過程和庫存地點不同而有所差異。例如,如果產品在工廠倉庫中儲存兩個月,在分銷渠道中歷時兩個月,那麼最早只能在抽樣總體中最晚產品生產日期的四個月後開始進行抽樣。對於需要通過批發商、經銷商和零售商這些環節的產品,四個月被視為是考慮上述可變因素的合理時間範圍。圖 1 現場資料評估過程下面說明兩個重要的可變因素:(1) 抽樣總體中產品的最晚生產日期和樣本期間開始日期之間要有足夠的時間間隔 (2) 資料獲取窗口要足夠大,以確保結果的可信度。如果抽樣總體中產品的最晚生產日期和樣本期間開始日期之間沒有足夠的時間間隔,那麼在抽樣總體中的產品得到完全部署之前可能就已經開始進行抽樣了。這種情況可能會造成兩種結果。第一,由於尚未部署的產品不可能出現故障,所以有低估故障率的傾向。第二種結果就是樣本期間很可能包括大量的安裝故障或設置故障。因為新產品的故障率可能會顯示為一個標準的“浴缸”型,所以包括大量安裝故障可能會導致高估故障率。儘管我們知道這兩種相反的效果都很明顯,但也不能指望他們能互相抵消。在抽樣時間方面,另一個需要考慮的重要問題是視窗的持續時間。需要多少天才能充分採集故障資料?採樣時間視窗必須選得足夠寬,以便可以從樣本中移除統計“干擾”。獲得合理準確度所需的持續時間取決於抽樣總體的大小。例如,大批量產品可能需要一個月時間,小批量產品可能需要幾個月時間。第 3步:定義故障必須準確定義故障,確保評估過程的一致性後,才能開始統計故障。現在假設在“故障”產品返回工廠時,是由每個技術人員單獨定義故障。某位元技術人員可能只統計那些出現重大故障的產品,而另一位元技術人員可能統計所有出現了故障(包括重大故障)的產品。這兩種極端的做法使得準確評估特定產品故障率的可能性幾乎為零,當然更不能準確評估對該產品的程序控制所產生的影響。因此,在診斷任意產品之前,供應商必須對故障有一個明確的定義。在計算特定事件的 MTBF 時,供應商可能有多種不同的故障定義。例如,UPS 供應商會試圖評估導致關鍵負載停用的故障的 MTBF 以及負載能夠繼續運轉的不很嚴重的故障的 MTBF。第 4步:接收、診斷和修理產品樣本期間的結束時間和 AFR 計算時間之間必須有足夠的時間間隔,以允許一定的時間來為有故障的產品完成接收、診斷和做修理報告等。診斷結果可確定故障類型,而修理將會驗證診斷結果。體積較小的產品通常會發回供應商處,這會導致出現接收延遲或需要一定的產品遞送時間。產品到達供應商處後,必須對其進行診斷和修理,這會導致另一個稱為診斷延遲的延遲。大型產品通常在客戶處進行診斷和修理,因此基本沒有延遲。在上述任一情況下,都需要在計算 AFR 前診斷和修理產品。如果是大批量產品,很可能在診斷延遲結束時仍然有需要修理的產品。在這些情況下,有時會做出未修理產品和以前修理過的產品出現故障的機率相等這樣的假設。為此,計算 AFR的時間可定在樣本期間結束時間後加上幾個星期。第 5 步:計算年故障率AFR計算年故障率是用來說明某個特定產品在一個個年度內的預期故障數。計算此數值的第一步是“按年計算”故障資料。將樣本期間中的故障數乘以每年的樣本期間數,可以得出此值。第二步就是確定整個抽樣總體的故障率。將計算出來的每年故障數除以抽樣總體期間安裝的產品數,可以得出此值。下面是公式 1: ( 1)此公式有如下兩個假設:(1) 產品一年 365 天、每天 24 小時連續運轉 (2) 抽樣總體中的所有產品都在同一時間開始運轉。因此儘管此公式可以用於任意產品,但更適用於連續運轉的產品。如果已知要安裝的產品是間斷運轉的,那麼使用公式 2 計算 AFR 更準確。備用的應急發電機系統就是這種類型產品的一個示例。 (2)使用此公式,AFR 僅考慮產品實際運轉的時間。實際上,公式 1 和公式 2 是不同假設條件下的同一公式。第 6 步:將 AFR 轉換為 MTBF將 AFR 轉換為 MTBF(以小時計)是所有步驟中最容易的,不過可能也是最常被誤解的。只有在故障率穩定這一假設下,將 AFR 轉換為 MTBF 才有效。下面是此公式 (3)使用 AFR 評估過程計算 MTBF 下面的假想示例有助於說明整個過程。第 1 步:確定抽樣總體全部為 “X” 牌 15kVA UPS 系統,是在 2003 年的第 36 周到第 47 周(9 月1 日至 11 月 21 日)生產的,生產窗口時長共 12 周。抽樣總體共 2000 台裝置。第 2 步:確定採樣視窗從 2004 年 2 月 2 日開始,至 2004 年 7 月 16 日結束。選擇這一採樣視窗時,考慮了在產品庫存和分銷過程中會有 10 周的延遲。第 3 步:將故障定義為由任何原因(包括人為錯誤)引起的關鍵負載停用。第 4 步:在樣本期間,總共報告了二十起故障。其中,9起故障被劃分為關鍵負載停用故障,其他故障為非關鍵故障。因此,根據第 3 步中確定的故障定義,這裏使用的故障數為9。第 5 步:AFR 計算如下:第 6 步:MTBF 計算如下:影響 AFR 的可變因素大多數情況下,用戶是從供應商處獲取產品的 MTBF 值,但不帶有任何用於證實這些數值的相關資料。如上所述,當查看多個系統的 MTBF 值(或 AFR 值)時,瞭解分析所用的隱含假設和可變因素(特別是定義故障的方式)非常重要。比較時若忽視了這一點,比較結果出現偏差的可能性就會變大,可能會出現 500% 或更高的偏差。最終可能導致不必要的業務支出甚至意外停機。一般來說,必須有明確的可變因素定義、假設定義以及故障定義,才可以比較兩個或更多系統間的 MTBF 值。即使兩個 MTBF 值看起來很相似,仍然有比較結果出現偏差的可能。因此,必須弄清 MTBF 結果後面隱含的內容,並仔細研究和領會這些數值所包含的含義。下面將介紹每個可變因素,並說明他們可能對結果產生的影響。附錄中提供一個核對表,可以用於比較兩個或多個系統間的可變因素。完成比較後,必須再檢查一下核對表,以確定系統間有哪些不同的可變因素。通過逐一嚴格分析這些不同的可變因素及其對 MTBF 的影響,可以確定比較是否公正並可以作為產品規格或購買決策的關鍵標準。 產品功能、應用範圍的界定在比較兩個或更多 MTBF 值之前,驗證被比較的兩個產品是否同類非常重要。被比較的產品必須在功能、性能及應用方面相同或相似。如果被比較的產品是 UPS,則產品功能就是為連接的負載提供備用電源。此產品的用途可能是用來支援資料中心環境中的關鍵 IT 負載。如果沒有相似的應用,就不可能進行公正的 MTBF 比較。例如,對工業用途和 IT 用途的 UPS 進行比較是不切合實際的。更重要的是,MTBF 比較中所用系統的邊界必須等同。如果各個系統的定義方式不同,那麼不可避免地會出現比較偏差。我們以使用外部電池的 UPS 系統為例。某些供應商可能選擇不包括由這些電池導致的故障,因為他們位於系統“外部”,不是系統的一部分。其他供應商可能選擇包括電池故障,因為這些電池是系統運轉的必要元件。圖 2 說明此示例。其他可能導致不一致邊界的元件包括輸入和輸出電路斷路器、旁路系統、保險絲和控制系統。用戶應該向供應商諮詢 MTBF 計算中應包括哪些組件或子系統,不應認為所有供應商定義系統的方式都相同。穩定故障率假設要使計算 AFR 和 MTBF 的現場資料評估方法有效,必須假設被分析的產品具有穩定的故障率。很重要的一點就是要判明此假設對於被比較產品的類型是否合理。對於電子系統或元件,這個假設通常可以成立。該產品是否屬於這一類?如果不屬於,計算出來的值可能不會是預期故障的代表性數值,進行公正比較的可能性就很小。圖 2 比較 UPS 系統的“邊界”抽樣總體大小在明確產品及其應用非常相似後,很重要的一項工作就是審查現場資料獲取過程。在這裏,定義抽樣總體大小(生產的產品數量)是第一個關鍵的可變因素。如果抽樣總體中定義的產品數量太少,那麼得出的 MTBF 估計值就很可能沒用。因此,比較 MTBF 值時,確保每個值都是基於足夠大的抽樣總體大小,這是非常重要的。儘管被比較產品的生產率可能不同,但需要著重考慮的是抽樣總體中的產品數量。如果某個產品的生產率較低,那麼此產品的生產時間範圍應該比較大,以便能夠達到一個合適的產品數量。例如,供應商 “A” 在一個月內生產 1000 台產品,而供應商 “B” 在一個月內生產 50 台“同類”產品。對於供應商 “B”,抽樣總體中應包括若干個月生產的產品,以確保結果的統計有效性;對於供應商 “A”,一個月內生產的產品就夠了。抽樣總體中產品的最晚生產日期和樣本期間開始日期之間的時間間隔如果抽樣總體範圍的結束時間和樣本採集期的開始時間之間沒有足夠的時間間隔,那麼 AFR 和 MTBF 值可能是不準確的。被比較的每個系統的供應商必須為其抽樣總體提供足夠時間,以便在開始採集故障資料之前系統可以完成庫存及分銷過程。例如,如果某個特定產品通常在庫房中存放一個月後,進入分銷過程(歷時一個月),那麼評估故障前設定的最短時間應該是兩個月。總“等待”時間因產品類型而異。由於要進行比較的產品類型應該相似,所以抽樣總體期間和樣本期間之間的時間間隔也應該相似。如果某個供應商明顯沒有足夠的等待時間或根本沒有等待時間,那麼他們的系統 AFR 可能會低於實際值,在比較這些值時要特別注意。樣本資料獲取期正如在此過程第 2 步中所指出的那樣,選擇合適的樣本資料獲取期非常重要。如果被比較的系統具有相同長度的採樣視窗,並且具有相似的生產量和銷售量,就可以進行公平比較。不過,情況並不總是這樣。如果各個系統的資料獲取期時間不同,那麼單獨地評估每個系統,確定其是否能夠反映準確的故障率就很重要。產品數量越少,視窗應該越長。例如,如果某個供應商每個月的產品產量為 10 台,用一個月時間來採集故障資料,時間就不充分。因為產品數量少,所以用這個月內報告的故障(如果有)來推斷前幾個月的故障率,可信度很低。 故障定義如果兩個可比較產品間的故障定義不同,那麼進行故障分析就象比較蘋果和橙子一樣毫無意義。因此,要進行有效的 MTBF 比較,一項基本任務就是準確分析每個被比較產品的故障組成。對於 MTBF值 計算,供應商統計故障時要考慮的問題包括:l 是否將用戶誤用導致的故障統計在內?設計者可能忽視了許多人為因素,這將導致用戶很容易誤用產品? l 在電源保護行業中,UPS 故障的最常見“定義”是“負載停用”故障。這表示向負載供電超出了可接受範圍,導致了負載停止運轉。不過,是否將由供應商維修技術人員導致的負載停用也統計在內?產品設計本身是否會提高風險程式出現故障的可能性?l 如果電腦上的 LED(發光二級管)出現故障,是否屬於故障(雖然它沒有影響電腦的運行)?l 如果耗材(例如電池)的使用期比預期的時間要短,是否屬於故障?l 運輸造成的損壞是否屬於故障?這可能表明包裝的設計不當?l 是否將重複出現的故障統計在內,也就是說,對於同一用戶使用的同一系統內診斷結果相同的故障,是重複計數還是僅計數一次?l 安裝過程導致的故障是否統計在內,此故障可能是供應商技術人員引起的?l 如果用戶沒有購買推薦的維護合同或監視系統,是否將故障統計在內?l 如果地震導致建築物損害,使得系統出現故障,是否將故障統計在內或將其視為“天災”?l 是否將系統外某些元件的故障統計在內,對於 UPS 系統,系統外元件可能是電池或旁路開關?l 如果出現連鎖故障,導致後續系統停機,是將每個系統的故障都統計在內還是僅統計第一個系統的故障? 工業中用來計算 MTBF 的實際故障定義可能還會有一些衍生情況,上面列出的只是一小部分。因為要將許多異常情況都統計為故障,所以 MTBF 值所反映的系統性能比實際使用情況更可靠。要為合作夥伴和用戶提供 AFR 和 MTBF 值,比較 MTBF 值時需要一個明確的故障定義。有三個直觀定義:類型 0:該產品有一個妨礙其運轉的缺陷或故障。類型 I:產品整體失效,無法實現其所應實現的功能。 IEC -50 類型 II:個別元件失效,無法實現其應實現的功能,但不是因產品整體失效而無法實現該產品應實現的功能。 IEC -50 人為失誤的情況下,比較 MTBF 值可能更困難。這是因為有多種可能導致故障的人為失誤,使得供應商需要篩選出與人為失誤相關的故障。如果供應商都沒有篩選出相同類型的故障,那麼系統比較結果就很值得懷疑。表 1 使用不同的故障定義比較 MTBF 值的示例除了瞭解每個供應商選擇的定義,還必須明確是否包括人為故障。在 MTBF 計算要包括要說明這一點,我們仍然以上面的 “X” 牌產品為例。表 1 比較當存在不同的故障定義時的 MTBF 值。系統 “A” 是 “X” 牌產品,其故障被定義為嚴重(類型 I)故障,包括所有人為失誤和耗材故障類型。系統 “B” 是同一 “X” 牌產品。其故障同樣為僅有類型 I 故障,但不包括人為失誤導致的故障、連鎖故障以及耗材故障。根據 MTBF 公式的性質,在樣本期間即使一個故障差額也可能對 MTBF 結果產生很大影響。在此示例中,有 5 個系統故障差額(系統 A 有 9 個,系統 B 有 4 個),MTBF 按 125% 變化。故障定義很容易且常常被誤解,就象此示例中所示,可以看出有效比較和無效比較的差別。樣本期間結束日期和 AFR 計算日期之間的時間間隔如果某個供應商可以提供接收、診斷和修理樣本期間內報告的所有產品故障,則可以立即計算 AFR。事實上,對於在客戶處進行診斷和修理的少量產品,這是可行的。但是,如果是運回製造商處的大量產品,就不能這樣。對於相似產品類型的 MTBF 比較,樣本期間結束日期和 AFR 計算日期之間的延遲應該相似。例如,假設供應商 “A” 在樣本期間結束的一個月後計算 AFR,供應商 “B” 在樣本期間結束的四個月後計算 AFR。如果被比較的產品是大批量產品,供應商 “A” 報告一個令人滿意的 AFR 的可能性更大。這是因為某些“故障”產品(尚未接收、診斷和修理)不計入 AFR 計算之內。在某種條件下,系統之間的時間範圍差異未必會導致無效比較(其他所有情況都等同)。這個條件就是,當所有供應商都假設未修理的產品與以前修理過的產品的故障率相同並且已經接收、診斷和修理了大部分返回產品。資料獲取和分析過程的制定要評估 MTBF 比較的可信度,很重要的一點就是要瞭解每個供應商已制定好的資料獲取和分析過程。一個明確定義的已文檔化的過程對於實施穩定的質量控制系統至關重要。有助於確保整個分析步驟的一致性和準確性。以下三個示例說明需要特別注意的過程問題。當上述問題或其他問題很明顯時,應該嚴格地檢查這些問題對 MTBF 估計結果(及最終比較結果)的影響。l 供應商無法準確跟蹤全球範圍資料,因為全球不同地區使用的故障及修理資料的跟蹤系統或存儲系統不盡相同。資料缺失或不正確可能會導致評估全球產品的 AFR 時出現錯誤。l 對於已歸類的返回產品,供應商沒有明確定義的過程。如果因無條件退貨返回的未使用和未開箱產品被分類為因故障返修,將導致 AFR 變大。l 供應商的跟蹤系統大部分都是手動的。過程中涉及的人為因素越多,資料出錯並最終導致 AFR 計算出錯的可能性就越大。通常,過程的自動化程度越高,結果就越準確。比如,自動掃描序列號,而不是手動向系統中鍵入號碼,這就是一種自動化過程。計算中使用的 AFR 公式取決於產品的不同,各個供應商使用的 AFR 公式(公式 1 或 2)可能會使得 MTBF 比較無效。比較連續運轉的產品(一旦啟用)可以使用兩個公式之一,但比較間斷運轉的設備僅可以使用公式 2,否則該比較無效。表 2 說明在何種情況下進行的比較有效。一年內的小時數只有在穩定故障率的假設下,將 AFR 轉換為 MTBF 才有效。在這種情況下,可以使用公式 3,不過請確認要比較

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论