【導(dǎo)讀】人工智能(AI)正在迅速改變各行各業(yè),從醫(yī)療保健、金融到自動駕駛汽車和自然語言處理,推動著全方位的創(chuàng)新。這場革命由AI服務(wù)器驅(qū)動,它們提供了前所未有的計算性能。然而,AI工作負載(包括大語言模型的廣泛采用)的指數(shù)級增長導(dǎo)致了功耗的急劇上升,給全球數(shù)據(jù)中心帶來了新的挑戰(zhàn)。隨著AI模型變得更加復(fù)雜以及AI服務(wù)器數(shù)量的增長,對強大、高效和可擴展的電力供應(yīng)的需求比以往任何時候都更迫切。

現(xiàn)代數(shù)據(jù)中心正在不斷發(fā)展以應(yīng)對這些日益增長的需求。其重點正轉(zhuǎn)向更高的能源效率、先進的電源管理以及集成碳化硅(SiC)等寬帶隙半導(dǎo)體(在某些情況下包括氮化鎵),以減少能量損耗。

安全性仍然是重中之重,尤其是當AI應(yīng)用處理海量敏感數(shù)據(jù)時。這種環(huán)境要求采取強有力的措施,例如基于硬件的加密、安全啟動機制以及警惕的實時威脅檢測。為了應(yīng)對AI推理和訓(xùn)練(特別是由大語言模型驅(qū)動的工作負載)帶來的計算強度,數(shù)據(jù)中心正在采用新的供電和電壓調(diào)節(jié)方法,并實施先進的熱管理??蓴U展性和靈活性的需求變得越來越重要,促使數(shù)據(jù)中心采用模塊化基礎(chǔ)設(shè)施并探索創(chuàng)新的冷卻策略。隨著這些趨勢的持續(xù)發(fā)展,AI驅(qū)動的數(shù)據(jù)中心有望在支持未來進步所需的敏捷性的同時,實現(xiàn)更高的效率和安全性。
為AI服務(wù)器供電的挑戰(zhàn)

不斷增長的電力和密度需求
AI服務(wù)器是現(xiàn)代數(shù)據(jù)中心的支柱,驅(qū)動著深度學(xué)習(xí)、機器學(xué)習(xí)、大語言模型和實時分析等高級任務(wù)。這些服務(wù)器比傳統(tǒng)的企業(yè)服務(wù)器需要更多的電力。隨著數(shù)據(jù)中心擴展其AI能力,它們面臨著在保持效率以管理成本和減少環(huán)境影響的同時,提供足夠電力的挑戰(zhàn)。數(shù)據(jù)中心的能耗激增,AI工作負載的能耗可能是傳統(tǒng)任務(wù)的兩倍。全球數(shù)據(jù)中心的能源需求正以每年10-15%的速度增長,目前AI已占其總能耗的10-20%。承擔繁重計算負載的AI加速器服務(wù)器是此基礎(chǔ)設(shè)施內(nèi)的主要能源消耗者。

從傳統(tǒng)的以CPU為中心的架構(gòu)向GPU和專用加速器的轉(zhuǎn)變,正推動著電力需求的持續(xù)激增?,F(xiàn)代AI服務(wù)器的功耗現(xiàn)在是傳統(tǒng)企業(yè)服務(wù)器的兩到三倍,高性能AI機柜的功耗超過50千瓦/柜,而傳統(tǒng)數(shù)據(jù)中心僅為5-15千瓦/柜。僅GPU每卡功耗就可達300-700瓦。隨著AI工作負載的擴展,下一代數(shù)據(jù)中心必須實施先進的配電架構(gòu)、高效的電壓調(diào)節(jié)器和創(chuàng)新的冷卻解決方案,以維持運行效率和可靠性。

Microchip通過其全面的高效MOSFET、SiC FET和智能柵極驅(qū)動器產(chǎn)品組合來應(yīng)對這些不斷增長的電力需求。這些先進的功率器件旨在提供卓越的開關(guān)性能、降低導(dǎo)通和開關(guān)損耗并增強熱管理能力,這對于支持AI服務(wù)器所需的高功率密度至關(guān)重要。Microchip的SiC MOSFET支持更高的開關(guān)頻率,從而減小磁性元件的尺寸和重量,實現(xiàn)更緊湊、更高效的電源設(shè)計。智能柵極驅(qū)動器提供精確控制、集成保護功能和強大的診斷能力,確保即使在最苛刻的計算負載下也能可靠運行。這使得數(shù)據(jù)中心能夠部署更強大的AI服務(wù)器,而不會超出功率或熱極限。
效率與熱管理
隨著功率密度的增加,在相同或更小的物理空間內(nèi)提供更多電力成為首要任務(wù)。傳統(tǒng)的電源單元和空氣冷卻方法正達到其運行極限,因為更高的功率密度會產(chǎn)生更多的熱量,并增加因效率低下而導(dǎo)致能量損失的風險。低效的電能轉(zhuǎn)換不僅會增加運營成本,還會導(dǎo)致更大的碳足跡,日益受到監(jiān)管機構(gòu)和客戶的關(guān)注。有效的熱管理對于防止過熱、維持系統(tǒng)可靠性以及延長關(guān)鍵部件的使用壽命至關(guān)重要。數(shù)據(jù)中心必須找到最大限度地提高效率和管理散熱的方法,同時最大限度地減少環(huán)境影響并實現(xiàn)可持續(xù)發(fā)展目標。
Microchip的dsPIC?數(shù)字信號控制器是其數(shù)字電源解決方案的核心,它結(jié)合了單片機的實時控制能力和數(shù)字信號處理器的高速數(shù)學(xué)處理能力。這些控制器能夠?qū)崿F(xiàn)對功率級的精確控制、快速的瞬態(tài)響應(yīng)以及復(fù)雜數(shù)字控制算法的實施。例如,dsPIC33A系列提供高時鐘速度、高級脈寬調(diào)制輸出和高分辨率模數(shù)轉(zhuǎn)換器,從而實現(xiàn)對功率級的精確控制、快速的瞬態(tài)響應(yīng)以及復(fù)雜數(shù)字控制算法的實施。

智能熱管理和電源監(jiān)控可包括溫度傳感器、風扇控制器和電源監(jiān)控集成電路,實現(xiàn)對熱和電氣參數(shù)的實時跟蹤。這些器件可以與DSC無縫集成,以實施閉環(huán)冷卻策略、優(yōu)化風扇速度并在異常情況下觸發(fā)警報或關(guān)閉,確保高密度AI服務(wù)器的安全高效運行。
安全與數(shù)據(jù)完整性
由于AI服務(wù)器處理大量敏感數(shù)據(jù),強大的安全協(xié)議至關(guān)重要。網(wǎng)絡(luò)威脅和數(shù)據(jù)泄露風險的增加要求實施先進的基于硬件的安全措施和安全啟動機制。組織還需遵守嚴格的行業(yè)標準,如NIST 800-193、通用標準以及FIPS 140-3。開放計算項目也設(shè)定了較高的安全標準,重點關(guān)注硬件信任根、固件完整性和安全啟動過程。這些安全措施有助于確保AI數(shù)據(jù)服務(wù)器在運行前能夠驗證和認證硬件和軟件,降低網(wǎng)絡(luò)威脅的風險。
Microchip將其強大的安全功能直接集成到其控制器和電源管理集成電路中。這些功能包括硬件信任根、安全啟動、加密加速器以及對行業(yè)標準的支持。硬件信任根確保只有經(jīng)過驗證的固件和軟件才能在系統(tǒng)上運行,而安全啟動機制可防止在啟動期間執(zhí)行未經(jīng)授權(quán)的代碼。加密加速器支持基于硬件的快速加密和解密,保護靜態(tài)和傳輸中的敏感數(shù)據(jù)。這些功能幫助數(shù)據(jù)中心滿足現(xiàn)代安全要求,防范不斷演變的網(wǎng)絡(luò)威脅,并維護AI工作負載的完整性和機密性。
可擴展性與靈活性
AI工作負載日益復(fù)雜,正推動著對AI數(shù)據(jù)服務(wù)器更高的可擴展性和靈活性的需求。大語言模型、實時分析和AI驅(qū)動應(yīng)用的興起,要求基礎(chǔ)設(shè)施能夠動態(tài)擴展以處理激增的計算需求。AI訓(xùn)練集群正在迅速擴展,一些超大規(guī)模數(shù)據(jù)中心現(xiàn)已部署的GPU架構(gòu)功耗超過100千瓦/柜。向模塊化服務(wù)器架構(gòu)的轉(zhuǎn)變允許數(shù)據(jù)中心在無需對整個系統(tǒng)進行徹底改造的情況下升級和重新配置硬件,從而降低成本并提高適應(yīng)性??山M合基礎(chǔ)設(shè)施解決方案支持根據(jù)工作負載需求動態(tài)分配計算、存儲和網(wǎng)絡(luò)等資源,確保隨著新模型和應(yīng)用的涌現(xiàn),AI數(shù)據(jù)服務(wù)器能夠無縫擴展。
Microchip的模塊化電源管理解決方案(包括數(shù)字控制器、電源模塊和參考設(shè)計)旨在支持現(xiàn)代AI工作負載所需的可擴展性和靈活性。這些解決方案可以輕松集成到模塊化服務(wù)器架構(gòu)中,允許數(shù)據(jù)中心根據(jù)計算需求擴展供電基礎(chǔ)設(shè)施。Microchip的數(shù)字控制器支持可組合基礎(chǔ)設(shè)施,能夠在工作負載演變時動態(tài)分配計算、存儲和網(wǎng)絡(luò)資源。這種方法降低了成本,提高了適應(yīng)性,并確保隨著新模型和應(yīng)用的涌現(xiàn),AI數(shù)據(jù)服務(wù)器能夠無縫擴展。
完善的開發(fā)生態(tài)系統(tǒng)
AI的快速發(fā)展要求數(shù)據(jù)中心運營商和服務(wù)器制造商加快開發(fā)周期以保持競爭力。為AI服務(wù)器設(shè)計、驗證和部署先進的電源系統(tǒng)非常復(fù)雜,如果沒有合適的資源,可能會導(dǎo)致延誤和成本增加。為了最大限度地縮短產(chǎn)品上市時間并降低設(shè)計風險,獲得經(jīng)過驗證的參考設(shè)計、強大的開發(fā)工具和專家技術(shù)支持至關(guān)重要。
結(jié)論
AI服務(wù)器電力需求的指數(shù)級增長給數(shù)據(jù)中心運營商和技術(shù)提供商帶來了重大挑戰(zhàn)。通過采用先進的功率器件、創(chuàng)新的冷卻解決方案、強大的安全協(xié)議和智能數(shù)字電源管理,行業(yè)可以有效應(yīng)對這些挑戰(zhàn)。Microchip的高效MOSFET、精密的柵極驅(qū)動器以及具備先進DSP功能的dsPIC數(shù)字信號控制器,在實現(xiàn)卓越性能和能源效率的電源供應(yīng)方面處于前沿地位。
通過利用先進的功率器件、數(shù)字控制器、集成的安全功能和全面的開發(fā)工具,數(shù)據(jù)中心運營商和服務(wù)器制造商能夠設(shè)計出滿足AI工作負載(包括由大語言模型驅(qū)動的工作負載)嚴苛要求的電源系統(tǒng)。這些技術(shù)實現(xiàn)了更高的效率和功率密度、增強的可靠性和熱管理、強大的安全性、可擴展性、靈活性以及更快的開發(fā)周期。整個行業(yè)的持續(xù)創(chuàng)新正在幫助下一代數(shù)據(jù)中心在性能、效率和安全性方面達到新的基準,支持AI基礎(chǔ)設(shè)施的持續(xù)演進。



