![]() |
Image: Intel |
Supercomputing 22 မတိုင်ခင်လေးမှာပဲ Intel ဟာ ယခင်က Sapphire Rapids လို့အမည်ပေးထားတဲ့ မျိုးဆက်သစ် Xeon Max CPU နဲ့ Data Center တွေအတွက် Ponte Vecchio compute GPU တွေကိုမိတ်ဆက်လိုက်ပြီဖြစ်ပါတယ်။ ဒီထုတ်ကုန်အသစ်တွေဟာ အမျိုးမျိုးသောစွမ်းဆောင်ရည်မြင့် workload တွေ သို့ အရှုပ်ထွေးဆုံး supercomputing လုပ်ငန်းဆောင်တာတွေကိုဆောင်ရွက်နိုင်စွမ်းရှိပါတယ်။
Intel Xeon Max CPU
အထွေထွေလုပ်ငန်းသုံး x86 processor တွေဟာ technical computing အတွက်အသုံးချလာတာ နှစ်ပေါင်းများစွာကြာမြင့်နေပြီမို့ အသုံးချနိင်တဲ့ပရိုဂရမ်များစွာကို အထောက်အပံ့ပေးနိုင်ပါတယ်။ ဒါပေမယ့် အထွေထွေလုပ်ငန်းသုံး CPU တွေရဲ့ Core တွေဟာ တစ်နှစ်ပြီးတစ်နှစ်စွမ်းဆောင်ရည်မြင့်လာပေမယ့် AI နဲ့ HPC workload တွေဖြစ်တဲ့ parallelization နဲ့ memory bandwidth ပိုင်းတွေမှာဝောာ့ အကန့်အသတ်တွေရှိနေပါတယ်။ Intel ရဲ့ Xeon Max Sapphire Rapids HBM processor တွေဟာ ဒီအချက်၂ခုလုံးက အတားအဆီးကိုဖယ်ရှားနိုင်စွမ်းရှိ နေမှာဖြစ်ပါတယ်။![]() |
Image: Intel |
Intel ရဲ့ Xeon Max processor မှာ စွမ်းဆောင်ရည်မြင့် Golden Cove Core ပေါင်း ၅၆ခု(chiplet ၄ခုကို Intel ရဲ့ EMIB နည်းပညာနဲ့ ချိတ်ဆက်ထား)အထိပါဝင်ကာ AI နဲ့ HPC workload တွေအတွက် accelerator engine ပေါင်းများစွာနဲ့အားဖြည့်ထားသလို 64GB HBM2E memory လည်းထည့်သွင်းထားပါတယါ။ အခြား Sapphire Rapids CPU တွေလိုမျိုးပဲ Xeon Max မှာ DDR5 Memory ကို channel ၈ခုအထိအထောက်ပေးနေသေးသလို CXL 1.1 ကို PCIE Gen 5 interface ပါထပ်ပေါင်းထည့်ပေးထားပါတယ်။
![]() |
Image: Intel |
ဒါတင်မက AVX-512 နဲ့ Deep Learning Boost(AVX512_VNNI နဲ့ AVX512_BF16) accelerator တွေ၊ Advanced Matrix Extension နဲ့ Data Streaming Accelerator (DSA) ကိုပါအထောက်အပံ့ပေးပါတယ်။ 64GB ရှိတဲ့ HBM2E memory က အမြင့်ဆုံး 1TB/s အထိရှိပြီး Core တစ်ခုခြင်းစီအတွက်ဆို 1.14GB ပမာဏရှိတဲ့ HBM2E ရရှိကာ bandwidth အနေနဲ့ 18.28GB/s ရှိမှာဖြစ်ပါတယ်။ 56 cores ရှိတဲ့ Sapphire Rapids CPU ကို DDR5-4800 module ၈ခုတပ်ဆင်အသုံးပြုတဲ့အခါ bandwidth 307.2 GB/s အထိရရှိမှာပါ။ ဒီအတောအတွင်း Xeon Max ဟာ HBM2E memory ကို system memory အဖြစ်သော်၎င်း DDR5 memory အတွက် စွမ်းဆောင်ရည်မြင့် cache အဖြစ်၎င်း software optimization အကူအညီနဲ့ unified memory pool အဖြစ်၎င်း စတဲ့ ကွဲပြားခြားနည်းလမ်းတွေနဲ့ပါအသုံးပြုနိုင်ပါတယ်။
AMX-enable လုပ်ထားတဲ့ Xeon Max ဟာ workload အပေါ်မူတည်ပြီး သမားရိုးကျ FP32 processing သုံးထားတဲ့ Xeon Scalable 8380 processor ထက် စွမ်းဆောင်ရည် ၃ဆကနေ ၅.၃ဆအထိ ပိုမြင့်မားတဲ့စွမ်းဆောင်ရည်ကိုပေးစွမ်းနိုင်ပါတယ်။ moleculer dynamics လိုအလုပ်တွေအတွက်က HBM2E ပါဝင်တဲ့ CPU တွေဟာ 3D V-Cache ထည့်သွင်းထားတဲ့ AMD ရဲ့ EPYC 7773X ထက် ၂.၈ဆအထိပိုမိုမြန်ဆန်ပါတယ်။
Intel Data Center GPU Max
Intel ရဲ့ Data Center GPU Max compute GPU ဟာ ၂၀၁၉လောက်မှ စတင်မိတ်ဆက်ခဲ့တဲ့ Ponte Vecchio architecture ကိုအသုံးချမှာဖြစ်ပါတယ်။ Ponte Vecchio ဟာ ဖန်တီးဖူးသမျှ processor တွေထဲမှာ အရှုပ်ထွေးဆုံးလို့ဆိုနိုင်ကာ ထရန်စစ္စတာပေါင်း ၁၀၀ဘီလီယံကျော်အထိ(memory မပါဝင်)ထည့်သွင်းထားပါတယ်။ နောက်ထပ် သူ့မှာ Intel ရဲ့ အဆင့်မြင့် packaging နည်းပညာ(ဥပမာ EMIB)နဲ့ အခြား manufacturer တွေရဲ့ မတူညီတဲ့ process တွေနဲ့ထုတ်လုပ်ထားတဲ့ Tile တွေကိုပါ ကျယ်ကျယ်ပြန့်ပြန့်အသုံးပြုနိုင်ပါတယ်။![]() |
Image: Intel |
Intel ရဲ့ Data Center GPU Max ဟာ AI နဲ့ HPC workloadတွေအတွက် အထူးဖန်တီးထားတဲ့ Xe-HPC architecture ကိုအခြေပြုကာ 512-bit vector နဲ့ 4096-bit matrix (tensor) engine တွေကိုအထောက်အပံ့ပေးမှာဖြစ်ပါတယ်။
Xe-HPG နဲ့နှိုင်းယှဉ်ကြည့်မယ်ဆိုရင် Xe-HPCမှာ ပိုမိုရှုပ်ထွေးတဲ့ memory နဲ့ cache စနစ်တွေရှိပြီး မတူညီတဲ့ Xe core တွေကိုအသုံးပြုထားပါတယ်။ Xe-HPG မှာ 256-bit vector ၁၆ခုနဲ့ 1024-bit vector engine ၁၆ခုကိုသုံးထားပြီး Xe-HPC core မှာတော့ 512-bit vector ၈ခုနဲ့ 4096-bit vector engine ၈ခုကိုအသုံးပြုထားတာပါ။ နောက်ထပ် Xe-HPC GPU မှာ texture unit သို့ render back end တွေမပါဝင်တဲ့အတွက် သမားရိုးကျနည်းလမ်းတွေနဲ့ graphics ကို render မလုပ်နိုင်ပါဘူး။ ထူးဆန်းစွာနဲ့ Xe-HPG က Supercomputer visualization အတွက် ray tracing ကိုအထောက်အပံ့ပေးပါတယ်။
![]() |
Image: Intel |
Xe-HPC ရဲ့ အရေးအကြီးဆုံးပါဝင်မှုတစ်ခုတော့ Intel ရဲ့ Xe Matrix Extension တွေဖြစ်ပြီး Data Center GPU Max 1550 ဆိုရင် tensor/matrix စွမ်းဆောင်ရည်မှာ 419 TF32 TFLOPS နဲ့ 1678 INT8 TOPS အထိရနိုင်တယ်လို့ဆိုပါတယ်။ သတိထားမိတာတစ်ခုက Ponte Vecchio ဟာ FP32 Tensor (TF32) စွမ်းဆောင်ရည်ကလွဲလို့ကျန်တဲ့နေရာတွေအများစုမှာ Nvidia H100 ထက်နောက်ကောက်ကျနေသလို AMD Instinct MI250X ထက်သိသိသာသာပိုကောင်းမနေပါဘူး။ Intel ကတော့ Data Center GPU Max 1550 ဟာ Nvidia A100 ထက် Riskfuel မှာ ၂.၄ဆနဲ့ NekRS virtual reactor simulation မှာ ၁.၅ဆပိုမြန်ဆန်တယ်လို့ဆိုပါတယ်။
![]() |
Image: Intel |
Intel ဟာ Ponte Vecchio ကို အောက်ပါအတိုင်းအမျိုးအစား၃ခုထုတ်သွားမှာပါ
Data Center GPU Max (OAM form factor)
128 Xe-HPC cores
128GB HBM2E memory
600W TDP
Data Center GPU Max 1350 (OAM form factor)
112 Xe-HPC cores
96GB HBM2E memory
450W TDP
Data Center GPU Max 1100 (FLFH form factor)
56 Xe-HPC cores
56GB HBM2E memory
300W TDP
ဒါ့အပြင် Supercomputer တွေအတွက် OAM mudule ၄ခုပါတဲ့ Max Series Sub System ကို 1800W နဲ့ 2400W TDP တွေနဲ့ပါထုတ်လုပ်ပေးသွားမှာပါ။
Intel Rialto Bridge
Intel ဟာ Data Center GPU Max ရဲ့ နောက်ထပ်မျိုးဆက်ဖြစ်တဲ့ Rialto Bridge ကိုလည်းထုတ်ဖော်ပြသလိုက်ပြီး ၂၀၂၄ခုနှစ်မှာရောက်ရှိလာမှာပါ။ ဒီ HPC GPU ဟာ enhanced လုပ်ထားတဲ့ Xe-HPC core တွေကိုသုံးမှာဖြစ်ကာ architecture အနည်းငယ်ပြောင်းလဲသွားမယ်လို့ယူဆရပေမယ့် Ponte Vecchio အခြေခံထားတဲ့ application တွေနဲ့ကိုက်ညီမယ်လို့ယူဆရပါတယ်။ စိတ်မကောင်းစရာတစ်ခုကတော့ မျိုးဆက်သစ် compute GPU ရဲ့ TDP က 800W ကိုမြင့်တက်သွားတာဖြစ်ပြီး ပိုရိုးရှင်းကာစွမ်းအင်သုံးစွဲမှုနည်းတဲ့ version တွေလည်းရှိမှာဖြစ်ပါတယ်။Source: Tom's Hardware
#EnThueTech
#News
#GPU #HPC
0 Comments