ตั้งแต่ขนาด/ขนาดไปจนถึงขนาด: สเปกตรัม-XGS เป็นตัวเลือกที่หลีกเลี่ยงไม่ได้

Sep 25, 2025

ฝากข้อความ

ศูนย์ข้อมูล AI ในปัจจุบันเผชิญกับปัญหาคอขวดหลักสองประการในการปรับขนาด และโมเดล-การเพิ่มและขยายขนาด-แบบเดิมกำลังดิ้นรนเพื่อตอบสนองความต้องการ AI ขนาดใหญ่-:

ขยาย-ขีดจำกัด: ทำได้โดยการอัพเกรดระบบหรือชั้นวางเดี่ยว (เช่น เพิ่มจำนวน GPU หรือปรับปรุงประสิทธิภาพของอุปกรณ์เดี่ยว-) แต่ถูกจำกัดโดยเพดานพลังงานจากโครงสร้างพื้นฐาน เช่น การระบายความร้อนด้วยน้ำ ศูนย์ข้อมูลที่มีอยู่มีเกณฑ์ทางกายภาพสำหรับการป้อนพลังงานและการกระจายความร้อน ป้องกันไม่ให้ความหนาแน่นของการประมวลผลต่อแร็คหรือศูนย์ข้อมูลเพิ่มขึ้นอย่างไม่สิ้นสุด

ขยาย-ข้อจำกัด: ขยายโดยการเพิ่มชั้นวางและเซิร์ฟเวอร์เพื่อปรับขนาดคลัสเตอร์ แต่ถูกจำกัดด้วยพื้นที่ทางกายภาพในสถานที่เดียว ทำให้เกิดฮาร์ดแคปกับความจุของอุปกรณ์

เพื่อเอาชนะภาวะที่กลืนไม่เข้าคายไม่ออกนี้ NVIDIA เสนอมิติใหม่ของ "ขนาด-ข้าม" เพิ่มประสิทธิภาพการสื่อสารเครือข่ายระหว่างศูนย์ข้อมูลที่กระจัดกระจายทางภูมิศาสตร์เพื่อให้คลัสเตอร์ AI แบบกระจายทำงานร่วมกันเป็นหนึ่งเดียว Jensen Huang ผู้ก่อตั้งและซีอีโอของ NVIDIA อธิบายว่าซุปเปอร์แฟคทอรี AI ระดับภูมิภาค-แห่งนี้เป็นโครงสร้างพื้นฐานที่สำคัญสำหรับการปฏิวัติอุตสาหกรรม AI โดยมี Spectrum-XGS เป็นตัวขับเคลื่อนเทคโนโลยีหลัก

Spectrum-XGS

เทคโนโลยีหลักของสเปกตรัม-XGS

Spectrum-XGS ไม่ใช่แพลตฟอร์มฮาร์ดแวร์ใหม่ทั้งหมด แต่เป็นวิวัฒนาการของระบบนิเวศ Spectrum-X Ethernet ที่มีอยู่ของ NVIDIA นับตั้งแต่เปิดตัวในปี 2024 Spectrum-X ได้ส่งมอบประสิทธิภาพเครือข่าย AI ที่สร้างสูงกว่าอีเทอร์เน็ตแบบดั้งเดิมถึง 1.6 เท่าผ่านสวิตช์ SN5600 ของสถาปัตยกรรม Spectrum-4 และ BlueField-3 DPU กลายเป็นตัวเลือกหลักสำหรับศูนย์ข้อมูล AI ที่ใช้ NVIDIA GPU ความก้าวหน้าใน Spectrum-XGS อยู่ที่นวัตกรรมอัลกอริธึมสามประการและการทำงานร่วมกันของฮาร์ดแวร์ที่จัดการกับความล่าช้าในการสื่อสาร ความแออัด และการซิงโครไนซ์ความท้าทายในคลัสเตอร์ GPU ข้ามภูมิภาค

1.อัลกอริธึมหลัก: การปรับแบบไดนามิกให้เข้ากับลักษณะเครือข่ายระยะไกล-

แกนหลักของสเปกตรัม-XGS คือชุดของ "อัลกอริธึมการเพิ่มประสิทธิภาพเครือข่ายที่รับรู้ระยะทาง" ที่วิเคราะห์พารามิเตอร์หลักของการสื่อสารข้าม-ข้อมูล-ศูนย์แบบเรียลไทม์- (ระยะทาง รูปแบบการรับส่งข้อมูล ระดับความแออัด ตัวชี้วัดประสิทธิภาพ) และปรับนโยบายเครือข่ายแบบไดนามิก:

ระยะทาง-การควบคุมความแออัดแบบปรับเปลี่ยนได้:ต่างจากการจัดการการเชื่อมต่อทั้งหมดแบบเดียวกันของอีเธอร์เน็ตแบบดั้งเดิม อัลกอริธึมสเปกตรัม-XGS จะปรับเกณฑ์ความแออัดโดยอัตโนมัติตามระยะทางจริงระหว่างศูนย์ข้อมูล (ปัจจุบันรองรับการใช้งานสูงสุดหลายร้อยกิโลเมตร) หลีกเลี่ยงการสูญหายของแพ็คเก็ตหรือการสะสมในการส่งข้อมูลระยะไกล-

การจัดการเวลาแฝงที่แม่นยำ:ด้วยการกำหนดเส้นทางแบบปรับได้ต่อ-แพ็กเก็ตที่ละเอียด- จะช่วยขจัดความกระวนกระวายใจในการตอบสนองจากการส่งแพ็กเก็ตซ้ำในเครือข่ายแบบดั้งเดิม ความกระวนกระวายใจถือเป็นอันตรายร้ายแรงในคลัสเตอร์ AI: หาก GPU ตัวเดียวล่าช้าเนื่องจากความล่าช้า GPU ที่ทำงานร่วมกันทั้งหมดต้องรอ ซึ่งส่งผลโดยตรงต่อประสิทธิภาพโดยรวม

สิ้นสุด-ถึง-สิ้นสุดการวัดและส่งข้อมูลทางไกล: การรวบรวมข้อมูลประสิทธิภาพลิงก์เต็ม-แบบเรียลไทม์จาก GPU ไปยังสวิตช์และลิงก์ข้าม-ข้อมูล-ศูนย์ให้ผลตอบรับในระดับมิลลิวินาที-สำหรับการปรับอัลกอริทึม ทำให้มั่นใจได้ถึงการจับคู่แบบไดนามิกของสถานะเครือข่ายกับความต้องการปริมาณงาน AI

2. การทำงานร่วมกันของฮาร์ดแวร์: การใช้ประโยชน์จากรากฐานแบนด์วิดธ์สูง-ของระบบนิเวศ X-

Spectrum-XGS บรรลุประสิทธิภาพสูงสุดเมื่อรวมกับฮาร์ดแวร์ NVIDIA เฉพาะ:

สวิตช์สเปกตรัม-X: เป็นแกนหลักของเครือข่าย ซึ่งมีความหนาแน่นของพอร์ตสูงและการส่งต่อ{0}}เวลาแฝงต่ำ

ConnectX-8 ซุปเปอร์นิค: อะแดปเตอร์เครือข่ายเฉพาะ AI 800 Gb/s- สำหรับการถ่ายโอนข้อมูลความเร็วสูง- ระหว่าง GPU และสวิตช์

ฮาร์ดแวร์สถาปัตยกรรม Blackwell: เช่น B200 GPU และซูเปอร์ชิป GB10 ที่บูรณาการอย่างลึกซึ้งกับ Spectrum-XGS เพื่อลดเวลาแฝงตั้งแต่ต้นทาง-ถึง- NVIDIA ได้รับการตรวจสอบผ่านการวัดประสิทธิภาพ NCCL (ไลบรารีการสื่อสารแบบรวม): สเปกตรัม-XGS เพิ่มประสิทธิภาพการสื่อสารระหว่าง GPU ข้าม-ข้อมูล-ตรงกลาง 1.9 เท่า ในขณะที่ควบคุม-}ถึง-เวลาแฝงที่ประมาณ 200 มิลลิวินาที-a ระดับที่ให้ความรู้สึกตอบสนองและ-ไม่มีความล่าช้าในการโต้ตอบของผู้ใช้ ตรงตาม-ข้อกำหนดแบบเรียลไทม์สำหรับการอนุมาน AI

การเพิ่มประสิทธิภาพสแต็ก-เต็มรูปแบบสำหรับการฝึกอบรม AI และประสิทธิภาพการอนุมานด้วยสเปกตรัม-XGS

Spectrum-XGS ไม่ใช่เทคโนโลยีที่แยกออกจากกัน แต่เป็นส่วนเสริมที่สำคัญของระบบนิเวศ AI แบบสแต็กเต็มรูปแบบของ NVIDIA- ในรุ่นนี้ NVIDIA ยังเปิดเผยซอฟต์แวร์-การปรับปรุงประสิทธิภาพระดับที่ประสานกับ Spectrum-XGS สำหรับฮาร์ดแวร์-อัลกอริทึม-การทำงานร่วมกันของซอฟต์แวร์:

การอัพเกรดซอฟต์แวร์ไดนาโม: ปรับให้เหมาะสมสำหรับสถาปัตยกรรม Blackwell (เช่น ระบบ B200) เพื่อเพิ่มประสิทธิภาพการอนุมานโมเดล AI สูงสุดถึง 4 เท่า ลดการใช้การประมวลผลสำหรับการอนุมานโมเดลขนาดใหญ่ลงอย่างมาก

เทคโนโลยีการถอดรหัสเก็งกำไร: ใช้แบบจำลองร่างขนาดเล็กเพื่อคาดการณ์โทเค็นเอาต์พุตถัดไปของโมเดล AI หลักล่วงหน้า ซึ่งจะช่วยลดการคำนวณของโมเดลหลักและเพิ่มประสิทธิภาพการอนุมานเพิ่มเติมอีก 35% เหมาะอย่างยิ่งสำหรับสถานการณ์การอนุมานการสนทนาในโมเดลภาษาขนาดใหญ่ (LLM)

Dave Salvator ผู้อำนวยการฝ่ายประมวลผลเร่งความเร็วของ NVIDIA กล่าวว่าเป้าหมายหลักของการเพิ่มประสิทธิภาพเหล่านี้คือการปรับขนาดแอปพลิเคชัน AI แบบเอเจนต์ที่มีความทะเยอทะยาน ไม่ว่าจะเป็นการฝึกอบรม-โมเดลพารามิเตอร์ขนาดใหญ่จำนวนล้านล้านหรือสนับสนุนบริการอนุมาน AI สำหรับผู้ใช้หลายล้านคนพร้อมกัน การรวมกันของ Spectrum-XGS และระบบนิเวศของซอฟต์แวร์จะมอบประสิทธิภาพที่คาดการณ์ได้

การใช้งานในช่วงแรกและผลกระทบทางอุตสาหกรรมของสเปกตรัม-XGS

ผู้ใช้รายแรก: CoreWeave Pioneers Cross-Domain AI Super FactoryCoreWeave ผู้ให้บริการระบบคลาวด์ GPU เป็นหนึ่งในผู้ใช้รายแรกๆ ที่ใช้ Spectrum-XGS Peter Salanki ผู้ก่อตั้งร่วมและซีทีโอของบริษัท-ตั้งข้อสังเกตว่าเทคโนโลยีนี้จะช่วยให้ลูกค้าสามารถเข้าถึง-ความสามารถด้าน AI ขนาดใหญ่ ซึ่งจะช่วยเร่งความก้าวหน้าในอุตสาหกรรมต่างๆ ตัวอย่างเช่น การสนับสนุนโครงการ AI ขนาดใหญ่พิเศษ-- เช่น โครงการริเริ่ม Stargate จาก Oracle, SoftBank และ OpenAI

แนวโน้มอุตสาหกรรม: อีเธอร์เน็ตแทนที่ InfiniBand เป็นกระแสหลักเครือข่าย AIแม้ว่า InfiniBand จะครองตลาดเครือข่ายแบ็กเอนด์ AI ประมาณ 80% ในปี 2566 แต่อุตสาหกรรมก็กำลังเปลี่ยนไปสู่อีเทอร์เน็ตอย่างรวดเร็ว ทางเลือกของ NVIDIA ในการพัฒนา Spectrum-XGS บนอีเธอร์เน็ตสอดคล้องกับแนวโน้มนี้:

ความเข้ากันได้และความได้เปรียบด้านต้นทุน:อีเธอร์เน็ตเป็นมาตรฐานสากลสำหรับศูนย์ข้อมูลระดับโลก วิศวกรเครือข่ายคุ้นเคยมากกว่า และราคาถูกกว่าการติดตั้ง InfiniBand

การคาดการณ์ขนาดตลาด:ข้อมูลของ Dell'Oro Group แสดงให้เห็นว่าตลาดสวิตช์ศูนย์ข้อมูล Ethernet จะมีมูลค่าเกือบ 8 หมื่นล้านดอลลาร์ในอีกห้าปีข้างหน้า

การเติบโตของ NVIDIA: รายงานของ 650 Group ระบุว่า NVIDIA เป็น "ผู้จำหน่ายที่เติบโตเร็วที่สุด" ในตลาดสวิตช์ศูนย์ข้อมูลปี 2024 โดยมีรายได้จากธุรกิจเครือข่ายสูงถึง 5 พันล้านดอลลาร์ในไตรมาส2 2024 (สิ้นสุดวันที่ 27 เมษายน) เพิ่มขึ้น 56% เมื่อเทียบเป็นรายปี-จาก-ปีที่ผ่านมา

การเปิดตัว Spectrum-XGS ขยายกลยุทธ์การผูกขาดสแต็กเต็มรูปแบบของ NVIDIA- ในโครงสร้างพื้นฐาน AI ขณะเดียวกันก็จุดประกายให้เกิดไดนามิกทางการแข่งขันใหม่ๆ:

เค้าโครงสแต็ก-เต็มรูปแบบของ NVIDIA: จาก GPU (Blackwell), การเชื่อมต่อระหว่างกัน (สวิตช์ NVLink/NVLink), เครือข่าย (Spectrum-X/Spectrum-XGS, Quantum-X InfiniBand) ไปจนถึงซอฟต์แวร์ (CUDA, TensorRT-LLM, ไมโครเซอร์วิส NIM) NVIDIA มี สร้างวงปิดที่ครอบคลุม "ซอฟต์แวร์-เชื่อมต่อ-คอมพิวเตอร์" สำหรับโครงสร้างพื้นฐาน AI Spectrum-XGS ทำงานร่วมกับ NVLink สำหรับการปรับขนาดสาม-ระดับ: ภายใน-แร็ค (NVLink), ภายใน-ศูนย์ข้อมูล- (Spectrum-X) และข้าม-ศูนย์ข้อมูล- (สเปกตรัม-XGS)

การตอบสนองของคู่แข่ง: เทคโนโลยี SUE รุ่นก่อนหน้าของ Broadcom มีเป้าหมายเดียวกันกับ Spectrum-XGS โดยมีเป้าหมายที่จะเพิ่มประสิทธิภาพอีเธอร์เน็ตเพื่อปิดช่องว่างด้วย InfiniBand นอกจากนี้ ผู้จำหน่ายอย่าง Arista, Cisco และ Marvell กำลังเร่งสวิตช์อีเธอร์เน็ตเฉพาะสำหรับ AI- โดยมีการแข่งขันที่มุ่งเน้นไปที่ประสิทธิภาพ-ต้นทุน-ความเข้ากันได้ของระบบนิเวศ

คุณค่าหลักของ Spectrum-XGS อยู่ที่การผลักดันการขยายขนาดศูนย์ข้อมูล AI จาก "ข้อจำกัดไซต์เดียว-" ไปจนถึง "การทำงานร่วมกันข้าม-ระดับภูมิภาค" เนื่องจากพลังงานและที่ดินกลายเป็นข้อจำกัดอย่างหนักสำหรับศูนย์ข้อมูลแห่งเดียว โรงงานซุปเปอร์ AI ข้าม-เมืองและ-ข้ามประเทศจะกลายเป็นรูปแบบหลักที่รองรับ-แอปพลิเคชัน AI รุ่นต่อไป (เช่น ปัญญาประดิษฐ์ทั่วไป -คลัสเตอร์เอเจนต์ขนาดใหญ่)

ดังที่ Gilad Shainer รองประธานอาวุโสแผนกเครือข่ายของ NVIDIA แสดงตัวอย่างในการประชุม Hot Chips: "เครือข่ายฟิสิคัลไฟเบอร์ออปติกแบบข้าม-ข้อมูล-มีมานานแล้ว แต่อัลกอริธึมซอฟต์แวร์อย่าง Spectrum-XGS เป็นกุญแจสำคัญในการปลดล็อกประสิทธิภาพที่แท้จริงของโครงสร้างพื้นฐานทางกายภาพเหล่านี้"

ส่งคำถาม