南宫28

    ASUS RP-NVIDIAL40S dual-band range extender can extend wireless coverage of up to 2200 sq. ft., providing seamless WiFi across your home.

    AIとグラフィックスのパフォーマンスを高速化

    生成AIで変革を起こすためには、企業はより多くのコンピュートリソースを大規模に展開する必要があります。ASUSが展開する複数のNVIDIA L40S搭載サーバーは、すぐに使用できるGPUを搭載することでAI導入までの時間を短縮し、高性能な処理能力で費用対効果も向上しました。

    ASUSは数少ないNVIDIA OVXサーバーシステムプロバイダーであるとともに、技術の溝を埋め、お客様に最適なソリューションを提供する知識と能力を備えた経験豊富で信頼できるAIソリューションプロバイダーです。

    ASUS L40Sサーバーシステムが
    選ばれる3つの理由

    • the icon of Faster Deployment

      より迅速な展開

      準備期間を短縮

    • the icon of Better Price-Performance

      優れた費用対性能

      A100と比較して性能が2倍向上

    • the icon of Higher Performance

      パフォーマンス向上

      高性能なAIとグラフィックス

    NVIDI L40S product image

    NVIDIA L40S

    NVIDIA Ada LovelaceアーキテクチャをベースとしたNVIDIA L40S GPUは、データセンター向けの最高性能のユニバーサルGPUです。大規模言語モデル(LLM)の推論やトレーニング、グラフィックス、動画などを多用するマルチワークロードを高速化します。
    詳細はこちら
    • LLMファインチューニング

      4 時間

      GPT-175B 860Mトークン

    • LLM推論

      1.1倍

      HGX A100との性能比較

    • AI推論

      1.5倍

      A100 80GM SXM2との性能比較

    NVIDIA L40Sの仕様

    L40S A100 80GB SXM
    最適な用途 生成AI向けユニバーサルGPU 最高性能のマルチノードAI
    GPUアーキテクチャ NVIDIA Ada Lovelace NVIDIA Ampere
    FP64 N/A 9.7 TFLOPS
    FP32 91.6 TFLOPS 19.5 TFLOPS
    RTコア 212 TFLOPS N/A
    TF32 Tensorコア 366 TFLOPS 312 TFLOPS
    FP16/BF16 Tensorコア 7 733 TFLOPS 624 TFLOPS
    FP8 Tensorコア 1466 TFLOPS N/A
    INT8 Tensorコア 1466 TOPS 1248 TFLOPS
    GPUメモリ 48 GB GDDR6 80 GB HBM2e
    GPUメモリ帯域幅 864 GB/s 2039 GB/s
    L2キャッシュ 96 MB 40 MB
    メディアエンジン 3 NVENC(+AV1)
    3 NVDEC
    4 NVJPEG
    0 NVENC
    5 NVDEC
    5 NVJPEG
    電力 最大350W 最大400W
    フォームファクタ 2スロット FHFL 8-way構成HGX
    インターコネクト PCle Gen4 x 16: 64 GB/s PCle Gen4 x 16: 64 GB/s

    LLMトレーニング用NVIDIA L40S

    ファインチューニング、小規模モデルのトレーニング、4K GPUまでの小規模/中規模のトレーニングに最適なソリューションです。
    既存モデルのファインチューニング
    (860Mのトークンのトレーニングに要する時間)
    TE/FP8により期待される高速化
    HGX A100 L40S HGX H100
    GPT-40B LoRA (8 GPU) 12時間 1.7倍 4.4倍
    GPT-175B LoRA (64 GPU) 6時間 1.6倍 4.3倍


    小規模モデルのトレーニング
    (10Bのトークンのトレーニングに要する時間)
    TE/FP8に予測される高速化
    HGX A100 L40S HGX H100
    GPT-7B (8 GPU) 12時間 1.7倍 4.4倍
    GPT-13B (8 GPU) 6時間 1.6倍 4.3倍


    基盤モデルのトレーニング
    (300Bのトークンのトレーニングに要する時間)
    TE/FP8により予測される高速化
    HGX A100 L40S HGX H100
    GPT-175B (256 GPU) 64時間 1.4倍 4.5倍
    GPT-175B (1K GPU) 16時間 1.3倍 4.6倍
    GPT-175B (4K GPU) 4時間 1.2倍 4.1倍

    製品ラインナップ

    ESC8000-E11

    GPU × 8、4U、デュアルソケット第4世代 Xeon® スケーラブルCPU

    ESC4000-E11

    GPU × 4、2U、デュアルソケット第4世代 Xeon® スケーラブルCPU

    ESC4000-E10

    GPU × 4、2U、デュアルソケット第3世代 Xeon® スケーラブルCPU

    ESC8000A-E12

    GPU × 8、4U、デュアルソケットEPYC 9004 CPU、PCIe 5.0スイッチソリューション

    ESC8000A-E11

    GPU × 8、4U、デュアルソケットEPYC 7003 CPU

    ESC4000A-E12

    GPU × 4、2U、シングルソケットEPYC 9004 CPU

    ESC4000A-E11

    GPU × 4、2U、シングルソケットEPYC 9004 CPU

    南宫28