エントリー済み

雪国から始まるクラウドネイティブ実践 – OpenTelemetryで繋ぐ環境センサー、GPU、そしてコミュニティ

中級者 - Intermediate Cloud Native Platform Engineering SRE

「またコンテナの話、しようか」——2018年に『コンテナ・ベース・オーケストレーション』(翔泳社)を共著してから8年、一人はIBMでObservabilityを、もう一人は雪国でGPUデータセンターを作っていた。2025年に再会した2人は、本物のコンテナ(型データセンター)の中にいた。

新潟県湯沢町のコンテナ型データセンターにNVIDIA H100(空冷)、H200・B200各8基(液冷)を収容し、Rancher K8sでGPUクラスターを構成。地下水(井水)による液冷で業界最高水準のエネルギー効率を目指します。

NVIDIA DCGMとOpenTelemetryを使ってGPUの可視化はInstanaで本番運用稼働中。Schneider Electric in-row冷却のSNMP MIBから風量を取得しGPU温度とOpenTelemetry Collectorで繋ぐことに挑戦中。液冷はPoC準備中。実績と途中経過を正直に共有。DCGM・SNMP×OTelの設計判断と失敗を持ち帰れます。登壇資料は公開予定。

SRE・インフラエンジニア・Platform Engineerを対象。

Speaker

Daisuke Hiraoka

日本アイ・ビー・エム株式会社

Advisory Automation Technical Specialist

IBM Champion(2019・2020年)受賞。日本IBM Advisory Automation Technical SpecialistとしてObservabilityとAIOpsを専門とする。NVIDIA DCGMとOpenTelemetryを活用したGPU可視化をInstanaで本番展開。11名で共著した『コンテナ・ベース・オーケストレーション』(翔泳社、2018)の執筆者(OpenShift for Developer担当)。
Instanauts_jpおよびIBM Championsの運営を支援。

Shoichiro Sakaigawa

株式会社ゲットワークス

システムマネージャー/AIエキスパート

IBM Champion(2018〜2026年)受賞。株式会社ゲットワークスのシステムマネージャー/ AIエキスパートとして新潟県湯沢町をはじめ日本全国にコンテナ型データセンターを設計・運営。NVIDIA H100・H200・B200を搭載したGPUクラスターと地下水(井水)液冷システムを構築し、AI・GPU時代の地方データセンターの可能性を追求。11名で共著した『コンテナ・ベース・オーケストレーション』(翔泳社、2018)の執筆者(IBM Kubernetes Service担当)。