SlideShare a Scribd company logo
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
2017年8月1日
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
角田 直行
kukai: 省エネ世界2位のディープラーニング・スパコン
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
自己紹介
• 角田 直行(かくだ なおゆき)
データ&サイエンスソリューション統括本部
テクニカルディレクター
• 2005年 ヤフー中途入社
• 地図や路線、ウェブ検索、検索エンジン、検索プラット
フォームなどの開発
• 2012年にビッグデータやデータサイエンス領域に
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ヤフーのDeep Learning事例
音声認識(YJVOICE)
・Yahoo! JAPANや乗換案内など
多数のアプリに搭載
Yahoo! JAPANアプリ
・ニュース記事のレコメンデーション
・ニュース記事の重複排除
・ニュース画像のクロッピング
…他多数
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
背景
DLに適した環境の必要性
Goyal+, Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour
・今後のデータ増加、DL事例の増加
・マルチノード、マルチGPUでの
スケーラビリティ
・世界Top企業の取り組み
自社インフラ技術の強化
・グループにIDCフロンティア
・数千台規模のHadoop運用実績
・OpenStack、Open Compute Project
・アメリカDC運用
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
きっかけ
• 数年前から調査を継続的に実施
• Xeon Phi、GPU、FPGA、Ethernet、InfiniBand、水冷、液浸…etc
• 開発、検証向けに共用GPU環境を構築
• 2015年末に本格的に始動
• 宮坂社長より「スパコン作ろう」「名前は『空海』で」
• 構成がスパコンに似ていたので「スパコン」として企画
• 2016年夏に構成を決定
• 2016年末完成を目標に予定規模を修正
• ExaScalerスパコンやTSUBAMEを見学し液浸に決定
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
kukai
• 2017年3月末完成
• 構築費用: 約4億円
• IDCF 白河DCに設置
• 1サーバラック + 1液浸槽
• 設置にあたり壁面に工事
初の試みのため、物理的に距離が
近いことも理由の一つ
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
kukai
20ブリック構成、80ノード
(1ブリックあたり4CPU & 8GPU)
CPU Xeon E5-2650L 1.7GHz, 14core v4
GPU NVIDIA Tesla P100 PCIe 16GB
Network InfiniBand FDR
フロリナートによる液浸冷却
3M社製 フッ素系不活性液体の製品名称
・優れた電気絶縁性
・無臭
・毒性無し
・粘性が低い
・揮発性が高い
・不燃性
・オゾン破壊係数ゼロ
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
TOP500/Green500
スパコンの省エネランキングで世界2位
TOP500スコア 460.7 TFlops (465位)
Green500スコア 14.04 GFlops/W (2位)
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
TOP500
・1993年に発足
・年2回(6月, 11月)実施
・LINPACKベンチマークにて評価
・FLOPSという単位が使われる
・近年は中国が台頭
・日本は今回7, 8位にランクイン
https://www.top500.org/lists/2017/06/
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Green500
・2005年に発足(2007年に開始)
・指標はFLOPS/W
・2016年よりTOP500ランクインが条件
・今回、日本が上位4位独占
・10位中6システムランクイン
・TSUBAMEは上位常連
・10位中9システムがTesla P100採用
・9位にFacebook
・10位のNVIDIAは前回(2016/11)1位
https://www.top500.org/green500/lists/2017/06/
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
機械学習によるチューニング
• LINPACKチューニングは職人的スキルが必要
• 専門スキルを持っていない
• スパコン完成〜締め切りまでの時間が短い
• ベイズ最適化による自動化
• 東京大学 大学院新領域創成科学研究科の佐藤一誠講師
との共同研究
• 行列サイズ(N)やブロックサイズ(NB)など数項目を探索
• 論文投稿予定
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
苦労?
• 少ない開発リソース
• 自分含めて実質2名
• スパコン知識ゼロ
• 本業との片手間
• スパコンに対する初の試み
• 液浸、InfiniBand
• データセンターの設置、保守運用ナレッジ
• パーツ供給不足
• メモリやGPUの供給不足で完成時期が不明
• ハード故障
• 計測中に原因不明のハード故障が頻発
• チューニングを充分に実施できず(空港でsubmit)
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
今後
• 実稼働に向け準備中
• クラスタ管理、ソフトウェアスタック
• YJVOICEなど既存Deep Learning実装を移行
• Green500
• おそらく次回はTop500ランク外
• 実稼働を優先
• 増強、増設
• 今後の利用状況次第
• 現棟でも増設可能だが、数が増えると新棟増設?
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
We are Hiring!
• データサイエンティストやインフラ
エンジニアを新卒、経験者ともに
通年募集中
• もちろんリサーチャー、エンジニア、
デザイナーも
• 詳細は公式採用ページまで
hr.yahoo.co.jp

More Related Content

PDF
AMPと広告とOpenRTBと #yjmu
PDF
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション①
PDF
絶対にタダでは転ばない広告エンジニア #yjmu
PDF
Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...
PDF
Yahoo! JAPANのOSS Cassandra貢献の今までとこれから
PDF
決済金融から始めるデータドリブンカンパニー #yjmu
PDF
Storm の新機能について @HSCR #hadoopreading
PDF
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていること
AMPと広告とOpenRTBと #yjmu
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション①
絶対にタダでは転ばない広告エンジニア #yjmu
Automation of Rolling Upgrade of Hadoop Cluster without Data Lost and Job Fai...
Yahoo! JAPANのOSS Cassandra貢献の今までとこれから
決済金融から始めるデータドリブンカンパニー #yjmu
Storm の新機能について @HSCR #hadoopreading
Yahoo!ブラウザーアプリのプロダクトマネージャーが考えていること

What's hot (20)

PDF
Spring Cloud Data Flow の紹介 #streamctjp
PDF
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
PDF
市場で勝ち続けるための品質とテストの技術①
PDF
行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋
PDF
スポーツナビアプリ スモールチームでのアプリ強化の進め方 #yjcamp
PDF
WWDC2017 レポート & Quick Look Preview Extension について
PDF
Yahoo!ブラウザーにおける市場環境の分析と戦略化
PDF
私たち企業がアクセシビリティに取り組む理由 #accfes
PDF
グロースハック なぜ我々は無意味な施策を打ってしまうのか
PDF
ヤフーの広告レポートシステムをSpring Cloud Stream化するまで #jjug_ccc #ccc_a4
PDF
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
PDF
ニュースアプリで起きた不具合から学んだ 最適への一歩
PDF
Presto in Yahoo! JAPAN #yjdsnight
PDF
animation_prototype_campfire_design
PDF
ヤフオク!の快適なカスタマー体験を支えるモバイルアプリのライブアップデート技術
PPTX
大規模インフラで考える インフラチームの未来
PDF
Yahoo! JAPANのOracle構成-2017年版
PDF
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)LT⑦
PDF
Prestoクエリログの保存/分析機能の構築 #yjdsnight
Spring Cloud Data Flow の紹介 #streamctjp
Yahoo! JAPANが持つデータ分析ソリューションの紹介 #yjdsnight
市場で勝ち続けるための品質とテストの技術①
行列ができるECサイトの悩み~ショッピングや決済の技術的問題と処方箋
スポーツナビアプリ スモールチームでのアプリ強化の進め方 #yjcamp
WWDC2017 レポート & Quick Look Preview Extension について
Yahoo!ブラウザーにおける市場環境の分析と戦略化
私たち企業がアクセシビリティに取り組む理由 #accfes
グロースハック なぜ我々は無意味な施策を打ってしまうのか
ヤフーの広告レポートシステムをSpring Cloud Stream化するまで #jjug_ccc #ccc_a4
#ibis2017 Description: IBIS2017の企画セッションでの発表資料
ニュースアプリで起きた不具合から学んだ 最適への一歩
Presto in Yahoo! JAPAN #yjdsnight
animation_prototype_campfire_design
ヤフオク!の快適なカスタマー体験を支えるモバイルアプリのライブアップデート技術
大規模インフラで考える インフラチームの未来
Yahoo! JAPANのOracle構成-2017年版
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)LT⑦
Prestoクエリログの保存/分析機能の構築 #yjdsnight
Ad

Similar to kukai: 省エネ世界2位のディープラーニング・スパコン (20)

PDF
2016年度コーポレートフェローシップ活動報告(伊東さん)
PPTX
データ利活用を促進するメタデータ
PDF
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
PDF
Bonfire API #1 APIのリトライ処理
PDF
データの見える化で進めるデータドリブンカンパニー #devsumiC
PDF
広告における機械学習の適用例とシステムについて
PDF
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
PPTX
アプリエンジニアでもできる閉域網構築のススメ!
PDF
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
PDF
夏サミ2013【A1】基礎からわかるDevOps
PPTX
Firebase update from io'17
PDF
エヌビディアのディープラーニング戦略
PDF
Hadoop~Yahoo! JAPANの活用について~
PDF
Unification of the middle scale services by Nuxt.js
PDF
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
PDF
「Data Infrastructure at Scale 」#yjdsw4
PPT
Hadoop~Yahoo!Japanの活用について
PPTX
データサイエンスセミナー 【found IT project #8】
PPTX
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
PDF
Hadoop~Yahoo! JAPANの活用について~
2016年度コーポレートフェローシップ活動報告(伊東さん)
データ利活用を促進するメタデータ
データテクノロジースペシャル:Yahoo! JAPANにおけるメタデータ管理の試み
Bonfire API #1 APIのリトライ処理
データの見える化で進めるデータドリブンカンパニー #devsumiC
広告における機械学習の適用例とシステムについて
Yahoo! JAPANを支えるビッグデータプラットフォーム技術
アプリエンジニアでもできる閉域網構築のススメ!
Yahoo!プロモーション広告のビックデータ基盤を支える技術と今後の展望
夏サミ2013【A1】基礎からわかるDevOps
Firebase update from io'17
エヌビディアのディープラーニング戦略
Hadoop~Yahoo! JAPANの活用について~
Unification of the middle scale services by Nuxt.js
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
「Data Infrastructure at Scale 」#yjdsw4
Hadoop~Yahoo!Japanの活用について
データサイエンスセミナー 【found IT project #8】
脆弱性スキャナVulsの紹介とMackerelメタデータと連携した脆弱性管理
Hadoop~Yahoo! JAPANの活用について~
Ad

More from Yahoo!デベロッパーネットワーク (20)

PDF
ゼロから始める転移学習
PDF
継続的なモデルモニタリングを実現するKubernetes Operator
PDF
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
PDF
オンプレML基盤on Kubernetes パネルディスカッション
PDF
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
PDF
Persistent-memory-native Database High-availability Feature
PDF
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
PDF
eコマースと実店舗の相互利益を目指したデザイン #yjtc
PDF
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
PDF
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
PDF
ビッグデータから人々のムードを捉える #yjtc
PDF
サイエンス領域におけるMLOpsの取り組み #yjtc
PDF
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
PDF
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
PDF
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
PDF
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
PDF
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
PDF
「新しいおうち探し」のためのAIアシスト検索 #yjtc
PDF
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc
ゼロから始める転移学習
継続的なモデルモニタリングを実現するKubernetes Operator
ヤフーでは開発迅速性と品質のバランスをどう取ってるか
オンプレML基盤on Kubernetes パネルディスカッション
オンプレML基盤on Kubernetes 〜Yahoo! JAPAN AIPF〜
Persistent-memory-native Database High-availability Feature
データの価値を最大化させるためのデザイン~データビジュアライゼーションの方法~ #devsumi 17-E-2
eコマースと実店舗の相互利益を目指したデザイン #yjtc
ヤフーを支えるセキュリティ ~サイバー攻撃を防ぐエンジニアの仕事とは~ #yjtc
Yahoo! JAPANのIaaSを支えるKubernetesクラスタ、アップデート自動化への挑戦 #yjtc
ビッグデータから人々のムードを捉える #yjtc
サイエンス領域におけるMLOpsの取り組み #yjtc
ヤフーのAIプラットフォーム紹介 ~AIテックカンパニーを支えるデータ基盤~ #yjtc
Yahoo! JAPAN Tech Conference 2022 Day2 Keynote #yjtc
新技術を使った次世代の商品の見せ方 ~ヤフオク!のマルチビュー機能~ #yjtc
PC版Yahoo!メールリニューアル ~サービスのUI/UX統合と改善プロセス~ #yjtc
モブデザインによる多職種チームのコミュニケーション改善 #yjtc
「新しいおうち探し」のためのAIアシスト検索 #yjtc
ユーザーの地域を考慮した検索入力補助機能の改善の試み #yjtc

kukai: 省エネ世界2位のディープラーニング・スパコン

  • 1. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 2017年8月1日 Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 角田 直行 kukai: 省エネ世界2位のディープラーニング・スパコン
  • 2. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 自己紹介 • 角田 直行(かくだ なおゆき) データ&サイエンスソリューション統括本部 テクニカルディレクター • 2005年 ヤフー中途入社 • 地図や路線、ウェブ検索、検索エンジン、検索プラット フォームなどの開発 • 2012年にビッグデータやデータサイエンス領域に
  • 3. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. ヤフーのDeep Learning事例 音声認識(YJVOICE) ・Yahoo! JAPANや乗換案内など 多数のアプリに搭載 Yahoo! JAPANアプリ ・ニュース記事のレコメンデーション ・ニュース記事の重複排除 ・ニュース画像のクロッピング …他多数
  • 4. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 背景 DLに適した環境の必要性 Goyal+, Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour ・今後のデータ増加、DL事例の増加 ・マルチノード、マルチGPUでの スケーラビリティ ・世界Top企業の取り組み 自社インフラ技術の強化 ・グループにIDCフロンティア ・数千台規模のHadoop運用実績 ・OpenStack、Open Compute Project ・アメリカDC運用
  • 5. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. きっかけ • 数年前から調査を継続的に実施 • Xeon Phi、GPU、FPGA、Ethernet、InfiniBand、水冷、液浸…etc • 開発、検証向けに共用GPU環境を構築 • 2015年末に本格的に始動 • 宮坂社長より「スパコン作ろう」「名前は『空海』で」 • 構成がスパコンに似ていたので「スパコン」として企画 • 2016年夏に構成を決定 • 2016年末完成を目標に予定規模を修正 • ExaScalerスパコンやTSUBAMEを見学し液浸に決定
  • 6. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. kukai • 2017年3月末完成 • 構築費用: 約4億円 • IDCF 白河DCに設置 • 1サーバラック + 1液浸槽 • 設置にあたり壁面に工事 初の試みのため、物理的に距離が 近いことも理由の一つ
  • 7. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. kukai 20ブリック構成、80ノード (1ブリックあたり4CPU & 8GPU) CPU Xeon E5-2650L 1.7GHz, 14core v4 GPU NVIDIA Tesla P100 PCIe 16GB Network InfiniBand FDR フロリナートによる液浸冷却 3M社製 フッ素系不活性液体の製品名称 ・優れた電気絶縁性 ・無臭 ・毒性無し ・粘性が低い ・揮発性が高い ・不燃性 ・オゾン破壊係数ゼロ
  • 8. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. TOP500/Green500 スパコンの省エネランキングで世界2位 TOP500スコア 460.7 TFlops (465位) Green500スコア 14.04 GFlops/W (2位)
  • 9. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. TOP500 ・1993年に発足 ・年2回(6月, 11月)実施 ・LINPACKベンチマークにて評価 ・FLOPSという単位が使われる ・近年は中国が台頭 ・日本は今回7, 8位にランクイン https://www.top500.org/lists/2017/06/
  • 10. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. Green500 ・2005年に発足(2007年に開始) ・指標はFLOPS/W ・2016年よりTOP500ランクインが条件 ・今回、日本が上位4位独占 ・10位中6システムランクイン ・TSUBAMEは上位常連 ・10位中9システムがTesla P100採用 ・9位にFacebook ・10位のNVIDIAは前回(2016/11)1位 https://www.top500.org/green500/lists/2017/06/
  • 11. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 機械学習によるチューニング • LINPACKチューニングは職人的スキルが必要 • 専門スキルを持っていない • スパコン完成〜締め切りまでの時間が短い • ベイズ最適化による自動化 • 東京大学 大学院新領域創成科学研究科の佐藤一誠講師 との共同研究 • 行列サイズ(N)やブロックサイズ(NB)など数項目を探索 • 論文投稿予定
  • 12. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 苦労? • 少ない開発リソース • 自分含めて実質2名 • スパコン知識ゼロ • 本業との片手間 • スパコンに対する初の試み • 液浸、InfiniBand • データセンターの設置、保守運用ナレッジ • パーツ供給不足 • メモリやGPUの供給不足で完成時期が不明 • ハード故障 • 計測中に原因不明のハード故障が頻発 • チューニングを充分に実施できず(空港でsubmit)
  • 13. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. 今後 • 実稼働に向け準備中 • クラスタ管理、ソフトウェアスタック • YJVOICEなど既存Deep Learning実装を移行 • Green500 • おそらく次回はTop500ランク外 • 実稼働を優先 • 増強、増設 • 今後の利用状況次第 • 現棟でも増設可能だが、数が増えると新棟増設?
  • 14. Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved. We are Hiring! • データサイエンティストやインフラ エンジニアを新卒、経験者ともに 通年募集中 • もちろんリサーチャー、エンジニア、 デザイナーも • 詳細は公式採用ページまで hr.yahoo.co.jp