ホーム >OFP利活用報告会
塙敏博(JCAHPC/東京大学)・建部修見(JCAHPC/筑波大学)
高速ファイルキャッシュシステム利用のすすめ
ファイルI/O性能を高速化するため、OFPには高速ファイルキャッシュシステムが導入されています。
ファイルI/O性能のランキングIO500では、この高速ファイルキャッシュシステムにおける性能が世界一位に認定されています。
本チュートリアルではその仕組みと使い方、またどのようなアクセスがどれくらい高速化されるのかについて解説します。
ファイルI/O性能に問題を抱えているユーザの方々に有用な情報を提供します。
Balazs Gerofi (RIKEN R-CCS)
OFP User's Guide to the IHK/McKernel Multi-kernel Operating System
The intention of this talk is to provide an introduction together with
usage examples to the IHK/McKernel lightweight multi-kernel operating
system on Oakforest-PACS. The presentation starts with a brief introduction
to McKernel, which runs Linux and a lightweight kernel side-by-side on
compute nodes. The basic idea of this OS structure is to provide
light-weight kernel scalability and Linux compatibility at the same time.
To demonstrate McKernel's performance characteristics, we provide results
on a number of mini-applications running on full-scale OFP. This is
followed by a users' guide to the configuration knobs of the system with
explicitly focusing on the details of job execution on Oakforest-PACS. Towards
the end, the talk will provide a more throughout discussion on operating
systems research in high-performance computing (HPC) with a historical overview
of the forces that shaped HPC OS research, including lightweight kernels
and multi-kernels. Finally, we discuss some of the implementation details
of IHK/McKernel.
星野哲也(JCAHPC/東京大学)
階層型行列法によるOakforest-PACSを用いた大規模数値解析
階層型行列法は、科学技術計算に現れる密行列の近似手法として注目されている。
密行列の部分行列を低ランク行列を用いて近似することで、計算量や必要とするメモリ量を大幅に減らすことができる。
そのため本手法は、相対的にメモリ容量の小さいメニーコアプロセッサと相性が良いと考えられるが、
メニーコアプロセッサ向けの最適化に際しては、SIMD並列やロードバランシングを考慮する必要がある。
本講演では、階層型行列法のライブラリであるHACApKのOakforest-PACSシステム向けの最適化や、
複数ノードを用いた静電場解析への適用事例を紹介する。
堀越将司(インテル株式会社)
Oakforest-PACS上での通信周り(Intel MPI)およびシステムの最適化
Oakforest-PACSは、Intel Omni-Pathにて構成されたネットワークとしては世界最大級であり
通常運用にて2048ノードの大規模ジョブが実行可能なシステムである。
大規模ジョブ向けにIntel MPI及びシステムの最適化をJCAHPCおよび富士通と共に運用開始時から実施してきた。
いくつかの事例を交えながら、得られた成果を報告します。
高橋大介(JCAHPC/筑波大学)
Oakforest-PACSにおける並列FFTの自動チューニング
高速フーリエ変換(Fast Fourier Transform,以下FFT)は,科学技術計算において今日広く用いられているアルゴリズムである.
本発表では,Oakforest-PACSにおける並列FFTの自動チューニング手法について紹介する.
並列FFTにおいては,全対全通信が実行時間の多くを占めることが知られているが,
演算と通信をオーバーラップさせることにより,通信時間を隠蔽することが有効である.
またデータの再利用性を高めるためにキャッシュブロッキングも有効である.
これらの最適化手法に関するさまざまなパラメータに対して自動チューニングを適用した事例について述べる.
またOakforest-PACSにおける性能評価の結果についても報告する.
石川健一(広島大学)
格子QCDソルバーの OFP での最適化
格子量子色力学(格子QCD)は原子核や、陽子・中性子を構成する素粒子であるクォークとグルーオンの振る舞いを
第一原理から記述する理論である。格子QCDは4次元時空を格子離散化により数値計算が可能となっており、陽子
や中性子の物理的性質を予言することが出来ている。一方、原子核を計算するためには、より大きな時空体積が必
要となり困難となっている。格子QCDソルバーは格子QCD計算で最も時間の掛かるクォーク運動方程式を解く部分で
あり、大規模疎行列連立方程式を反復法で解くものである。大体積での計算を目標として格子QCDソルバーを
Oakforest-PACS 向けに SIMDベクトル化、OpenMP化、MPIオフロードによる通信隠蔽等の最適化を行った。これら
の最適化手法と大体積での並列性能について報告する。また、McKernel 上での性能についてもふれる予定であ
る。
佐藤拓人(筑波大学)
高速ファイルキャッシュシステムを利用した都市街区LESモデルのI/O高速化
数値気象モデルは, その特性上ファイル出力の頻度が高く, またそのサイズも大きいことが知られている。
特に, 近年注目されているLarge-EddySimulation(LES)モデルは,
従来の数値気象モデルと比べて空間解像度が高いため, 特に大規模なファイル出力を行う。
そのため, 実行時間のうちファイル入出力に要する時間の割合が大きく,
ファイル入出力の高速化が全体の性能向上に大きな効果がある。
本発表では, そのような数値気象LESモデルの一つとして,筑波大学計算科学研究センターで開発している
都市街区の高解像度LESモデルであるCity-LESのファイル出力を対象に,
高速ファイルキャッシュシステムを用いた高速化を行なった結果について紹介する。
塙敏博(JCAHPC/東京大学)
Oakforest-PACSシステムにおける超大規模Deep Learningへ向けた試み
Deep Learning (DL)は、大量のデータから特徴量を抽出するDeep Neural
Network (DNN)を用いた機械学習の手法として幅広い分野に応用されているが、
その特徴量を決定するための学習(training)には膨大な計算が必要であり、非
常に長い時間を要することが知られている。
Oakforest-PACSに搭載されているKnights Landing (KNL)プロセッサには、
512bit幅SIMDのAVX512演算ユニットが多数搭載されており、高バンド幅メモリ
MCDRAMと組み合わせることにより効率の高いDNN処理が実現できる。OFPでは
96GBのメモリを搭載したKNL計算ノードを数千ノード規模で、加えて強力な
ストレージシステムを組み合わせることで、超大規模なDNN学習環境が構築できる。
本講演では、DLフレームワークとして広く使われているChainerのマルチノー
ド実装であるChainer MN、またKerasとTensorflowの組み合わせによる、
超大規模DL学習環境構築について紹介する。
医用画像処理に適用した事例についても併せて紹介する。
セミナーページに戻る
最先端共同HPC基盤施設のトップページに戻る