教育

国立研究開発法人理化学研究所
環境資源科学研究センター 植物免疫研究グループ


日本国内で唯一! AWS上でSMRT Linkを用いた生物学データ解析を実現

国立研究開発法人理化学研究所植物研究グループ

植物研究グループは主に生化学的手法、遺伝学的手法を用いて、耐病性に関与する遺伝子、タンパク質および低分子化学物質を解析し、免疫システムの分子機構を明らかに
する研究を行っている。 耐病性シグナル複合体の研究、免疫システムの制御に関与するタンパク質の修飾などに注目し、タンパク質レベルでのダイナミックな制御機構を
解明しています。

 

理化学研究所植物研究グループでは、解析で利用するデータサイズが拡大するにつれて、オンプレミス環境での生物学データ解析に限界を感じていました。
そこで研究サンプルの量に応じて柔軟に対応が可能なクラウド環境の利用を検討しましたが、クラウド上での解析アプリケーション(PacBio社 SMRT Link)の動作検証、
アーキテクチャの設計が課題となっていました。
本課題に対して、MEGAZONEはクラウド運用のノウハウを生かしてアプリケーションの動作検証、アーキテクチャの設計を行い、植物研究グループ様の研究効率化を
実現することに成功しました。


課題
AWS上でのPacBio社SMRT Linkの動作検証が必要
解析データのサイズ拡大に対応できる計算環境が必要
解析を行いたいときに行える環境が必要
解決
PacBio社SMRT LinkのAWS上での動作検証
最適なAWSインフラの設計および構築
システム稼働後の運用支援及び保守サポート

担当者からのコメント

解析サンプルのデータ拡大や解析機会の増加により、共有された計算環境における解析には限界を感じていました。そこでパブリッククラウドの活用を検討しましたが、
アプリケーションがクラウド上で正常に動作するか、動作させる為のアーキテクチャの設計をどうするか、運用の課題はどう解決するかといった課題は山積みでした。
MEGAZONEのアプリケーション検証から設計、運用に至る支援により、データサンプルをクラウド上で解析する環境を整えることができました。
今後、クラウドの拡張性を最大限に活かして研究を加速することを計画しています。
また、請求管理ツールのHyperBillingは日々の利用状況を把握することに大変役立っています。

本構成におけるポイントは、設計の際に重要視した点は研究所とクラウド環境との間で大容量のデータをスムーズに転送させることです。
解析に使用されるデータは毎回一定ではなく、解析対象ごとにデータサイズが大きく異なることがあります。

 

AWS DataSyncを利用することで大容量のデータを高速で転送することができます。
またAmazon EFSは自動でスケールアップするため、事前にストレージの最大サイズを決める必要がなく、運用負荷を大幅に下げることが可能です。

 

計算ノードは解析の時のみ自動で起動します。 スポットインスタンスを利用することで高性能なインスタンスによる解析費用を大幅に下げることもできます。
必要な時だけ使用する、利用した分だけ費用が発生するというクラウドサービスの柔軟な課金要素を活用した構成となっております。