SRE NEXT 2020行ってきました
こんにちはSREエンジニアやってます、@hayaosatoです。
1/25(土)に開催されたSRE NEXT 2020へ参加してきたのでそのレポート記事を書かせていただきます。
本イベントは弊社もブロンズスポンサーとして協賛させていただき、会場でもノベルティが配られてました!
写真は弊社のポスターとステッカー、そしてSRE NEXTのトートバッグです!
また、当日スタッフとして弊社のおざけんがカメラマンとして参加、
コアスタッフとして@bayashi_okさんがホール統括を行なっていました!!
発表紹介
SRE NEXT 2020の中で個人的に特に印象の残った発表について、いくつか感想を書かせていただきます。
分散アプリケーションの信頼性観測技術に関する研究
資料: https://speakerdeck.com/yuukit/a-study-of-sre
SREの今後についてやそれに付随する研究などをとても丁寧に説明されていたSRE NEXTらしい発表でした。
SREがなんであるかのゆううきさんなりの定義は
サイト信頼性を制御するための工学
であり、
自動化して全て解決というわけではなく、認知負荷が高まってしまう 失敗を許容する前提で運用を設計することで変更速度を最大化する。
とのこと。
確かに自動化するだけだと認知負荷が高まってしまい、 システムを構築した人しか認知できなくなる。それが原因で属人化してしまうこともある得るのかなと思いました。
また、失敗を許容する前提での運用設計は今後我々もやっていきたいなと思いました。
成長を続ける広告配信プラットフォームのモニタリングを改善してきた話
やりがちな監視の例などを踏まえて監視における課題やその解決方法まで非常に丁寧でわかりやすく説明されていた発表でした。
また、アラートの整理する(洗練などの)タイミングについて、アラートの整理は定期的にやる事は確かに難しく、障害が実際に起きた時や新しいメンバーがジョインしたタイミングでアラートの整理をやっているそうです。
確かにそれらのタイミングだと、アラート整理に工数を確保しやすいなと感じ、今後我々もそのようなタイミングでアラートの整理を行なっていきたいなと思いました。
ZOZO MLOps のチームリーディングとSRE(Engineering)
資料: https://docs.google.com/presentation/d/1zEkR9Dm_epg7fxOCFE-asBsUlHDozwObsBEGAILiqic/edit
ML機能を世に出しすための取り組みの、エンジニアリングにおけるチームリーディングについての発表でした。
現在複数のML機能を世に出した段階で、MLOpsチームとしてもっと多くのML機能を世に出してML機能に対する信頼度を高めようとしているフェーズだそうです。
このようにMLOpsチームの目標が明確で、さらにプロジェクト進行がスムーズに進むようにはどうすべきか。
リーダーがボトルネックとならないためにはどのようにすべきか。など組織開発として非常に参考になる発表でした。
特に、最終的には技術でぶん殴る
という文化は非常に共感し、我々もぶん殴れるほどの技術力をつけていかなければなと思いました。
Webサービスを1日10回デプロイするための取り組み
資料: https://speakerdeck.com/fujiwara3/sre-next-2020
デプロイ頻度をあげてデプロイへの恐怖を減らための取り組みでした。
誰でもデプロイ/ロールバックできるようにするためのデプロイ構成についてとても具体的に説明されていた発表でした。
特に、CircleCI使用時のECRのリージョンなど、小ネタ等もとても面白かったです。
雑感
SRE NEXT 2020、全体的に登壇者のレベルが非常に高くSREにおけるベストプラクティスや考え方の共有をしていただき、非常に学びの多い勉強会でした。
また、SREとしての対策が新規メンバーの育成やチームマネジメント的な話にも派生していたりと、幅広い知見が得られました。
SREの今後として、SREはインフラからアプリケーションまで全てのレイヤで開発されるようになり、SREを考えることが当たり前になっていくと良いなと思いました。
筆者
dippeople.dip-net.jp (写真左)