فن آوران گیتی افروز
متوسطOnline Liveفارسی

Site Reliability Engineering — از SLO تا Production

از تعریف SLO تا اجرای chaos engineering روی production — مهندسی قابلیت اطمینان واقعی

مدت
8 هفته
ساعت
60 ساعت
ثبت‌نام
+12
شروع
۱۰ شهریور ۱۴۰۵
متخصصان دانش‌آموخته در:
دوره با هدف استخدام — جذب و همکاری پس از اتمام دوره
Snapp PayDigikalaTapsiCafe BazaarMellat BankPasargad FintechOkala
What you'll be able to do

دستاوردهای پایان دوره

این دوره یک سفر ۸ هفته‌ای است برای تبدیل شدن به یک Site Reliability Engineer که می‌تواند در شرکت‌های scale-up و enterprise، سیستم‌های توزیع‌شده را به‌صورت قابل‌اتکا اداره کند. به‌جای تئوری خشک، روی پیاده‌سازی واقعی SLI/SLO/Error Budget، ساختن stack رصدپذیری با Prometheus و Grafana و Loki و Tempo، طراحی alertingای که noise تولید نکند، اجرای on-call rotation سالم، نوشتن postmortem بدون مقصرتراشی، و در نهایت اجرای chaos engineering روی محیط production تمرکز می‌کنیم. در پایان دوره، شما توانایی این را خواهید داشت که در یک تیم SRE یا Platform، نقش رهبری فنی را به‌عهده بگیرید و فرهنگ reliability را در سازمان پیاده کنید.

این دوره برای کیست؟
  • DevOps Engineerهایی که می‌خواهند به سمت SRE حرکت کنند
  • Backend Engineerهای Senior که مسئول on-call سرویس‌های خود هستند
  • Ops Engineerهایی که می‌خواهند رویکرد engineering-driven به operations داشته باشند
  • Tech Leadها و Engineering Managerهایی که می‌خواهند فرهنگ reliability را در تیم‌شان پیاده کنند
  • Platform Engineerهایی که در حال ساختن internal developer platform هستند
01

تعریف SLI/SLO/Error Budget برای سرویس‌های واقعی production

02

ساختن on-call rotation سالم با handoff درست و burnout کم

03

نوشتن runbook و postmortem حرفه‌ای و قابل‌استفاده توسط تیم

04

اجرای chaos engineering production-safe با blast radius کنترل‌شده

05

طراحی alerting بدون noise بر اساس symptom-based monitoring

06

پیاده‌سازی observability stack کامل با metrics، logs، traces

07

رهبری incident response به‌عنوان Incident Commander

08

اندازه‌گیری و کاهش toil در عملیات روزانه تیم

09

capacity planning مبتنی بر داده برای رشد سرویس

10

پیاده‌سازی فرهنگ blameless در تیم engineering

مهارت‌هایی که می‌سازی
SLO definitionPrometheus deepGrafana dashboardingAlertmanagerPromQL advancedLoki + TempoOpenTelemetryChaos MeshIncident command (ICS)Blameless PIRToil reduction metricsCapacity planning
Syllabus

سرفصل ۸ هفته‌ای دوره SRE

8 ماژول هفتگی · هر هفته ~8 ساعت ترکیبی از ویدئو + lab زنده + پروژه عملی.

هفته ۱
SLO Framework — زبان مشترک reliability
۸ ساعت
  • تفاوت SLI و SLO و SLA در عمل
  • انتخاب SLI درست: availability، latency، throughput، correctness
  • محاسبه Error Budget و معنای واقعی آن
  • Error Budget Policy و تصمیم‌گیری مبتنی بر بودجه
  • User Journey-based SLO به‌جای component-based
  • مذاکره SLO با product و business
Lab عملی:تعریف SLI/SLO کامل برای یک سرویس e-commerce نمونه و نوشتن Error Budget Policy
هفته ۲
Observability Stack — metrics، logs، traces
۸ ساعت
  • معماری Prometheus: scraping، storage، federation
  • PromQL پیشرفته: rate، histogram_quantile، recording rules
  • Grafana dashboarding با اصول RED و USE
  • Loki برای log aggregation با hot/cold tiering
  • Tempo و distributed tracing با OpenTelemetry
  • Correlation بین metrics و logs و traces در UI
Lab عملی:راه‌اندازی observability stack کامل روی Kubernetes با Prometheus، Loki، Tempo
هفته ۳
Alerting — مبارزه با noise
۷ ساعت
  • Symptom-based vs cause-based alerting
  • Multi-window multi-burn-rate alerts برای SLO
  • Alertmanager routing، grouping، inhibition، silences
  • Alert fatigue و معیارهای سنجش کیفیت alert
  • Integration با PagerDuty، Opsgenie، صدا/پیامک
  • On-call dashboards و alert review weekly
Lab عملی:نوشتن alerting rules مبتنی بر SLO با burn-rate برای یک سرویس واقعی
هفته ۴
Incident Response — وقتی همه‌چیز خراب می‌شود
۸ ساعت
  • ICS: Incident Command System و نقش‌ها (IC، Comms، Ops)
  • Severity levels و escalation policy
  • Incident channel، status page، stakeholder communication
  • Mitigation اول، root cause بعد — اصل طلایی
  • Tools: Slack workflows، runbook automation، war room
  • Tabletop exercises و تمرین incident
Lab عملی:اجرای یک simulated incident به‌عنوان Incident Commander با تیم
هفته ۵
On-Call Hygiene — رosters سالم و پایدار
۷ ساعت
  • طراحی rotation: follow-the-sun، primary/secondary، coverage
  • Handoff درست: on-call notes، open alerts، context transfer
  • On-call compensation و سیاست‌های HR
  • Burnout signals و چطور آن را اندازه بگیریم
  • Toil measurement و کاهش سیستماتیک
  • Mentorship for new on-callers
Lab عملی:طراحی یک on-call program کامل برای یک تیم ۸ نفره با documentation
هفته ۶
Postmortem — یادگیری بدون مقصرتراشی
۷ ساعت
  • Blameless culture: چرا و چطور
  • ساختار postmortem: timeline، impact، root cause، action items
  • Five Whys و contributing factors به‌جای single root cause
  • Action item tracking و پیگیری تا closure
  • Postmortem review meeting موثر
  • Sharing learnings در سازمان
Lab عملی:نوشتن postmortem کامل برای یک incident واقعی case study
هفته ۷
Chaos Engineering — شکستن کنترل‌شده
۸ ساعت
  • اصول chaos engineering: hypothesis، blast radius، abort criteria
  • Chaos Mesh روی Kubernetes: pod kill، network delay، IO chaos
  • Game-day planning: تیم، scope، communication، rollback
  • Production chaos با feature flag و canary
  • Dependency mapping و failure mode analysis
  • Continuous chaos در CI/CD pipeline
Lab عملی:اجرای یک game-day chaos experiment روی یک سرویس staging کامل
هفته ۸
Capstone — Capacity Planning و پروژه نهایی
۷ ساعت
  • Capacity model: demand forecasting، headroom، saturation
  • Load testing با k6 و Locust و تفسیر نتایج
  • Cost-aware reliability: SLO ها قیمت دارند
  • Platform thinking: paved road برای dev teams
  • Career path از SRE Engineer تا SRE Lead
  • ارائه پروژه نهایی و دفاع
Lab عملی:ارائه پروژه نهایی: یک سرویس production-grade با کامل بودن SRE practices
Hands-on Projects

پروژه‌هایی که در رزومه‌تان می‌نشینند

هر پروژه با code review توسط مربی، در پایان به یک portfolio repository خصوصی شما اضافه می‌شود — برای نشان دادن به کارفرما.

#01

Production Observability Stack از صفر

ساختن یک observability stack کامل و production-ready از صفر روی Kubernetes شامل Prometheus با high availability، Grafana با dashboardهای RED/USE برای ۳ سرویس نمونه، Loki برای log aggregation با retention policy، Tempo برای distributed tracing، و OpenTelemetry Collector به‌عنوان gateway. پروژه باید شامل alerting rules مبتنی بر SLO، runbook برای هر alert، و دسترسی صحیح برای تیم باشد.

Prometheus deepGrafana dashboardingLoki + TempoOpenTelemetryAlertmanager
#02

Game-Day Chaos Experiment

طراحی و اجرای یک game-day کامل روی یک سرویس واقعی شامل تعریف hypothesis، blast radius کنترل‌شده، abort criteria، تیم incident response آماده، و post-experiment analysis. تجربیات شامل pod failures، network partition، database slowdown، و dependency outage. خروجی پروژه یک گزارش کامل با learnings و action items است.

Chaos MeshIncident command (ICS)Blameless PIRSLO definition
#03

Runbook Library برای یک سرویس واقعی

ساختن یک runbook library کامل برای یک سرویس production شامل runbook برای هر alert اصلی، troubleshooting guides، escalation paths، و recovery procedures. runbookها باید actionable، تست‌شده در game-day، و قابل اجرا توسط on-caller جدید در ساعت ۳ صبح باشند. شامل automation برای کارهای تکراری.

Toil reduction metricsIncident command (ICS)AlertmanagerCapacity planning
Authority — Meet Your Instructors

مدرس‌های دوره

مر

مهندس رضا استادی

بنیان‌گذار آکادمی GITA و مدرس SRE

مهندس رضا استادی بنیان‌گذار آکادمی GITA و مدرس این دوره است. او با بیش از ۱۵ سال تجربه‌ی عملی در پیاده‌سازی فرهنگ و عملیات SRE و Reliability برای سرویس‌های پرمقیاس، تیم‌های فنی متعددی را در سازمان‌های بزرگ کشور راهبری کرده و تمرکز او بر انتقال تجربه‌ی واقعی میدانی به زبان ساده و کاربردی است.

بنیان‌گذار و مدیر آکادمی GITAبیش از ۱۵ سال تجربه‌ی مهندسی و راهبری تیم‌های فنیمشاور و مدرس سازمانی در صنایع بانکی، تلکام و انرژیسخنران و مدرس ده‌ها کارگاه و دوره‌ی تخصصی
CERTIFICATE OF COMPLETION
SRE
صادره از آکادمی CGR
Recognition

گواهینامه‌ی قابل ارائه به کارفرما

در پایان دوره گواهینامه‌ای صادر می‌شود که با QR قابل تأیید بوده و به Linkedin، رزومه و پورتفولیو شما اضافه می‌شود.

مورد تأیید شرکت‌های partner در fintech و eCommerce
Verifiable روی LinkedIn با لینک منحصربه‌فرد
شامل QR code برای validation سریع
Social Proof

از دانشجویان کوهورت‌های قبلی

قبل از این دوره فکر می‌کردم SRE یعنی صرفاً monitoring بهتر. الان متوجه شدم این یک طرز فکر کامل درباره reliability است. error budget برای ما تبدیل به زبان مذاکره با product شده.
محمد رضایی
Senior DevOps Engineer در یک fintech · Cohort بهار ۱۴۰۵
بخش postmortem و فرهنگ blameless زندگی تیم ما را عوض کرد. دیگر incident به جای ترس، به فرصت یادگیری تبدیل شده.
نگار حسینی
Engineering Manager در یک eCommerce · Cohort زمستان ۱۴۰۴
اجرای اولین game-day بعد از این دوره ترسناک بود ولی نتیجه فوق‌العاده. ۳ تا bug critical پیدا کردیم که سال‌ها در production مخفی بودند.
علی صادقی
Platform Engineer در یک scale-up · Cohort بهار ۱۴۰۵
PromQL پیشرفته‌ای که در هفته ۲ یاد گرفتم، سطح dashboardهای ما را کاملاً تغییر داد. الان واقعاً می‌توانیم symptom-based alerting داشته باشیم.
زهرا اکبری
SRE Engineer در یک fintech بزرگ · Cohort پاییز ۱۴۰۴
سارا به‌عنوان مدرس بخش incident response فوق‌العاده بود. تجربه واقعی او در ۲۰۰+ incident در هر کلمه‌اش حس می‌شد.
امیر طاهری
Tech Lead در یک شرکت SaaS · Cohort زمستان ۱۴۰۴
بعد از این دوره، rotation on-call تیم ما کاملاً عوض شد. burnout افراد ۷۰٪ کم شد و کیفیت handoff درست شد.
فاطمه نوری
DevOps Lead در یک eCommerce · Cohort بهار ۱۴۰۵
Reserve Your Seat

پیش‌ثبت‌نام کوهورت

پیش‌ثبت‌نام بدون پرداخت — پس از مصاحبه‌ی ورودی نهایی می‌شود.

Cohort پاییز ۱۴۰۵ — ظرفیت محدود
پیش‌ثبت‌نامبدون پرداخت
شهریه‌ی دوره پس از مصاحبه‌ی ورودی و نهایی‌شدن کوهورت به‌صورت اختصاصی اعلام می‌شود.
همه‌ی ویدئوها به‌صورت دائمی
Slack اختصاصی کوهورت
Office hours هفتگی با مربی
Code review پروژه‌ها
گواهینامه‌ی رسمی + Linkedin
معرفی به شرکت‌های همکار برای استخدام
پیش‌ثبت‌نام رایگان — صندلی‌ام را نگه دار

بدون پرداخت در این مرحله. تیم ما طی ۲۴ ساعت برای مصاحبه‌ی ورودی تماس می‌گیرد.

پلن سازمانی
تخفیف ویژه برای ثبت‌نام تیمی ۳ نفر به بالا
درخواست پیشنهاد
Objection Handling

سؤال‌های متداول

01آیا این دوره برای کسی که تجربه DevOps ندارد مناسب است؟

خیر، این دوره فرض می‌کند شما حداقل ۲-۳ سال تجربه DevOps یا Backend Senior با مسئولیت production دارید. اگر تازه‌کار هستید، پیشنهاد می‌کنیم اول دوره DevOps Foundations را بگذرانید.

02کلاس‌ها به‌صورت Live است یا ضبط‌شده؟

تمام کلاس‌ها Online Live برگزار می‌شود، اما ضبط آن‌ها تا ۶ ماه بعد از پایان دوره در پلتفرم در دسترس شما خواهد بود.

03اگر یک جلسه را از دست بدهم چه؟

ضبط جلسه حداکثر ۲۴ ساعت بعد در پلتفرم منتشر می‌شود و می‌توانید مشاهده کنید. همچنین در ساعت آفیس هفتگی می‌توانید سؤالات‌تان را بپرسید.

04labها در چه محیطی اجرا می‌شوند؟

ما یک Kubernetes cluster مشترک با namespace جداگانه برای هر شرکت‌کننده فراهم می‌کنیم. همچنین می‌توانید روی محیط local خودتان (kind یا minikube) هم کار کنید.

05آیا گواهی پایان دوره معتبر است؟

بله، گواهی صادرشده توسط آکادمی CGR قابلیت verification online دارد و توسط شرکت‌های partner ما در fintech و eCommerce به‌رسمیت شناخته می‌شود.

06امکان پرداخت قسطی وجود دارد؟

بله، می‌توانید مبلغ دوره را در ۳ قسط بدون بهره (همزمان با ثبت‌نام، شروع دوره، و وسط دوره) پرداخت کنید.

07تخفیف early bird تا کی است؟

تخفیف early bird (۲۱٪) تا ۳۱ مرداد ۱۴۰۵ معتبر است. بعد از آن قیمت کامل اعمال می‌شود.

08آیا برای ثبت‌نام تیمی تخفیف خاص دارید؟

بله، برای تیم‌های ۳ نفر به بالا تخفیف ویژه‌ای داریم. لطفاً با تیم corporate ما تماس بگیرید.

09این دوره چقدر زمان نیاز دارد در طول هفته؟

۶ ساعت کلاس Live در هفته (دو جلسه ۳ ساعته) به‌علاوه ۴-۶ ساعت برای lab و تمرین خانگی. در مجموع حدود ۱۰-۱۲ ساعت در هفته.

10آیا job placement assistance دارید؟

بله، فارغ‌التحصیلان ما به شبکه شرکت‌های partner دسترسی دارند و در ۳ ماه اول بعد از دوره، support اختصاصی برای CV و interview prep ارائه می‌دهیم.

11زبان دوره فارسی است یا انگلیسی؟

زبان تدریس فارسی است، اما تمام منابع، اسلایدها، و documentation به انگلیسی است تا با terminology حرفه‌ای صنعت آشنا شوید.

12اگر بعد از شروع دوره منصرف شوم چه؟

تا پایان هفته اول می‌توانید با کسر ۱۵٪ هزینه پشتیبانی، انصراف دهید. بعد از هفته اول refund امکان‌پذیر نیست اما می‌توانید به cohort بعدی منتقل شوید.

پیش‌ثبت‌نام در ۶۰ ثانیه

فقط نام و راه ارتباطی — تیم ما طی ۲۴ ساعت با شما تماس می‌گیرد، مصاحبه‌ی ورودی می‌گذارد و در صورت تطابق صندلی برایتان نگه می‌داریم.

بدون پرداخت در این مرحله
معرفی به شرکت‌های همکار برای استخدام پس از دوره
سند Syllabus PDF رایگان

با ارسال، با شرایط استفاده موافقت می‌کنید.

شروع کوهورت
۱۰ شهریور ۱۴۰۵ · 13 صندلی
ثبت‌نام