متوسطOnline Liveفارسی

Site Reliability Engineering — از SLO تا Production

Name: Site Reliability Engineering — از SLO تا Production
Price: 30000000 IRR
Availability: InStock

از تعریف SLO تا اجرای chaos engineering روی production — مهندسی قابلیت اطمینان واقعی

مدت

8 هفته

ساعت

60 ساعت

ثبت‌نام

+12

شروع

۱۰ شهریور ۱۴۰۵

پیش‌ثبت‌نام دوره

متخصصان دانش‌آموخته در:

دوره با هدف استخدام — جذب و همکاری پس از اتمام دوره

Snapp PayDigikalaTapsiCafe BazaarMellat BankPasargad FintechOkala

What you'll be able to do

دستاوردهای پایان دوره

این دوره یک سفر ۸ هفته‌ای است برای تبدیل شدن به یک Site Reliability Engineer که می‌تواند در شرکت‌های scale-up و enterprise، سیستم‌های توزیع‌شده را به‌صورت قابل‌اتکا اداره کند. به‌جای تئوری خشک، روی پیاده‌سازی واقعی SLI/SLO/Error Budget، ساختن stack رصدپذیری با Prometheus و Grafana و Loki و Tempo، طراحی alertingای که noise تولید نکند، اجرای on-call rotation سالم، نوشتن postmortem بدون مقصرتراشی، و در نهایت اجرای chaos engineering روی محیط production تمرکز می‌کنیم. در پایان دوره، شما توانایی این را خواهید داشت که در یک تیم SRE یا Platform، نقش رهبری فنی را به‌عهده بگیرید و فرهنگ reliability را در سازمان پیاده کنید.

این دوره برای کیست؟

DevOps Engineerهایی که می‌خواهند به سمت SRE حرکت کنند
Backend Engineerهای Senior که مسئول on-call سرویس‌های خود هستند
Ops Engineerهایی که می‌خواهند رویکرد engineering-driven به operations داشته باشند
Tech Leadها و Engineering Managerهایی که می‌خواهند فرهنگ reliability را در تیم‌شان پیاده کنند
Platform Engineerهایی که در حال ساختن internal developer platform هستند

تعریف SLI/SLO/Error Budget برای سرویس‌های واقعی production

ساختن on-call rotation سالم با handoff درست و burnout کم

نوشتن runbook و postmortem حرفه‌ای و قابل‌استفاده توسط تیم

اجرای chaos engineering production-safe با blast radius کنترل‌شده

طراحی alerting بدون noise بر اساس symptom-based monitoring

پیاده‌سازی observability stack کامل با metrics، logs، traces

رهبری incident response به‌عنوان Incident Commander

اندازه‌گیری و کاهش toil در عملیات روزانه تیم

capacity planning مبتنی بر داده برای رشد سرویس

پیاده‌سازی فرهنگ blameless در تیم engineering

مهارت‌هایی که می‌سازی

SLO definitionPrometheus deepGrafana dashboardingAlertmanagerPromQL advancedLoki + TempoOpenTelemetryChaos MeshIncident command (ICS)Blameless PIRToil reduction metricsCapacity planning

Syllabus

سرفصل ۸ هفته‌ای دوره SRE

8 ماژول هفتگی · هر هفته ~8 ساعت ترکیبی از ویدئو + lab زنده + پروژه عملی.

هفته ۱

SLO Framework — زبان مشترک reliability

۸ ساعت

تفاوت SLI و SLO و SLA در عمل
انتخاب SLI درست: availability، latency، throughput، correctness
محاسبه Error Budget و معنای واقعی آن
Error Budget Policy و تصمیم‌گیری مبتنی بر بودجه
User Journey-based SLO به‌جای component-based
مذاکره SLO با product و business

Lab عملی:تعریف SLI/SLO کامل برای یک سرویس e-commerce نمونه و نوشتن Error Budget Policy

هفته ۲

Observability Stack — metrics، logs، traces

۸ ساعت

معماری Prometheus: scraping، storage، federation
PromQL پیشرفته: rate، histogram_quantile، recording rules
Grafana dashboarding با اصول RED و USE
Loki برای log aggregation با hot/cold tiering
Tempo و distributed tracing با OpenTelemetry
Correlation بین metrics و logs و traces در UI

Lab عملی:راه‌اندازی observability stack کامل روی Kubernetes با Prometheus، Loki، Tempo

هفته ۳

Alerting — مبارزه با noise

۷ ساعت

Symptom-based vs cause-based alerting
Multi-window multi-burn-rate alerts برای SLO
Alertmanager routing، grouping، inhibition، silences
Alert fatigue و معیارهای سنجش کیفیت alert
Integration با PagerDuty، Opsgenie، صدا/پیامک
On-call dashboards و alert review weekly

Lab عملی:نوشتن alerting rules مبتنی بر SLO با burn-rate برای یک سرویس واقعی

هفته ۴

Incident Response — وقتی همه‌چیز خراب می‌شود

۸ ساعت

ICS: Incident Command System و نقش‌ها (IC، Comms، Ops)
Severity levels و escalation policy
Incident channel، status page، stakeholder communication
Mitigation اول، root cause بعد — اصل طلایی
Tools: Slack workflows، runbook automation، war room
Tabletop exercises و تمرین incident

Lab عملی:اجرای یک simulated incident به‌عنوان Incident Commander با تیم

هفته ۵

On-Call Hygiene — رosters سالم و پایدار

۷ ساعت

طراحی rotation: follow-the-sun، primary/secondary، coverage
Handoff درست: on-call notes، open alerts، context transfer
On-call compensation و سیاست‌های HR
Burnout signals و چطور آن را اندازه بگیریم
Toil measurement و کاهش سیستماتیک
Mentorship for new on-callers

Lab عملی:طراحی یک on-call program کامل برای یک تیم ۸ نفره با documentation

هفته ۶

Postmortem — یادگیری بدون مقصرتراشی

۷ ساعت

Blameless culture: چرا و چطور
ساختار postmortem: timeline، impact، root cause، action items
Five Whys و contributing factors به‌جای single root cause
Action item tracking و پیگیری تا closure
Postmortem review meeting موثر
Sharing learnings در سازمان

Lab عملی:نوشتن postmortem کامل برای یک incident واقعی case study

هفته ۷

Chaos Engineering — شکستن کنترل‌شده

۸ ساعت

اصول chaos engineering: hypothesis، blast radius، abort criteria
Chaos Mesh روی Kubernetes: pod kill، network delay، IO chaos
Game-day planning: تیم، scope، communication، rollback
Production chaos با feature flag و canary
Dependency mapping و failure mode analysis
Continuous chaos در CI/CD pipeline

Lab عملی:اجرای یک game-day chaos experiment روی یک سرویس staging کامل

هفته ۸

Capstone — Capacity Planning و پروژه نهایی

۷ ساعت

Capacity model: demand forecasting، headroom، saturation
Load testing با k6 و Locust و تفسیر نتایج
Cost-aware reliability: SLO ها قیمت دارند
Platform thinking: paved road برای dev teams
Career path از SRE Engineer تا SRE Lead
ارائه پروژه نهایی و دفاع

Lab عملی:ارائه پروژه نهایی: یک سرویس production-grade با کامل بودن SRE practices

Hands-on Projects

پروژه‌هایی که در رزومه‌تان می‌نشینند

هر پروژه با code review توسط مربی، در پایان به یک portfolio repository خصوصی شما اضافه می‌شود — برای نشان دادن به کارفرما.

#01

Production Observability Stack از صفر

ساختن یک observability stack کامل و production-ready از صفر روی Kubernetes شامل Prometheus با high availability، Grafana با dashboardهای RED/USE برای ۳ سرویس نمونه، Loki برای log aggregation با retention policy، Tempo برای distributed tracing، و OpenTelemetry Collector به‌عنوان gateway. پروژه باید شامل alerting rules مبتنی بر SLO، runbook برای هر alert، و دسترسی صحیح برای تیم باشد.

Prometheus deepGrafana dashboardingLoki + TempoOpenTelemetryAlertmanager

#02

Game-Day Chaos Experiment

طراحی و اجرای یک game-day کامل روی یک سرویس واقعی شامل تعریف hypothesis، blast radius کنترل‌شده، abort criteria، تیم incident response آماده، و post-experiment analysis. تجربیات شامل pod failures، network partition، database slowdown، و dependency outage. خروجی پروژه یک گزارش کامل با learnings و action items است.

Chaos MeshIncident command (ICS)Blameless PIRSLO definition

#03

Runbook Library برای یک سرویس واقعی

ساختن یک runbook library کامل برای یک سرویس production شامل runbook برای هر alert اصلی، troubleshooting guides، escalation paths، و recovery procedures. runbookها باید actionable، تست‌شده در game-day، و قابل اجرا توسط on-caller جدید در ساعت ۳ صبح باشند. شامل automation برای کارهای تکراری.

Toil reduction metricsIncident command (ICS)AlertmanagerCapacity planning

Authority — Meet Your Instructors

مدرس‌های دوره

مر

مهندس رضا استادی

بنیان‌گذار آکادمی GITA و مدرس SRE

مهندس رضا استادی بنیان‌گذار آکادمی GITA و مدرس این دوره است. او با بیش از ۱۵ سال تجربه‌ی عملی در پیاده‌سازی فرهنگ و عملیات SRE و Reliability برای سرویس‌های پرمقیاس، تیم‌های فنی متعددی را در سازمان‌های بزرگ کشور راهبری کرده و تمرکز او بر انتقال تجربه‌ی واقعی میدانی به زبان ساده و کاربردی است.

بنیان‌گذار و مدیر آکادمی GITAبیش از ۱۵ سال تجربه‌ی مهندسی و راهبری تیم‌های فنیمشاور و مدرس سازمانی در صنایع بانکی، تلکام و انرژیسخنران و مدرس ده‌ها کارگاه و دوره‌ی تخصصی

CERTIFICATE OF COMPLETION

SRE

صادره از آکادمی CGR

Recognition

گواهینامه‌ی قابل ارائه به کارفرما

در پایان دوره گواهینامه‌ای صادر می‌شود که با QR قابل تأیید بوده و به Linkedin، رزومه و پورتفولیو شما اضافه می‌شود.

مورد تأیید شرکت‌های partner در fintech و eCommerce

Verifiable روی LinkedIn با لینک منحصربه‌فرد

شامل QR code برای validation سریع

Social Proof

از دانشجویان کوهورت‌های قبلی

“

قبل از این دوره فکر می‌کردم SRE یعنی صرفاً monitoring بهتر. الان متوجه شدم این یک طرز فکر کامل درباره reliability است. error budget برای ما تبدیل به زبان مذاکره با product شده.

محمد رضایی

Senior DevOps Engineer در یک fintech · Cohort بهار ۱۴۰۵

“

بخش postmortem و فرهنگ blameless زندگی تیم ما را عوض کرد. دیگر incident به جای ترس، به فرصت یادگیری تبدیل شده.

نگار حسینی

Engineering Manager در یک eCommerce · Cohort زمستان ۱۴۰۴

“

اجرای اولین game-day بعد از این دوره ترسناک بود ولی نتیجه فوق‌العاده. ۳ تا bug critical پیدا کردیم که سال‌ها در production مخفی بودند.

علی صادقی

Platform Engineer در یک scale-up · Cohort بهار ۱۴۰۵

“

PromQL پیشرفته‌ای که در هفته ۲ یاد گرفتم، سطح dashboardهای ما را کاملاً تغییر داد. الان واقعاً می‌توانیم symptom-based alerting داشته باشیم.

زهرا اکبری

SRE Engineer در یک fintech بزرگ · Cohort پاییز ۱۴۰۴

“

سارا به‌عنوان مدرس بخش incident response فوق‌العاده بود. تجربه واقعی او در ۲۰۰+ incident در هر کلمه‌اش حس می‌شد.

امیر طاهری

Tech Lead در یک شرکت SaaS · Cohort زمستان ۱۴۰۴

“

بعد از این دوره، rotation on-call تیم ما کاملاً عوض شد. burnout افراد ۷۰٪ کم شد و کیفیت handoff درست شد.

فاطمه نوری

DevOps Lead در یک eCommerce · Cohort بهار ۱۴۰۵

Reserve Your Seat

پیش‌ثبت‌نام کوهورت

پیش‌ثبت‌نام بدون پرداخت — پس از مصاحبه‌ی ورودی نهایی می‌شود.

Cohort پاییز ۱۴۰۵ — ظرفیت محدود

پیش‌ثبت‌نامبدون پرداخت

شهریه‌ی دوره پس از مصاحبه‌ی ورودی و نهایی‌شدن کوهورت به‌صورت اختصاصی اعلام می‌شود.

همه‌ی ویدئوها به‌صورت دائمی

Slack اختصاصی کوهورت

Office hours هفتگی با مربی

Code review پروژه‌ها

گواهینامه‌ی رسمی + Linkedin

معرفی به شرکت‌های همکار برای استخدام

پیش‌ثبت‌نام رایگان — صندلی‌ام را نگه دار

بدون پرداخت در این مرحله. تیم ما طی ۲۴ ساعت برای مصاحبه‌ی ورودی تماس می‌گیرد.

پلن سازمانی

تخفیف ویژه برای ثبت‌نام تیمی ۳ نفر به بالا

درخواست پیشنهاد

Objection Handling

سؤال‌های متداول

01آیا این دوره برای کسی که تجربه DevOps ندارد مناسب است؟

خیر، این دوره فرض می‌کند شما حداقل ۲-۳ سال تجربه DevOps یا Backend Senior با مسئولیت production دارید. اگر تازه‌کار هستید، پیشنهاد می‌کنیم اول دوره DevOps Foundations را بگذرانید.

02کلاس‌ها به‌صورت Live است یا ضبط‌شده؟

تمام کلاس‌ها Online Live برگزار می‌شود، اما ضبط آن‌ها تا ۶ ماه بعد از پایان دوره در پلتفرم در دسترس شما خواهد بود.

03اگر یک جلسه را از دست بدهم چه؟

ضبط جلسه حداکثر ۲۴ ساعت بعد در پلتفرم منتشر می‌شود و می‌توانید مشاهده کنید. همچنین در ساعت آفیس هفتگی می‌توانید سؤالات‌تان را بپرسید.

04labها در چه محیطی اجرا می‌شوند؟

ما یک Kubernetes cluster مشترک با namespace جداگانه برای هر شرکت‌کننده فراهم می‌کنیم. همچنین می‌توانید روی محیط local خودتان (kind یا minikube) هم کار کنید.

05آیا گواهی پایان دوره معتبر است؟

بله، گواهی صادرشده توسط آکادمی CGR قابلیت verification online دارد و توسط شرکت‌های partner ما در fintech و eCommerce به‌رسمیت شناخته می‌شود.

06امکان پرداخت قسطی وجود دارد؟

بله، می‌توانید مبلغ دوره را در ۳ قسط بدون بهره (همزمان با ثبت‌نام، شروع دوره، و وسط دوره) پرداخت کنید.

07تخفیف early bird تا کی است؟

تخفیف early bird (۲۱٪) تا ۳۱ مرداد ۱۴۰۵ معتبر است. بعد از آن قیمت کامل اعمال می‌شود.

08آیا برای ثبت‌نام تیمی تخفیف خاص دارید؟

بله، برای تیم‌های ۳ نفر به بالا تخفیف ویژه‌ای داریم. لطفاً با تیم corporate ما تماس بگیرید.

09این دوره چقدر زمان نیاز دارد در طول هفته؟

۶ ساعت کلاس Live در هفته (دو جلسه ۳ ساعته) به‌علاوه ۴-۶ ساعت برای lab و تمرین خانگی. در مجموع حدود ۱۰-۱۲ ساعت در هفته.

10آیا job placement assistance دارید؟

بله، فارغ‌التحصیلان ما به شبکه شرکت‌های partner دسترسی دارند و در ۳ ماه اول بعد از دوره، support اختصاصی برای CV و interview prep ارائه می‌دهیم.

11زبان دوره فارسی است یا انگلیسی؟

زبان تدریس فارسی است، اما تمام منابع، اسلایدها، و documentation به انگلیسی است تا با terminology حرفه‌ای صنعت آشنا شوید.

12اگر بعد از شروع دوره منصرف شوم چه؟

تا پایان هفته اول می‌توانید با کسر ۱۵٪ هزینه پشتیبانی، انصراف دهید. بعد از هفته اول refund امکان‌پذیر نیست اما می‌توانید به cohort بعدی منتقل شوید.

پیش‌ثبت‌نام در ۶۰ ثانیه

فقط نام و راه ارتباطی — تیم ما طی ۲۴ ساعت با شما تماس می‌گیرد، مصاحبه‌ی ورودی می‌گذارد و در صورت تطابق صندلی برایتان نگه می‌داریم.

بدون پرداخت در این مرحله

معرفی به شرکت‌های همکار برای استخدام پس از دوره

سند Syllabus PDF رایگان

شروع کوهورت

۱۰ شهریور ۱۴۰۵ · 13 صندلی

ثبت‌نام

GITA OS v3

سیستم‌های سازمانی

هوش مصنوعی و پلتفرم داده

زیرساخت و Cloud Native

امنیت سایبری

Vertical Solutions

نفت، گاز و پتروشیمی

انرژی، آب و یوتیلیتی

بهداشت، درمان و سلامت

HSE، امنیت OT و انطباق

Field Engineering

مشاوره استراتژیک و معماری

پیاده‌سازی و یکپارچه‌سازی

عملیات، SRE و Managed Services

آموزش، ممیزی و انطباق

Site Reliability Engineering — از SLO تا Production

دستاوردهای پایان دوره

سرفصل ۸ هفته‌ای دوره SRE

پروژه‌هایی که در رزومه‌تان می‌نشینند

Production Observability Stack از صفر

Game-Day Chaos Experiment

Runbook Library برای یک سرویس واقعی

مدرس‌های دوره

مهندس رضا استادی

گواهینامه‌ی قابل ارائه به کارفرما

از دانشجویان کوهورت‌های قبلی

پیش‌ثبت‌نام کوهورت

سؤال‌های متداول

پیش‌ثبت‌نام در ۶۰ ثانیه