فن آوران گیتی افروز
متوسطHybridفارسی

Data Engineering مدرن — Lakehouse، Streaming و BI

از batch ETL سنتی تا Lakehouse مدرن، real-time streaming و BI صنعتی

مدت
10 هفته
ساعت
75 ساعت
ثبت‌نام
+13
شروع
۱ مهر ۱۴۰۵
متخصصان دانش‌آموخته در:
دوره با هدف استخدام — جذب و همکاری پس از اتمام دوره
Snapp PayDigikalaTapsiCafe BazaarMellat BankPasargad FintechOkala
What you'll be able to do

دستاوردهای پایان دوره

دوره‌ای ۱۰ هفته‌ای و عمیق برای مهندسان داده‌ای که می‌خواهند از دنیای ETL سنتی به استک مدرن Lakehouse مهاجرت کنند. در این دوره معماری Lakehouse با Apache Iceberg، پردازش batch با Spark و Trino، streaming با Kafka و Flink، CDC با Debezium، مدل‌سازی داده برای BI به سبک Kimball و رویکرد مدرن (One Big Table، Activity Schema)، transformation با dbt، orchestration با Airflow و observability با OpenLineage و Great Expectations را به‌صورت پروژه‌محور یاد می‌گیرید. خروجی نهایی یک pipeline تولیدی end-to-end است که در رزومه و مصاحبه به‌راحتی قابل ارائه است.

این دوره برای کیست؟
  • Data Engineerهای junior تا mid که می‌خواهند به سطح senior برسند
  • Analytics Engineerها که می‌خواهند بخش engineering استک خود را عمیق کنند
  • BI Developerهایی که فراتر از SSAS/Power BI به دنبال warehouse مدرن هستند
  • DBA و SQL developerهایی که می‌خواهند به استک ابری و lakehouse مهاجرت کنند
  • Backend developerهایی که با حجم بالای داده و real-time analytics مواجه‌اند
  • Data Scientistهایی که می‌خواهند مالک pipeline داده خود باشند
  • Tech leadهای تیم‌های داده در بانک، fintech و telco
01

طراحی معماری Lakehouse با Apache Iceberg و انتخاب آگاهانه بین Iceberg، Delta و Hudi

02

ساخت pipelineهای streaming production-grade با Kafka و Flink

03

مدل‌سازی داده برای BI به سبک Kimball و رویکردهای مدرن (Data Vault, OBT)

04

پیاده‌سازی CDC از Postgres و Oracle با Debezium بدون از دست رفتن داده

05

نوشتن transformationهای مقیاس‌پذیر و قابل تست با dbt

06

Orchestration وظایف داده با Airflow و الگوهای retry و backfill

07

مانیتورینگ کیفیت داده با Great Expectations و lineage با OpenLineage

08

بهینه‌سازی query در Trino و Spark با partitioning، bucketing و Z-order

09

طراحی serving layer برای real-time analytics با ClickHouse و Apache Druid

10

ارائه یک پروژه capstone کامل end-to-end قابل دفاع در مصاحبه

مهارت‌هایی که می‌سازی
Apache IcebergTrinoApache SparkApache KafkaApache FlinkdbtApache AirflowOpenLineageGreat ExpectationsDebezium CDCClickHouseApache Druid
Syllabus

سرفصل ۱۰ هفته‌ای — از معماری تا production

10 ماژول هفتگی · هر هفته ~8 ساعت ترکیبی از ویدئو + lab زنده + پروژه عملی.

هفته ۱
معماری Lakehouse — Iceberg، Delta و Hudi
۸ ساعت
  • تفاوت Data Warehouse، Data Lake و Lakehouse
  • معرفی فرمت‌های جدولی: Apache Iceberg، Delta Lake، Apache Hudi
  • ACID روی object storage و مفهوم snapshot و time travel
  • مدل partition evolution و schema evolution در Iceberg
  • مقایسه عملکرد و انتخاب فرمت مناسب برای سناریوهای مختلف
  • بررسی case studyهای Netflix، Apple و Adobe
Lab عملی:راه‌اندازی یک محیط Iceberg محلی با MinIO و اجرای query با Spark
هفته ۲
لایه ذخیره‌سازی و کاتالوگ
۸ ساعت
  • Object storage: S3، MinIO، GCS و الگوهای دسترسی
  • فرمت‌های ستونی: Parquet، ORC و Avro
  • کاتالوگ‌ها: Hive Metastore، AWS Glue، Nessie، REST Catalog
  • Partitioning، bucketing و file size tuning
  • مدیریت compaction و expire snapshots در Iceberg
  • امنیت و دسترسی در سطح row/column
Lab عملی:راه‌اندازی Nessie catalog و مدیریت branch/tag روی جداول Iceberg
هفته ۳
پردازش Batch با Spark و Trino
۸ ساعت
  • معماری Spark: driver، executor و Catalyst
  • DataFrame API و Spark SQL در عمل
  • Trino به‌عنوان query engine فدراسیون
  • Join strategies و broadcast vs shuffle
  • Tuning: AQE، partition pruning، predicate pushdown
  • مقایسه Spark batch با Trino interactive
Lab عملی:پردازش یک دیتاست ۱۰۰GB با Spark و query interactive با Trino
هفته ۴
Streaming با Kafka و Schema Registry
۷ ساعت
  • معماری Kafka: broker، topic، partition، consumer group
  • Kafka Connect و source/sink connectorها
  • Schema Registry و Avro/Protobuf
  • Exactly-once semantics و idempotent producer
  • Compacted topic و retention policy
  • الگوهای event-driven architecture
Lab عملی:ساخت pipeline ingestion با Kafka Connect از Postgres به Iceberg
هفته ۵
Stream Processing با Flink
۸ ساعت
  • معماری Flink: JobManager، TaskManager، state backend
  • DataStream API و Table API
  • Windowing: tumbling، sliding، session
  • Watermark و event time vs processing time
  • Stateful processing و checkpointing
  • Flink SQL و materialized view روی stream
Lab عملی:محاسبه real-time KPI روی stream تراکنش با Flink SQL
هفته ۶
CDC با Debezium
۷ ساعت
  • مفهوم Change Data Capture و کاربردهای آن
  • Debezium connector برای Postgres، MySQL و Oracle
  • Logical replication، WAL و logminer
  • Snapshot، incremental snapshot و signaling table
  • حل چالش schema change در حین CDC
  • تحویل CDC به Iceberg با MERGE و upsert
Lab عملی:راه‌اندازی Debezium روی Postgres و sync با Iceberg به صورت near real-time
هفته ۷
مدل‌سازی داده برای BI
۷ ساعت
  • متدولوژی Kimball: fact، dimension و star schema
  • Slowly Changing Dimension (SCD) نوع ۱ تا ۶
  • Data Vault 2.0: hub، link، satellite
  • رویکرد مدرن: One Big Table و wide tables
  • Activity Schema و معماری Narrator
  • انتخاب grain درست و مدیریت conformed dimension
Lab عملی:طراحی star schema برای یک دامنه fintech و پیاده‌سازی SCD2
هفته ۸
dbt و Transformationها
۷ ساعت
  • معماری dbt: model، seed، snapshot، macro
  • Materializationها: view، table، incremental، ephemeral
  • تست داده با dbt: schema test و data test
  • Documentation و dbt docs
  • Package ecosystem: dbt_utils، codegen، elementary
  • Layered architecture: staging، intermediate، marts
Lab عملی:پیاده‌سازی یک پروژه dbt کامل روی Trino + Iceberg با ۳ لایه
هفته ۹
Observability — Lineage و Data Quality
۷ ساعت
  • OpenLineage و یکپارچه‌سازی با Airflow، Spark و dbt
  • Marquez برای visualization lineage
  • Great Expectations: expectation، checkpoint، data docs
  • Soda Core و رویکرد declarative data quality
  • Monitoring: freshness، volume، schema drift
  • SLA و SLO برای داده و الگوی data contract
Lab عملی:افزودن lineage و quality check به pipeline قبلی و dashboard مانیتورینگ
هفته ۱۰
Capstone — Pipeline تولیدی End-to-End
۸ ساعت
  • طراحی معماری کامل از منبع تا BI
  • Orchestration با Airflow: DAG، sensor، dynamic task
  • Deploy روی Kubernetes یا docker-compose
  • CI/CD برای dbt و Airflow
  • Cost optimization و capacity planning
  • ارائه نهایی و code review توسط mentorها
Lab عملی:ارائه پروژه capstone شخصی در یک demo day زنده
Hands-on Projects

پروژه‌هایی که در رزومه‌تان می‌نشینند

هر پروژه با code review توسط مربی، در پایان به یک portfolio repository خصوصی شما اضافه می‌شود — برای نشان دادن به کارفرما.

#01

CDC به Lakehouse — sync real-time از Postgres به Iceberg

ساخت یک pipeline که با Debezium تغییرات یک database عملیاتی Postgres را capture می‌کند، از طریق Kafka عبور می‌دهد و در نهایت با MERGE روی Iceberg به‌روزرسانی می‌کند. شامل مدیریت schema evolution، dead letter queue و monitoring lag است.

DebeziumKafkaApache IcebergSpark Structured StreamingSchema Registry
#02

Real-time Analytics برای فروش — Flink + ClickHouse

پیاده‌سازی dashboard real-time برای یک سناریوی e-commerce: محاسبه KPIهای فروش و conversion در پنجره‌های ۱ دقیقه و ۱ ساعته با Flink و serving با ClickHouse برای latency زیر یک ثانیه در Grafana.

Apache FlinkKafkaClickHouseGrafanaFlink SQL
#03

Pipeline تحلیلی end-to-end با dbt و Airflow

ساخت یک warehouse تحلیلی برای دامنه bank: ingestion چندمنبعی، transformation سه‌لایه با dbt، تست‌های کیفیت با Great Expectations، lineage با OpenLineage و orchestration روزانه با Airflow. خروجی dashboard در Metabase.

dbtApache AirflowTrinoGreat ExpectationsOpenLineageMetabase
Authority — Meet Your Instructors

مدرس‌های دوره

مر

مهندس رضا استادی

بنیان‌گذار آکادمی GITA و مدرس مهندسی داده

مهندس رضا استادی بنیان‌گذار آکادمی GITA و مدرس این دوره است. او با بیش از ۱۵ سال تجربه‌ی عملی در طراحی و ساخت پلتفرم‌های داده و Lakehouse در مقیاس بزرگ، تیم‌های فنی متعددی را در سازمان‌های بزرگ کشور راهبری کرده و تمرکز او بر انتقال تجربه‌ی واقعی میدانی به زبان ساده و کاربردی است.

بنیان‌گذار و مدیر آکادمی GITAبیش از ۱۵ سال تجربه‌ی مهندسی و راهبری تیم‌های فنیمشاور و مدرس سازمانی در صنایع بانکی، تلکام و انرژیسخنران و مدرس ده‌ها کارگاه و دوره‌ی تخصصی
CERTIFICATE OF COMPLETION
Data Eng
صادره از آکادمی مهندسی داده گیتی
Recognition

گواهینامه‌ی قابل ارائه به کارفرما

در پایان دوره گواهینامه‌ای صادر می‌شود که با QR قابل تأیید بوده و به Linkedin، رزومه و پورتفولیو شما اضافه می‌شود.

تأیید شده توسط شورای فنی آکادمی
مورد پذیرش شرکای صنعتی fintech و telco
قابل verify از طریق لینک عمومی و QR کد
Social Proof

از دانشجویان کوهورت‌های قبلی

بعد از این دوره توانستم در تیم data platform بانک به‌عنوان data engineer mid استخدام شوم. پروژه capstone عملاً برگ برنده مصاحبه‌ام بود.
علی رحمانی
Data Engineer — بانک خصوصی · بهار ۱۴۰۵
مهاجرت warehouse شرکتمان از Oracle به Iceberg + Trino را با دانش این دوره انجام دادیم. هزینه infrastructure حدود ۴۰٪ کم شد.
نگار سالاری
Tech Lead — fintech · زمستان ۱۴۰۴
تفاوت این دوره با بقیه، تمرکز روی production است. هر چیزی که یاد گرفتیم، روز بعد در محل کار قابل استفاده بود.
محمد طاهری
Analytics Engineer — e-commerce · پاییز ۱۴۰۴
بخش CDC و Debezium واقعاً نجات‌بخش بود. تیم ما سال‌ها با replication دست‌وپنجه نرم می‌کرد و حالا یک راه‌حل تمیز داریم.
سارا کاظمی
Senior DBA — اپراتور تلکام · بهار ۱۴۰۵
dbt را قبلاً شنیده بودم اما هرگز عمق آن را درک نکرده بودم. حالا کل تیم BI ما روی dbt مهاجرت کرده.
حسین مقدم
BI Lead — bank · زمستان ۱۴۰۴
mentorship شخصی روی پروژه capstone برای من بسیار ارزشمند بود. feedback خیلی دقیق و عملی بود.
مریم احمدی
Data Engineer — startup · پاییز ۱۴۰۴
Reserve Your Seat

پیش‌ثبت‌نام کوهورت

پیش‌ثبت‌نام بدون پرداخت — پس از مصاحبه‌ی ورودی نهایی می‌شود.

کوهورت پاییز ۱۴۰۵ — ظرفیت محدود
پیش‌ثبت‌نامبدون پرداخت
شهریه‌ی دوره پس از مصاحبه‌ی ورودی و نهایی‌شدن کوهورت به‌صورت اختصاصی اعلام می‌شود.
همه‌ی ویدئوها به‌صورت دائمی
Slack اختصاصی کوهورت
Office hours هفتگی با مربی
Code review پروژه‌ها
گواهینامه‌ی رسمی + Linkedin
معرفی به شرکت‌های همکار برای استخدام
پیش‌ثبت‌نام رایگان — صندلی‌ام را نگه دار

بدون پرداخت در این مرحله. تیم ما طی ۲۴ ساعت برای مصاحبه‌ی ورودی تماس می‌گیرد.

پلن سازمانی
تخفیف ویژه ۲۰٪ برای ثبت‌نام تیمی بالای ۳ نفر از یک سازمان
درخواست پیشنهاد
Objection Handling

سؤال‌های متداول

01آیا برای شرکت در این دوره باید تجربه قبلی data engineering داشته باشم؟

لازم نیست data engineer باشید، اما حداقل باید SQL متوسط و Python پایه را بلد باشید. اگر backend developer یا BI developer هستید، گذار راحتی خواهید داشت.

02تفاوت این دوره با دوره‌های Data Science چیست؟

این دوره صرفاً مهندسی است: ساخت pipeline، storage، streaming و warehouse. مدل‌سازی ML در آن نیست. اگر دنبال ساخت زیرساخت داده هستید مناسب است.

03چرا Iceberg و نه Delta Lake؟

در هفته اول هر سه فرمت را عمیق مقایسه می‌کنیم. تمرکز روی Iceberg به‌خاطر open بودن بیشتر، vendor-neutrality و رشد سریع جامعه آن است، اما اصول قابل انتقال به Delta هم هستند.

04آیا نیاز به cloud account دارم؟

خیر. تمام آزمایشگاه‌ها روی محیط محلی با docker-compose قابل اجراست. برای علاقه‌مندان، اعتبار رایگان AWS/GCP هم در دوره معرفی می‌شود.

05حجم تمرین و پروژه چقدر است؟

هر هفته یک lab عملی ۴ تا ۶ ساعته و در طول دوره ۳ پروژه بزرگ. مجموعاً حدود ۷۵ ساعت کلاس + ۸۰ تا ۱۰۰ ساعت کار خارج از کلاس.

06آیا کلاس‌ها ضبط می‌شوند؟

بله، تمام جلسات آنلاین ضبط می‌شود و تا ۶ ماه پس از پایان دوره در پنل شما در دسترس است. ورکشاپ‌های حضوری ضبط نمی‌شوند.

07پشتیبانی چگونه است؟

کانال اختصاصی Slack/Discord، آفیس‌آور هفتگی با mentorها و code review روی پروژه capstone. پاسخ به سؤالات معمولاً زیر ۲۴ ساعت است.

08گواهینامه چگونه صادر می‌شود؟

پس از تکمیل پروژه capstone و دفاع از آن، گواهینامه دیجیتال با QR قابل verify صادر می‌شود. شرکای صنعتی ما این مدرک را می‌پذیرند.

09آیا امکان معرفی به کار وجود دارد؟

بله، بهترین خروجی‌های هر کوهورت به شرکای صنعتی (بانک، fintech، telco) معرفی می‌شوند. در کوهورت قبلی ۶ نفر از طریق این کانال استخدام شدند.

10ساعت کلاس‌ها چگونه است؟

یکشنبه و سه‌شنبه ۱۸ تا ۲۱ به‌صورت آنلاین زنده + ورکشاپ حضوری جمعه‌ها (اختیاری) در تهران.

11اگر یک یا چند جلسه را از دست بدهم چه می‌شود؟

می‌توانید از ضبط جلسات استفاده کنید. در صورتی که بیش از ۳ جلسه را از دست بدهید، یک جلسه catch-up خصوصی با mentor برگزار می‌شود.

12آیا تخفیف برای دانشجو یا تیم وجود دارد؟

بله. تخفیف ۱۵٪ برای دانشجویان با ارائه کارت معتبر و تخفیف ۲۰٪ برای ثبت‌نام تیمی بالای ۳ نفر از یک سازمان. این تخفیف‌ها با early bird قابل جمع نیستند.

پیش‌ثبت‌نام در ۶۰ ثانیه

فقط نام و راه ارتباطی — تیم ما طی ۲۴ ساعت با شما تماس می‌گیرد، مصاحبه‌ی ورودی می‌گذارد و در صورت تطابق صندلی برایتان نگه می‌داریم.

بدون پرداخت در این مرحله
معرفی به شرکت‌های همکار برای استخدام پس از دوره
سند Syllabus PDF رایگان

با ارسال، با شرایط استفاده موافقت می‌کنید.

شروع کوهورت
۱ مهر ۱۴۰۵ · 11 صندلی
ثبت‌نام