متوسطHybridفارسی

Data Engineering مدرن — Lakehouse، Streaming و BI

Name: Data Engineering مدرن — Lakehouse، Streaming و BI
Price: 36000000 IRR
Availability: InStock

از batch ETL سنتی تا Lakehouse مدرن، real-time streaming و BI صنعتی

مدت

10 هفته

ساعت

75 ساعت

ثبت‌نام

+13

شروع

۱ مهر ۱۴۰۵

پیش‌ثبت‌نام دوره

متخصصان دانش‌آموخته در:

دوره با هدف استخدام — جذب و همکاری پس از اتمام دوره

Snapp PayDigikalaTapsiCafe BazaarMellat BankPasargad FintechOkala

What you'll be able to do

دستاوردهای پایان دوره

دوره‌ای ۱۰ هفته‌ای و عمیق برای مهندسان داده‌ای که می‌خواهند از دنیای ETL سنتی به استک مدرن Lakehouse مهاجرت کنند. در این دوره معماری Lakehouse با Apache Iceberg، پردازش batch با Spark و Trino، streaming با Kafka و Flink، CDC با Debezium، مدل‌سازی داده برای BI به سبک Kimball و رویکرد مدرن (One Big Table، Activity Schema)، transformation با dbt، orchestration با Airflow و observability با OpenLineage و Great Expectations را به‌صورت پروژه‌محور یاد می‌گیرید. خروجی نهایی یک pipeline تولیدی end-to-end است که در رزومه و مصاحبه به‌راحتی قابل ارائه است.

این دوره برای کیست؟

Data Engineerهای junior تا mid که می‌خواهند به سطح senior برسند
Analytics Engineerها که می‌خواهند بخش engineering استک خود را عمیق کنند
BI Developerهایی که فراتر از SSAS/Power BI به دنبال warehouse مدرن هستند
DBA و SQL developerهایی که می‌خواهند به استک ابری و lakehouse مهاجرت کنند
Backend developerهایی که با حجم بالای داده و real-time analytics مواجه‌اند
Data Scientistهایی که می‌خواهند مالک pipeline داده خود باشند
Tech leadهای تیم‌های داده در بانک، fintech و telco

طراحی معماری Lakehouse با Apache Iceberg و انتخاب آگاهانه بین Iceberg، Delta و Hudi

ساخت pipelineهای streaming production-grade با Kafka و Flink

مدل‌سازی داده برای BI به سبک Kimball و رویکردهای مدرن (Data Vault, OBT)

پیاده‌سازی CDC از Postgres و Oracle با Debezium بدون از دست رفتن داده

نوشتن transformationهای مقیاس‌پذیر و قابل تست با dbt

Orchestration وظایف داده با Airflow و الگوهای retry و backfill

مانیتورینگ کیفیت داده با Great Expectations و lineage با OpenLineage

بهینه‌سازی query در Trino و Spark با partitioning، bucketing و Z-order

طراحی serving layer برای real-time analytics با ClickHouse و Apache Druid

ارائه یک پروژه capstone کامل end-to-end قابل دفاع در مصاحبه

مهارت‌هایی که می‌سازی

Apache IcebergTrinoApache SparkApache KafkaApache FlinkdbtApache AirflowOpenLineageGreat ExpectationsDebezium CDCClickHouseApache Druid

Syllabus

سرفصل ۱۰ هفته‌ای — از معماری تا production

10 ماژول هفتگی · هر هفته ~8 ساعت ترکیبی از ویدئو + lab زنده + پروژه عملی.

هفته ۱

معماری Lakehouse — Iceberg، Delta و Hudi

۸ ساعت

تفاوت Data Warehouse، Data Lake و Lakehouse
معرفی فرمت‌های جدولی: Apache Iceberg، Delta Lake، Apache Hudi
ACID روی object storage و مفهوم snapshot و time travel
مدل partition evolution و schema evolution در Iceberg
مقایسه عملکرد و انتخاب فرمت مناسب برای سناریوهای مختلف
بررسی case studyهای Netflix، Apple و Adobe

Lab عملی:راه‌اندازی یک محیط Iceberg محلی با MinIO و اجرای query با Spark

هفته ۲

لایه ذخیره‌سازی و کاتالوگ

۸ ساعت

Object storage: S3، MinIO، GCS و الگوهای دسترسی
فرمت‌های ستونی: Parquet، ORC و Avro
کاتالوگ‌ها: Hive Metastore، AWS Glue، Nessie، REST Catalog
Partitioning، bucketing و file size tuning
مدیریت compaction و expire snapshots در Iceberg
امنیت و دسترسی در سطح row/column

Lab عملی:راه‌اندازی Nessie catalog و مدیریت branch/tag روی جداول Iceberg

هفته ۳

پردازش Batch با Spark و Trino

۸ ساعت

معماری Spark: driver، executor و Catalyst
DataFrame API و Spark SQL در عمل
Trino به‌عنوان query engine فدراسیون
Join strategies و broadcast vs shuffle
Tuning: AQE، partition pruning، predicate pushdown
مقایسه Spark batch با Trino interactive

Lab عملی:پردازش یک دیتاست ۱۰۰GB با Spark و query interactive با Trino

هفته ۴

Streaming با Kafka و Schema Registry

۷ ساعت

معماری Kafka: broker، topic، partition، consumer group
Kafka Connect و source/sink connectorها
Schema Registry و Avro/Protobuf
Exactly-once semantics و idempotent producer
Compacted topic و retention policy
الگوهای event-driven architecture

Lab عملی:ساخت pipeline ingestion با Kafka Connect از Postgres به Iceberg

هفته ۵

Stream Processing با Flink

۸ ساعت

معماری Flink: JobManager، TaskManager، state backend
DataStream API و Table API
Windowing: tumbling، sliding، session
Watermark و event time vs processing time
Stateful processing و checkpointing
Flink SQL و materialized view روی stream

Lab عملی:محاسبه real-time KPI روی stream تراکنش با Flink SQL

هفته ۶

CDC با Debezium

۷ ساعت

مفهوم Change Data Capture و کاربردهای آن
Debezium connector برای Postgres، MySQL و Oracle
Logical replication، WAL و logminer
Snapshot، incremental snapshot و signaling table
حل چالش schema change در حین CDC
تحویل CDC به Iceberg با MERGE و upsert

Lab عملی:راه‌اندازی Debezium روی Postgres و sync با Iceberg به صورت near real-time

هفته ۷

مدل‌سازی داده برای BI

۷ ساعت

متدولوژی Kimball: fact، dimension و star schema
Slowly Changing Dimension (SCD) نوع ۱ تا ۶
Data Vault 2.0: hub، link، satellite
رویکرد مدرن: One Big Table و wide tables
Activity Schema و معماری Narrator
انتخاب grain درست و مدیریت conformed dimension

Lab عملی:طراحی star schema برای یک دامنه fintech و پیاده‌سازی SCD2

هفته ۸

dbt و Transformationها

۷ ساعت

معماری dbt: model، seed، snapshot، macro
Materializationها: view، table، incremental، ephemeral
تست داده با dbt: schema test و data test
Documentation و dbt docs
Package ecosystem: dbt_utils، codegen، elementary
Layered architecture: staging، intermediate، marts

Lab عملی:پیاده‌سازی یک پروژه dbt کامل روی Trino + Iceberg با ۳ لایه

هفته ۹

Observability — Lineage و Data Quality

۷ ساعت

OpenLineage و یکپارچه‌سازی با Airflow، Spark و dbt
Marquez برای visualization lineage
Great Expectations: expectation، checkpoint، data docs
Soda Core و رویکرد declarative data quality
Monitoring: freshness، volume، schema drift
SLA و SLO برای داده و الگوی data contract

Lab عملی:افزودن lineage و quality check به pipeline قبلی و dashboard مانیتورینگ

هفته ۱۰

Capstone — Pipeline تولیدی End-to-End

۸ ساعت

طراحی معماری کامل از منبع تا BI
Orchestration با Airflow: DAG، sensor، dynamic task
Deploy روی Kubernetes یا docker-compose
CI/CD برای dbt و Airflow
Cost optimization و capacity planning
ارائه نهایی و code review توسط mentorها

Lab عملی:ارائه پروژه capstone شخصی در یک demo day زنده

Hands-on Projects

پروژه‌هایی که در رزومه‌تان می‌نشینند

هر پروژه با code review توسط مربی، در پایان به یک portfolio repository خصوصی شما اضافه می‌شود — برای نشان دادن به کارفرما.

#01

CDC به Lakehouse — sync real-time از Postgres به Iceberg

ساخت یک pipeline که با Debezium تغییرات یک database عملیاتی Postgres را capture می‌کند، از طریق Kafka عبور می‌دهد و در نهایت با MERGE روی Iceberg به‌روزرسانی می‌کند. شامل مدیریت schema evolution، dead letter queue و monitoring lag است.

DebeziumKafkaApache IcebergSpark Structured StreamingSchema Registry

#02

Real-time Analytics برای فروش — Flink + ClickHouse

پیاده‌سازی dashboard real-time برای یک سناریوی e-commerce: محاسبه KPIهای فروش و conversion در پنجره‌های ۱ دقیقه و ۱ ساعته با Flink و serving با ClickHouse برای latency زیر یک ثانیه در Grafana.

Apache FlinkKafkaClickHouseGrafanaFlink SQL

#03

Pipeline تحلیلی end-to-end با dbt و Airflow

ساخت یک warehouse تحلیلی برای دامنه bank: ingestion چندمنبعی، transformation سه‌لایه با dbt، تست‌های کیفیت با Great Expectations، lineage با OpenLineage و orchestration روزانه با Airflow. خروجی dashboard در Metabase.

dbtApache AirflowTrinoGreat ExpectationsOpenLineageMetabase

Authority — Meet Your Instructors

مدرس‌های دوره

مر

مهندس رضا استادی

بنیان‌گذار آکادمی GITA و مدرس مهندسی داده

مهندس رضا استادی بنیان‌گذار آکادمی GITA و مدرس این دوره است. او با بیش از ۱۵ سال تجربه‌ی عملی در طراحی و ساخت پلتفرم‌های داده و Lakehouse در مقیاس بزرگ، تیم‌های فنی متعددی را در سازمان‌های بزرگ کشور راهبری کرده و تمرکز او بر انتقال تجربه‌ی واقعی میدانی به زبان ساده و کاربردی است.

بنیان‌گذار و مدیر آکادمی GITAبیش از ۱۵ سال تجربه‌ی مهندسی و راهبری تیم‌های فنیمشاور و مدرس سازمانی در صنایع بانکی، تلکام و انرژیسخنران و مدرس ده‌ها کارگاه و دوره‌ی تخصصی

CERTIFICATE OF COMPLETION

Data Eng

صادره از آکادمی مهندسی داده گیتی

Recognition

گواهینامه‌ی قابل ارائه به کارفرما

در پایان دوره گواهینامه‌ای صادر می‌شود که با QR قابل تأیید بوده و به Linkedin، رزومه و پورتفولیو شما اضافه می‌شود.

تأیید شده توسط شورای فنی آکادمی

مورد پذیرش شرکای صنعتی fintech و telco

قابل verify از طریق لینک عمومی و QR کد

Social Proof

از دانشجویان کوهورت‌های قبلی

“

بعد از این دوره توانستم در تیم data platform بانک به‌عنوان data engineer mid استخدام شوم. پروژه capstone عملاً برگ برنده مصاحبه‌ام بود.

علی رحمانی

Data Engineer — بانک خصوصی · بهار ۱۴۰۵

“

مهاجرت warehouse شرکتمان از Oracle به Iceberg + Trino را با دانش این دوره انجام دادیم. هزینه infrastructure حدود ۴۰٪ کم شد.

نگار سالاری

Tech Lead — fintech · زمستان ۱۴۰۴

“

تفاوت این دوره با بقیه، تمرکز روی production است. هر چیزی که یاد گرفتیم، روز بعد در محل کار قابل استفاده بود.

محمد طاهری

Analytics Engineer — e-commerce · پاییز ۱۴۰۴

“

بخش CDC و Debezium واقعاً نجات‌بخش بود. تیم ما سال‌ها با replication دست‌وپنجه نرم می‌کرد و حالا یک راه‌حل تمیز داریم.

سارا کاظمی

Senior DBA — اپراتور تلکام · بهار ۱۴۰۵

“

dbt را قبلاً شنیده بودم اما هرگز عمق آن را درک نکرده بودم. حالا کل تیم BI ما روی dbt مهاجرت کرده.

حسین مقدم

BI Lead — bank · زمستان ۱۴۰۴

“

mentorship شخصی روی پروژه capstone برای من بسیار ارزشمند بود. feedback خیلی دقیق و عملی بود.

مریم احمدی

Data Engineer — startup · پاییز ۱۴۰۴

Reserve Your Seat

پیش‌ثبت‌نام کوهورت

پیش‌ثبت‌نام بدون پرداخت — پس از مصاحبه‌ی ورودی نهایی می‌شود.

کوهورت پاییز ۱۴۰۵ — ظرفیت محدود

پیش‌ثبت‌نامبدون پرداخت

شهریه‌ی دوره پس از مصاحبه‌ی ورودی و نهایی‌شدن کوهورت به‌صورت اختصاصی اعلام می‌شود.

همه‌ی ویدئوها به‌صورت دائمی

Slack اختصاصی کوهورت

Office hours هفتگی با مربی

Code review پروژه‌ها

گواهینامه‌ی رسمی + Linkedin

معرفی به شرکت‌های همکار برای استخدام

پیش‌ثبت‌نام رایگان — صندلی‌ام را نگه دار

بدون پرداخت در این مرحله. تیم ما طی ۲۴ ساعت برای مصاحبه‌ی ورودی تماس می‌گیرد.

پلن سازمانی

تخفیف ویژه ۲۰٪ برای ثبت‌نام تیمی بالای ۳ نفر از یک سازمان

درخواست پیشنهاد

Objection Handling

سؤال‌های متداول

01آیا برای شرکت در این دوره باید تجربه قبلی data engineering داشته باشم؟

لازم نیست data engineer باشید، اما حداقل باید SQL متوسط و Python پایه را بلد باشید. اگر backend developer یا BI developer هستید، گذار راحتی خواهید داشت.

02تفاوت این دوره با دوره‌های Data Science چیست؟

این دوره صرفاً مهندسی است: ساخت pipeline، storage، streaming و warehouse. مدل‌سازی ML در آن نیست. اگر دنبال ساخت زیرساخت داده هستید مناسب است.

03چرا Iceberg و نه Delta Lake؟

در هفته اول هر سه فرمت را عمیق مقایسه می‌کنیم. تمرکز روی Iceberg به‌خاطر open بودن بیشتر، vendor-neutrality و رشد سریع جامعه آن است، اما اصول قابل انتقال به Delta هم هستند.

04آیا نیاز به cloud account دارم؟

خیر. تمام آزمایشگاه‌ها روی محیط محلی با docker-compose قابل اجراست. برای علاقه‌مندان، اعتبار رایگان AWS/GCP هم در دوره معرفی می‌شود.

05حجم تمرین و پروژه چقدر است؟

هر هفته یک lab عملی ۴ تا ۶ ساعته و در طول دوره ۳ پروژه بزرگ. مجموعاً حدود ۷۵ ساعت کلاس + ۸۰ تا ۱۰۰ ساعت کار خارج از کلاس.

06آیا کلاس‌ها ضبط می‌شوند؟

بله، تمام جلسات آنلاین ضبط می‌شود و تا ۶ ماه پس از پایان دوره در پنل شما در دسترس است. ورکشاپ‌های حضوری ضبط نمی‌شوند.

07پشتیبانی چگونه است؟

کانال اختصاصی Slack/Discord، آفیس‌آور هفتگی با mentorها و code review روی پروژه capstone. پاسخ به سؤالات معمولاً زیر ۲۴ ساعت است.

08گواهینامه چگونه صادر می‌شود؟

پس از تکمیل پروژه capstone و دفاع از آن، گواهینامه دیجیتال با QR قابل verify صادر می‌شود. شرکای صنعتی ما این مدرک را می‌پذیرند.

09آیا امکان معرفی به کار وجود دارد؟

بله، بهترین خروجی‌های هر کوهورت به شرکای صنعتی (بانک، fintech، telco) معرفی می‌شوند. در کوهورت قبلی ۶ نفر از طریق این کانال استخدام شدند.

10ساعت کلاس‌ها چگونه است؟

یکشنبه و سه‌شنبه ۱۸ تا ۲۱ به‌صورت آنلاین زنده + ورکشاپ حضوری جمعه‌ها (اختیاری) در تهران.

11اگر یک یا چند جلسه را از دست بدهم چه می‌شود؟

می‌توانید از ضبط جلسات استفاده کنید. در صورتی که بیش از ۳ جلسه را از دست بدهید، یک جلسه catch-up خصوصی با mentor برگزار می‌شود.

12آیا تخفیف برای دانشجو یا تیم وجود دارد؟

بله. تخفیف ۱۵٪ برای دانشجویان با ارائه کارت معتبر و تخفیف ۲۰٪ برای ثبت‌نام تیمی بالای ۳ نفر از یک سازمان. این تخفیف‌ها با early bird قابل جمع نیستند.

پیش‌ثبت‌نام در ۶۰ ثانیه

فقط نام و راه ارتباطی — تیم ما طی ۲۴ ساعت با شما تماس می‌گیرد، مصاحبه‌ی ورودی می‌گذارد و در صورت تطابق صندلی برایتان نگه می‌داریم.

بدون پرداخت در این مرحله

معرفی به شرکت‌های همکار برای استخدام پس از دوره

سند Syllabus PDF رایگان

شروع کوهورت

۱ مهر ۱۴۰۵ · 11 صندلی

ثبت‌نام

GITA OS v3

سیستم‌های سازمانی

هوش مصنوعی و پلتفرم داده

زیرساخت و Cloud Native

امنیت سایبری

Vertical Solutions

نفت، گاز و پتروشیمی

انرژی، آب و یوتیلیتی

بهداشت، درمان و سلامت

HSE، امنیت OT و انطباق

Field Engineering

مشاوره استراتژیک و معماری

پیاده‌سازی و یکپارچه‌سازی

عملیات، SRE و Managed Services

آموزش، ممیزی و انطباق

Data Engineering مدرن — Lakehouse، Streaming و BI

دستاوردهای پایان دوره

سرفصل ۱۰ هفته‌ای — از معماری تا production

پروژه‌هایی که در رزومه‌تان می‌نشینند

CDC به Lakehouse — sync real-time از Postgres به Iceberg

Real-time Analytics برای فروش — Flink + ClickHouse

Pipeline تحلیلی end-to-end با dbt و Airflow

مدرس‌های دوره

مهندس رضا استادی

گواهینامه‌ی قابل ارائه به کارفرما

از دانشجویان کوهورت‌های قبلی

پیش‌ثبت‌نام کوهورت

سؤال‌های متداول

پیش‌ثبت‌نام در ۶۰ ثانیه