01. Uruchamianie notebooków Databricks przez Airflow z Dockera – orkiestracja notebooków sposób czwarty Jak zainstalować Dockera, postawić kontenery do aplikacji Airflow i zbudować DAG-i uruchamiające notebooki Databricks w Airflow Czytaj dalej 02. Orkiestracja skryptów Spark – sposób trzeci – utworzenie jobów Databricks, wykorzystanie Python Wheel, utworzenie modułów i bibliotek, testy jednostkowe Najlepsze praktyki tworzenia oprogramowania – tworzenie lokalnych modułowych projektów, testów jednostkowych i jobów Czytaj dalej 03. Orkiestracja notebooków – sposób drugi – wywoływanie w Azure Data Factory Wywoływanie notebooków i jobów w Azure Data Factory – wzór wygody inżyniera danych 🙂 Czytaj dalej 04. Orkiestracja notebooków Databricks – sposób pierwszy – wywoływanie notebooka w innym notebooku Wywoływanie notebooka w notabooku z parametrami Czytaj dalej 05. Dobre praktyki pracy z danymi Jakość, spójność i bezpieczeństwo z kodami w pysparku Czytaj dalej 06. Praca z plikami Parquet Praktyczna praca z plikami Parquet, partycjonowanie itp. Czytaj dalej 07. Azure Data Factory – kopiowanie nowych brakujących plików z jednego folderu do drugiego Tworzymy pipeline dla często spotykanego work case – kopiujemy pliki z jednej lokalizacji do drugiej, ale tylko takie jakich jeszcze nie mamy w docelowym folderze Czytaj dalej 08. Azure Data Factory – kopiowanie danych z csv do Azure SQL Database Kopiujemy dane z wolnych plików csv do bazy danych SQL Czytaj dalej 09. Azure Data Factory – kopiowanie wszystkich plików z folderu do pliku zbiorczego Jak połączyć wiele plików tego samego formatu w jeden zbiorczy Czytaj dalej 10. Azure Data Factory – podstawowe koncepty Czym są pipelines, datasets, dataflows, activities, containers, linked services Czytaj dalej 11. Databricks – łączenie z danymi z Azure SQL Database i Azure Storage za pomocą Entra, hasła i loginu oraz Key Vault Jak w notebooku Databricks połączyć się z danymi w chmurze Azure na wiele różnych sposobów Czytaj dalej 12. Model klasyfikacyjny XGBoost w Spark Databricks Tworzymy model klasyfikacyjny XGBoost w Databricks używając PySpark Czytaj dalej 13. Databricks – DBFS – tworzenie mount point do Azure Data Lake, praca z systemem plików DBFS Praca z lokalnym systemem plików Databricks Czytaj dalej 14. Podstawy pisania w Spark – Databricks Podstawy pisania notebooków Czytaj dalej 15. Databricks - praca z Unity Catalog Czym jest Unity Catalog i jak z nim pracować Czytaj dalej 16. Praca z Delta Table – formatem tabeli Databricks Praktyczna praca z Delta Table Czytaj dalej