Azure Data Factory (ADF) służy do szeroko pojętej integracji danych. Dane możemy pobierać z wielu źródeł, przekształcać je i wysyłać do źródła docelowego. W codziennej pracy wykorzystujemy ADF aby dostarczyć dane użytkownikom w żądanej przez nich postaci. Mogą być to zbiorcze pliki excel, wsad do Synapse, można także robić analizy w Sparku itd.
Najprostszym zadaniem które możemy wykonać w Azure Data Factory jest skopiowanie pliku. Aby je wykonać trzeba znać podstawowe koncepty.
Wykonywane przez nas operacje tworzą pipeline. Jest to zbiór akcji połączonych w workflow. Akcje te to activities. Są to operacje na poziomie pipeline, czyli czynności bardziej ogólne, jak akcja skopiowania pliku, przypisania wartości do zmiennej, tworzenia dataflow, notebooka Databricks itp. Dataflow jest specyficzną akcją, która służy do pracy na zawartości danych, wykorzystując operacje znane z SQL Servera jak union, lookup itd.
Samego skopiowania pliku nie możemy wykonać jednym kliknięciem. Musimy stworzyć do tego datasets, czyli odniesienia do danych. Mimo że może to wydawać się to nieintuicyjne, zawsze musimy stworzyć dataset dla pliku źródłowego i dataset dla pliku docelowego. Tworząc dataset wskazujemy rodzaj pliku np. Azure SQL oraz jego format np. csv. Nie musimy wskazywać konkretnego pliku, możemy zaznaczyć cały folder, ADF wykonuje wtedy instrukcje na całym folderze. Folder to inaczej kontener (container) w usługach Azure.
Tworząc datasets łączymy się z danymi źródłowymi oraz docelowymi. Oczywiście wymagają one uwierzytelnienia. Aby utworzyć stałe uwierzytelnienie tj. linked service przechodzimy do zakładki Manage w ADF. Uwierzytelnić możemy się np. wpisując hasło dla bazy SQL Server, za pomocą secret do Bloba, korzystając z Azure Key Vault itp. Wszystko zależy od źródła danych i osobistych preferencji.
Aby wykonać jakąkolwiek czynność w Azure Data Factory musimy pamiętać zatem o następujących punktach:
- Utworzenie linked service do usługi z której będziemy pobierać i zapisywać dane
- Utworzenie dataset dla źródła danych i danych docelowych
- Utworzenie pipeline
- Dodanie akcji lub kolejnych pipeline z akcjami które rozwiążą nasz problem biznesowy
I to tyle tytułem wstępu. W następnych artykułach pojawiać się będą konkretne biznesowe case