Verarbeitung von Tabellen in parallel mit Azure Daten Fabrik, einzige Pipeline, Single Databricks Notebook?

stimmen
0

Ich möchte eine Liste der Tabellen in parallel mit Azure Daten Fabrik und ein Einzel Databricks Notebook verwandeln.

Ich habe bereits ein Azure Daten Factory (ADF) Pipeline, die eine Liste der Tabellen als Parameter empfängt, setzt jede Tabelle aus der Tabellenliste als eine Variable, dann ruft ein einzelnes Notebook (das führt einfache Transformationen) und jede Tabelle geht in Serie dieses Notebook. Das Problem ist, dass es die Tabellen in der Reihe (hintereinander) und nicht parallel (alle Tabellen zur gleichen Zeit) transformiert. Ich brauche die Tische parallel verarbeitet werden.

Also, meine Fragen sind: 1) Ist es möglich, die gleichen Databricks Notebook mehrfach an dem exakt gleichen Zeitpunkt (jedes Mal mit einer anderen Tabelle als Parameter) von Azure Daten Fabrik auslösen? 2) Wenn ja, dann was ich an Veränderung in meiner Pipeline oder einen Notebook benötigen, damit es funktioniert?

Ich denke, es ist wahrscheinlich nicht möglich ist, die gleiche Notebook mehrfach gleichzeitig auslösen, weil, wenn ich dieses Notebook direkt von Databricks auslösen (und eine Tabelle als Variable übergeben), ich zu warten, bis es läuft zu beenden, bevor ich es auslösen wieder für einen anderen Tabelle (Parameter). Aber ich will sicher sein, ob es möglich ist oder nicht. Ich weiß auch, dass es möglich ist, mehrere Tabellen parallel mit mehreren Notebooks, aber in meinem Fall zu verarbeiten, ich brauche ein einziges Notebook verwendet werden. Danke im Voraus :)

Parameter

ADF-Parameter

Variablen

Variablen

Legen Sie Tabellenvariablen und Notebook

Geben

konfigurieren Sequential

konfigurieren

Sequential Ungeprüfter mit Batch Count = blank

Wenn sie als „sequential“ und Batch-Count = leer konfiguriert und zwei Tabellen-Durchlauf, um die Pipeline runs „erfolgreich“, sondern nur eine Tabelle umgewandelt wird (auch wenn ich mehrere Tabellen in der Tabellenliste hinzufügen). „Set Variable“ richtig zeigt zweimal, einmal für jede Tabelle. Aber Orchestrate zeigt zweimal für die gleiche Tabelle.

Geben

Sequential Ungeprüfte mit Batch Count = 2

Wenn sie als „sequential“ konfiguriert und Batch-Count = 2 und zwei Tabellen passieren, scheitert die Pipeline auf der zweiten Iteration, sondern versucht auch, die gleiche Tabelle zweimal zu transformieren. „Set Variable“ richtig zeigt zweimal, einmal für jede Tabelle. Aber Orchestrate zeigt zweimal für die gleiche Tabelle.

Sequential

Sequential geprüft bzw. Batch Count = 1

Wenn ich gehe Sequential Checked oder Batch Count = 1 ist, dann läuft die Pipeline richtig und führt Transformationen auf allen Tischen, aber die Verarbeitung erfolgt in Serie (wie erwartet).

Geben

Veröffentlicht am 13/01/2020 um 23:55
quelle vom benutzer
In anderen Sprachen...                            


1 antworten

stimmen
0

Ich löste es „Lookup“, um eine SQL-Tabellen anstelle von „Set Variable“ verwendet wird. Das Bild unten zeigt ein Lauf von 5 Tische parallel ein einziges Notebook.

Geben Sie hier image description

Beantwortet am 14/01/2020 um 22:40
quelle vom benutzer

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more