Ich habe mit einigen Datensätzen lokal in Python herumgespielt und versuche nun, die gleichen Ergebnisse in einer Cloud-Umgebung mit SQL zu replizieren
Ich habe 3 Tabellen, jede mit mehreren doppelten IDs. Zum Beispiel enthält Tabelle A IDsa, b, c, d, ...
, Tabelle B enthält IDs a, c, e, a1, a2 ...
und Tabelle C enthält IDs d, f, a2, b1, b2, ...
Das tue ich derzeit pd.merge
für Tabelle A und Tabelle B zur ID a
und Tabelle C mit der Tabelle, die sich aus der ersten Zusammenführung zur ID ergibta2
. Bei der Verwendung von pd.merge ist mir aufgefallen, dass es a _x
oder a _y
zu den doppelten IDs hinzufügen würde (damit meine ich in der ersten pd.merge
von Tabelle A und Tabelle B, c
aus Tabelle A würde c_x
, und c
aus Tabelle B würde , c_y
und so weiter für alle anderen doppelten IDs werden. Dasselbe würde für alle anderen doppelten IDs für alle Joins gelten
Wie wäre ich in der Lage, diesen Prozess zu replizieren und das Problem mit doppelten IDs in SQL zu umgehen?