Pandas Datenrahmen Statistiken pro Zeile id

stimmen
0

Ich arbeite an einem Forschungs- und habe ich eine Datenrahmen mit Spalten - ID, db_keywords, new_words, count_new_words. In Spalte new_words habe ich Worte , die nicht in der Spalte db_keywords und in den count_new_words neuen Worte zählen sind. Früher habe ich describe()mit Spalte count_new_words , um grundlegende statistische Daten haben. Ich möchte eine Methode , um pro Zeile Statistiken zu haben , verwenden (id). Ich brauche einen gewissen Wert oder einige Metriken zum Beispiel , wie viele neue Wörter pro - ID nicht so in diesem Fall db_keywords in unserer Datenbank vorhanden sind. Dies kann jedes Verfahren sein , weil ich weiß nicht, wie dieses Problem zu nähern. Ich habe einen ähnlichen Test Datenrahmen nur mein Problem zu visualisieren.

Beispiel:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

Ich Wold wie zum Beispiel wissen, was das addierte vale in db_keywords Spalte für id 1 mit nur einem Wort ist und wir fanden zwei neue Wörter in new_words Spalte dargestellt. Wie soll ich das berechnen und darstellen?

Veröffentlicht am 13/02/2020 um 23:54
quelle vom benutzer
In anderen Sprachen...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more