Statistischer Test für Zeitreihen, bei denen das Ergebnis eintritt - Python

stimmen
49

Ich bitte um Unterstützung bei Regressionstests. Ich habe eine kontinuierliche Zeitreihe, die zwischen positiven und negativen ganzen Zahlen schwankt. Ich habe auch Ereignisse, die in dieser Zeitreihe zu scheinbar zufälligen Zeitpunkten auftreten. Im Wesentlichen greife ich beim Eintreten eines Ereignisses auf die entsprechende ganze Zahl zurück. Ich möchte dann testen, ob diese ganze Zahl das Ereignis überhaupt beeinflusst. Wie in, gibt es mehr positive/negative ganze Zahlen

Ursprünglich dachte ich an eine logistische Regression mit der positiven/negativen Zahl, aber das würde mindestens zwei verschiedene Gruppen erfordern. Ich hingegen habe nur Informationen über Ereignisse, die eingetreten sind. Ich kann diese Anzahl von Ereignissen, die nicht vorkommen, nicht wirklich einbeziehen, da sie irgendwie kontinuierlich und zufällig ist. Die Anzahl der Male, in denen ein Ereignis nicht auftritt, lässt sich unmöglich messen

Meine eigene Gruppe ist also in gewisser Weise wahr, da ich keine Ergebnisse von etwas habe, das nicht eingetreten ist. Was ich zu klassifizieren versuche, ist

Wenn ein Ergebnis eintritt, beeinflusst die positive oder negative ganze Zahl dieses Ergebnis.

Veröffentlicht am 11/05/2020 um 04:28
quelle vom benutzer
In anderen Sprachen...                            


3 antworten

stimmen
0

Obwohl die Frage nach dem ersten Absatz recht schwer zu verstehen ist. Lassen Sie mich mit dem helfen, was ich aus dieser Frage verstehen konnte.

Angenommen, Sie wollen verstehen, ob es eine Beziehung zwischen den Ereignissen und den ganzen Zahlen in den Daten gibt.

1. Ansatz: Zeichnen Sie die Daten auf einer 2d-Skala auf und überprüfen Sie visuell, ob es eine Beziehung zwischen den Daten gibt. 2. Ansatz: Machen Sie die Daten aus den Ereignissen kontinuierlich und entfernen Sie die Ereignisse aus anderen Daten, und glätten Sie die Daten mit Hilfe eines rollenden Fensters und vergleichen Sie dann beide Trends.

Der oben beschriebene Ansatz funktioniert nur dann gut, wenn ich Ihr Problem richtig verstehe Es gibt noch eine weitere Sache, die als "Survivorship bias" bekannt ist. Möglicherweise fehlen Ihnen Daten, bitte überprüfen Sie auch diesen Teil.

Beantwortet am 18/05/2020 um 13:52
quelle vom benutzer

stimmen
0

Es klingt, als seien Sie daran interessiert, die zugrunde liegenden Kräfte zu bestimmen, die einen bestimmten Datenstrom erzeugen. Solche mathematischen Modelle werden als Markov-Modelle bezeichnet. Ein klassisches Beispiel ist das Studium von Text

Wenn ich beispielsweise einen Hidden-Markov-Modell-Algorithmus für einen Absatz eines englischen Textes ausführe, dann stelle ich fest, dass es zwei Fahrkategorien gibt, die die Wahrscheinlichkeiten bestimmen, welche Buchstaben in dem Absatz auftauchen. Diese Kategorien können grob in zwei Gruppen unterteilt werden, "aeiouy " und "bcdfghjklmnpqrstvwxz". Weder die Mathematik noch das HMM "wussten", wie diese Kategorien zu nennen sind, aber sie sind das, worauf man bei der Analyse eines Textabschnitts statistisch konvergiert. Wir könnten diese Kategorien "Vokale" und "Konsonanten" nennen. Also, ja, Vokale und Konsonanten sind nicht nur Kategorien der ersten Klasse, die es zu lernen gilt, sondern sie ergeben sich statistisch gesehen aus der Art und Weise, wie Text geschrieben wird. Interessanterweise verhält sich ein "Leerzeichen" eher wie ein Vokal als ein Konsonant. Ich habe die Wahrscheinlichkeiten für das obige Beispiel nicht angegeben, aber es ist interessant festzustellen, dass "y" mit einer Wahrscheinlichkeit von etwa 0,6 Vokal und 0,4 Konsonant endet; das bedeutet, dass "y" statistisch gesehen der sich am meisten konsonantisch verhaltende Vokal ist

Ein großartiges Papier ist https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf, das die Grundgedanken dieser Art von Zeitreihenanalyse erläutert und sogar einige Sudo-Codes als Referenz zur Verfügung stellt

Ich weiß nicht viel über die Daten, mit denen Sie zu tun haben, und ich weiß nicht, ob die Konzepte "positiv" und "negativ" bei den Daten, die Sie sehen, eine entscheidende Rolle spielen, aber wenn Sie ein HMM mit Ihren Daten durchführen würden und feststellen würden, dass es sich bei den beiden Gruppen um die Sammlung positiver Zahlen und die Sammlung negativer Zahlen handelt, dann würde sich Ihre Antwort bestätigen, ja, die einflussreichsten beiden Kategorien, die Ihre Daten beeinflussen, sind die Konzepte "positiv" und "negativ". Wenn sie sich nicht gleichmäßig aufteilen, dann lautet Ihre Antwort, dass diese Konzepte kein einflussreicher Faktor für die Steuerung der Daten sind. Mehr noch, der Algorithmus würde mit mehreren Wahrscheinlichkeitsmatrizen enden, die Ihnen zeigen würden, wie sehr jede ganze Zahl in Ihren Daten von jeder Kategorie beeinflusst wird, so dass Sie einen viel besseren Einblick in das Verhalten Ihrer Zeitreihendaten hätten

Beantwortet am 19/05/2020 um 07:59
quelle vom benutzer

stimmen
0

Vielleicht habe ich Ihr Problem missverstanden, aber ich glaube nicht, dass Sie ohne weitere Informationen irgendeine Art von sinnvoller Regression durchführen können.

Regression wird normalerweise verwendet, um eine Beziehung zwischen zwei oder mehr Variablen zu finden. Es scheint jedoch, dass Sie nur eine Variable (wenn sie positiv oder negativ sind) und eine Konstante haben (das Ergebnis ist in den Daten immer wahr). Vielleicht könnten Sie einige Statistiken über die Verteilung der Zahlen (Mittelwert, Median, Standardabweichung) erstellen, aber ich bin mir nicht sicher, wie Sie eine Regression durchführen könnten. https://en.wikipedia.org/wiki/Regression_analysis

Sie sollten vielleicht in Betracht ziehen, dass es eine starke Voreingenommenheit gegenüber Überlebenden geben könnte, wenn Ihnen ein großer Teil Ihrer Daten fehlt. https://en.wikipedia.org/wiki/Survivorship_bias

Ich hoffe, dies ist zumindest ein bisschen hilfreich, um Sie in die richtige Richtung zu lenken

Beantwortet am 11/05/2020 um 04:53
quelle vom benutzer

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more