Ich übe Entscheidungsbäume machen das Paket mit dem Namen ‚Baum‘ mit.
#install.packages(ISLR)
set.seed(666)
library(ISLR)
index=sample(1:nrow(OJ),800,replace=F)
OJtrain=OJ[index,]
OJtest=OJ[-index,]
#install.packages(tree)
library(tree)
OJtraintree=tree(Purchase~.,data=OJtrain)
OJtraintree
Die Ausgabe von dieser ist:
node), split, n, deviance, yval, (yprob)
* denotes terminal node
1) root 800 1073.00 CH ( 0.60625 0.39375 )
2) LoyalCH < 0.508643 353 415.10 MM ( 0.27479 0.72521 )
4) LoyalCH < 0.277977 161 112.80 MM ( 0.11180 0.88820 )
8) LoyalCH < 0.035047 55 0.00 MM ( 0.00000 1.00000 ) *
9) LoyalCH > 0.035047 106 96.58 MM ( 0.16981 0.83019 ) *
5) LoyalCH > 0.277977 192 260.10 MM ( 0.41146 0.58854 )
10) PriceDiff < 0.195 84 84.62 MM ( 0.20238 0.79762 )
20) SpecialCH < 0.5 67 49.01 MM ( 0.11940 0.88060 ) *
21) SpecialCH > 0.5 17 23.51 CH ( 0.52941 0.47059 ) *
11) PriceDiff > 0.195 108 147.30 CH ( 0.57407 0.42593 ) *
3) LoyalCH > 0.508643 447 348.80 CH ( 0.86801 0.13199 )
6) LoyalCH < 0.764572 189 214.20 CH ( 0.74603 0.25397 )
12) PriceDiff < -0.165 33 43.26 MM ( 0.36364 0.63636 ) *
13) PriceDiff > -0.165 156 143.70 CH ( 0.82692 0.17308 )
26) PriceDiff < 0.265 86 99.88 CH ( 0.73256 0.26744 ) *
27) PriceDiff > 0.265 70 30.66 CH ( 0.94286 0.05714 ) *
7) LoyalCH > 0.764572 258 90.94 CH ( 0.95736 0.04264 ) *
Ich verstehe, dass die Zeilen mit Sternchen auf dem Baum sind Endknoten. Ich kämpfe die anderen Sachen zu folgen. Verwendung Zeile 7 als ein Beispiel, ich weiß, dass ‚LoyalCH> 0,764572‘ ist, wo der Entscheidungsbaum Splits und verzweigt zu dem Endknoten und CH der qualitative Wert der Endknoten ist, wo Kunden größer als 76,4572% treu CH (die Daten mit dem ISLR Paket vorinstalliert ist, CH ist ein Saft-Marke). Ich gehe davon aus 258 soll die Anzahl der Datenpunkte, die in diesem Endknoten aufzuwickeln. Ich weiß, dass 90,94 angeblich Güte der Anpassung an das Modell zu beschreiben, aber ich bin ein wenig über das Konzept der Devianz verwirrt. Ist ein höherer Wert von Devianz schlecht? Does 90.94 zeigen, dass es ein schwächeres fit ist? Was die Zahlen in den Klammern, bin ich zu verstehen, dass 0,95736 die Wahrscheinlichkeit für jeden Datenpunkt in dieser Branche ist die Wahl CH?