Mis vahe on Gini lisandil ja entroopial otsustuspuus?


Vastus 1:

Gini lisand ja entroopia on nn otsustuspuude valikukriteerium. Põhimõtteliselt aitavad need teil kindlaks teha, mis on klassifitseerimise / regressioonipuude juur- / otsussõlmede hea lõhenemispunkt (allpool toodud näited on klassifitseerimispuul). Otsustuspuud jagunevad tunnuse ja vastava jagamispunkti järgi, mis annab antud kriteeriumi jaoks suurima teabe juurdekasvu (IG) (antud näites gini või entroopia). Lõdvalt võime määratleda teabe saamise järgmiselt

IG = teave enne jagamist (vanem) - teave pärast jagamist (lapsed)

Vanema ja laste selgemaks mõistmiseks vaadake allolevat otsustuspuud.

Allpool on toodud täpsem valem teabe saamise valemi jaoks.

Kuna liigituspuudel on binaarsed lõhed, saab valemit lihtsustada allolevaks valemiks.

Kaks levinumat I kriteeriumi, mida kasutatakse sõlme ebapuhtuse mõõtmiseks, on Gini indeks ja entroopia.

Nende valemite natuke parema mõistmise huvides on alloleval pildil näha, kuidas arvutati Gini kriteeriumiga otsustuspuu jaoks teabe suurenemine.

Allolev pilt näitab, kuidas arvutati teabe suurenemine entroopiaga otsustuspuu jaoks.

Ma ei hakka seda lähemalt käsitlema, kuna tuleb märkida, et erinevad lisandite mõõtmed (Gini indeks ja entroopia) annavad tavaliselt sarnaseid tulemusi. Allolev graafik näitab, et Gini indeks ja entroopia on väga sarnased lisandikriteeriumid. Ma arvan, et üks põhjus, miks Gini on scikit-learning (Pythoni raamatukogu) vaikeväärtus, on see, et entroopia arvutamine võib olla pisut aeglasem (kuna see kasutab logaritmi).

Erinevad lisandite mõõtmed (Gini indeks ja entroopia) annavad tavaliselt sarnaseid tulemusi. Tänu selle graafiku inspiratsiooni eest Data Science StackExchange'ile ja Sebastian Raschkale.

Kui soovite lisateavet otsustuspuude toimimise kohta, klõpsake siin lisateabe saamiseks julgelt siin.


Vastus 2:

Kaks mõõdikut puu tükeldamiseks. Gini mõõtmine on juhusliku valimi valesti klassifitseerimise tõenäosus, kui valime märgise juhuslikult vastavalt haru jaotusele.

Entroopia on teabe (või pigem selle puudumise) mõõtmine. Teabekasumi arvutate osade kaupa. Milline on entroopiate erinevus. See mõõdab, kuidas vähendada etiketiga seotud ebakindlust.

Vaata:

https: //en.m.wikipedia.org/wiki / ...