Satunnainen metsä - yleiskatsaus, mallinnusennusteet, edut

Satunnainen metsä on tekniikka, jota käytetään ennusteiden ja käyttäytymisen analysoinnissa, ja se on rakennettu päätöksentekopuille. Se sisältää monia päätöksentekopuita, jotka edustavat erillistä tapausta satunnaiseen metsään syötettyjen tietojen luokittelusta. Satunnainen metsätekniikka ottaa yksittäiset tapaukset huomioon ottaen valitun ennusteen äänten enemmistön.

Kuva 1. Satunnainen metsärakenne (lähde)

Jokainen luokituksen puu ottaa syötteen alkuperäisen tietojoukon näytteistä. Sen jälkeen valitaan satunnaisesti ominaisuudet, joita käytetään puun kasvattamiseen jokaisessa solmussa. Jokaista metsän puuta ei saa karsia ennen harjoituksen loppua, kun ennuste on saavutettu päättäväisesti. Tällä tavoin satunnainen metsä antaa heikoilla korrelaatioilla toimiville luokittelijoille mahdollisuuden luoda vahva luokittelija.

Nopea yhteenveto

Satunnainen metsä on yhdistelmä päätöspuita, jotka voidaan mallintaa ennustamista ja käyttäytymisen analysointia varten.
Metsän päätöksentekopuuta ei voida karsia näytteenottoa ja siten ennustevalintaa varten.
Satunnainen metsätekniikka pystyy käsittelemään suuria tietojoukkoja, koska se kykenee työskentelemään monien tuhansien muuttujien kanssa.

Ennusteiden mallintaminen

Satunnainen metsämenetelmä voi rakentaa ennustusmalleja käyttämällä satunnaisia metsän regressiopuita, jotka ovat yleensä karsimattomia vahvojen ennusteiden antamiseksi. Regressiopuissa käytetään bootstrap-näytteenottomenetelmää, jota ei pitäisi karsia. Optimaaliset solmut otetaan näytteestä puun kokonaissolmuista optimaalisen halkaisuominaisuuden muodostamiseksi.

Optimaalisen halkaisuominaisuuden valinnassa käytetty satunnaisotantatekniikka alentaa korrelaatiota ja siten regressiopuiden varianssia. Se parantaa metsässä olevien puiden ennustuskykyä. Bootstrap-näytteenotto lisää myös yksittäisten puiden itsenäisyyttä.

Vaihteleva merkitys

Muuttujat (ominaisuudet) ovat tärkeitä satunnaiselle metsälle, koska mallien tulkinta on haastavaa etenkin biologisesta näkökulmasta. Naiivi lähestymistapa osoittaa muuttujien tärkeyden osoittamalla muuttujalle tärkeyden sen perusteella, kuinka usein kaikki puut sisällyttävät sen otokseen. Se voidaan saavuttaa helposti, mutta se on haaste, koska vaikutukset kustannusten vähentämiseen ja tarkkuuden kasvuun ovat tarpeettomia.

Permutaation tärkeys on mitta, joka seuraa ennustustarkkuutta, jossa muuttujat permutoidaan satunnaisesti pussin ulkopuolisista näytteistä. Permutaation tärkeyden lähestymistapa toimii paremmin kuin naiivi lähestymistapa, mutta on yleensä kalliimpaa.

Koska satunnaisen metsän haasteet eivät kykene tulkitsemaan ennusteita riittävän hyvin biologisesta näkökulmasta, tekniikka perustuu naiiveihin, keskimääräisiin epäpuhtauksien vähenemiseen ja permutaation tärkeyden lähestymistapoihin, jotta heille voidaan antaa suora tulkittavuus haasteisiin. Kolme lähestymistapaa tukevat ennustemuuttujia useilla luokilla.

Jatkuvien ennustemuuttujien tapauksessa, joissa on samanlainen lukumäärä luokkia, mutta sekä permutaation tärkeydellä että epäpuhtauksien keskimääräisellä vähennysmenetelmällä ei ole ennakkoluuloja Data-Mining Bias Data-mining -bias viittaa oletukseen tärkeydestä, jonka kauppias antaa tapahtumalle markkinoilla, mikä tosiasiallisesti johtui sattumasta tai odottamattomista. Muuttuvaan valintaan liittyy usein ennakkoluuloja. Sen välttämiseksi on suoritettava alinäyte ilman korvaamista, ja jos käytetään ehdollista päätelmää, on sovellettava satunnaista metsätekniikkaa.

Vino satunnainen metsä

Vinoat satunnaiset metsät ovat ainutlaatuisia siinä mielessä, että ne käyttävät vinoita halkeamia päätöksissä solmujen tavanomaisten päätösjaon sijasta. Viistot metsät osoittavat paljon paremmuutta osoittamalla seuraavia ominaisuuksia.

Ensinnäkin he voivat erottaa jakaumat koordinaattiakseleilla käyttämällä yhtä monivaihtelijakoa, joka sisältäisi tavanomaisesti tarvittavat syvälle akselille kohdistetut jakaumat. Toiseksi ne mahdollistavat pienemmän ennakkoluulon päätöspuista piirrettyjen rajoitusten suhteen. Tavanomaiset akselin suuntaiset halkeamat edellyttävät vielä kahta pesimisen tasoa, kun samanlaiset luokat erotetaan vinoilla halkeamilla, mikä helpottaa ja tehostaa käyttöä.

Satunnainen metsäluokitus

Satunnaismetsien luokittelija on ennustepuiden kokoelma, jossa jokainen puu on riippuvainen satunnaisvektoreista, jotka on näytteistetty itsenäisesti, samalla levinneisyydellä kaikkien muiden satunnaismetsien puiden kanssa. Alun perin koneoppimiseen suunniteltu luokittelija on saavuttanut suosiota kaukokartoitusyhteisössä, jossa sitä käytetään etätunnistettujen kuvien luokittelussa sen korkean tarkkuuden vuoksi. Se saavuttaa myös tarvittavan nopeuden ja tehokkaan parametroinnin prosessissa. Satunnainen metsäluokittelija käynnistää satunnaiset näytteet, joissa valitaan ennuste, jolla on korkein ääni kaikista puista.

Puiden yksilöllisyys on tärkeää koko prosessissa. Jokaisen puun yksilöllisyys taataan seuraavien ominaisuuksien vuoksi. Ensinnäkin jokainen otoksen puuharjoittelu käyttää satunnaisia alijoukkoja alkuperäisistä harjoitusnäytteistä. Toiseksi optimaalinen jako valitaan karsimattomien puun solmujen satunnaisesti valituista ominaisuuksista. Kolmanneksi jokainen puu kasvaa ilman rajoja, eikä sitä tule karsia lainkaan.

Satunnaisten metsien edut

Satunnaiset metsät esittävät arviot vaihtelevan tärkeydelle, ts. Hermoverkoille. Ne tarjoavat myös erinomaisen menetelmän puuttuvien tietojen käsittelyyn. Puuttuvat arvot korvataan muuttujalla, joka esiintyy eniten tietyssä solmussa. Kaikista käytettävissä olevista luokitusmenetelmistä satunnaiset metsät tarjoavat korkeimman tarkkuuden.

Satunnainen metsätekniikka pystyy käsittelemään myös isoja tietoja lukuisilla muuttujilla, jotka ovat tuhansia. Se voi tasapainottaa tietojoukot automaattisesti, kun luokka on harvinaisempi kuin muiden tietojen luokat. Menetelmä käsittelee muuttujia myös nopeasti, joten se soveltuu monimutkaisiin tehtäviin.

Lisää resursseja

Finance tarjoaa Financial Modeling & Valuation Analyst (FMVA) ™ FMVA® -sertifikaatin. Liity 350 600+ opiskelijaan, jotka työskentelevät yrityksissä, kuten Amazon, J.P.Morgan ja Ferrari -sertifikaattiohjelmassa, niille, jotka haluavat viedä uransa seuraavalle tasolle. Tutki alla olevia asiaankuuluvia muita rahoitusresursseja jatkaaksesi oppimista ja tietopohjan kehittämistä:

Poikkileikkaustietojen analyysi Poikkileikkaustietojen analyysi Poikkileikkaustietojen analyysi on poikkileikkaustietojen analyysi. Tutkimukset ja viranomaisrekisterit ovat yleisiä poikkileikkaustietojen lähteitä
Klusterinäyte Klusterinäyte Tilastossa klusterinäyte on otantamenetelmä, jossa koko tutkimuksen populaatio on jaettu ulkoisesti homogeeniseen mutta sisäisesti
Normaali jakauma Normaali jakauma Normaalia jakaumaa kutsutaan myös Gaussin tai Gaussin jakautumiseksi. Tämän tyyppistä jakelua käytetään laajalti luonnontieteissä ja yhteiskuntatieteissä.
Roy's Safety-First Criterion Roy's Safety-first Criterion Roy's first-kriteeri on riskinhallintatekniikka, jota sijoittajat käyttävät vertailemaan ja valitsemaan salkun perusteena kriteerille, jonka mukaan todennäköisyys