Laukkujen pakkaus (Bootstrap Aggregation) - yleiskatsaus, miten se toimii, edut

Ensemble-koneoppiminen voidaan luokitella lähinnä pusseihin ja tehostamiseen. Säkitystekniikka on hyödyllinen sekä regressio- että tilastollisessa luokittelussa. Säkitystä käytetään päätöksentekopuiden kanssa, missä se nostaa merkittävästi mallien vakautta varianssin vähentämisessä ja tarkkuuden parantamisessa, mikä eliminoi haasteen ylikuormitukselle.

Laukku

Kuva 1. Laukku (Bootstrap Aggregation) -virtaus. Lähde

Kokoonpano koneoppimiseen vaatii useita heikkoja malleja, yhdistämällä ennusteet parhaan ennusteen valitsemiseksi. Heikot mallit ovat erikoistuneet ominaisuustilan erillisiin osiin, mikä mahdollistaa jokaisesta mallista saatavan vipuvaikutuksen ennustamisen saavuttaakseen äärimmäisen tarkoituksensa.

Nopea Summary

  • Laukkujen lisääminen ja nostaminen ovat kaksi päämenetelmää yhtyeiden koneoppimisessa.
  • Laukku on kokonaisuusmenetelmä, jota voidaan käyttää regressiossa ja luokittelussa.
  • Se tunnetaan myös nimellä bootstrap-aggregaatti, joka muodostaa pussituksen kaksi luokitusta.

Mitä Bootstrapping on?

Laukku koostuu kahdesta osasta: yhdistämisestä ja saappaiden kiinnittämisestä. Bootstrapping on näytteenottomenetelmä, jossa näyte valitaan joukosta korvausmenetelmää käyttäen. Oppimisalgoritmi ajetaan sitten valituilla näytteillä.

Bootstrapping-tekniikka käyttää näytteenottoa korvaavien kanssa, jotta valintamenettelystä tulee täysin satunnainen. Kun näyte valitaan korvaamatta, muuttujien seuraavat valinnat ovat aina riippuvaisia ​​edellisistä valinnoista, joten kriteerit eivät ole satunnaisia.

Mikä on yhdistäminen?

Malliennusteissa tehdään aggregaatio, jotta ne voidaan yhdistää lopulliseen ennusteeseen kaikkien mahdollisten tulosten huomioon ottamiseksi. Yhdistäminen voidaan tehdä tulosten kokonaismäärän tai ennusteiden todennäköisyyden perusteella, joka on johdettu menettelyn jokaisen mallin käynnistyshihnasta.

Mikä on Ensemble-menetelmä?

Sekä säkitys että tehostaminen muodostavat merkittävimmät yhtyeiden tekniikat. Ansamblimenetelmä on koneoppimisalusta, joka auttaa useita malleja koulutuksessa saman oppimisalgoritmin avulla. Ansamblimenetelmä on osallistuja suurempaan moniluokittelijoiden ryhmään.

Moniluokittelijat ovat useita oppijoita, jotka törmäävät tuhansiin, ja joilla on yhteinen tavoite, joka voi sulautua ja ratkaista yleisen ongelman. Toinen moniluokittelijoiden luokka on hybridimenetelmät. Hybridimenetelmissä käytetään joukkoa oppijoita, mutta toisin kuin moniluokittelijat, he voivat käyttää erillisiä oppimismenetelmiä.

Oppiminen kohtaa useita haasteita, kuten virheitä, jotka johtuvat pääasiassa puolueellisuudesta, melusta ja varianssista. Koneoppimisen tarkkuus ja vakaus taataan yhdistelmämenetelmillä, kuten pussituksella ja tehostamisella. Useat luokitusyhdistelmät vähentävät varianssia varsinkin silloin, kun luokittelijat ovat epävakaita, ja ne ovat tärkeitä luotettavampien tulosten esittämisessä kuin yksi luokittelija.

Joko pussin tai korotuksen käyttö vaatii ensin perusopiskelijan algoritmin valinnan. Jos esimerkiksi valitset luokituspuun, nostaminen ja säkkiminen olisi puupoolia, jonka koko vastaa käyttäjän mieltymyksiä.

Pussin edut ja haitat

Satunnainen metsä Satunnainen metsä Satunnainen metsä on tekniikka, jota käytetään ennusteiden ja käyttäytymisen analysoinnissa, ja se on rakennettu päätöksentekopuille. Satunnainen metsä sisältää monia päätöspuita on yksi suosituimmista säkkialgoritmeista. Laukkujen tarjoamisen etuna on, että monet heikot oppijat voivat yhdistää ponnistelunsa yhden vahvan oppijan ohittamiseksi. Se auttaa myös varianssin pienentämisessä, joten ylivarustamisen eliminoiminen Yliasennus Yliasennus on tilastoissa käytetty termi, joka viittaa mallinnusvirheeseen, joka tapahtuu, kun toiminto vastaa liian läheisesti tiettyä mallien tietosarjaa menettelyssä.

Yksi pussin haittapuoli on, että se johtaa mallin tulkittavuuden menetykseen. Tuloksena olevaan malliin voi kohdistua paljon puolueellisuutta, kun asianmukaista menettelyä ei oteta huomioon. Huolimatta siitä, että säkitys on erittäin tarkkaa, se voi olla laskennallisesti kallista, mikä saattaa estää sen käyttöä tietyissä tapauksissa.

Laukku vs. tehostus

Paras tekniikka, jota käytetään pussituksen ja nostamisen välillä, riippuu käytettävissä olevista tiedoista, simulaatiosta ja mahdollisista olosuhteista. Arvion varianssia pienennetään merkittävästi pussitus- ja tehostamistekniikoilla yhdistelmämenettelyn aikana, mikä lisää tarkkuutta. Siksi saadut tulokset osoittavat suurempaa stabiilisuutta kuin yksittäiset tulokset.

Kun tapahtuma asettaa heikon suorituskyvyn haasteen, pussitustekniikka ei johda parempaan puolueellisuuteen. Tehostustekniikka luo kuitenkin yhtenäisen mallin, jolla on pienemmät virheet, koska se keskittyy etujen optimointiin ja puutteiden vähentämiseen yhdessä mallissa.

Kun yhden mallin haaste on ylisuuri, pussitusmenetelmä toimii paremmin kuin tehostustekniikka. Boostingilla on haasteena käsitellä yliasennusta, koska se tulee sinänsä.

Liittyvät lukemat

Finance tarjoaa Financial Modeling & Valuation Analyst (FMVA) ™ FMVA® -sertifikaatin. Liity 350 600+ opiskelijaan, jotka työskentelevät yrityksissä, kuten Amazon, J.P.Morgan ja Ferrari -sertifikaattiohjelmassa, niille, jotka haluavat viedä uransa seuraavalle tasolle. Tutki alla olevia asiaankuuluvia muita rahoitusresursseja jatkaaksesi oppimista ja tietopohjan kehittämistä:

  • Klusterinäyte Klusterinäyte Tilastossa klusterinäyte on otantamenetelmä, jossa koko tutkimuksen populaatio on jaettu ulkoisesti homogeeniseen mutta sisäisesti
  • Liian itsevarmuus Bias Liian itsevarmuus Bias Liika itsevarmuus on väärä ja harhaanjohtava arvio taidoistamme, älystämme tai lahjakkuudestamme. Lyhyesti sanottuna, se on egoistinen usko, että olemme parempia kuin todellisuudessa olemme. Se voi olla vaarallinen puolueellisuus ja on hyvin tuottelias käyttäytymisrahoituksessa ja pääomamarkkinoilla.
  • Regressioanalyysi Regressioanalyysi Regressioanalyysi on joukko tilastollisia menetelmiä, joita käytetään riippuvan muuttujan ja yhden tai useamman itsenäisen muuttujan välisten suhteiden estimointiin. Sitä voidaan käyttää muuttujien välisen suhteen vahvuuden arviointiin ja niiden välisen tulevan suhteen mallintamiseen.
  • Aikasarjan tietojen analysointi Aikasarjojen tietojen analysointi Aikasarjojen data-analyysi on tietyn ajanjakson aikana muuttuvien tietojoukkojen analyysi. Aikasarjatiedostot tallentavat saman muuttujan havaintoja eri ajankohtina. Rahoitusanalyytikot käyttävät aikasarjatietoja, kuten osakekurssimuutoksia tai yrityksen myyntiä ajan myötä

Uusimmat viestit