Ensemble-menetelmät ovat tekniikoita, joiden tarkoituksena on parantaa tulosten tarkkuutta malleissa yhdistämällä useita malleja yhden mallin käyttämisen sijaan. Yhdistetyt mallit lisäävät tulosten tarkkuutta merkittävästi. Tämä on lisännyt kokonaisuusmenetelmien suosiota koneoppimisessa.
Nopea yhteenveto
- Ensemble-menetelmillä pyritään parantamaan mallien ennustettavuutta yhdistämällä useita malleja yhdestä erittäin luotettavasta mallista.
- Suosituimmat yhdistelmämenetelmät ovat tehostaminen, pussitus ja pinoaminen.
- Ensemble-menetelmät ovat ihanteellisia regressiolle ja luokitukselle, jossa ne vähentävät harhaa ja varianssia mallien tarkkuuden parantamiseksi.
Ensemble-menetelmien luokat
Ensemble-menetelmät jakautuvat kahteen laajaan luokkaan, eli peräkkäiset yhtyeiden tekniikat ja rinnakkaiset yhtyeiden tekniikat. Peräkkäiset yhtyeiden tekniikat luoda perusopiskelijoita järjestyksessä, esim. Adaptive Boosting (AdaBoost). Perusopiskelijoiden peräkkäinen sukupolvi edistää perusopiskelijoiden välistä riippuvuutta. Sitten mallin suorituskykyä parannetaan osoittamalla suurempia painoja aiemmin väärin esitetyille oppijoille.
Sisään rinnakkaiset ansamblitekniikat, perusopiskelijat luodaan rinnakkaismuodossa, esim. satunnainen metsä Satunnainen metsä Satunnainen metsä on tekniikka, jota käytetään ennusteiden ja käyttäytymisen analysoinnissa ja joka on rakennettu päätöksentekopuille. Satunnainen metsä sisältää monia päätöspuita. Rinnakkaismenetelmissä käytetään perusopiskelijoiden rinnakkaista sukupolvea kannustamaan perusopiskelijoiden itsenäisyyttä. Perusopiskelijoiden riippumattomuus vähentää merkittävästi keskiarvojen soveltamisesta johtuvaa virhettä.
Suurin osa ryhmätekniikoista soveltaa perusopetuksessa yhtä algoritmia, mikä johtaa homogeenisuuteen kaikilla perusopiskelijoilla. Homogeeniset perusopiskelijat viittaavat samantyyppisiin perusopiskelijoihin, joilla on samanlaiset ominaisuudet. Muut menetelmät soveltavat heterogeenisiä perusopiskelijoita ja synnyttävät heterogeenisiä yhtyeitä. Heterogeeniset perusopiskelijat ovat erityyppisiä oppijoita.
Ensemble-menetelmien päätyypit
1. Laukku
Bagingia, lyhyttä muotoa bootstrap-aggregaatille, käytetään pääasiassa luokittelussa ja regressioregressioanalyysissä Regressioanalyysi on joukko tilastollisia menetelmiä riippuvaisen muuttujan ja yhden tai useamman itsenäisen muuttujan välisten suhteiden arvioimiseksi. Sitä voidaan käyttää muuttujien välisen suhteen vahvuuden arviointiin ja niiden välisen tulevan suhteen mallintamiseen. . Se lisää mallien tarkkuutta päätöksentekopuiden avulla, mikä vähentää varianssia suuressa määrin. Varianssin pienentäminen lisää tarkkuutta ja poistaa siten ylirasituksen, mikä on haaste monille ennakoiville malleille.
Laukku on luokiteltu kahteen tyyppiin, ts. Saappaiden kiinnittämiseen ja yhdistämiseen. Bootstrapping on näytteenottotekniikka, jossa näytteet johdetaan koko populaatiosta (sarjasta) korvausmenetelmää käyttäen. Näytteenotto korvausmenetelmällä auttaa tekemään valintamenettelystä satunnaistettua. Perusoppimisalgoritmi ajetaan näytteillä menettelyn loppuun saattamiseksi.
Yhteenveto pussituksessa tehdään kaikki mahdolliset ennusteen tulokset ja satunnaistetaan tulos. Ilman aggregaatiota ennusteet eivät ole tarkkoja, koska kaikkia tuloksia ei oteta huomioon. Yhdistäminen perustuu siis todennäköisyyksien käynnistysproseduureihin tai ennustemallien kaikkien tulosten perusteella.
Laukkujen ostaminen on edullista, koska heikot perusopiskelijat yhdistetään yhdeksi vahvaksi oppijaksi, joka on vakaampi kuin yksittäiset oppijat. Se myös eliminoi kaikki varianssit ja vähentää siten mallien ylikuntoa. Yksi pussituksen rajoitus on, että se on laskennallisesti kallista. Siten se voi johtaa enemmän puolueellisuuteen malleissa, kun asianmukaista pussitusmenettelyä ei oteta huomioon.
2. Tehostaminen
Tehostaminen on kokonaisuustekniikka, joka oppii aikaisemmista ennustinvirheistä tekemään parempia ennusteita tulevaisuudessa. Tekniikka yhdistää useita heikkoja perusopiskelijoita muodostamaan yhden vahvan oppijan, mikä parantaa merkittävästi mallien ennustettavuutta. Tehostaminen toimii järjestämällä heikot oppijat järjestyksessä siten, että heikot oppijat oppivat jakson seuraavalta oppijalta parempien ennustavien mallien luomiseksi.
Tehostuksella on monia muotoja, joihin kuuluvat gradientin tehostus, Adaptive Boosting (AdaBoost) ja XGBoost (Extreme Gradient Boosting). AdaBoost hyödyntää heikkoja oppijoita, jotka ovat päätöksentekopuiden muodossa, jotka sisältävät enimmäkseen yhden jaon, joka tunnetaan yleisesti päätöksenteon kannoina. AdaBoostin pääkannossa on havaintoja, joilla on samanlainen paino.
Liukuvärin lisäys Liukuvärin lisäys Gradientin tehostaminen on tekniikka, jota käytetään ennusteiden mallien luomiseen. Tekniikkaa käytetään enimmäkseen regressio- ja luokitteluprosesseissa. lisää ennustimia peräkkäin kokonaisuuteen, jossa edeltävät ennustimet korjaavat seuraajansa, mikä lisää mallin tarkkuutta. Uudet ennustimet soveltuvat vastaamaan aiempien ennustajien virheiden vaikutuksia. Laskeutumisen gradientti auttaa gradienttitehostetta tunnistamaan ongelmat oppijoiden ennusteissa ja torjumaan niitä vastaavasti.
XGBoost käyttää päätöksentekopuita parannetulla kaltevuudella, mikä parantaa nopeutta ja suorituskykyä. Se luottaa suuresti laskennanopeuteen ja kohdemallin suorituskykyyn. Mallikoulutuksen tulisi noudattaa järjestystä, jolloin kaltevuudella varustettujen koneiden toteutus hidastuu.
3. Pinoaminen
Pinoamista, toista kokonaisuusmenetelmää, kutsutaan usein pinotuksi yleiseksi. Tämä tekniikka toimii sallimalla harjoitusalgoritmin yhdistää useita muita vastaavia oppimisalgoritmien ennusteita. Pinoaminen on onnistuneesti toteutettu regressiossa, tiheyden arvioinnissa, etäopetuksessa ja luokituksissa. Sitä voidaan käyttää myös säkityksen aikana tapahtuvan virhesuhteen mittaamiseen.
Varianssin vähennys
Ensemble-menetelmät ovat ihanteellisia mallien varianssin vähentämiseksi, mikä lisää ennusteiden tarkkuutta. Varianssi eliminoidaan, kun useita malleja yhdistetään muodostamaan yksi ennuste, joka valitaan kaikista muista yhdistettyjen mallien mahdollisista ennusteista. Mallien yhdistelmä on yhdistelmä erilaisia malleja sen varmistamiseksi, että tuloksena oleva ennuste on paras mahdollinen kaikkien ennusteiden huomioon ottamisen perusteella.
Lisäresurssit
Rahoitus on maailmanlaajuisen Certified Banking & Credit Analyst (CBCA) ™ CBCA ™ -sertifikaatin virallinen toimittaja Certified Banking & Credit Analyst (CBCA) ™ -sertifikaatti on maailmanlaajuinen luottotietojen analyytikoiden standardi, joka kattaa rahoituksen, kirjanpidon, luottotiedot, kassavirta-analyysit , kovenanttimallinnus, lainojen takaisinmaksut ja paljon muuta. sertifiointiohjelma, joka on suunniteltu auttamaan kaikkia tulemaan maailmanluokan rahoitusanalyytikoiksi. Voit jatkaa urasi etenemistä alla olevista lisärahoitusresursseista:
- Elastinen verkko Elastinen verkko Elastinen verkko käyttää lineaarisesti regressiomallien tasapainottamiseen sekä lasso- että harjanteen tekniikoita. Tekniikassa yhdistyvät sekä lasso että
- Overfitting Overfitting Overfitting on tilastoissa käytetty termi, joka viittaa mallinnusvirheeseen, joka tapahtuu, kun toiminto vastaa liian tarkasti tiettyä tietojoukkoa
- Skaalautuvuus Skaalautuvuus Skaalautuvuus voi pudota sekä taloudellisessa että liiketoimintastrategiassa. Molemmissa tapauksissa se tarkoittaa yksikön kykyä kestää painetta
- Spoofing Spoofing Spoofing on häiritsevä algoritminen kaupankäynnin käytäntö, johon sisältyy futuurisopimusten osto- tai myyntitarjousten tekeminen ja tarjousten tai tarjousten peruuttaminen ennen kaupan toteuttamista. Tämän käytännön tarkoituksena on luoda väärä kuva kysynnästä tai väärä pessimismi markkinoilla.