Yliasennus - yleiskatsaus, havaitseminen ja ehkäisy

Yliasennus on tilastoissa käytetty termi, joka viittaa mallinnusvirheeseen, joka tapahtuu, kun funktio vastaa liian tarkasti tiettyä tietojoukkoa. Tämän seurauksena ylivarustaminen ei välttämättä sovi lisätietoon, ja tämä voi vaikuttaa tulevien havaintojen ennustamisen tarkkuuteen.

Yliasennus voidaan tunnistaa tarkistamalla validointimittarit, kuten tarkkuus ja menetys. Vahvistustiedot kasvavat yleensä siihen pisteeseen asti, jossa ne pysähtyvät tai alkavat laskea, kun malliin vaikuttaa yliasennus. Nousevan trendin aikana malli hakee hyvää sopivuutta, mikä saavutettuaan saa trendin alkamaan heikkenemään tai pysähtymään.

Nopea yhteenveto

Yliasennus on mallinnusvirhe, joka tuo ennakkoluuloja malliin, koska se liittyy liian läheisesti tietojoukkoon.
Yliistäminen tekee mallista merkityksellisen vain sen tietojoukolle, eikä sillä ole merkitystä muille tietojoukoille.
Joitakin ylivarustamisen estämiseen käytettyjä menetelmiä ovat yhdistäminen, tietojen lisääminen, tietojen yksinkertaistaminen ja ristivalidointi.

Kuinka tunnistaa yliasennus?

Yliasennuksen havaitseminen on melkein mahdotonta ennen tietojen testaamista. Se voi auttaa käsittelemään ylivarustamisen luontaista ominaisuutta, joka on kyvyttömyys yleistää tietojoukkoja. Tiedot voidaan sen vuoksi jakaa eri osajoukoihin, jotta niiden harjoittelu ja testaus olisi helppoa. Tiedot jaetaan kahteen pääosaan, ts. Testisarjaan ja harjoitusjoukkoon.

Koulutusjoukko edustaa suurinta osaa käytettävissä olevista tiedoista (noin 80%), ja se kouluttaa mallia. Testijoukko edustaa pientä osaa tietojoukosta (noin 20%), ja sitä käytetään sen tiedon tarkkuuden testaamiseen, jonka kanssa se ei ole koskaan ollut vuorovaikutuksessa. Segmentoimalla tietojoukko, voimme tutkia mallin suorituskykyä kullakin tietojoukolla havaitaksemme ylikokoonpanon, samoin kuin nähdä, miten koulutusprosessi toimii.

Suorituskyky voidaan mitata käyttämällä molemmissa tietojoukoissa havaittua tarkkuuden prosenttiosuutta johtuen päällekkäisyydestä. Jos malli toimii paremmin harjoitusjoukolla kuin testisarjalla, se tarkoittaa, että malli on todennäköisesti liian sopiva.

Kuinka estää yliliitäntä?

Alla on joitain tapoja estää ylikäyttö:

1. Harjoittelu, jossa on enemmän tietoja

Yksi tapa estää ylikunto on kouluttamalla enemmän tietoja. Tällainen vaihtoehto helpottaa algoritmeja. Algoritmit (Algos) Algoritmit (Algos) ovat joukko käskyjä, jotka otetaan käyttöön tehtävän suorittamiseksi. Algoritmit otetaan käyttöön automatisoimaan kaupankäynti tuottamaan voittoja taajuudella, jota ihmisen kauppias ei pysty havaitsemaan signaalia. parempi minimoida virheet. Kun käyttäjä syöttää malliin enemmän harjoitteludataa, se ei pysty sovittamaan kaikkia näytteitä liikaa ja joutuu yleistämään tulosten saamiseksi.

Käyttäjien tulisi kerätä jatkuvasti enemmän tietoja keinona lisätä mallin tarkkuutta. Tätä menetelmää pidetään kuitenkin kalliina, ja siksi käyttäjien tulisi varmistaa, että käytettävät tiedot ovat asiaankuuluvia ja puhtaita.

2. Tietojen lisääminen

Vaihtoehto koulutukselle, jossa on enemmän tietoja, on tietojen lisääminen, joka on halvempaa edelliseen verrattuna. Jos et pysty keräämään jatkuvasti enemmän tietoja, voit tehdä käytettävissä olevista tietojoukoista erilaiset. Tietojen lisääminen saa näytetiedot näyttämään hieman erilaisilta aina, kun malli käsittelee niitä. Prosessi saa jokaisen tietojoukon näyttämään mallilta ainutlaatuiselta ja estää mallia oppimasta tietojoukkojen ominaisuuksia.

Toinen vaihtoehto, joka toimii samalla tavalla kuin tietojen lisääminen, on lisätä kohinaa tulo- ja lähtötietoihin. Kohinan lisääminen tuloon tekee mallista vakaan ilman, että se vaikuttaa tietojen laatuun ja yksityisyyteen, kun taas melun lisääminen lähtöön tekee tiedoista monimuotoisempia. Kohinan lisäys on kuitenkin tehtävä maltillisesti, jotta kohinan laajuus ei ole niin paljon, että data olisi virheellistä tai liian erilaista.

3. Tietojen yksinkertaistaminen

Ylivarustusta voi esiintyä mallin monimutkaisuuden takia, joten jopa suurten tietomäärien ollessa kyseessä malli onnistuu silti sovittamaan koulutustietojoukon liikaa. Tietojen yksinkertaistamismenetelmää käytetään vähentämään yliasennusta vähentämällä mallin monimutkaisuutta, jotta se olisi riittävän yksinkertainen, jotta se ei sovi liikaa.

Jotkut toteutettavissa olevista toimista sisältävät päätöksentekopuun karsimisen, parametrien määrän vähentämisen. Parametri Parametri on hyödyllinen osa tilastollista analyysiä. Se viittaa ominaisuuksiin, joita käytetään tietyn populaation määrittelemiseen. Se on tottunut hermoverkkoon ja käyttää keskeyttämistä neutraalissa verkossa. Mallin yksinkertaistaminen voi myös tehdä mallista kevyemmän ja nopeamman.

4. Kokoonpano

Ensembling on koneoppimistekniikka, joka toimii yhdistämällä ennusteet kahdesta tai useammasta erillisestä mallista. Suosituimpia kokoonpanomenetelmiä ovat tehostaminen ja pussittaminen. Tehostaminen toimii yksinkertaisten perusmallien avulla niiden kokonaiskompleksin lisäämiseksi. Se kouluttaa suuren määrän heikkoja oppijoita järjestyksessä järjestyksessä siten, että jokainen oppija jaksossa oppii oppijan virheistä ennen sitä.

Tehostaminen yhdistää kaikki heikot oppijat järjestyksessä tuomaan esiin yhden vahvan oppijan. Toinen kokoonpanomenetelmä on pussitus, mikä on päinvastoin tehostamista. Laukku toimii kouluttamalla suuri määrä vahvoja oppijoita järjestettynä rinnakkain ja yhdistämällä heidät ennustustensa optimoimiseksi.

Lisää resursseja

Finance on maailmanlaajuisen finanssimallinnus- ja arvostusanalyytikon (FMVA) ™ virallinen toimittaja. FMVA®-sertifiointi . Voit jatkaa urasi etenemistä alla olevista lisärahoitusresursseista:

Rahoituksen perustilastokäsitteet Rahoituksen perustilastokäsitteet Tilastojen vahva tuntemus on ratkaisevan tärkeää, jotta voimme paremmin ymmärtää taloutta. Lisäksi tilastokonseptit voivat auttaa sijoittajia seuraamaan
Data-Mining Bias Data-Mining Bias Data-Mining Bias viittaa olettamukseen tärkeydestä, jonka kauppias antaa tapahtumalle markkinoilla, joka tosiasiallisesti johtui sattumasta tai odottamattomasta
Satunnainen metsä Satunnainen metsä Satunnainen metsä on tekniikka, jota käytetään ennusteiden ja käyttäytymisen analysoinnissa, ja se on rakennettu päätöksentekopuille. Satunnainen metsä sisältää monia päätöspuita
Ehdoton todennäköisyys Ehdoton todennäköisyys Ehdoton todennäköisyys, joka tunnetaan myös nimellä marginaalinen todennäköisyys, viittaa todennäköisyyteen, johon aiemmat tai tulevat tapahtumat eivät vaikuta. Toisin sanoen,