Tilastolliseen päättelyyn

Tilastoissa tilastollinen päättely on prosessi liittäessään ominaisuuksien taustalla jakautuminen analysoimalla tietoja.

Alkuperäisiä vaatimuksia järjestelmän menettelyjen päättelyyn ja induktio ovat, että järjestelmä tulisi tuottaa kohtuullisen vastauksia, kun sovelletaan hyvin määriteltyihin tilanteisiin ja että sen pitäisi olla riittävän yleisellä jota sovelletaan eri puolilla eri tilanteissa. Johdettu tilasto testataan hypoteeseja ja tehdä arvioita käyttäen näytedataa. Ottaa huomioon, kuvailevia tilastoja kuvaamaan näytteen johdettu tilasto päättelevät ennustuksia enemmän asukkaita kuin näyte edustaa.

Esittely

Laajuus

Suurimmaksi osaksi, tilastollinen päättely tekee ehdotuksia noin väestön käyttäen saatuja tietoja väestön edun kautta jonkinlaista satunnaisotannalla. Yleisemmin, tietoja satunnainen prosessi on saatu sen havaittua käyttäytymistä aikana on rajallinen ajan. Koska parametri tai hypoteesi siitä, mitä halutaan tehdä päättely, tilastollinen päättely useimmiten käyttää:

  • tilastollinen malli satunnainen prosessi, joka on tarkoitus tuottaa tietoja, joka on tunnettu, kun satunnaistamista on käytetty, ja
  • tietty toteutus satunnainen prosessi; eli joukko tietoja.

Tekemisestä tilastollisen päättelyn on tilastollinen ehdotus. Joitakin yleisiä muotoja tilastollisten proposition ovat:

  • arvio; eli erityinen arvo, joka parhaiten approksimoi jonkin parametrin kiinnostuksen,
  • luottamusväli; eli väli rakennettu käyttäen aineisto vetää väestöstä niin, että alle toistuvasti näytteenotto tällaisten aineistojen, kuten väliajoin sisältäisi todellinen parametrin arvo todennäköisyyden ilmoitettuun luottamustasolla,
  • uskottava väli; eli arvomaailmaa sisältää esimerkiksi, 95% taka vakaumukseen,
  • hylkääminen hypoteesi
  • ryhmittämistä tai luokittelua datapisteiden ryhmiin

Vertailu kuvailevia tilastoja

Tilastollinen päättely on yleensä erottaa kuvailevia tilastoja. Yksinkertaisesti, kuvailevia tilastoja voidaan ajatella olevan vain yksinkertainen esitys tosiseikkoja, joissa mallinnus päätöksistä tiedot analyytikko on ollut minimaalinen vaikutus.

Mallit ja oletukset

Mikä tahansa tilastolliseen päättelyyn vaatii hieman oletuksia. Tilastollinen malli on joukko oletuksia koskevat sukupolven havaitut tietoja ja muita samankaltaisia ​​tietoja. Kuvaukset tilastollisten mallien yleensä korostavat väestön määriä kiinnostuksen, josta haluamme kiinnittää päättely. Kuvailevia tilastoja käytetään tyypillisesti alustava vaihe ennen virallisempaa päätelmät piirretään.

Aste malleja / olettamusten

Tilastotieteilijät erottaa toisistaan ​​kolme mallintamiseen liittyviä oletuksia;

  • Täysparametrista: Todennäköisyysjakaumat kuvaava data sukupolven prosessi oletetaan täysin kuvata perheen todennäköisyysjakaumat mukana vain rajallinen määrä tuntemattomia parametreja. Esimerkiksi voidaan olettaa, että jakelu väestön arvot on todella Normaali, jossa tuntematon keskiarvo ja varianssi, ja että aineistot syntyvät "yksinkertaisen" satunnaisotannalla. Perhe yleisen lineaaristen mallien on laajalti käytetty ja joustava luokan parametristen mallien.
  • Ei-parametrinen: oletuksia synnyttävä prosessi tiedot ovat paljon vähemmän kuin parametrimuodossa tilastoja ja saattaa olla vähäinen. Esimerkiksi joka jatkuva todennäköisyysjakauma on mediaani, joka voidaan arvioida näytteen mediaani tai Hodges-Lehmann-Senin arvioija, jolla on hyvät ominaisuudet, kun tiedot syntyvät yksinkertaisella satunnaisotannalla.
  • Semi-parametrinen: Tämä termi tyypillisesti merkitsee oletuksia "väliin" täysin ja ei-parametriset lähestymistapoja. Esimerkiksi voidaan olettaa, että väestön jakautuminen on äärellinen keskimääräinen. Lisäksi voidaan olettaa, että keskimääräinen vaste tasolla väestön riippuu todella lineaarisesti joissakin kovariaattina mutta ei tee mitään muuttujien oletus kuvataan varianssi noin tämä keskiarvo. Yleisemmin puoliparametrinen malleja voidaan usein erottaa "rakenteellista" ja "satunnaista vaihtelua" komponentteja. Yksi osa käsitellään parametrisesti ja muut ei-parametrisesti. Tunnettu Coxin malli on joukko puoliparametrinen oletuksiin.

Tärkeys voimassa malleja / olettamukset

Riippumatta taso oletuksista on, oikein kalibroitu päättely yleensä edellyttää näiden oletusten olevan oikein; eli että tiedot tuottavien mekanismien todella on määritetty oikein.

Väärä oletukset "yksinkertainen" satunnaisotannalla voi mitätöidä tilastolliseen päättelyyn. Monimutkaisemmat puoli- ja täysparametrista oletukset myös huolestuttavaa. Esimerkiksi väärin olettaen Coxin malli voi joissakin tapauksissa johtaa vääriin johtopäätöksiin. Väärä oletukset normaaliuden väestössä myös mitätöi joitakin muotoja regressio-pohjainen päättely. Minkä tahansa parametrinen malli nähdään skeptisesti useimmat asiantuntijat näytteenotto väestössä: "eniten näytteenotto tilastotieteilijät, kun ne käsittelevät luottamusvälit lainkaan, tyytyisi lausuntoja perustuu erittäin suuri näytteitä, jossa keskeinen raja-arvolause varmistaa, että nämä on jakaumat, jotka ovat lähes normaali. " Erityisesti normaalijakaumaa "olisi täysin epärealistista ja katastrofaalisesti epäviisasta olettamus tehdä jos olisimme tekemisissä kaikenlaista taloudellista väestöstä." Täällä, keskeinen raja-arvolause todetaan, että jakelu näytteen tarkoittaa "erittäin suurten näytteiden" on suunnilleen normaalisti jakautunut, jos jakelu ei ole raskas tailed.

Arvioitu jakaumat

Koska vaikea täsmentää tarkkaa jakaumat näytteen tilastojen, monia menetelmiä on kehitetty lähentää näitä.

Joilla on rajallinen näytteitä, lähentäminen tuloksia mitata, kuinka lähellä rajoittamaan jakelu lähestyy tilaston otos jakelu: Esimerkiksi 10.000 riippumaton näytteiden normaalijakaumaa approksimoi jakelu näytteen merkitsee monille väestöjakaumat, jonka Berry-Esseen lause. Silti moniin käytännön tarkoituksiin, normaaliapproksimaatiota antaa hyvän likiarvon näytteen keskiarvo jakauma kun on 10 itsenäistä näytettä, mukaan simulaatiotutkimuksia ja tilastotieteilijät kokemus. Seuraavat Kolmogorov työ 1950-luvulla, kehittynyt tilastojen käyttää lähentäminen teoria ja toiminnallinen analyysi määrällisesti virhe lähentämisestä. Tässä lähestymistavassa metrinen geometria todennäköisyysjakaumat tutkitaan; tämä lähestymistapa määrällisesti lähentämisestä virhe, esimerkiksi Kullback-Leibler eroja, Bregman eroja, ja Hellinger etäisyys.

Kanssa loputtomiin suuri näytteitä, rajoittaa tuloksia kuin keskeinen raja-arvolause kuvaamaan otoksen tunnusluku n rajoittamaan jakelu, jos sellainen on olemassa. Rajoittaminen tulokset eivät ole lausuntoja rajallinen näytteitä, ja todellakin ovat merkityksettömiä rajallinen näytteitä. Kuitenkin asymptoottinen teoria rajoittaa jakelut usein vedota työtä rajallinen näytteitä. Esimerkiksi rajoittamalla tulokset ovat usein perustelemaan yleisen menetelmän hetkiä ja käytön yleisen arvioimalla yhtälöitä, jotka ovat suosittuja ekonometrian ja biostatistiikan. Suuruus ero rajoittamaan jakelu ja todellinen jakauma voidaan arvioida käyttäen simulointi. Heuristinen soveltaminen rajoittaa tulosten rajallinen näytteitä on yleinen käytäntö monissa sovelluksissa, etenkin matalan ulotteinen malleja log-kovera uskottavuuksia.

Satunnaistaminen perustuvia malleja

Tietyn aineisto, joka on tuotettu satunnaistaminen suunnittelu, satunnaistaminen jakelu tilastollinen määritellään arvioimalla testin tilastollinen kaikille suunnitelmia, jotka olisi tuotettu satunnaistamista suunnittelu. Vuonna frekventistisiin päättely, satunnaistaminen mahdollistaa päätelmiä perustuu satunnaistamista jakeluun pikemmin kuin subjektiivisia malli, ja tämä on tärkeää erityisesti tutkimus näytteenotto ja kokeiden suunnittelu. Tilastollinen päättely satunnaistetuista tutkimuksista on myös yksinkertaisempi kuin monissa muissa tilanteissa. Bayesin päättely, satunnaistaminen on myös tärkeää: in tutkimus näytteenotto, käyttää otoksia vaihtamatta takaa vaihdettavuutta näytteen väestön kanssa; satunnaistetuissa kokeissa, satunnaistamista takaa puuttuu satunnaisesti oletus kovariaatti tietoja.

Tavoite satunnaistamista mahdollistaa oikein induktiivinen menettelyjä. Monet tilastotieteilijät mieluummin satunnaistamista perustuva analyysi tietojen syntyi hyvin määritelty Satunnaistamismenettelyt. Samoin tulokset satunnaistettiin kokeista suositellaan johtava tilastoviranomaisten luvaksi päätelmiä kanssa entistä luotettavampia kuin tehdä havainnointitutkimukset saman ilmiöitä. Kuitenkin hyvä havainnointitutkimuksessa voi olla parempi kuin huono satunnaistettu koe.

Tilastollinen analyysi satunnaistettu koe voi perustua satunnaistamisesta järjestelmä todetaan tutkimussuunnitelma ja ei tarvitse subjektiivinen malli.

Kuitenkin milloin tahansa, jotkut hypoteeseja ei voida testata puolueettomin tilastollisia malleja, jotka kuvaavat satunnaistetussa kokeita tai satunnaisotos. Joissakin tapauksissa tällaiset satunnaistettu tutkimukset ovat epätaloudellisia tai epäeettistä.

Malli perustuva analyysi satunnaistettu kokeiluja

Se on normaali käytäntö viitata tilastollinen malli, usein lineaarisen mallin, kun analysoidaan tietoa satunnaistetuista kokeista. Kuitenkin satunnaistaminen järjestelmä ohjaa valinta tilastollinen malli. Ei ole mahdollista valita sopiva malli tietämättä satunnaistamista järjestelmän. Vakavasti harhaanjohtavia tuloksia voidaan saada analysoimalla tietoa satunnaistetuista kokeista jättäen tutkimussuunnitelma; yleisiä virheitä ovat unohtamatta esto käytetään kokeessa ja sekava toistuvissa mittauksissa samalla Kokeellinen yksikkö riippumattomien kopiot kohtelua sovelletaan eri koeastioita.

Vaadittavat päättely

Eri kouluissa tilastollisen päättelyn ovat vakiintuneet. Nämä koulut eivät ole toisiaan poissulkevia, ja menetelmiä, jotka toimivat hyvin alle yksi paradigma on usein houkutteleva tulkintoja muiden paradigmojen. Kaksi tärkeintä paradigmojen käytössä ovat frekventistisiin ja bayesilainen tilastotiede, jotka molemmat tiivistetysti jäljempänä.

Frekventistisiin päättely

Tämä paradigma kalibroi tuotannon ehdotuksista harkitsemalla toistuvasti näytteenotto aineistoja samanlainen kuin käsillä. Tarkastelemalla sen ominaisuudet toistuvassa näyte, frekventistisessä ominaisuuksia tahansa tilastollisen päättelyn menettely voidaan kuvata vaikka käytännössä tämä määrällisesti voi olla haastavaa.

Esimerkkejä frekventistisiin päättely

  • P-arvo
  • Luottamusväli

Frekventistisiin päättelyyn, objektiivisuutta, ja päätös teoria

Yksi tulkinta frekventistisiin päätelmä on, että sitä sovelletaan vain esiintyvyys todennäköisyys; että on, suhteen toistuvasti näytteenotto populaatiosta. Kuitenkin lähestymistapa Neyman kehittyy näiden menettelyjen kannalta ennen kokeen todennäköisyydet. Eli ennen yrityksen kokeilu, yksi päättää sääntö tulossa päätökseen siten, että todennäköisyys olla oikea ohjataan sopivalla tavalla: niin todennäköisyys ei tarvitse olla frekventistisiin tai toistettu näytteenotto tulkinta. Sen sijaan bayesilainen tilastotiede toimii kannalta ehdollisten todennäköisyyksien verrattuna marginaalinen todennäköisyyksiä käytetään frekventistisessä lähestymistapa.

Frekventistisiin menettelyt merkitystä testaus ja luottamusvälit voidaan rakentaa riippumatta apuohjelma toimintoja. Kuitenkin joitakin osia frekventistisiin tilastojen, kuten tilastollinen päätös teoria, älä sisällyttää apuohjelma toimintoja. Erityisesti frekventistisiin kehitys optimaalinen päättely hyödyntää menetys toimintoja, jotka näytellä apuohjelmia. Menetys toimintoja ei tarvitse nimenomaisesti tilastollisiin teoreetikot todistaa, että tilastollista menettelyä on optimaalisuus omaisuutta. Kuitenkin tappio-toiminnot ovat usein käyttökelpoisia jossa optimaalisuutta ominaisuudet: esimerkiksi, mediaani-puolueeton estimaattorit ovat optimaaliset alla itseisarvo menetys toimintoja, että ne minimoivat odotettu tappio, ja pienimmän neliösumman estimaattorit ovat optimaaliset alla potenssiin virhe menetys toimintoja, että ne minimoida odotettu tappio.

Kun tilastotieteilijät käyttävät frekventistisiin päättely on valita itse parametrit kiinnostusta, ja estimaattorit / testin tilastollinen käytettävä, puuttuminen ilmeisesti nimenomaista apuohjelmia ja ennen jakaumia on auttanut frekventistisiin menettelyjä tulla yleisesti pidetään "tavoite".

Bayesilainen tilastotiede

Bayes calculus kuvaa astetta uskon avulla "kieli" todennäköisyydellä; uskomukset ovat positiivisia, integroida yhteen, ja totella todennäköisyys aksioomat. Bayesilainen tilastotiede käyttää käytettävissä posterior uskomuksia perustana tehdä tilastollisia ehdotuksia. On olemassa useita erilaisia ​​perusteita käyttäen Bayes lähestymistapaa.

Esimerkkejä bayesilainen tilastotiede

  • Uskottava välein välein arvio
  • Bayes tekijöitä mallikohtainen vertailu

Bayes päättely, subjektiivisuus ja päätös teoria

Monet epävirallinen Bayes päätelmät perustuvat "intuitiivisesti kohtuullinen" yhteenvedot takaosan. Esimerkiksi, taka keskiarvo, mediaani ja tila, korkein taka tiheys väliajoin, ja Bayes tekijät voivat kaikki olla motivoituneita tällä tavalla. Vaikka käyttäjän hyötyfunktio ei tarvitse nimetä tällaiseen päättelyyn, nämä yhteenvedot ovat riippuvaisia ​​totesi ennen uskomuksia, ja katsotaan yleensä subjektiivinen päätelmät.

Muodollisesti bayesilainen tilastotiede kalibroidaan viitaten nimenomaisesti apuohjelma, tai tappiofunktion; "Bayesin sääntö" on sellainen, joka maksimoi odotetun hyödyn keskiarvona taka epävarmuutta. Muodollinen bayesilainen tilastotiede siis automaattisesti tarjoaa optimaalisen päätöksiä päätös teoreettinen mielessä. Koska oletukset, tiedot ja hyödyllisyys, bayesilainen tilastotiede voidaan tehdä olennaisesti mitään ongelmia, vaikka ei joka tilastolliseen päättelyyn tarvitsemme Bayes tulkinta. Analyysit, jotka eivät ole virallisesti Bayes voi olla epäjohdonmukainen; piirre Bayes menettelyjä, jotka käyttävät asianmukaista Priors on, että ne ovat taatusti johdonmukaisia. Jotkut kannattajat bayesilainen tilastotiede väittää, että päätelmä on tapahduttava tässä päätöksessä teoreettista puitteet, ja että bayesilainen tilastotiede saisi lopuksi arviointi ja yhteenvetoa taka uskomuksia.

Muiden liikennemuotojen päättely

Tiedot ja laskennan vaativuus

Muut tilastollisen päättelyn on kehitetty ideoita informaatioteorian ja teorian Kolmogorov kompleksisuus. Esimerkiksi Minimum Description Length periaate valitsee tilastollisia malleja maksimaalisesti pakkaa tiedot; päättely etenee ilman olettaen vaihtoehtoiseen tai ei-falsifioitavissa "data tuottavat mekanismit" tai ennustusmalleja tiedot, joita voisi tehdä frekventistisiin tai Bayesin lähestymistapoja.

Jos kuitenkin "tieto tuottavan mekanismi" on olemassa todellisuudessa, sitten mukaan Shannonin lähdekoodausjärjestelmiin lause se tarjoaa MDL kuvaus tietojen, keskimäärin ja asymptoottisesti. Minimoimisessa Kuvaus Pituus, MDL arviointi on samanlainen suurimman todennäköisyyden arviointi ja enintään jälkikäteen arvio. Kuitenkin MDL välttää olettaen, että taustalla todennäköisyys on tiedossa; MDL periaatetta voidaan soveltaa myös ilman oletuksia, esimerkiksi tiedot syntyi itsenäinen näytteenoton. MDL periaatetta on sovellettu viestintä-koodaus teoria tiedot teoria, lineaarinen regressio ja aikasarja-analyysin malleissa).

Tiedot-theoretic tilastolliseen päättelyyn on suosittu data mining, joka on tullut yhteinen lähestymistapa erittäin suuresta seurantatutkimuksesta ja heterogeeninen aineistot mahdollista tietokone vallankumous ja internet.

Arviointi tilastollisten inferential menettelyjen usein käyttää tekniikoita tai kriteerit laskennan vaativuus tai numeerisen analyysin.

Fiducial päättely

Fiducial päättely oli lähestymistapaa tilastollisen päättelyn perusteella luotettavuusrajojen todennäköisyys, joka tunnetaan myös nimellä "vertailumerkkien jakelu". Seuraavina työtä, tämä lähestymistapa on kutsuttu huonosti määritelty, erittäin rajoitettu sovellettavuus, ja jopa paikkansapitämätön. Kuitenkin tämä argumentti on sama kuin se, joka osoittaa, että niin sanottu luottamus jakelu ei ole pätevä todennäköisyysjakauman ja, koska tämä ei ole mitätöity soveltamista luottamusvälit, se ei välttämättä mitätöi päätelmiin vertailumerkkien argumentteja.

Rakenteelliset päättely

Kehittämisideoita Fisher ja Pitman 1938-1939, George A. Barnard kehittänyt "rakenteellisia päättely" tai "keskeinen päätelmä", lähestymistapa käyttäen muuttumaton todennäköisyydet ryhmän perheille. Barnard muotoili ajatuksista vertailumerkkien päättelyn rajoitetun luokan malleja, joihin "vertailumerkkien" menettelyjä olisi hyvin määritelty ja hyödyllisiä.

Päättely aiheita

Aiheet alla sisältyvät yleensä alueen tilastollisen päättelyn.

  • Tilastollinen oletukset
  • Tilastollinen päätös teoria
  • Estimointiteoria
  • Tilastollinen hypoteesin testaus
  • Tarkistetaan lausunnot tilastoissa
  • Kokeiden suunnittelu, varianssianalyysi, ja regressio
  • Survey näytteenotto
  • Yhteenveto tilastotietoja
  0   0
Edellinen artikkeli Luis Olmo
Seuraava artikkeli Mother Goose proosamuodossa

Aiheeseen Liittyvät Artikkelit

Kommentit - 0

Ei kommentteja

Lisääkommentti

smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile smile smile smile smile
smile smile smile smile
Merkkiä jäljellä: 3000
captcha