Jūs esate čia

Susipažinimas su centrine ribine teorema

Statistikoje, viena svarbiausių teoremų yra Centrinė ribinė teorema (CRT). Nežinančiam skaitytojui reiktų patikslinti, kad tai ne viena teorema - greičiau, tai visa tyrimų kryptis. Egzistuoja daug teiginių ir jų variacijų - pradinį įspūdi apie tai galima susidaryti paskaičius wikipedios puslapį.

CRT esmė yra ta, kad jei turima daug atsitiktinių dydžių, tai jų sumos (ir vidurkio) skirstinys panašėja į normalųjį skirstinį. Savaime suprantama, kad atsitiktiniai dydžiai turi tenkinti tam tikras sąlygas. Klasikiniu atveju jos yra labai bendros – užtenka, kad atsitiktiniai dydžiai būtų nepriklausomi, su vienodu vidurkiu ir baigtine dispersija.

Labai svarbi savybė yra tai, kad CRT galioja visiems skirstiniams, kuriems tenkinamos šios sąlygos – tai labai benda (ir galinga) savybė, kurią ir iliustruosime šiame tinklaraščio įraše.

Formalus teiginys

Lindeberg–Lévy CLT. Tarkime {X1, X2, …} nepriklausomų atsitiktinių dydžių seka E[Xi] = μ ir Var[Xi] = σ2 \< ∞. Kuomet n artėja į begalybę, tuomet

$$\sqrt{n}\bigg(\bigg(\frac{1}{n}\sum_{i=1}^n X_i\bigg) - \mu\bigg)\ \xrightarrow{d}\ N(0,\;\sigma^2).$$

Šlatinis: wikipedia.org

Suprasti formalų teiginį gali būti gan kėblu, nes reikia gerai suprasti ką reiškia artėjimas pagal pasiskirstymą. Iš kitos pusės šio teiginio intuicija suvokti nėra sunku: kuo didesnis n, tuo labiau vidurkio (ir sumos) skirstinys artėją į normalųjį.

Iliustracija

Norint pademonstruoti CRT veikimą pasirinkime bet kokį atsitiktinį dydį, tenkinanti sąlygas (t.y. užtenka, kad egzistuotų dispersiją). Kad būtų įdomiau, pasirinkime tokį dydį, kuris visiškai neprimena normaliojo skirstinio. Tokiai įliustracijai neblogai tiktų Beta skirstinys su parametrais α = β = 0.5. Pasižūrėkime, kaip jis atrodo:

  1. curve(dbeta(x, 0.5, 0.5), main="Beta skirstinio tankis", ylab="", lwd=2, col=4)

Iš tiesų, šio skirstinio forma labai stipriai skiriai nuo normaliojo skirstinio formos. CTR teigia, kad nepaisant skirstinio, atsitiktinių dydžių skirstinys vis tiek turėtų supanašėti į normalųjį. Iš pradžių, pasižiūrėkime, kaip kinta vidurkio skirstinys, kai n = 1, 2, 3, 4. Tam panaudosime Monte-Carlo(MC) modeliavimą.

  1. meanMC <- function(n) mean(rbeta(n, 0.5, 0.5))
  2. op <- par(mfrow = c(2, 2), mar=c(3,3,1,1), oma=c(0,0,3,1))
  3. sim = replicate(10000, meanMC(1))
  4. plot(density(sim), main="n=1", xlab="x", ylab="Tankis")
  5. sim = replicate(10000, meanMC(2))
  6. plot(density(sim), main="n=2", xlab="x", ylab="Tankis")
  7. sim = replicate(10000, meanMC(3))
  8. plot(density(sim), main="n=3", xlab="x", ylab="Tankis")
  9. sim = replicate(10000, meanMC(4))
  10. plot(density(sim), main="n=4", xlab="x", ylab="Tankis")
  11. mtext("Vidurkių skirstiniai su skirstingais n", side=3, line=1,
  12. outer=TRUE, cex=1, font=2)
  13. par(op)

Galime pastebėti, kad net su nedideliais n vidurkis daug labiau primena normalųjį skirstinį, nei pradinį Beta skirstinį. Pasižiūrėkime, kaip atrodo vidurkio skirstinys, kai n = 100. Taip pat palyginkime tai su normaliuoju skirstiniu.

  1. sim = replicate(10000, meanMC(100))
  2. plot(density(sim), main="Vidukrio skirstinys, kai n=100", xlab="x", ylab="Tankis",
  3. lwd=2, xlim=c(0.3, 0.65))
  4. curve(dnorm(x, mean=mean(sim), sd=sd(sim)), add=TRUE, col=2, lwd=2, lty=2 )
  5. legend("topleft", c("MC tankis", "Normalusis tankis"),
  6. lwd=2, col = 1:2,
  7. inset = .05, bg = "gray90")

palyginimas

Kaip matome, dabar skirstinių panašumas tampa labai ryškus – tiksliai taip, kad ir numato CRT. Tai tik maža iliustracija iliustruojant svarbią savybę, kad nepriklausomų atsitiktinių dydžių sumos skirstinys panašėja į normalųjį.

Tikiuosi jums patiko ir kažką naudingo sužinojote. Jei turite įspūdžių ar pastabų – prašau prašykite komentarą.

Žymos: 

Komentarai

Svečias nuotrauka

Hei! Labai super įrašas! Patiko žodinė formulės interpretacija ir R kodukai žiauriai pagyvina tekstą. Gal galima būtų redaguoti jūsų post'us taisant type'inimo klaidas? Galėčiau būti jūsų autocorrect'as :)
admin nuotrauka

Labai maloni iniaciatyva. Koreguotojas netgi labai pravertų. Tik dabar matau, kad to paprašė anonimas - kam reiktų suteikti šias pareigas?

Puslapiai

Komentuoti

Basic HTML

  • Web puslapių adresai ir el. pašto adresai automatiškai tampa nuorodomis.
  • Tags allowed: a, em, strong, u, s, cite, code, blockquote, ol, ul, li, dl, dt, dd, pre, p, br
  • Mathematics inside the configured delimiters is rendered by MathJax. The default math delimiters are $$...$$ and \[...\] for displayed mathematics, and $...$ and \(...\) for in-line mathematics.
  • Syntax highlight code surrounded by the <pre class="brush: lang">...</pre> tags, where lang is one of the following language brushes: php, python, r, sass, sql, vb.
  • Linijos ir paragrafai atskiriami automatiškai

Markdown

  • You can enable syntax highlighting of source code with the following tags: <code>, <blockcode>, <c>, <cpp>, <drupal5>, <drupal6>, <java>, <javascript>, <php>, <python>, <r>, <ruby>. The supported tag styles are: <foo>, [foo].
  • Quick Tips:
    • Two or more spaces at a line's end = Line break
    • Double returns = Paragraph
    • *Single asterisks* or _single underscores_ = Emphasis
    • **Double** or __double__ = Strong
    • This is [a link](http://the.link.example.com "The optional title text")
    For complete details on the Markdown syntax, see the Markdown documentation and Markdown Extra documentation for tables, footnotes, and more.
  • Typographic refinements will be added.
  • Mathematics inside the configured delimiters is rendered by MathJax. The default math delimiters are $$...$$ and \[...\] for displayed mathematics, and $...$ and \(...\) for in-line mathematics.

Plain text

  • HTML žymės neleidžiamos.
  • Web puslapių adresai ir el. pašto adresai automatiškai tampa nuorodomis.
  • Linijos ir paragrafai atskiriami automatiškai
CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Target Image

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer