What I'm hacking now?

17 de janeiro de 2009

Hello Statistics!

Olá! Bom comecei minha revisão bibliográfica, e percebi que realmente precisava de uma revisão! :/ hahahha

Começando do inicio com uma revisão de Estatística!

Média:

\bar{X} = \frac{1}{n}\sum_{i=1}^nX_i

ou também escrita da forma menos bonita:

\bar{X} = \frac{X_1 + X_2 + ... + X_n}{n}

Mas quando o assunto se trata de variáveis aleatórias como no meu caso,  é melhor definir o valor esperado para variáveis aleatórias discretas como uma média ponderada pela probabilidade de cada evento:

\bar{X} = P_1X_1 + P_2X_2 + ... + P_3X_n

ou

\bar{X} = \sum_{i=1}^nP_iX_i

P_1,P_2,...,P_n são as probabilidades de cada um dos eventos discretos X_1,X_2,...,X_n respectivamente.

Caso estejamos tratando de variáveis aleatórias continuas podemos definir o operador valor esperado como:

E(x) = \bar{x} = \int_{-\infty}^{\infty} \!x f_x(x) \, dx

*Obs: f_x(x) é a função de probabilidade de x.

Este conceito pode ser aplicado a funções de variáveis aleatórias de X, como mostrado a seguir:

E[g(x)] = \sum_{i=1}^n p_ig(x_i) , no caso discreto

E[g(x)] = \int_{-\infty}^{\infty} \!g(x)f_x(x)\,dx , no caso contínuo

A média de uma variável aleatória é também conhecido como primeiro momento estatístico. Suponha o k-ésimo momento estatístico colocando g(x) = x^k , porém momento estatístico de grande importância é o segundo momento estatístico, definido como:

E[x^2] = \int_{-\infty}^{\infty} \!x^2f_x(x)\,dx

Este momento estatístico é importante para a definição de variância (\sigma^2 ) substituindo g(x) = x - E(x) , temos:

Var(x) = E[(x - E(x))^2] = E(x^2) - E(x)^2

no caso contínuo:

\sigma^2 = Var(x) = \int_{-\infty}^{\infty} \! (x - \bar{x})f_x(x)\,dx

no caso discreto:

\sigma^2 = Var(x) = \sum_{i=1}^n f_x(x)(x - \bar{x})^2

A variância é uma medida estatística da dispersão de um conjunto de dados, fazendo a média da distância quadrática entre os valores possíveis e o valor esperado (a média).

Enquando a média é uma medida para descrever a “localização” de uma distribuição,  a variância é uma medida que está relacionado com a forma em que os dados variam. A unidade da variância é o quadrado da unidade  original da variável. A partir da variância definimos também o desvio padrão ( \sigma ) sendo a raiz quadrada da variância, este tendo a mesma medida que a variável original possui uma interpretação mais fácil.

Covariância:

Covariância é uma medida de como duas variáveis mudam juntas…(a variância é um caso especial de covariância, quando as variáveis são idênticas). Um exemplo simples: se duas variáveis variam juntas, se uma variável está acima da média, a outra tende a também estar acima da média, caso a covariância delas seja positiva; caso a covariância seja negativa elas teriam crescimentos em direções contrárias.

Definição:

Cov(x,y) = E((x - \bar{x})(y - \bar{y}))

um exemplo mais concreto para quando você não tiver uma tabela de probabilidades e/ou uma função de probabilidade para calcular os respectivos valores esperados:

X Y (X - \bar{X}) (Y - \bar{Y}) (X -\bar{X})(Y -\bar{Y})
8 9 2 4 8
4 3 -2 -2 4
5 5 -1 0 0
7 3 1 -2 -2
Média: 6 5 2.5

A correlação é: 2.5  (desculpe pela tabela mal alinhada, mas ainda não sei fazer tabelas aqui no WordPress.)

O último conceito de hoje, porém não menos importante é a Correlação:

A Correlação (também medido pelo Coeficiente de Correlação) indica a força e a direção de uma relação linear entre duas variáveis aleatórias.

Definição:

\rho_{x,y} = {Cov(x,y) \over{\sigma_x \sigma_y}} ={E((x-\bar{x})(y-\bar{y})) \over \sigma_x\sigma_y}

Essa imagem eu achei bem bacana e explica um pouco da alma da correlação:

Fontes:

Wikipedia;

An Introduction to the Kalman Filter, Welch e Bishop;

Qualquer erro que seja notado, me avisem por favor =)

abraços =P

Flavio S Truzzi

Blog no WordPress.com.