Artigos recentes

Navigation

Vamos estudar um pouco de estatística?

O conteúdo a seguir é um resumo de algumas aulas preparadas para um módulo de matemática em um curso do PRONATEC.

Estatística é um conjunto de técnicas e métodos de pesquisa que entre outros tópicos envolve o planejamento do experimento a ser realizado, a coleta qualificada dos dados, a inferência, o processamento, a análise e a disseminação das informações. É a ciência que se ocupa de coletar, organizar, analisar e interpretar dados a fim de tomar decisões.

Vamos estudar um pouco de estatística?

A estatística é aplicada em diversas áreas, tais como: social, saúde, tecnológica, industrial, financeira e bancária, universidades e instituições de pesquisas, agronômica, etc. Isso porque os conceitos estatísticos têm exercido profunda influência na maioria dos campos do conhecimento humano. Grande parte das informações divulgadas pelos meios de comunicação atuais provém de pesquisas e estudos estatísticos.

O Instituto Brasileiro de Geografia e Estatística (IBGE), é o órgão responsável pela produção das estatísticas oficiais que subsidiam estudos e planejamentos governamentais no país. As informações estatísticas se levadas a sério, são concisas, específicas e eficazes, fornecendo assim subsídios imprescindíveis para as tomadas racionais de decisão.

Neste sentido, a Estatística fornece ferramentas importantes para que as empresas e instituições possam definir melhor suas metas, avaliar sua performance, identificar seus pontos fracos e atuar na melhoria contínua de seus processos.

Tabelas Estatísticas

Ao representarmos uma série estatística (conjunto de dados e informações) através de uma tabela, devemos atentar para o fato de que existem elementos que são obrigatórios na sua composição, como o título e o corpo da tabela.

Toda tabela deverá conter um título, o qual deverá informar o que? Quando? E onde? Ocorreu a coleta de dados e informações.

O corpo da tabela é dividido em zonas da seguinte maneira:

Corpo de uma tabela

a) Zona designativa: situa-se logo abaixo do título, compreendendo o que chamamos de cabeçalho. Especifica os conteúdos das colunas.

b) Zona indicativa: indica o tipo de série simples (dados) que estamos informando. Especifica os conteúdos das linhas.

c) Zona enumerativa: também é conhecida como zona de resultados. Nela especificamos as grandezas ocorridas na série.

Há ainda a fonte que se situa logo abaixo das tabelas, informando o órgão responsável pela divulgação dos conteúdos da tabela. O exemplo a seguir, mostra detalhes, os elementos essenciais na composição de uma tabela:
Elementos de uma tabela
Atenção! Uma tabela não é fechada nas laterais. No caso de que as laterais estão fechadas dizemos que se trata de um quadro.

Podem existir outros elementos como:
a) Notas: adicionadas quando for necessário esclarecer alguma composição que apareça na tabela.
b) Sinais convencionais: são alguns símbolos que seguem uma convenção, os principais são:
c) O traço ( – ): usado quando a informação inexistir.
d) O três pontos (...): usado quando não dispomos da informação.
e) O zero (ø): usado quando o valor numérico for muito pequeno para ser expresso na unidade de medida adotada.

Gráficos

Igualmente às tabelas, os gráficos possuem elementos que são indispensáveis à sua composição. São eles o título, o corpo e a fonte.

Igualmente às tabelas, os gráficos necessitam de um título, o qual, para estar completo, também deverá responder àquelas três perguntas: o que? Quando? E onde?

O gráfico se define de acordo com o tipo de dados que ele esteja representando. Logo mais veremos três dos principais tipos de gráficos.

A fonte indicará o órgão ou entidade responsável pelo fornecimento ou elaboração dos conteúdos apresentados. Assim, como o gráfico é gerado a partir de um levantamento de dados, então devemos responsabilizar alguém pelas informações.

Alguns outros elementos podem surgir para melhor esclarecer cada tipo de gráfico.

O primeiro gráfico que veremos é o do tipo DIAGRAMA. São considerados gráficos de análises, devido ao rigor de exatidão que eles apresentam. Através destes gráficos, podemos realizar análises descritivas das informações estatísticas com uma maior precisão. Os mais importantes são por pontos, por linhas, por superfície, setorial, polar, histograma e polígonos de frequência.

Por pontos: deverão ser utilizados quando forem poucas classes a serem representadas.

Gráfico por pontos


Por linhas: mostram claramente a evolução do fenômeno ocorrido, por isso são indicados geralmente para realizar a representação das séries cronológicas.

Gráfico por linhas


Por superfície: são representados por áreas. Dentre todos os gráficos tipo superfície, iremos destacar os dois mais relevantes:

a) colunas ou barras: são os mais indicados para representar as séries específicas. Eles também são bastante eficientes na representação das séries mistas.

Gráfico de colunas

b) setorial: são representados por setores circulares. Usamos quando queremos ressaltar a participação de cada classe no total da informação.

Gráfico de setores


Distribuição de Frequências

Antes de tratarmos diretamente da distribuição de frequências, vamos conhecer sobre variáveis.

a) Variável qualitativa: são variáveis cujos valores são expressos por certos atributos ou qualidades. Podem ser do tipo qualitativo nominal (que não são ordenáveis: sexo, raça, religião) e ordinal (que são ordenáveis: classe social, grau de instrução).

b) Variáveis quantitativas: são variáveis cujos valores são expressos por números, obtidos através de um processo de medição ou de contagem. Podem ser do tipo discreta (que só podem assumir valores inteiros em pontos da reta real: números de habitantes, número de filhos, número de alunos) ou contínua (que podem assumir qualquer valor entre dois pontos da reta real: peso dos alunos, notas dos alunos). 

Podemos tanto organizar todo tipo de levantamento de dados referentes aos mais diversos tipos de variáveis, através de distribuições de frequências, como condensar um conjunto de dados, tanto discretos como contínuos, conforme as frequências ou repetições de seus valores. Dessa forma, estaremos construindo tabelas de distribuições de frequências.

Na distribuição de frequência referente à variável discreta, os dados não são agrupados em classes.
Distribuição de frequência

Note que na tabela o número de faltas representa a variável discreta e o número de alunos, representa a frequência com que cada resultado da variável ocorre. Ou seja, assim podemos notar que $13$ alunos não tiveram faltas, $7$ alunos tiveram apenas $1$ falta, $8$ alunos tiveram duas faltas, e assim por diante.

Já na distribuição de frequência referente à variável contínua, os dados deverão ser agrupados por intervalos de classe, por exemplo:

Distribuição de frequência por intervalos

Ou seja, neste exemplo teríamos $3$ alunos que obtiveram nota de $0$ a $1,9$; $5$ alunos que obtiveram nota de $2$ a $3,9$; $11$ alunos que obtiveram nota de $4$ a $5,9$; e assim por diante.

Note que a notação de intervalo (⊢) diz que o limite inferior pertence ao intervalo e o limite superior não pertence.

Uma frequência pode ser absoluta, acumulada ou relativa. Observe a descrição a seguir de cada uma delas:

a) Frequência absoluta($Fi$): é o número de vezes que cada observação ocorre em um levantamento de dados discretos e o número de observações ocorrida dentro de cada intervalo de observações no caso contínuo. Sendo assim, na tabela seguinte, a coluna do número de alunos representa as frequências com que os alunos tiram notas dentro de cada intervalo de notas.

$\sum _{ i=1 }^{ n }{ { F }_{ i }=n } $, com $n$ igual ao número total de observações.

b) Frequência acumulada ($F_{ac}$): é a soma das frequências anteriores ou iguais a uma determinada frequência absoluta observada. Por exemplo, na tabela a seguir, o valor $08$ da coluna das frequências acumuladas ($F_{ac}$), representa a soma das frequências absolutas ($F_i$) $3$ e $5$.

c) Frequência relativa ($fi$): é a porcentagem representativa de cada observação ou intervalo de observações. Será obtida por:

$fi= \frac{F_i}{n} \cdot 100$


Frequência relativa


Medidas de Assimetria e Curtose

As medidas de assimetria possibilitam analisar uma distribuição de acordo com as relações entre suas medidas de moda, média e mediana, quando observadas graficamente. Uma distribuição é dita simétrica quando apresenta o mesmo valor para a moda, a média e a mediana.

a) Moda – é o valor que mais se repete, ou seja, o valor mais provável a ser escolhido. É a única medida de dispersão que pode ter mais de um valor podendo ser amodal, monomodal, bimodal ou multimodal.

b) Média aritmética – a média aritmética é obtida pela razão entre a soma de todos os números de uma sequência de dados e a quantidade de números que a sequência possui. 

$\overline { X } = \frac{x_1+x_2+...+x_n}{n}$


c) Mediana – é a medida de tendência central que tem característica de dividir um conjunto ao meio. É o termo central de uma sequência de dados organizados em ordem crescente ou decrescente. Se a sequência possui n elementos, com n ímpar, haverá um elemento central, se n é par, haverão dois elementos, então a mediana é a média destes dois elementos.

Quando essa igualdade não acontece, temos uma distribuição assimétrica. Assimetria é o grau de afastamento que uma distribuição apresenta do seu eixo de simetria.

Curtose é o grau de achatamento da distribuição, ou o quanto uma curva de frequência será achatada em relação a uma curva normal de referência. Há um coeficiente de curtose que não nos atentaremos em calcular para o momento.

Probabilidade

A teoria das probabilidades estuda a forma de estabelecer as possibilidades de ocorrência de cada experimento aleatório. Um experimento aleatório, é um experimento realizado repetidas vezes, nas mesmas condições, apresentando resultados variados, não tendo como prever lógica dos resultados.

Dado um espaço amostral $S$, com $n(S)$ elementos, e um evento $A$ de $S$, com $n(A)$ elementos, a probabilidade do evento $A$ é o $P(A)$ tal que:

$P(A)= \frac{n(A)}{n(S)}$

A probabilidade de um evento ocorrer varia de $0$ (certeza que não ocorre) a $1$ (certeza que ocorre) e comumente, é expresso por uma porcentagem.

Vamos a algumas definições:

Experimento – qualquer processo de observação ou medida que permita ao pesquisador fazer coleta de informações (arremesso de um dado).

Evento – coleção de resultados de um experimento (face voltada para cima é $5$).

Evento Simples – resultado, ou evento, que não coporta qualquer decomposição.

Espaço amostral ($n$) – conjunto de todos os resultados possíveis ($1, 2, 3, 4, 5, 6$).

Amostragem e distribuições amostrais

População é a coleção de todas as observações potenciais sobre determinado fenômeno. O conjunto de dados efetivamente observados, ou extraídos constitui uma amostrada população.

Amostra é o subconjunto de uma população da qual são estudadas suas características. O objetivo de uma amostra está em estimar características desconhecidas de uma população e de testar hipóteses ou afirmações consideradas corretas sobre parâmetros de uma população.

Ao retirarmos uma amostra aleatória de uma população e calcularmos a partir desta amostra qualquer quantidade, encontramos a estatística, ou seja, chamaremos os valores calculados em função dos elementos da amostra de estatísticas.

As estatísticas, sendo variáveis aleatórias, terão alguma distribuição de probabilidade, com uma média, uma variância, etc. A distribuição de probabilidade de uma estatística chama-se comumente distribuição amostral.

Existem vários tipos de distribuição probabilística. Pela pequena disponibilidade de aulas, não nos referenciaremos a cálculos ou aos tipos de distribuição.

Intervalo de Confiança

É uma maneira de calcularmos uma estimativa de um parâmetro desconhecido. Muitas vezes também funciona como um teste de hipóteses. O intervalo de confiança pode ser calculado para várias medidas (média, variância, proporção, etc.).

Teste de Hipóteses

Estimação e teste de hipóteses (ou significância) são os aspectos principais da Inferência Estatística. Em estatística, uma hipótese é uma alegação, ou afirmação, sobre uma característica de uma população.

Exemplo:
Pesquisadores médicos afirmam que a temperatura média do corpo humano não é igual a $37ºC$.

Um novo fertilizante utilizado no cultivo de hortaliças aumenta a produtividade.

Correlação e Regressão Linear

Quando duas variáveis estão ligadas por uma relação estatística, dizemos que existe uma correlação entre elas. A correlação, então, é a verificação da existência e do grau de relação entre duas ou mais variáveis. Ela serve para estudar o comportamento conjunto de duas variáveis quantitativas distintas. Para estudar o comportamento conjunto de duas variáveis podemos usar o diagrama de dispersão ou o coeficiente de correlação.

Quando duas variáveis possuem certo grau de relacionamento (verificado pela correlação), podemos aplicar a análise da regressão que vai nos permitir descrever através de um modelo matemático, a relação entre duas variáveis, partindo de n observações das mesmas.

Análise de Variância

A análise de variância (ANOVA) é um procedimento utilizado para comparar três ou mais tratamentos. Existem muitas variações da ANOVA devido aos diferentes tipos de experimentos que podem ser realizados. Compara várias médias ao mesmo tempo.

Variância ($\sigma $) é a média dos quadrados das diferenças entre cada valor e a média aritmética. É uma média dos quadrados dos desvios da média . O seu valor além de analisar a dispersão de Vaum conjunto, é utilizado para realizar algumas inferências estatísticas. Existe a variância populacional e a variância amostral. Não nos atentaremos a cálculos, mas observa-se:

$\sigma^2= \frac{1}{N}\left[ \sum _{i=1 }^{ N }{{X_i}^2F_i - \frac {(\sum _{ i=1 }^{ N }{X_iF_i  })^2 }{N}  }  \right] $: Variância populacional.

$S^2= \frac{1}{n-1}\left[ \sum _{i=1 }^{ N }{{X_i}^2F_i - \frac {{\sum _{ i=1 }^{ N }{X_iF_i  }}^2 }{n}  }  \right] $: Variância amostral.

Os somatórios que aparecem nas duas fórmulas acima, podem ser identificados na tabela de distribuição de frequências, conforme no exemplo a seguir:

Considerando a série de dados a seguir como sendo uma amostra de $14$ valores referentes a uma variável discreta qualquer: $4, 2, 5, 3, 4, 3, 3, 2, 5, 6, 5, 3, 2, 4$; poderemos encontrar a variância desta série, conforme a tabela:


Série de dados e frequências

$X_i$: são os valores que aparecem na série de dados.
$F_i$: são as frequências com que cada observação aparece na série.
$X_iF_i$: São resultantes do produto entre a coluna $X_i$ pela coluna $F_i$.
${X_i}^2F_i$: são resultantes do produto entre a coluna $X_i$ pela coluna $X_iF_i$.

Desvio padrão é um resultado consequente da variância. É uma das medidas de dispersão mais utilizadas. Através do desvio-padrão, podemos ter algumas informações inicias a partir de um conjunto de dados. Também poderemos ter o desvio padrão tanto para população, como para amostra.


Referências

Básica

FERREIRA, Paulo Maia. Estatística Aplicada. Curso Técnico em Segurança do Trabalho. PRONATEC, Campus IFCE, 2012.

GIOVANNI, José Ruy. BONJORNO, José Roberto, GIOVANNI Jr., José Ruy. Matemática Fundamental. 2º grau. Volume único. Editora FTD, São Paulo, 1994.


Complementar

Autor não informado. Medidas Assimetria e Curtose. Disponível em: http://www1.eeg. uminho.pt/economia/priscila/intocaveis/FMIE04/links/assimetriacurtose.pdf, acesso em 23 out. 2013.

MACHADO, André. Média, Moda e Mediana. Disponível em: http://www.andremachado.org/ artigos/847/media-moda-e-mediana.html, acesso em 23 out. 2013.

VIVENDO ENTRE SÍMBOLOS . Medidas de tendência central: média, moda e mediana. Disponível em: http://www.vivendoentresimbolos.com/2012/08/medidas-de-tendencia-central-media-moda.html, acesso em 23 out. 2013.

Charles Bastos

Comente este artigo:

0 comentários:

Os comentários neste blog são moderados pelo autor. Leia sobre a política de comentários.