Qual teste estatístico devo usar?

Como comentei em outro artigo curto, a Estatística, uma ciência independente, é usada como ferramenta por ecólogos e quase todos os outros cientistas. Não é necessário fazer uma graduação na área para rodar um qui-quadrado. Porém, é fundamental estudar direito os fundamentos dessa ciência e a lógica dos testes mais comuns, para ser um bom usuário. Para você, que precisa aplicar a Estatística na sua pesquisa, escrevi este passo-a-passo e adaptei um guia ao estilo road map, que visa ajudá-lo a escolher o melhor teste para o seu caso.

Este artigo está no formato de perguntas que você deve responder a si mesmo a cada passo do planejamento das suas análises. Aqui trato apenas dos casos mais comuns em Ecologia, usando uma abordagem clássica baseada em Zar (2009), mas mesclada com uma visão integrada filosófica a la Magnusson et al. (2015) e uma pitada de GLM a la Dobson & Barnett (2008). Evitei aqui algumas abordagens heterodoxas ou complicadas demais (statistical machismo) que atualmente estão na moda na Ecologia, pois penso que testes simples atendem a esmagadora maioria dos estudos ecológicos (o que faz um estudo ser interessante é a pergunta e não as análises).

Antes de prosseguir na leitura, lembre-se:

To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of.” –  Sir Ronald Fisher

Aviso: é bom lembrar que este guia não substitui um bom curso de Estatística aplicada à Biologia e nem a leitura de livros e artigos especializados! Ele serve apenas como material de apoio para quem já tem uma noção, ajudando a recordar coisas que foram estudadas de maneira mais aprofundada. Se o seu curso de Biologia, Ecologia, Veterinária, Engenharia Florestal ou Gestão Ambiental não tiver uma boa disciplina na área, corra para o departamento de Estatística mais próximo e pegue uma disciplina de introdução à estatística. Também é bom ler artigos ecológicos que aplicaram cada tipo de teste, para ver como cada ferramenta tem sido usada na prática.

Observe esta máxima:

Você só aprende de verdade um teste, depois que ele se torna necessário em um estudo que você está fazendo e depois de estudar a filosofia e a matemática por trás dele.

É fundamental também pedir conselhos a estatísticos profissionais: de tempos em tempos para os testes mais corriqueiros e sempre que for fazer um teste novo. Lembre-se também de que eu mesmo não sou um estatístico, mas um biólogo, então não confie cegamente nas minhas recomendações, pois posso estar errado. Nada substitui a leitura e o estudo por conta própria.

Bom, passemos agora às perguntas que você deve responder a si mesmo, antes de rodar um teste estatístico.

1. Qual é a sua pergunta?

Esse é o primeiro e mais importante passo em qualquer pesquisa científica. O cerne de um projeto de pesquisa é a pergunta. Fazemos pesquisas para matarmos a nossa curiosidade sobre como funciona a natureza, para resolvermos um problema prático ou para gerarmos tecnologia. Não é possível atingir esses objetivos, se você não planejar muito bem aonde quer chegar, antes de começar um projeto. Não comece sem direção alguma, apenas para ver no que vai dar. Em 99% dos casos, isso leva à desistência no meio do caminho ou a resultados completamente irrelevantes. Considere também, com base na sua pergunta, a possibilidade de usar a Estatística apenas para descrever os seus resultados, e não para testar hipóteses que você fingiu ter criado a priori. Para exemplificar, vamos trabalhar com a seguinte pergunta: dentre morcegos nectarívoros de uma mesma espécie, o tamanho do indivíduo influencia sua eficiência como polinizador?

2. O que você espera observar?

Não basta bolar uma pergunta original e relevante. Com base no que já se sabe sobre o fenômeno, organismo ou ambiente de interesse, faça um exercício dedutivo e imagine qual deve ser a resposta à pergunta feita. Ou seja, a partir da pergunta de trabalho, crie uma hipótese. Quanto mais complexa a pergunta, mais respostas alternativas ela pode ter. Para criar uma hipótese original e interessante, você precisa estudar a fundo a literatura relacionada, além de ter experiência com as entidades envolvidas no projeto. Estudando o que já se sabe sobre o assunto de interesse é possível saber onde estão as fronteiras do conhecimento e decidir em que direção você quer expandí-las. Tomando como base a pergunta formulada anteriormente, uma possível hipótese seria: em morcegos da espécie A, quanto maior o indivíduo, maior sua eficiência como polinizador. Note que essa é apenas uma das hipóteses possíveis para a pergunta de trabalho, que é mais ampla do que parece.

Poderíamos imaginar que a justificativa para essa hipótese específica seria o fato de morcegos maiores precisarem beber mais néctar para suprirem suas necessidades energéticas diárias, o que os levaria a visitarem um número maior de flores por noite, aumentando assim sua eficiência do ponto de vista da planta visitada, já que mais flores seriam fecundadas. Note que toda hipótese precisa ser justificada. Não adianta sair jogando hipóteses ao vento em um projeto ou artigo: você precisa explicar de maneira convincente porque acha que aquele hipótese é uma boa resposta à pergunta proposta. Tenha sempre em mente que o significado e a relevância dos dados coletados em um projeto de pesquisa são dados pela hipótese e sua justificativa. Os resultados do teste estatístico, estejam eles de acordo ou não com o que você esperava, só fazem sentido à luz desse contexto biológico.

3. Como exatamente você vai medir o fenômeno?

Depois de criada a hipótese, pense o seguinte: se essa hipótese for mesmo uma boa resposta para a minha pergunta de trabalho, o que eu espero observar de concreto no campo, no laboratório ou no computador? Essa expectativa se chama previsão e o processo de criá-la é conhecido como operacionalização (leia um outro artigo sobre isso). Este é o cerne do método hipotético-dedutivo, o mais usado na ciência contemporânea. A operacionalização é um passo crucial, pois nenhuma hipótese pode ser testada diretamente, já que hipóteses são feitas de conceitos abstratos (variáveis teóricas). O que é testado de fato são as previsões derivadas da hipótese, estas, sim, concretas e palpáveis (feitas de variáveis operacionais). Quando a maioria das previsões derivadas de uma hipótese é confirmada, ela passa a ser aceita como uma tese; caso contrário, a hipótese é abandonada ou reformulada. Se você não operacionalizar direito a sua hipótese, será impossível saber qual teste estatístico precisará usar. Na verdade, será impossível até medir as variáveis operacionais.

Vamos pegar a hipótese proposta e dela derivar uma previsão testável. Em outras palavras, vamos imaginar uma conseqüência dessa hipótese e definir que medidas vamos tomar. Contudo, antes de prosseguirmos, note que, para ser eficiente, um polinizador precisa primeiro ser legítimo, ou seja, ter um comportamento de visitação às flores com potencial concreto de resultar em fecundação. Esta é uma premissa, também conhecida como condição contorno. Sendo assim, a espécie de morcego A escolhida para o projeto precisa ter sido estudada antes quanto à sua legitimidade de polinização. A previsão então poderia ser: se, dentro de uma mesma espécie, morcegos maiores são de fato polinizadores mais eficientes, então eu espero observar que, quanto maior a massa corporal do indivíduo (em g), maior deve ser o número de flores que ele visita de maneira legítima em uma mesma noite. Geralmente, o que se chama de hipótese em Estatística, na verdade, é uma representação matemática de uma previsão biológica (leia Farji-Brener 2003 e 2004). Cuidado com as diferenças de terminologia e seu sentido lógico. A hipótese biológica você apresenta logo na introdução, já a hipótese estatística (previsão) você explica nos métodos.

4. Como essas minhas ideias se encaixam umas nas outras?

Neste ponto, faça um mapa mental do seu projeto, incluindo o seu problema de interesse, pergunta de trabalho, hipótese e previsão. Essa é uma técnica excelente para filtrar e focar o seu brainstorming.

5. Que tipos de variáveis estão envolvidos?

Agora que você já tem uma previsão testável, examine a estrutura lógica dela com cuidado. A primeira coisa a checar é a natureza das variáveis escolhidas. Há diferentes classificações na Estatística. Na maioria dos casos, primeiro você deve checar se a sua variável é qualitativa ou quantitativa. Variáveis qualitativas não são mensuráveis. Elas se dividem em nominais, quando não há um ranking de valores (e.g., macho ou fêmea, cor dos olhos), e ordinais, quando há uma ordem entre os estados da variável (e.g., doença em estado inicial, intermediário ou terminal). As variáveis quantitativas podem ser medidas e se dividem em discretas e contínuas. As variáveis discretas são resultado de contagens e só têm valores inteiros; e.g., número de filhotes, anos de idade, tamanho populacional. Por sua vez, as variáveis contínuas geralmente resultam de medidas com instrumentos ou índices, e assumem valores na escala real, onde frações fazem sentido; e.g., altura, massa corporal, carga alar. Também se chama de não-paramétricas as variáveis nominais, ordinais e discretas, e de paramétricas as variáveis contínuas. No nosso caso hipotético, temos então duas variáveis, sendo ambas quantitativas, porém uma discreta (número de visitas) e a outra contínua (massa).

6. Qual é a relação entre as variáveis?

Agora você precisa pensar sobre qual variável é a causa (independente ou fator) e qual é o efeito (dependente ou resposta). Pegando o nosso exemplo, podemos imaginar que a massa corporal é a variável independente (X) e que o número de flores visitadas legitimamente em uma noite é a variável dependente (Y). Isso porque só tem sentido supor que a massa causa o número de visitas legítimas e não o contrário. A maioria dos testes estatísticos supõe implicitamente uma relação de causa e efeito. Mesmo os testes em que a variável independente é qualitativa (nominal ou ordinal), como o teste t e a ANOVA. A exceção são testes como a correlação, sem premissa de causalidade. Aqui neste exemplo, há apenas uma variável dependente, a eficiência do morcego. Quando a sua hipótese e a sua previsão envolvem mais de uma variável dependente, você está no terreno perigoso das análises multivariadas, um tema mais complexo que eu não abordo neste artigo.

Este é o momento para fazer um mapa mental das relações entre as suas variáveis.

7. No final das contas, qual teste se adequa melhor ao exemplo?

Agora que você já tem uma pergunta, uma hipótese e uma previsão, sabe que tipo de variáveis tem em mãos e sabe como elas se relacionam entre si, pode escolher com segurança o melhor teste estatístico para testar sua previsão.

Continuando com o nosso exemplo, dentre todos os testes adequados, o mais simples e bem sintonizado, neste caso, seria uma regressão linear simples, tomando a massa corporal como X e o número de visitas legítimas de cada morcego individual como Y. Através de um teste de regressão, saberíamos não apenas se a relação entre essas variáveis existe de fato ou não (significância ou P), como também se ela é positiva (maior massa, mais visitas) ou negativa (maior massa, menos visitas), e quão forte ela é (r²). As assim chamadas “hipóteses estatísticas” seriam: hipótese nula – não há relação entre X e Y; hipótese alternativa 1 – há relação positiva entre X e Y; hipótese alternativa 2 – há uma relação negativa entre X e Y. É bom ressaltar que, neste exemplo didático, considerando a forma como a nossa previsão biológica foi formulada, apenas a hipótese alternativa 1 confirma nossas expectativas. Relembrando, uma hipótese estatística, no fundo, é uma previsão científica, do ponto de vista epistemológico.

Antes de rodar uma regressão linear simples, é preciso também testar a normalidade da distribuição de erros. Em alguns tipos de teste estatístico, caso a distribuição dos dados, erros ou diferenças não seja normal, é preciso fazer algum tipo de transformação ou então usar uma versão não-paramétrica. Note que, via de regra, testes não-paramétricos têm poder estatístico menor do que testes paramétricos, então sempre que possível prefira os segundos aos primeiros. Defina também o nível de significância; na Ecologia, costuma-se usar 5%, mas isso varia entre áreas. Veja se o teste escolhido tem mais alguma outro pressuposto além da normalidade dos dados (e.g., homocedasticidade) e cheque tudo o que for necessário. Rode o teste e não se esqueça de prestar atenção também ao tamanho do efeito e ao poder estatístico. Uma outra alternativa, quando a distribuição de erros não é normal, é usar um GLM, usando no modelo uma distribuição mais adequada aos seus dados, sem transformá-los.

8. E, no meu caso, qual caminho devo seguir?

Considere tudo o que foi dito até este ponto. Depois, para facilitar a sua escolha, use este mapa adaptado por mim a partir de um mapa usado no curso de Estatística para Biólogos ministrado pela Dra. Jutta Schmid na Universidade de Ulm, Alemanha. Este mapa não cobre todas as possibilidades existentes, que são várias, mas abrange a esmagadora maioria dos testes rotineiramente usados por ecólogos. Vale lembrar também que este mapa segue uma abordagem mais clássica, como a de Zar (2009), além de um pouco de abordagens mais complexas, como a de Dobson & Barnett (2008), e que eu recomendo fortemente a leitura de Magnusson et al. (2015) como base conceitual. Clique na imagem para aumentá-la.

qual teste estatistico (marco mello)

9. Resumo dos passos necessários para fazer um teste estatístico

  1. Defina uma pergunta de trabalho com fortes bases na teoria ecológica e na história natural e, a partir dela, elabore uma hipótese;
  2. A partir da hipótese, elabore uma previsão biológica;
  3. Elabore um mapa mental do seu projeto.
  4. Identifique a natureza das variáveis envolvidas na previsão: elas são nominais, ordinais, discretas ou contínuas?
  5. Pense sobre a relação entre as variáveis: há causalidade ou não? Use um mapa mental de análise de dados para clarear as suas ideias.
  6. Defina a sua previsão matemática (hipótese estatística) de forma mais precisa;
  7. Escolha o teste mais adequado para testar essa previsão matemática;
  8. Planeje bem quantas amostras serão necessárias para ter um bom poder estatístico;
  9. Colete os dados no campo, laboratório, biblioteca ou computador;
  10. Plote gráficos para examinar visualmente a relação entre as variáveis e ganhar um feeling sobre seus resultados;
  11. Cheque todos os pressupostos do teste escolhido (e.g., normalidade dos erros e homocedasticidade);
  12. Se necessário, aplique alguma transformação aos dados, passe para um teste não-paramétrico ou use um GLM;
  13. Defina o nível de significância do teste;
  14. Rode o teste escolhido;
  15. Preste atenção também ao tamanho do efeito e ao poder estatístico do teste.
  16. Elabore uma interpretação biológica baseada principalmente no tamanho do efeito encontrado.

10. Pressupostos dos testes

No fundo, o pressuposto mais importante de qualquer teste estatístico é a qualidade da coleta dos dados: as observações têm que ter sido feitas dentro do maior rigor possível, bem afinadas com a orientação dada pela previsão biológica, com a precisão necessária a cada caso, e de forma que as unidades amostrais sejam independentes entre si.

Vale lembrar que a normalidade dos dados brutos ou dos erros não é um pressuposto tão fundamental assim em todos os testes estatísticos. Portanto, muitas vezes, pode-se aplicar um teste paramétrico memo em casos de não-normalidade, sem grandes diferenças no resultado, especialmente quando o efeito é forte.

Na grande família dos modelos lineares, que incluem o teste t e a ANOVA, testes mais complexos, como os modelos lineares generalizados (GLM), permitem ainda escolher outros tipos de distribuição além da normal para estimar a significância da estatística calculada.

Há também diferentes transformações que tornam normal a distribuição de erros dos dados.

Também é possível calcular alguns testes por reamostragem, contornando esse problema da distribuição dos dados.

11. Sinta o “jeitão” dos dados

Não confie cegamente nos resultados numéricos dos testes! Sempre pode ter havido algum erro na hora de rodar o teste estatístico. Por isso, antes de rodar qualquer análise, até mesmo um qui-quadrado 2 x 2, examine os seus dados visualmente, para ter um feeling sobre o jeitão deles e sentir no estômago se sua previsão foi confirmada ou não. Primeiro, faça histogramas para examinar a distribuição dos dados. Segundo, faça gráficos já relacionando as variáveis de interesse (gráficos de barras, diagramas de dispersão, box-plots etc.). Só depois de conhecer seus dados mais intimamente, rode as análises.

Um erro muito comum é insistir em testar modelos lineares com os seus dados, quando na verdade a relação entre as variáveis estudadas é claramente não-linear. Por isso é fundamental sempre olhar os gráficos primeiro.

12. Conselhos finais

  1. Sendo você um biólogo, não dê ênfase demais às análises estatísticas no seu projeto ou artigo. Fale sobre os fenômenos biológicos estudados, usando os números como apoio.
  2. Não confunda hipótese biológica com hipótese estatística. Lembre-se de que os seus dados só farão sentido, se você elaborar uma hipótese interessante para lhes dar contexto, independente do resultado do teste estatístico.
  3. Escolha as análises estatísticas antes de iniciar o projeto e não depois de ter coletado os dados. A estatística faz parte do planejamento e envolve questões fundamentais, como o modelo a ser usado e o número de amostras que serão necessárias para testar as previsões feitas.

13. Mensagem de auto-ajuda

Uma análise sofisticada e popular não substitui uma pergunta original baseada em teoria e amparada por um bom delineamento amostral.

14. Sugestões de leitura

Fonte:Texto de Marco Mello – Blog Sobrevivendo na Ciência

29 de agosto de 2016

Publicado por Priscila Jacobsen