Teste do sinal – Wikipédia, a enciclopédia livre

O teste do sinal é um método estatístico para testar diferenças consistentes entre pares de observações, tal como o peso dos sujeitos antes e depois do tratamento. Dados os pares de observações (tal como peso pré e pós-tratamento) para cada sujeito, o teste do sinal determina se um membro do par (tal como o peso pré-tratamento) tende a ser maior do que (ou menor do que) o outro membro do par (tal como o peso pós-tratamento).

As observações pareadas podem ser designadas como $x$ e $y$ . Para comparações de observações pareadas $(x,y)$ , o teste do sinal é mais útil se as comparações puderem ser expressas apenas como $x>y$ , $x=y$ ou $x<y$ . Se, em vez disto, as observações puderem ser expressas como quantidades numéricas ( $x=7$ , $y=18$ ) ou como postos (posto de $x=1$ º, posto de $y=8$ º), então, o teste t de Student^[1] pareado ou teste de postos sinalizados de Wilcoxon^[2] geralmente serão mais adequados do que o teste do sinal para detectar diferenças consistentes.

Se $X$ e $Y$ forem variáveis quantitativas, o teste do sinal pode ser usado para testar a hipótese de que a diferença entre $X$ e $Y$ tem mediana zero, pressupondo distribuições contínuas das duas variáveis aleatórias $X$ e $Y$ , na situação em que podemos obter amostras pareadas a partir de $X$ e $Y$ .^[3]

O teste do sinal também pode testar se a mediana de uma coleção de números é significantemente maior ou menor que um valor especificado. Por exemplo, dada uma ista de notas de alunos em uma sala, o teste do sinal pode determinar se a mediada das notas é significantemente diferentes de, por exemplo, 75 de 100.

O teste do sinal é um teste não paramétrico que faz poucas pressuposições sobre a natureza das distribuições sob o teste – isto significa que ele tem uma aplicabilidade muito generalizada, mas pode não ter a potência estatística de testes alternativos.

As duas condições para o teste do sinal de amostra pareada são que a amostra deve ser aleatoriamente selecionada a partir de cada população e que as amostras devem ser dependentes ou pareadas. Amostras independentes não podem ser significantemente pareadas. Já que o teste é não paramétrico, as amostras não precisam vir de populações normalmente distribuídas. Além disto, o teste funciona para testes com cauda à esquerda, cauda à direita e bicaudais.^[4]

Método

Considere $p=\Pr(X>Y)$ e então teste a hipótese nula $H_{0}:p=0,50$ . Em outras palavras, a hipótese nula afirma que, dado um par aleatório de medidas ( $x_{i},y_{i}$ ), é igualmente provável que $x_{i}$ e $y_{i}$ sejam uma maior que a outra.

Para testar a hipótese nula, os pares independentes de dados amostrais são coletados a partir das populações $\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{n},y_{n})\}$ . Pares para os quais não há nenhuma diferença são omitidos de modo que haja a possibilidade de uma amostra reduzida de pares $m$ .

Então, considere $W$ . o número de pares para os quais $y_{i}-x_{i}>0$ . Pressupondo que $H_{0}$ é verdadeira, então, $W$ segue uma distribuição binomial $W\thicksim b(m;0,5)$ .^[5]

Pressupostos

Considere $Z_{i}=X_{i}-Y_{i}$ para $i=1,...,n$ .

Pressupõe-se que as diferenças $Z_{i}$ são independentes.
Cada $Z_{i}$ vem da mesma população contínua.
Os valores que $X_{i}$ e $Y_{i}$ representam são ordenados (pelo menos na escala ordinal), de modo que as comparações "maior que", "menor que" e "igual a" tenham sentido.^[5]

Teste de significância

Já que se espera que a estatística do teste siga uma distribuição binomial, o teste binomial padrão é usado para calcular a significância. A aproximação normal à distribuição binomial pode ser usada para amostras grandes com $m>25$ .^[6]

O valor da cauda à esquerda é computado por $\Pr(W\leq w)$ , que é o valor-p para a alternativa $H_{1}:p<0,5$ . Esta alternativa significa que as medidas de $X$ tendem a ser maiores.

O valor da cauda à direita é computado por $\Pr(W\geq w)$ , que é o valor-p para a alternativa $H_{1}:p>0,5$ . Esta alternativa significa que as medidas de $Y$ tendem a ser maiores.

Para uma alternativa bicaudal $H_{1}$ , o valor-p é o dobro do menor valor de cauda.

Exemplo de teste do sinal bilateral para pares emparelhados

Jerold H. Zar dá o seguindo exemplo de teste de sinal para pares emparelhados. Os dados coletados dizem respeito ao comprimento da pata esquerda traseira e da pata esquerda dianteira de 10 cervos.^[7]

Cervo	Comprimento da pata traseira (cm)	Comprimento da pata dianteira (cm)	Diferença
1	142	138	+
2	140	136	+
3	144	147	−
4	144	139	+
5	142	143	−
6	146	141	+
7	149	143	+
8	150	145	+
9	142	136	+
10	148	146	+

A hipótese nula é que não há diferença entre os comprimentos da pata traseira e da pata dianteira do cervo. A hipótese alternativa é que há uma diferença entre os comprimentos da pata traseira e da pata dianteira. Note que este é um teste bicaudal. Para o teste bicaudal. a hipótese alternativa é de que o comprimento da pata traseira pode ser maior ou menor do que pata dianteira. Um teste monocaudal poderia avaliar se o comprimento da pata traseira é maior do que o da pata dianteira, de modo que a diferença só pode ser em uma direção (maior que).

Há 10 cervos. Há 8 diferenças positivas e 2 diferenças negativas. Se a hipótese nula for verdadeira, ou seja, não houver diferença entre os comprimentos da pata traseira e da pata dianteira, então, o número esperado de diferenças positivas é 5 de 10. Qual é a probabilidade de que o resultado observado de 8 diferenças positivas ou um resultado mais extremo ocorra se não houver diferença nos comprimentos das patas?

Já que o teste é bilateral, um resultado igualmente ou mais extremo que 8 diferenças positivas inclui os resultados de 8, 9 ou 10 diferenças positivas e os resultados de 0, 1 ou 2 diferenças positivas. A probabilidade de 8 ou mais diferenças positivas entre 10 cervos ou 2 ou menos diferenças positivas entre 10 cervos é igual à probabilidade 8 ou mais caras ou 2 ou menos caras em dez jogos de cara ou coroa com uma moeda justa. As probabilidades podem ser calculadas usando o teste binomial, com a probabilidade de caras e de coroas iguais a 0,5.

Probabilidade de 0 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.
Probabilidade de 1 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
Probabilidade de 2 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,04395.
Probabilidade de 8 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,04395.
Probabilidade de 9 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
Probabilidade de 10 caras em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.

A probabilidade bilateral de um resultado tão extremo quanto 8 de 10 diferenças positivas é a soma destas probabilidades:

$0,00098+0,00977+0,04395+0,04395+0,00977+0,00098=0,109375.$

Assim, a probabilidade de observar resultados tão extremos como 8 de 10 diferenças positivas nos comprimentos das patas, se não houver diferença nos comprimentos das patas, é $p=0,109375$ . A hipótese nula não é rejeitada ao nível de significância de $p=0,05$ . Como uma amostra de tamanho maior, a evidência pode ser suficiente para rejeitar a hipótese nula.

Já que as observações podem ser expressas como quantidades numéricas (comprimento real da pata), o teste t pareado ou o teste de postos sinalizados de Wilcoxon terão geralmente maior potência do que o teste do sinal para detectar diferenças consistentes. Para este exemplo, o teste t pareado para diferenças indica que há uma diferença significante entre o comprimento da pata traseira e o comprimento da pata dianteira ( $p=0,007$ ).

Se o resultado observado fosse 9 diferenças positivas em 10 comparações, o teste do sinal pode ser significante. Apenas jogos de cara ou coroa com 0, 1, 9 ou 10 seriam igualmente ou mais extremos que o resultado observado.

Probabilidade de 0 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00098.
Probabilidade de 1 cara em 10 jogos de cara ou coroa com uma moeda justa = 0,00977.
Probabilidade de 9 caras em 10 jogos de cara ou coroa com uma moeda justa = 0.00977.
Probabilidade de 10 caras em 10 jogos de cara ou coroa com uma moeda justa = 0.00098.

A probabilidade de um resultado tão extremo quanto 9 ou 10 diferenças positivas é igual à soma destas probabilidades:

$0,00098+0,00977+0,00977+0,00098=0,0215.$

Em geral, 8 de 10 diferenças positivas não é significante ( $p=0,11$ ), mas 9 de 10 diferenças positivas é significante ( $p=0,0215$ ).

Exemplo de teste do sinal unilateral para pares emparelhados

W. J. Conover dá o seguinte exemplo usando um teste do sinal unilateral para pares emparelhados.^[8] Um fabricante faz dois produtos, A e B. O fabricante deseja saber se os consumidores preferem o produto B ao produto A. Em uma amostra de 10 consumidores, cada um recebe um produto A e um produto B e diz qual produto prefere.

A hipótese nula é que os consumidores não preferem o produto B ao produto A. A hipótese alternativa é que os consumidores preferem o produto B ao produto A. Note que este é um teste unilateral, ou seja, com uma única direção.

No fim do estudo, 8 consumidores preferiram o produto B, 1 consumidor preferiu o produto A e um consumidor disse não ter preferência.

Número de casos positivos (que preferiram B) = 8.
Número de casos negativos (que preferiram A) = 1.
Número de empates (nenhuma preferência) = 1.

O empate é excluído da análise, o que torna $n$ , o número de casos positivos e negativos, igual a 9,

Qual é a probabilidade de um resultado tão extremo quanto 8 positivos em favor de B em 9 pares, sendo que a hipótese nula diz que os consumidores não preferem B a A? Isto é igual à probabilidade 8 ou mais caras em 9 jogos de cara ou coroa com uma moeda justa e pode ser calculado usando a distribuição binomial com a probabilidade de caras e a probabilidade de coroas iguais a 0,5.

A probabilidade de 8 ou 9 caras em 9 jogos de cara ou coroa com uma moeda justa é igual a 0,0195. A hipótese nula é rejeitada e o operário conclui que os consumidores preferem o produto B ao produto A.

Exemplo de teste do sinal para mediana de uma única amostra

P. Sprent dá o seguinte exemplo de um teste do sinal para uma mediana.^[9] Em um ensaio clínico, o tempo de sobrevivência (em semanas) é coletado para 10 sujeitos com linfoma não Hodgkin. O tempo de sobrevivência exato não é conhecido para um sujeito que ainda estava vivo 362 semanas depois, quando o estudo terminou. Os tempos de sobrevivência dos sujeitos foram:

49, 58, 75, 110, 112, 132, 151, 276, 281, 362+.

O sinal de mais indica o sujeito ainda vivo no fim do estudo. O pesquisador desejava determina se a mediana do tempo de sobrevivência era menor ou maior que 200 semanas.

A hipótese nula é que a mediana da sobrevivência é igual a 200 semanas. A hipótese alternativa é que a mediana da sobrevivência não é 200 semanas. Nota que este é um teste bilateral: a hipótese alternativa é que a mediana pode ser maior ou menor que 200 semanas.

Se a hipótese nula for verdadeira, ou seja, a mediana da sobrevivência for igual a 200 semanas, então, em uma amostra aleatória, aproximadamente metade dos sujeitos deve sobreviver menos de 200 semanas e aproximadamente metade deve sobreviver mais de 200 semanas. Observações abaixo de 200 recebem um sinal de menos (-); observações acima de 200 recebem um sinal de mais (+). Para os tempos de sobrevivência dos sujeitos, há 7 observações abaixo de 200 semanas (-) e 3 observações acima de 200 semanas (+) para a amostra com 10 sujeitos.

Já que qualquer observação tem a mesma probabilidade de estar acima ou abaixo da mediana da população, o número de observações acima de 200 terá uma distribuição binomial com média igual a 0,5. Qual é a probabilidade de um resultado tão extremo quanto 7 em 10 sujeitos com tempos de sobrevivência abaixo da mediana? Isto é exatamente igual à probabilidade de um resultado tão extremo quanto 7 caras em 10 jogos de cara ou coroa com uma moeda justa. Já que este é um teste bilateral, um resultado extremo pode ser tanto três caras ou menos ou sete caras ou menos.

A probabilidade de observar $k$ caras em 10 jogos de cara ou coroa, sendo $p(caras)=0,5$ é dada pela fórmula binomial:

$\Pr(n{\acute {u}}mero\ de\ caras=k)={\binom {10}{k}}\times 0,5^{10}$

A probabilidade para cada valor de $k$ é dada na tabela abaixo:

$k$	0	1	2	3	4	5	6	7	8	9	10
$\Pr$	0,0010	0,0098	0,0439	0,1172	0,2051	0,2461	0,2051	0,1172	0,0439	0,0098	0,0010

A probabilidade de 0, 1, 2, 3, 7, 8, 9 ou 10 caras em 10 jogos é igual à soma de suas probabilidades individuais:

$0,0010+0,0098+0,0439+0,1172+0,1172+0,0439+0,0098+0,0010=0,3438.$

Assim, a probabilidade de observar 3 ou menos sinais de mais ou 7 ou mais sinais de mais nos dados de sobrevivência, se a mediana da sobrevivência for igual a 200 semanas, é 0,3438. O número esperado de sinais de mais é igual a 5 se a hipótese nula for verdadeira. Observar 3 ou menos ou 7 ou mais sinais de mais não é significantemente diferente de 5. A hipótese nula não é rejeitada. Devido ao seu tamanho extremamente reduzido, esta amostra tem pouca potência para detectar uma diferença.

História

W. J. Conover e P. Sprent descrevem o uso de teste do sinal por John Arbuthnot em 1710.^[8]^[9] Arbuthnot examinou certidões de nascimento em Londres para cada um dos 82 anos entre 1629 e 1710. Em todo ano, o número de homens nascidos em Londres superou o número de mulheres. Se a hipótese nula de números iguais de nascimentos de cada sexo for verdadeira, a probabilidade da observação esperada é $0,5^{82}$ , o que levou Arbuthnot a concluir que as probabilidades de nascimentos de homens e de mulheres não eram exatamente iguais.

Por suas publicações em 1692 e 1710, Arbuthnot é creditado pelo "primeiro uso de testes de significância",^[10] pelo primeiro exemplo de raciocínio sobre significância estatística e certeza moral^[11] e "talvez pelo primeiro relatório publicado com um teste não paramétrico".^[8]

Anders Hald descreveu posteriormente o impacto da pesquisa de Arbuthnot da seguinte forma: "Entre 1710 e 1713, Nicholas Bernoulli completou a análise dos dados de Arbuthnot mostrando que a maior parte da variação do número anual de nascimentos de homens pode ser explicada como binomial com $p=18/35$ . Este é o primeiro exemplo de ajuste de uma binomial a dados. Assim, temos aqui um teste de significância que rejeita a hipótese $p=0,5$ seguido pela estimativa de $p$ e por uma discussão sobre qualidade do ajuste."^[11]

Relação com outros testes estatísticos

Teste de postos sinalizados de Wilcoxon

O teste do sinal exige apenas que as observações em um par estejam ordenadas, por exemplo, $x>y$ . Em alguns casos, pode-se atribuir um valor de posto às observações para todos os sujeitos (1, 2, 3, ...). Se as observações puderem ser ranqueadas e cada observação em um par for uma amostra aleatória a partir de uma distribuição simétrica, então, o teste de postos sinalizados de Wilcoxon é apropriado. O teste de Wilcoxon geralmente terá maior potência para detectar diferenças do que o teste do sinal. A eficiência relativa assintótica do teste do sinal comparado ao teste de postos sinalizados de Wilcoxon, sob estas circunstâncias, é igual a 0,67.^[8]^[12]

Teste t pareado

Se as observações pareadas forem quantidades numéricas (tais como os comprimentos reais da pata traseira e da pata dianteira no exemplo acima) e as diferenças entre as observações pareadas forem amostras aleatórias a partir de uma única distribuição normal, entao, o teste t pareado é apropriado. O teste t pareado geralmente terá maior potência para detectar diferenças do que o teste do sinal. A eficiência relativa assintótica do teste do sinal comparada ao teste t pareado, sob estas circunstâncias, é igual a 0,637. Entretanto, se a distribuição das diferenças entre os pares não for normal, mas, em vez disso, tiver uma curtose muito baixo (distribuição platicúrtica), o teste do sinal pode ter maior potência do que o teste t pareado, como eficiência relativa assintótica igual a 2 comparado ao teste t pareado e igual a 1,3 comparado o teste do posto sinalizado de Wilcoxon.^[8]^[12]

Teste de McNemar

Em algumas aplicações, as observações no interior de cada par podem apenas assumir os valores 0 ou 1. Por exemplo, 0 pode indicar fracasso e 1 pode indicar sucesso. Há quatro pares possíveis: $\{0,0\}$ , $\{0,1\}$ , $\{1,0\}$ , $\{1,1\}$ . Nestes casos, o mesmo procedimento do teste do sinal é usado, mas é conhecido como teste de McNemar.^[8]

Teste de Friedman

Em vez de observações pareadas tais como $(Produto\ A,Produto\ B)$ , os dados podem consistir em três ou mais níveis, como $(Produto\ A,Produto\ B,Produto\ C)$ . Se as observações individuais puderem ser ordenadas de forma igual à do teste do sinal, por exemplo, $B>C>A$ , então, o teste de Friedman pode ser usado.^[7]

Ver também

Teste de Wilcoxon

Referências

↑ Thomas., Baguley, (2012). Serious Stats. [S.l.]: Palgrave Macmillan. ISBN 9780230363557. OCLC 965718721
↑ 1972-, Corder, Gregory W.,. Nonparametric statistics : a step-by-step approach Second ed. Hoboken, New Jersey: [s.n.] ISBN 9781118840429. OCLC 862222362
↑ «The Sign Test for a Median | STAT 414 / 415». onlinecourses.science.psu.edu (em inglês). Consultado em 28 de setembro de 2017
↑ 1938-, Gibbons, Jean Dickinson, (2003). Nonparametric statistical inference 4th ed. New York: M. Dekker. ISBN 9780824755225. OCLC 53893359
↑ ^a ^b J., Kitchens, Larry (2003). Basic statistics and data analysis. Pacific Grove, CA: Thomson/Brooks/Cole. ISBN 9780534384654. OCLC 51223638
↑ William., Mendenhall,; L., Scheaffer, Richard (1990). Mathematical statistics with applications 4th ed. Boston: PWS-Kent Pub. Co. ISBN 0534920268. OCLC 19776139
↑ ^a ^b 1941-, Zar, Jerrold H., (1999). Biostatistical analysis 4th ed. Upper Saddle River, N.J.: Prentice Hall. ISBN 013081542X. OCLC 39498633
↑ ^a ^b ^c ^d ^e ^f J., Conover, W. (1999). Practical nonparametric statistics 3rd ed. New York: Wiley. ISBN 0471160687. OCLC 39261809
↑ ^a ^b Peter., Sprent, (1993). Applied nonparametric statistical methods 2nd ed. London: Chapman & Hall. ISBN 0412449803. OCLC 27071041
↑ C., Heyde, C.; 1941-, Seneta, E. (Eugene), (2001). Statisticians of the centuries. New York: Springer. ISBN 0387953299. OCLC 46791088
↑ ^a ^b Hald, Anders (22 de abril de 1998). A history of mathematical statistics from 1750 to 1930 (em inglês). [S.l.]: Wiley. ISBN 9780471179122
↑ ^a ^b 1917-, Lehmann, E. L. (Erich Leo), (2006). Nonparametrics : statistical methods based on ranks Rev. 1st ed. New York: Springer. ISBN 9780387352121. OCLC 71747543

[1] Thomas., Baguley, (2012). Serious Stats. [S.l.]: Palgrave Macmillan. ISBN 9780230363557. OCLC 965718721

[2] 1972-, Corder, Gregory W.,. Nonparametric statistics : a step-by-step approach Second ed. Hoboken, New Jersey: [s.n.] ISBN 9781118840429. OCLC 862222362

[3] «The Sign Test for a Median | STAT 414 / 415». onlinecourses.science.psu.edu (em inglês). Consultado em 28 de setembro de 2017

[4] 1938-, Gibbons, Jean Dickinson, (2003). Nonparametric statistical inference 4th ed. New York: M. Dekker. ISBN 9780824755225. OCLC 53893359

[:4-5] J., Kitchens, Larry (2003). Basic statistics and data analysis. Pacific Grove, CA: Thomson/Brooks/Cole. ISBN 9780534384654. OCLC 51223638

[6] William., Mendenhall,; L., Scheaffer, Richard (1990). Mathematical statistics with applications 4th ed. Boston: PWS-Kent Pub. Co. ISBN 0534920268. OCLC 19776139

[:3-7] 1941-, Zar, Jerrold H., (1999). Biostatistical analysis 4th ed. Upper Saddle River, N.J.: Prentice Hall. ISBN 013081542X. OCLC 39498633

[:0-8] ↑ ^a ^b ^c ^d ^e ^f J., Conover, W. (1999). Practical nonparametric statistics 3rd ed. New York: Wiley. ISBN 0471160687. OCLC 39261809

[:2-9] Peter., Sprent, (1993). Applied nonparametric statistical methods 2nd ed. London: Chapman & Hall. ISBN 0412449803. OCLC 27071041

[10] C., Heyde, C.; 1941-, Seneta, E. (Eugene), (2001). Statisticians of the centuries. New York: Springer. ISBN 0387953299. OCLC 46791088

[:1-11] Hald, Anders (22 de abril de 1998). A history of mathematical statistics from 1750 to 1930 (em inglês). [S.l.]: Wiley. ISBN 9780471179122

[:5-12] 1917-, Lehmann, E. L. (Erich Leo), (2006). Nonparametrics : statistical methods based on ranks Rev. 1st ed. New York: Springer. ISBN 9780387352121. OCLC 71747543

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Cervo	Comprimento da pata traseira (cm)	Comprimento da pata dianteira (cm)	Diferença
1	142	138	+
2	140	136	+
3	144	147	−
4	144	139	+
5	142	143	−
6	146	141	+
7	149	143	+
8	150	145	+
9	142	136	+
10	148	146	+

Cervo	Comprimento da pata traseira (cm)	Comprimento da pata dianteira (cm)	Diferença
1	142	138	+
2	140	136	+
3	144	147	−
4	144	139	+
5	142	143	−
6	146	141	+
7	149	143	+
8	150	145	+
9	142	136	+
10	148	146	+

Cervo	Comprimento da pata traseira (cm)	Comprimento da pata dianteira (cm)	Diferença
1	142	138	+
2	140	136	+
3	144	147	−
4	144	139	+
5	142	143	−
6	146	141	+
7	149	143	+
8	150	145	+
9	142	136	+
10	148	146	+