Coeficiente de correlação de postos de Spearman – Wikipédia, a enciclopédia livre

Em estatística, o coeficiente de correlação de postos de Spearman ou rô de Spearman, que recebe este nome em homenagem ao psicólogo e estatístico Charles Spearman, frequentemente denotado pela letra grega $\rho$ (rô) ou $r_{s}$ , é uma medida não paramétrica de correlação de postos (dependência estatística entre a classificação de duas variáveis). O coeficiente avalia com que intensidade a relação entre duas variáveis pode ser descrita pelo uso de uma função monótona.^[1] A correlação de Spearman entre duas variáveis é igual à correlação de Pearson entre os valores de postos daquelas duas variáveis. Enquanto a correlação de Pearson avalia relações lineares, a correlação de Spearman avalia relações monótonas, sejam elas lineares ou não.^[2] Se não houver valores de dados repetidos, uma correlação de Spearman perfeita de +1 ou -1 ocorre quando cada uma das variáveis é uma função monótona perfeita da outra.

Intuitivamente, a correlação de Spearman entre duas variáveis será alta quando observações tiverem uma classificação semelhante (ou idêntica no caso da correlação igual a 1) entre as duas variáveis, isto é, a posição relativa das observações no interior da variável (1º, 2º, 3º, etc.), e baixa quando observações tiverem uma classificação dessemelhante (ou completamente oposta no caso da correlação igual a -1) entre as duas variáveis.

O coeficiente de Spearman é apropriado tanto para variáveis contínuas, como para variáveis discretas, incluindo variáveis ordinais.^[3] Tanto o $\rho$ de Spearman, como o $\tau$ de Kendall pode ser formulados como casos especiais de um coeficiente de correlação mais geral.

Definição e cálculo

O coeficiente de correlação de Spearman é definido como o coeficiente de correlação de Pearson entre variáveis classificadas em postos.^[4]

Para uma amostra de tamanho $n$ , os $n$ dados brutos $X_{i},Y_{i}$ são convertidos em postos $\operatorname {rg} X_{i},\operatorname {rg} Y_{i}$ e $r_{s}$ é computado a partir de:

r_{s}=\rho _{\operatorname {rg} _{X},\operatorname {rg} _{Y}}={\frac {\operatorname {cov} (\operatorname {rg} _{X},\operatorname {rg} _{Y})}{\sigma _{\operatorname {rg} _{X}}\sigma _{\operatorname {rg} _{Y}}}},

em que

$\rho$ denota o usual coeficiente de correlação de Pearson, mas aplicado às variáveis em postos;
$\operatorname {cov} (\operatorname {rg} _{X},\operatorname {rg} _{Y})$ é a covariância das variáveis em postos;
$\sigma _{\operatorname {rg} _{X}}$ e $\sigma _{\operatorname {rg} _{Y}}$ são os desvios padrão das variáveis em postos.^[5]

Apenas se todos os postos $n$ forem números inteiros distintos, o coeficiente pode ser calculado usando a fórmula popular:

r_{s}={1-{\frac {6\sum d_{i}^{2}}{n(n^{2}-1)}}},

em que

$d_{i}=\operatorname {rg} (X_{i})-\operatorname {rg} (Y_{i})$ é a diferença entre os dois postos de cada observação;
$n$ é o número de observações.^[6]^[7]

Quando há valores idênticos, geralmente se atribui a cada valor um posto fracionário igual à média de suas posições na ordem ascendente dos valores, que é equivalente ao cálculo da média de todas as permutações possíveis.^[8]

Se valores repetidos estiverem presentes nos conjuntos de dados, a equação produz resultados incorretos. Apenas se, em ambas as variáveis, todos os postos forem distintos, então, $\sigma _{\operatorname {rg} _{X}}\sigma _{\operatorname {rg} _{Y}}=\operatorname {Var} {\operatorname {rg} _{X}}=\operatorname {Var} {\operatorname {rg} _{Y}}=n(n^{2}-1)/6$ (vide número tetraédrico $T_{n-1}$ ). A primeira equação — normalizando pelo desvio padrão — pode ser usada até mesmo quando os postos forem normalizados a $[0;1]$ ("postos relativos"), porque não é sensível tanto à translação, quanto ao escalonamento linear.

Este método também não deve ser usado em casos em que o conjunto de dados estiver truncado, isto é, quando o coeficiente de correlação de Spearman for desejado para os $X$ registros do topo (seja pelos postos pré-mudança, pelos postos pós-mudança ou ambos). Neste caso, deve-se usar a fórmula do coeficiente de correlação de Pearson descrita acima.

O erro padrão $\sigma$ do coeficiente foi determinado pelo estatístico britânico Karl Pearson em 1907 e pelo matemático britânico Thorold Gosset em 1920, sendo:

\sigma _{r_{s}}={\frac {0.6325}{\sqrt {n-1}}}.

Quantidades relacionadas

**Correlações de postos de Spearman positiva e negativa**
Um coeficiente de correlação de Spearman positivo corresponde a uma tendência monotônica crescente entre $X$ e $Y$ .	Um coeficiente de correlação de Spearman negativo corresponde a uma tendência monotônica decrescente entre $X$ e $Y$ .

Há várias outras medidas numéricas que quantificam a intensidade da dependência estatística entre parers de observações. A mais comum é o coeficiente de correlação produto-momento de Pearson, que é um método de correlação semelhante ao coeficiente de correlação de postos de Spearman, que mede as relações "lineares" entre números brutos, não entre seus postos.

Um nome alternativo para a correlação de postos de Spearman é "correlação de grau".^[9] Nesta denominação, o "posto" de uma observação é substituído pelo "grau". Em distribuições contínuas, o grau de uma observação é, por convenção, sempre uma metade menor que o posto. Assim, as correlações entre graus e postos são iguais neste caso. De forma mais generalizada, o "grau" de uma observação é proporcional ao valor estimado da fração de uma população menor que um dado valor, com o ajuste da meia-observação nos valores observados. Assim, isto corresponde a um tratamento possível de postos empatados. Ainda que incomum, o termo "correlação de grau" ainda está em uso.^[10]

Interpretação

O sinal da correlação de Spearman indica a direção da associação entre $X$ (a variável independente) e $Y$ (a variável dependente). Se $Y$ tende a aumentar quando $X$ aumenta, o coeficiente de correlação de Spearman é positivo. Se $Y$ tende a diminuir quando $X$ aumenta, o coeficiente de correlação de Spearman é negativo. Um coeficiente de Spearman igual a zero indica que não há tendência de que $Y$ aumente ou diminua quando $X$ aumenta. A correlação de Spearman aumenta em magnitude conforme $X$ e $Y$ ficam mais próximas de serem funções monótonas perfeitas uma da outra. Quando $X$ e $Y$ são perfeitamente monotonamente relacionadas, o coeficiente de correlação de Spearman se torna 1. Uma relação crescente monótona perfeita implica que, para quaisquer dois pares de valores de dados $X_{i},Y_{i}$ e $X_{j},Y_{j}$ , $X i - X j$ e $Y i - Y j$ terão sempre o mesmo sinal. Uma relação decrescente monótona perfeita implica que estas diferenças terão sempre sinais opostos.

O coeficiente de correlação de Spearman é frequentemente descrito como sendo "não paramétrico". Isto pode ter dois sentidos. Em primeiro lugar, uma correlação de Spearman perfeita ocorre quando $X$ e $Y$ estão relacionados por qualquer função monótona, em contraste com a correlação de Pearson, que só dá um valor perfeito quando $X$ e $Y$ estão relacionadas por uma função linear. O outro sentido em que a correlação de Spearman é não paramétrica se refere ao fato de que sua exata distribuição de amostragem pode ser obtida sem conhecimento (isto é, sem informação sobre os parâmetros) quanto à distribuição de probabilidade conjunta de $X$ e $Y$ .^[11]

Exemplo

Neste exemplo, os dados brutos na tabela abaixo são usados para calcular a correlação entre o QI de uma pessoa e o número de horas em que assiste televisão por semana.

QI, $X_{i}$	Horas de TV por semana, $Y_{i}$
106	7
86	0
100	27
101	50
99	28
103	29
97	20
113	12
112	6
110	17

Primeiro, é necessário achar o valor do termo $d_{i}^{2}$ . Para fazer isto, executam-se os seguintes passos, refletidos na tabela abaixo:

Ordene os dados de acordo com a primeira coluna ( $X_{i}$ ). Crie uma nova coluna $x_{i}$ e atribua a esta coluna os valores dos postos $1,2,3,...,n$ ;
Em seguida, ordene os dados de acordo com a segunda coluna ( $Y_{i}$ ). Crie uma quarta coluna $y_{i}$ e, analogamente, atribua a esta coluna os valores dos postos $1,2,3,...,n$ ;
Crie uma quinta coluna $d_{i}$ para conter as diferenças entre os postos das duas colunas $x_{i}$ e $y_{i}$ ;
Crie uma última coluna $d_{i}^{2}$ para conter os quadrados dos valores da coluna $d_{i}$ .

QI, $X_{i}$	Horas de TV por semana, $Y_{i}$	posto $x_{i}$	posto $y_{i}$	$d_{i}$	$d_{i}^{2}$
86	0	1	1	0	0
97	20	2	6	−4	16
99	28	3	8	−5	25
100	27	4	7	−3	9
101	50	5	10	−5	25
103	29	6	9	−3	9
106	7	7	3	4	16
110	17	8	5	3	9
112	6	9	2	7	49
113	12	10	4	6	36

Calculados os valores $d_{i}^{2}$ , são somados para encontrar $\sum d_{i}^{2}=194$ . O valor de $n$ é 10. Agora, estes valores podem ser substituidos na equação $\rho =1-{\frac {6\sum d_{i}^{2}}{n(n^{2}-1)}}$ :

\rho =1-{\frac {6\times 194}{10(10^{2}-1)}},

o que resulta em $ρ = -29/165 = -0,175757575...$ com um valor-p igual a 0,627188, usando a distribuição t de Student.

Este valor baixo mostra que a correlação entre QI e número de horas na frente da TV é muito baixa, ainda que o valor negativo sugira que, quanto mais tempo se passa assistindo televisão, mais baixo o QI. No caso de empates nos dados originais, esta fórmula não deve ser usada. Em vez disso, o coeficiente de correlação de Pearson deve ser calculado nos postos (quando se atribuem postos aos empates, como descrito acima).

Determinação da significância

Uma abordagem para testar se um valor observado de $\rho$ é significantemente diferente de zero ( $r$ sempre se manterá entre -1 e 1) consiste em calcular a probabilidade de que seria maior ou igual ao $r$ observado, dada a hipótese nula, ao usar um teste de permutação. Uma vantagem desta abordagem é que ela automaticamente leva em conta o número de valores empatados de dados na amostra e a forma como são tratados ao computar a correlação de postos.^[12]

Uma abordagem faz paralelo ao uso da transformação de Fisher no caso do coeficiente de correlação produto-momento de Pearson, isto é, intervalos de confiança e testes de hipóteses relativos ao valor da população $\rho$ podem ser conduzidos usando a transformação de Fisher:^[13]

F(r)={1 \over 2}\ln {1+r \over 1-r}=\operatorname {artanh} (r).

Se $F(r)$ for a transformação de Fisher de $r$ , o coeficiente de correlação de postos de Spearman amostral, e $n$ for o tamanho da amostra, então:

z={\sqrt {\frac {n-3}{1.06}}}F(r)

é um escore padronizado para $r$ que segue aproximadamente uma distribuição normal padrão sob a hipótese nula da independência estatística ( $\rho =0$ ).^[14]^[15]

Pode-se também testar por significância usando:

t=r{\sqrt {\frac {n-2}{1-r^{2}}}}

que é aproximadamente distribuído como a distribuição t de Student com $n-2$ graus de liberdade sob a hipótese nula.^[16] Uma justificação para este resultado se baseia em um argumento de permutação.^[17]

Uma generalização do coeficiente de Spearman é útil na situação em que há três ou mais condições, uma quantidade de sujeitos é toda observada em cada uma delas e se prevê que as observações terão uma ordem particular. Por exemplo, cada sujeito deste grupo será avaliado três vezes fazendo a mesma tarefa e se prevê que a performance melhorará a cada avaliação. Um teste da significância da tendência entre condições nesta situação foi desenvolvido por Ellis Batten Page, sendo usualmente chamado de teste de tendência de Page para alternativas ordenadas.^[18]

Análise de correspondência baseada no rô de Spearman

A análise de correspondência clássica é um método estatístico que dá um escore para todo valor de duas variáveis nominais. Desta forma, o coeficiente de correlação de Pearson entre eles é maximizado.

Há um equivalente deste método, chamado de análise de correspondência de grau, que maximiza o rô de Spearman e o tau de Kendall.^[19]

Ver também

Referências

↑ Spearman, C. (1904). «The Proof and Measurement of Association between Two Things». The American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159
↑ Kendall, Maurice George; Gibbons, Jean Dickinson (1990). Rank correlation methods (em inglês). [S.l.]: E. Arnold
↑ Lehman, Ann; O'Rourke, Norm; Hatcher, Larry; Stepanski, Edward (2013). JMP for Basic Univariate and Multivariate Statistics: Methods for Researchers and Social Scientists, Second Edition (em inglês). [S.l.]: SAS Institute. ISBN 9781612906034
↑ Myers, Jerome L.; Well, Arnold D.; Jr, Robert F. Lorch (11 de janeiro de 2013). Research Design and Statistical Analysis: Third Edition (em inglês). [S.l.]: Routledge. ISBN 9781135811631
↑ Daniel, Wayne W. (30 de junho de 2000). Applied Nonparametric Statistics (em inglês). [S.l.]: Duxbury. ISBN 9780534381943
↑ Hollander, Myles; Wolfe, Douglas A.; Chicken, Eric (25 de novembro de 2013). Nonparametric Statistical Methods (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118553299
↑ Spiegel, M. R. (1985). Estatistica; resumo da teoria 875 problemas resolvidos 619 problemas propostos. [S.l.]: Fundacao CARGILL
↑ Dodge, Yadolah (15 de abril de 2008). The Concise Encyclopedia of Statistics (em inglês). [S.l.]: Springer Science & Business Media. ISBN 9780387317427
↑ Yule, George Udny; Kendall, Maurice (1950). An Introduction to the Theory of Statistics. G. Udny Yule, ... and M.G. Kendall, ... 14th Edition Revised and Enlarged (em inglês). [S.l.]: C. Griffin
↑ Piantadosi, Julia; Howlett, Phil; Boland, John (maio de 2007). «Matching the grade correlation coefficient using a copula with maximum disorder». Journal of Industrial and Management Optimization. 3 (2). Consultado em 19 de julho de 2017. Arquivado do original em 3 de dezembro de 2013
↑ Corder, Gregory W.; Foreman, Dale I. (20 de setembro de 2011). Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118211250
↑ Bonett, Douglas G.; Wright, Thomas A. (1 de março de 2000). «Sample size requirements for estimating pearson, kendall and spearman correlations». Psychometrika (em inglês). 65 (1): 23–28. ISSN 0033-3123. doi:10.1007/BF02294183
↑ Caruso, John C.; Cliff, Norman (2 de julho de 2016). «Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho». Educational and Psychological Measurement (em inglês). 57 (4): 637–654. doi:10.1177/0013164497057004009
↑ Choi, S. C. (1 de dezembro de 1977). «Tests of equality of dependent correlation coefficients». Biometrika. 64 (3): 645–647. ISSN 0006-3444. doi:10.1093/biomet/64.3.645
↑ Fieller, E. C.; Hartley, H. O.; Pearson, E. S. (1 de dezembro de 1957). «TESTS FOR RANK CORRELATION COEFFICIENTS. I». Biometrika. 44 (3-4): 470–481. ISSN 0006-3444. doi:10.1093/biomet/44.3-4.470
↑ Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (7 de fevereiro de 2002). Numerical Recipes in C++: The Art of Scientific Computing (em inglês). [S.l.]: Cambridge University Press. ISBN 9780521750332
↑ The Advanced Theory of Statistics. Vol. 2: Inference and: Relationsship (em inglês). [S.l.]: Griffin. 1973
↑ Page, Ellis Batten (1 de março de 1963). «Ordered Hypotheses for Multiple Treatments: A Significance Test for Linear Ranks». Journal of the American Statistical Association. 58 (301): 216–230. ISSN 0162-1459. doi:10.2307/2282965
↑ Kowalczyk, Teresa; Pleszczynska, Elzbieta; Ruland, Frederick (6 de dezembro de 2012). Grade Models and Methods for Data Analysis: With Applications for the Analysis of Data Populations (em inglês). [S.l.]: Springer. ISBN 9783540399285

Ligações externas

[1] Spearman, C. (1904). «The Proof and Measurement of Association between Two Things». The American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159

[2] Kendall, Maurice George; Gibbons, Jean Dickinson (1990). Rank correlation methods (em inglês). [S.l.]: E. Arnold

[3] Lehman, Ann; O'Rourke, Norm; Hatcher, Larry; Stepanski, Edward (2013). JMP for Basic Univariate and Multivariate Statistics: Methods for Researchers and Social Scientists, Second Edition (em inglês). [S.l.]: SAS Institute. ISBN 9781612906034

[4] Myers, Jerome L.; Well, Arnold D.; Jr, Robert F. Lorch (11 de janeiro de 2013). Research Design and Statistical Analysis: Third Edition (em inglês). [S.l.]: Routledge. ISBN 9781135811631

[5] Daniel, Wayne W. (30 de junho de 2000). Applied Nonparametric Statistics (em inglês). [S.l.]: Duxbury. ISBN 9780534381943

[6] Hollander, Myles; Wolfe, Douglas A.; Chicken, Eric (25 de novembro de 2013). Nonparametric Statistical Methods (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118553299

[7] Spiegel, M. R. (1985). Estatistica; resumo da teoria 875 problemas resolvidos 619 problemas propostos. [S.l.]: Fundacao CARGILL

[8] Dodge, Yadolah (15 de abril de 2008). The Concise Encyclopedia of Statistics (em inglês). [S.l.]: Springer Science & Business Media. ISBN 9780387317427

[9] Yule, George Udny; Kendall, Maurice (1950). An Introduction to the Theory of Statistics. G. Udny Yule, ... and M.G. Kendall, ... 14th Edition Revised and Enlarged (em inglês). [S.l.]: C. Griffin

[10] Piantadosi, Julia; Howlett, Phil; Boland, John (maio de 2007). «Matching the grade correlation coefficient using a copula with maximum disorder». Journal of Industrial and Management Optimization. 3 (2). Consultado em 19 de julho de 2017. Arquivado do original em 3 de dezembro de 2013

[11] Corder, Gregory W.; Foreman, Dale I. (20 de setembro de 2011). Nonparametric Statistics for Non-Statisticians: A Step-by-Step Approach (em inglês). [S.l.]: John Wiley & Sons. ISBN 9781118211250

[12] Bonett, Douglas G.; Wright, Thomas A. (1 de março de 2000). «Sample size requirements for estimating pearson, kendall and spearman correlations». Psychometrika (em inglês). 65 (1): 23–28. ISSN 0033-3123. doi:10.1007/BF02294183

[13] Caruso, John C.; Cliff, Norman (2 de julho de 2016). «Empirical Size, Coverage, and Power of Confidence Intervals for Spearman's Rho». Educational and Psychological Measurement (em inglês). 57 (4): 637–654. doi:10.1177/0013164497057004009

[14] Choi, S. C. (1 de dezembro de 1977). «Tests of equality of dependent correlation coefficients». Biometrika. 64 (3): 645–647. ISSN 0006-3444. doi:10.1093/biomet/64.3.645

[15] Fieller, E. C.; Hartley, H. O.; Pearson, E. S. (1 de dezembro de 1957). «TESTS FOR RANK CORRELATION COEFFICIENTS. I». Biometrika. 44 (3-4): 470–481. ISSN 0006-3444. doi:10.1093/biomet/44.3-4.470

[16] Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (7 de fevereiro de 2002). Numerical Recipes in C++: The Art of Scientific Computing (em inglês). [S.l.]: Cambridge University Press. ISBN 9780521750332

[17] The Advanced Theory of Statistics. Vol. 2: Inference and: Relationsship (em inglês). [S.l.]: Griffin. 1973

[18] Page, Ellis Batten (1 de março de 1963). «Ordered Hypotheses for Multiple Treatments: A Significance Test for Linear Ranks». Journal of the American Statistical Association. 58 (301): 216–230. ISSN 0162-1459. doi:10.2307/2282965

[19] Kowalczyk, Teresa; Pleszczynska, Elzbieta; Ruland, Frederick (6 de dezembro de 2012). Grade Models and Methods for Data Analysis: With Applications for the Analysis of Data Populations (em inglês). [S.l.]: Springer. ISBN 9783540399285

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]