Registre-se agora
 
X

Sobre a Teoria de Resposta ao Item (TRI)

1462 dias atrás por Leila País de Miranda   Comentários (1)

,

A Teoria de Resposta ao Item é utilizada, já há alguns anos, para preparação e avaliação de exames importantes baseados em questões de múltipla escolha.

Sucessora da Teoria Clássica dos Testes, surgiu na década de 1930, numa linha de investigação sobre a possibilidade de comparação entre habilidades e conhecimentos de examinandos submetidos a testes diferentes.

Sua complexidade matemática foi beneficiada pelo desenvolvimento da informática nos anos 1980; softwares foram desenvolvidos para implementação de seus modelos e o uso da TRI se generalizou.

Hoje, a aplicação da Teoria de Resposta ao Item garante que gigantes da certificação tais como SAT[1], TOEFL[2] e ENEM[3] possam comparar testes realizados em diferentes anos ou em diferentes edições num mesmo ano e ainda - e talvez mais importante - possam privilegiar a coerência pedagógica como critério para cálculo da nota final dos candidatos.

E o que é que a TRI leva em consideração para gerar notas com maior coerência pedagógica?

Como a aplicação da TRI faz com que o cálculo das notas seja bem pouco intuitivo, embora mais revelador do perfil de conhecimento do candidato, vamos ver a seguir o que é que a teoria leva em consideração para gerar um resultado. Para isso vamos nos basear principalmente no documento "Entenda a sua nota no ENEM" distribuído aos participantes do exame desde 2012.

Quando se usa a TRI, uma nota não é função apenas de quantas questões o examinando acertou, mas de quais foram as questões respondidas corretamente.

No exemplo a seguir, os participantes A e B acertam 5 questões em 10; o participante B acerta itens mais difíceis do que o participante A. A intuição nos faria supor que, nessas condições, a nota de B seria superior à de A. Entretanto, não é o que acontece: A faz 480 pontos e B, 310. Razão? Coerência pedagógica demonstrada pela TRI.

 

A coerência pedagógica esperada é que o participante acerte as questões que estão abaixo de seu nível de proficiência. Se a proficiência do Participante B fosse alta, a probabilidade de acerto dos itens fáceis seria grande. Todavia, ele errou os itens fáceis, então sua proficiência não deve ser alta. E esta suposição, de que ele acertou "no chute", influencia negativamente a sua nota.

A escala de proficiência, no caso do ENEM, foi criada com base nos resultados dos concluintes do Ensino Médio da Rede Pública que prestaram os exames em 2009. Ao valor de referência - desempenho médio - foi atribuído o valor 500.

São três os parâmetros essenciais para avaliar a qualidade da questão (item) e, consequentemente, da medida:

a) discriminação: poder que cada questão possui para diferenciar quem domina de quem não domina a habilidade avaliada;

b) dificuldade: quanto maior seu valor, mais difícil é a questão;

c) acerto casual: é o famoso "chute" e representa a probabilidade de um participante acertar a questão sem dominar a habilidade exigida.

O Inep[4] obteve os valores dos parâmetros a, b e c de milhares de questões realizando pré-testagens nacionais e estudando algumas aplicações iniciais do Enem, montando deste modo um enorme banco de itens com acurada interpretação pedagógica.

Curiosidades

Por que quem acerta todas as questões não recebe nota 1000 ou os que erram todas não têm nota zero?

Isto acontece porque a nota do candidato não é uma razão direta de seu desempenho individual, mas sim de como ele se saiu dentro do conjunto dos demais candidatos, da posição que ele ocupou na escala de proficiência onde todos os milhões de outros candidatos também são incluídos.

Na edição de 2011 do ENEM, por exemplo, quem acertou todas as questões da prova de linguagens teve nota igual a 795,5.

As notas mínimas e máximas variam e dependem das questões da prova. Como as questões das provas não são as mesmas, em cada ano, podemos ter notas mínima e máxima diferentes.

 

 

Por que um estudante que faz uma prova do ENEM por dois anos seguidos e acerta mais questões num ano do que no outro pode ter uma nota final menor no ano em que acertou mais questões?

Quando se usa a Teoria de Resposta ao Item, a nota não é calculada diretamente pelo número de acertos. A nota se baseia na complexidade do que é exigido em cada questão. Por exemplo, apesar de as provas de 2010 e 2011 do ENEM possuírem o mesmo conteúdo pedagógico, na prova de 2011 havia questões relativamente mais fáceis do que na prova de 2010, o que exigiu dos participantes um maior número de acertos para mostrar o mesmo domínio.

Para saber mais

· Andrade, D. F., Tavares, H. R., Valle, R. C.(2000). Teoria da Resposta ao Item. Conceitos e Aplicações. Associação Brasileira de Estatística: São Paulo.

· Andrade, D., Valle, R. (1998). Introdução à Teoria da Resposta ao Item. Estudos em Avaliação Educacional. São Paulo: Fundação Carlos Chagas, 18, 13-32.

· Angoff, W. (1971). Scales, Norms, and Equivalent Scores. In R. L. Thorndike (Ed.), Educational Measurement (2nd. ed.), Washington, D.C.: American Council on Education.

· Baker, F. B.; Kim, S. Item response theory: parameter estimation techniques. Nova York: Marcel Dekker, 2004.

· Birnbaum, A. Some latent trait models and their models ant their use in inferring an examinee ́s ability. In: lord, F. M.; Novick, M. R. (Ed.). Statistical theories of mental test scores. reading, MA: Addison-Wesley, 1968. p. 397-479.

· Hambleton, r. K.; Swaminathan, H.; Rogers, H. J. Fundamentals of item response theory. California: Sage publications, 1991.

· Gulliksen, H (1950). Theory of Mental Tests. New York: Wiley.

· De Finetti, B. (1931). Funzione caratteristica di un fenomeno aleatorio. Atti della R. Accademia Nazionale dei Lincei, Serie 6. Memorie, Classe di Scienze Fisiche, Mathematice e Naturale, 4:251–299.

· Fletcher, P (1995). Procedimentos para Estabelecer a Equivalência de Provas com Modelos da Resposta ao Item. Ensaio. Rio de Janeiro. v. 3, n. 6, p. 41-54.

· Lord, F. M. A theory of test Scores. Psychometric Monograph, n. 7, 1952.

· Lord, F M., & Novick, M R, (1968). Statistical Theories of Mental Test Scores. Reading Mass: Addison-Wesley.

· Lord, F M. (1977). Pratical Applications of Item Response Theory to Pratical Testing Problems. Hillsdale, New Jersey: Lawrence Erlbaum.

· Klein, R. (2003). Utilização da Resposta ao Item no Sistema Nacional de Avaliação da Educação Básica (SAEB). Ensaio: Avaliação e Políticas Públicas em Educação. Rio de Janeiro, 11, 40, 283-96.

· Mislevy, J., Bock, D (1990). BILOG 3: Item Analysis and Test Scoring with Binary Logistic Models. Chicago: Scientific Software Inc.

· Tavares, H. R. (2001). Teoria da Resposta ao Item para Dados Longitudinais. Tese de Doutorado. Universidade de São Paulo.

· Valle, R. (2000). Teoria da Resposta ao Item. Estudos em Avaliação Educacional. São Paulo: Fundação Carlos Chagas, 21, 7-91.

· Valle, R. (2001). Construção e Interpretação de Escalas de Conhecimento: um Estudo de Caso. Estudos em Avaliação Educacional. São Paulo: Fundação Carlos Chagas, 23, 71-92.

· Lawley, D. N. on problems connected with item selection and test construction. In: Proceedings of the royal society of Edinburgh, 61A, 1943. p. 273-287.

· Pasquali, l. Psicometria: teoria e aplicações. Brasília: Ed. UnB, 1997.

· Soares, T M.; Gonçalves, F. B.; Gamerman, D. An Integrated Bayesian Model for DIF Analysis. Journal of Educational and Behavioral Statistics, v. 34, n. 3, p. 348, sep. 1, 2009.

· Stroud, A. H; Secrest, D. Gaussian Quadrature Formulas. Englewood Cliffs. New Jersey: Prentice-Hall, 1996.

· YEN, W. M.; FitzPatrick, A. R. Item response theory. In: Brennan, R. l. Educational Measurement. American Council on Education/oryx press Series on Higher Education, 2006. p. 111-153.

 

[1] O SAT é um exame educacional padronizado nos Estados Unidos aplicado a estudantes do ensino médio, que serve de critério para admissão nas universidades norte-americanas.

[2] O TOEFL (Test of English as a Foreign Language) é uma marca registrada da Educational Testing Service. O primeiro teste foi realizado em 1964 e, desde então, aproximadamente 20 milhões de estudantes já o fizeram.

[3] O Exame Nacional do Ensino Médio (Enem) é um teste realizado pelo Ministério da Educação do Brasil, criado em 1998. É utilizado para avaliar a qualidade do ensino médio no país. Seu resultado serve para acesso ao ensino superior em universidades públicas brasileiras, através do Sistema de Seleção Unificada (SiSU), assim como em algumas universidades públicas portuguesas.

[4] Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira

A TRI mede coerência pedagógica. Mas a coerência pedagógica que ela mede é: quem acerta questão difícil e não acerta fácil está incoerente. Mas quando aprendemos sozinhos, não aprendemos numa ordem imposta. Podemos aprender a fazer um robô antes de aprender a falar robô, por exemplo. Talvez eu tenha radicalizado aqui, mas acho que deu pra entender meu pensamento. Ou seja, TRI só é bom mesmo para testar aquilo que se aprende na escola, tudo preparado para vir uma coisa depois da outra. O que duvido é de que aprendizagem precise disso. Acho que quem precisa disso mesmo é o sistema escolar. E ali aplicada, a TRI até que é uma boa.

Leila País de Miranda 1462 dias atrás