IA ainda não consegue explicar seu próprio funcionamento interno, diz pesquisa da Anthropic

Pesquisadores da Anthropic divulgaram novos resultados sobre a capacidade de LLM (modelos de linguagem de grande porte) de identificar e descrever seus próprios processos internos. O estudo indica que, apesar de avanços, esses sistemas ainda apresentam uma habilidade “pouco confiável” de introspecção, frequentemente oferecendo explicações que soam plausíveis, mas não correspondem ao que ocorre internamente.
A pesquisa, detalhada no artigo “Emergent Introspective Awareness in Large Language Models” e divulgada no portal ArsTechnica, aprofunda investigações em IA ao tentar separar a descrição textual gerada pelo modelo de seus estados neurais internos reais.
Introspecção em LLMs ainda é limitada
Segundo o estudo, quando questionados sobre como pensam ou por que produzem determinadas resposta
Fontes
- —
Este artigo foi redigido com apoio de ferramentas de IA e revisado por nossa equipe. Citamos as fontes originais e seguimos as políticas do Google Notícias.
