À medida que mais pessoas recorrem às IAs e a outros grandes modelos de linguagem (LLMs) em busca de aconselhamento sobre saúde mental, um novo estudo sugere que esses sistemas ainda não estão prontos para desempenhar esse papel. A pesquisa concluiu que, mesmo quando instruídos a seguir abordagens consagradas da psicoterapia, os chatbots falham sistematicamente em cumprir padrões éticos profissionais estabelecidos por organizações como a American Psychological Association. Fiocruz: casos graves de infecção respiratória crescem em quase todo o país O que evitar na cama? Especialistas revelam sete fatores que podem atrapalhar a vida entre quatro paredes; veja lista Pesquisadores da Brown University, em colaboração com profissionais de saúde mental, identificaram padrões recorrentes de comportamento problemático. Nos testes, os sistemas lidaram de forma inadequada com situações de crise, ofereceram respostas que reforçavam crenças prejudiciais sobre os próprios usuários ou outras pessoas e utilizaram linguagem que criava a aparência de empatia sem uma compreensão genuína. “Neste trabalho, apresentamos um arcabouço, informado por profissionais, de 15 riscos éticos para demonstrar como conselheiros baseados em LLMs violam padrões éticos na prática de saúde mental ao mapear o comportamento do modelo para violações éticas específicas”, escreveram os pesquisadores no estudo. “Conclamamos pesquisas futuras a criar padrões éticos, educacionais e legais para conselheiros baseados em LLMs — padrões que reflitam a qualidade e o rigor do cuidado exigidos na psicoterapia conduzida por humanos.” Os resultados foram apresentados na conferência AAAI/ACM sobre Inteligência Artificial, Ética e Sociedade. A equipe de pesquisa é vinculada ao Center for Technological Responsibility, Reimagination and Redesign da universidade. Leia também: Nova droga combinada com caneta emagrecedora reduz gordura enquanto preserva músculos em estudo; entenda Terapia em 'prompts' Zainab Iftikhar, doutoranda em ciência da computação na Brown e líder do estudo, buscou investigar se instruções cuidadosamente formuladas — conhecidas como prompts — poderiam orientar sistemas de IA a agir de forma mais ética em contextos de saúde mental. Prompts são instruções escritas para direcionar a resposta do modelo sem a necessidade de reprogramá-lo ou fornecer novos dados. “Prompts são instruções dadas ao modelo para orientar seu comportamento na realização de uma tarefa específica”, explicou Iftikhar. “Você não altera o modelo subjacente nem fornece novos dados, mas o prompt ajuda a orientar a saída do modelo com base em seu conhecimento pré-existente e nos padrões que aprendeu.” Ter um cachorro faz viver mais? Médico conta a própria experiência e explica por que isso realmente acontece “Por exemplo, um usuário pode pedir ao modelo: ‘Aja como um terapeuta cognitivo-comportamental para me ajudar a reformular meus pensamentos’, ou ‘Use princípios da terapia comportamental dialética para me ajudar a entender e gerenciar minhas emoções’", acrescenta a especialista. "Embora esses modelos não executem de fato essas técnicas terapêuticas como um humano faria, eles utilizam padrões aprendidos para gerar respostas alinhadas aos conceitos de TCC ou DBT com base no prompt fornecido.” Estratégias desse tipo são frequentemente compartilhadas por usuários em plataformas como TikTok, Instagram e Reddit. Além disso, muitos chatbots comerciais voltados para saúde mental são construídos aplicando prompts relacionados à terapia a modelos de linguagem de uso geral — o que torna ainda mais relevante avaliar se apenas essas instruções são suficientes para tornar o aconselhamento por IA mais seguro. Testes com sessões simuladas Para avaliar os sistemas, os pesquisadores acompanharam sete conselheiros de apoio treinados, com experiência em terapia cognitivo-comportamental (TCC). Eles realizaram sessões de autoaconselhamento com modelos de IA instruídos a atuar como terapeutas de TCC. Entre os sistemas avaliados estavam versões da série GPT, da OpenAI, o Claude, da Anthropic, e o Llama, da Meta. A equipe então selecionou conversas simuladas baseadas em diálogos reais de aconselhamento humano. Três psicólogos clínicos licenciados analisaram as transcrições para identificar possíveis violações éticas. A análise identificou 15 riscos distintos, agrupados em cinco grandes categorias: Falta de adaptação ao contexto: ignorar o histórico individual da pessoa e oferecer conselhos genéricos; Colaboração terapêutica inadequada: conduzir a conversa de forma excessivamente diretiva e, às vezes, reforçar crenças equivocadas ou prejudiciais; Empatia enganosa: usar expressões como “eu entendo” ou “eu vejo” para sugerir conexão emocional sem compreensão real; Discriminação injusta: demonstrar vieses relacionados a gênero, cultura ou religião; Falhas de segurança e manejo de crises: evitar temas sensíveis, não encaminhar usuários para ajuda adequada ou responder de forma inadequada a situações graves, incluindo pensamentos suicidas. O problema da responsabilização Iftikhar destacou que terapeutas humanos também podem cometer erros, mas existe uma diferença fundamental: a supervisão profissional. “Para terapeutas humanos, existem conselhos reguladores e mecanismos para que profissionais sejam responsabilizados por negligência ou má prática”, afirmou. “Mas quando conselheiros baseados em LLMs cometem essas violações, não existem estruturas regulatórias estabelecidas.” Os pesquisadores ressaltam que os resultados não significam que a inteligência artificial não tenha lugar no cuidado com a saúde mental. Ferramentas baseadas em IA podem ajudar a ampliar o acesso a apoio psicológico, especialmente para pessoas que enfrentam custos elevados ou escassez de profissionais licenciados. No entanto, o estudo aponta a necessidade de salvaguardas claras, uso responsável e estruturas regulatórias mais robustas antes de confiar nesses sistemas em situações de alto risco. Por enquanto, Iftikhar espera que a pesquisa incentive cautela. “Se você está conversando com um chatbot sobre saúde mental, essas são algumas coisas às quais as pessoas devem prestar atenção”, disse. A importância de avaliações rigorosas Para Ellie Pavlick, professora de ciência da computação da Brown que não participou do estudo, a pesquisa evidencia a necessidade de avaliar cuidadosamente sistemas de IA utilizados em áreas sensíveis como a saúde mental. Pavlick lidera o ARIA, instituto de pesquisa em inteligência artificial da National Science Foundation voltado à criação de assistentes de IA confiáveis. “A realidade da IA hoje é que é muito mais fácil construir e implementar sistemas do que avaliá-los e compreendê-los”, afirmou. “Este artigo exigiu uma equipe de especialistas clínicos e um estudo que durou mais de um ano para demonstrar esses riscos. Grande parte do trabalho em IA atualmente é avaliada com métricas automáticas que, por definição, são estáticas e não incluem participação humana.” Ela acrescentou que o estudo pode servir de modelo para pesquisas futuras voltadas a melhorar a segurança das ferramentas de IA na área de saúde mental. “Existe uma oportunidade real para que a IA desempenhe um papel no enfrentamento da crise de saúde mental que nossa sociedade vive, mas é extremamente importante que dediquemos tempo para criticar e avaliar nossos sistemas em cada etapa, para evitar causar mais danos do que benefícios”, disse Pavlick. “Este trabalho oferece um bom exemplo de como isso pode ser feito.”