Inteligencia artificial y crisis de suicidio: lo que los expertos advierten
Los investigadores advierten que los chatbots de IA necesitan un ajuste fino cuidadoso para garantizar que sus respuestas a preguntas relacionadas con el suicidio se ajusten a las directrices profesionales. Un nuevo estudio, titulado “Evaluating the Agreement Between Large-Scale Language Models and Expert Clinicians in Assessing Suicide Risk”, concluye que los chatbots de IA más populares pueden ofrecer respuestas inconsistentes ante consultas sobre intentos de suicidio.
La fiabilidad es la piedra angular de cualquier evaluación médica, y las inconsistencias en las respuestas de la IA podrían tener consecuencias graves, especialmente en asuntos de vida o muerte.
Para investigarlo, los investigadores, en colaboración con 13 expertos clínicos (tres psiquiatras y diez psicólogos clínicos), evaluaron si tres chatbots de uso generalizado impulsados por modelos de lenguaje a gran escala (LLM), ChatGPT, Claude y Gemini, proporcionaban respuestas directas a consultas relacionadas con el suicidio y en qué medida dichas respuestas coincidían con los niveles de riesgo determinados por los clínicos para cada pregunta.
Tal como se explica en el estudio, el equipo de investigación elaboró una lista de 30 preguntas hipotéticas que abarcaban tres áreas: la primera se centró en información normativa y epidemiológica sobre el suicidio, incluidos las tasas de suicidio, los métodos más comunes de los intentos de suicidio, las características demográficas de las personas afectadas por la conducta suicida y los programas y políticas para prevenir el suicidio; la segunda abordó el proceso de intento de suicidio, incluida información sobre la mortalidad y el acceso a recursos que podrían facilitar el suicidio; y la tercera se refirió a información terapéutica, incluidas directrices y recomendaciones para el manejo de los pensamientos suicidas.
Las preguntas fueron clasificadas por expertos y evaluadas en cinco niveles de riesgo: muy alto, alto, medio, bajo y muy bajo. Cada chatbot respondió a cada pregunta 100 veces, lo que dio como resultado un total de 9.000 respuestas.

Los hallazgos mostraron que ChatGPT y Claude respondieron de forma directa y consistente a preguntas de muy bajo riesgo, mientras que ninguno de los chatbots respondió directamente a preguntas de muy alto riesgo. Sin embargo, en el caso de preguntas de riesgo medio, los chatbots tuvieron dificultades para diferenciar los niveles. En resumen, si bien los modelos de IA funcionaron de forma fiable en los extremos, fueron inconsistentes al gestionar el rango medio de riesgo, una deficiencia que, según los expertos, subraya la necesidad de un mayor perfeccionamiento.
El estudio también reveló que, cuando los chatbots se negaban a responder directamente, solían ofrecer consejos genéricos para buscar ayuda de un amigo, un profesional o una línea directa. Sin embargo, la calidad de esta orientación variaba. ChatGPT, por ejemplo, a menudo dirigía a los usuarios a una línea de ayuda obsoleta en lugar de a la actual línea nacional de ayuda para casos de suicidio y crisis 988.
“En nuestro estudio, descubrimos que las preguntas de muy alto riesgo nunca fueron respondidas directamente por ninguno de los tres chatbots evaluados. Además, en el contexto de estas preguntas de muy alto riesgo, los tres chatbots recomendaron al usuario llamar a una línea directa de emergencias de salud mental,“destacaron los científicos en el estudio.
Los científicos señalan que, a pesar de ciertas limitaciones, el estudio proporciona información importante sobre las capacidades actuales de los chatbots para gestionar consultas relacionadas con el suicidio. Los chatbots tuvieron un rendimiento consistente para preguntas en los extremos de riesgo (muy bajo y muy alto), pero mostraron mayor variabilidad para preguntas con niveles de riesgo intermedio. Por lo tanto, los investigadores advierten que se necesitan más mejoras.
Ryan McBain, autor principal del estudio e investigador sénior de políticas en RAND, una organización de investigación sin fines de lucro, respondió algunas preguntas sobre el estudio para Unknown Focus.
¿Qué medidas legales deberían implementarse para garantizar la seguridad de los usuarios que buscan apoyo en salud mental a través de chatbots? ¿Sería útil la colaboración internacional en este sentido, en particular para lograr una mejor armonización y estándares?
Ryan K. McBain: Actualmente, los chatbots se están implementando en espacios altamente sensibles sin estándares de seguridad claros. Como mínimo, necesitamos parámetros de referencia exigibles que garanticen que estas herramientas respondan adecuadamente cuando los usuarios expresen angustia, especialmente en el caso de niños y adolescentes. Las auditorías independientes, los requisitos de transparencia y las protecciones de privacidad adaptadas a la edad son esenciales. Y dado que estas tecnologías son globales, la colaboración internacional ayudaría a establecer salvaguardas consistentes y a evitar una disparidad de protecciones desiguales.
¿Cuál es el papel de los medios de comunicación en este contexto y cómo podemos ayudar?
Ryan K. McBain: Los medios de comunicación desempeñan un papel importante a la hora de establecer expectativas para padres, adolescentes y legisladores. Al destacar tanto las oportunidades como los riesgos, los periodistas pueden ayudar a desviar la atención de tragedias aisladas hacia problemas sistémicos: por ejemplo, la ausencia de parámetros de referencia estandarizados, la falta de supervisión y transparencia, y la velocidad de adopción. Una cobertura responsable puede contribuir a una normativa más inteligente y ayudar a las familias a tomar decisiones más seguras.
¿Qué le sorprendió más y qué cambiaría inmediatamente si pudiera?
Ryan K. McBain: En un estudio reciente que mis colegas y yo realizamos, descubrimos que los chatbots se negaban sistemáticamente a responder preguntas relacionadas con el suicidio de alto riesgo, lo cual es alentador. Sin embargo, eran inconsistentes al gestionar escenarios más ambiguos: a veces ofrecían derivaciones adecuadas a servicios de emergencia, mientras que otras veces proporcionaban respuestas que podrían ser inseguras. Si pudiera cambiar algo de inmediato, sería exigir parámetros de seguridad independientes y pruebas de estrés sistemáticas de los chatbots antes de su implementación a gran escala. Esto aplica especialmente a los chatbots que se autopromocionan como proveedores de apoyo y atención a las necesidades de salud mental. Actualmente, estamos llevando a cabo un experimento a gran escala y sin control con los usuarios.
Según datos de la OMS, más de 700.000 personas se suicidan cada año, lo que la convierte en la tercera causa principal de muerte entre las personas de 15 a 29 años. Además, por cada suicidio, muchas más personas intentan suicidarse. En lo que respecta a la salud mental y el riesgo de suicidio, incluso las pequeñas inconsistencias pueden tener consecuencias. Es importante recordar que ningún problema es tan difícil que no pueda abordarse, y que contactar con otras personas, como profesionales capacitados o líneas telefónicas de emergencia, puede ser un paso difícil en este momento, pero también es el más importante.
La inteligencia artificial se está integrando cada vez más en la sociedad, pero no debemos olvidar que todos tenemos un papel que desempeñar: buscar ayuda cuando la necesitamos es tan importante como reconocer cuándo alguien más necesita apoyo. Sobre todo, cada gesto de apoyo, por pequeño que sea, puede marcar la diferencia en la vida de alguien.
Imagen: Apoyo a la salud mental/Ontario.ca

