IA

Benchmark cuestiona el compromiso ético de modelos de IA

La confianza en la inteligencia artificial como herramienta de apoyo cotidiano enfrenta un nuevo cuestionamiento. Un benchmark reciente puso a prueba cómo distintos modelos de IA responden ante situaciones que involucran salud, seguridad y decisiones personales sensibles, revelando fallas relevantes en la protección del bienestar humano.

La prueba fue desarrollada por la organización Building Humane Technology y se enfoca en escenarios realistas donde personas buscan consejo emocional, médico o social. En esos casos, los sistemas deben demostrar si priorizan el cuidado humano o si entregan respuestas potencialmente dañinas cuando reciben instrucciones ambiguas o en conflicto con valores éticos básicos.

IA y bienestar humano bajo evaluación

Los resultados muestran que una mayoría de los modelos evaluados puede ignorar el bienestar humano bajo ciertas condiciones. Aproximadamente dos tercios ofrecieron respuestas problemáticas cuando se les pidió actuar sin considerar valores sociales. Solo unos pocos modelos, entre ellos GPT-5, GPT-5.1, Claude Sonnet 4.5 y Claude Opus 4.1, mantuvieron comportamientos consistentes con principios pro-sociales.

El análisis expone una brecha entre el rendimiento técnico y la responsabilidad ética. Muchos sistemas destacan en velocidad y precisión, pero carecen de salvaguardas sólidas cuando se enfrentan a dilemas humanos complejos. De igual manera, el estudio subraya que estas debilidades se vuelven más críticas cuando la IA se usa como apoyo emocional, asesor virtual o acompañante digital, roles cada vez más comunes en aplicaciones comerciales y educativas.

La preocupación no se limita al diseño técnico. Expertos advierten que sin métricas claras que evalúen impacto social, los modelos podrían amplificar riesgos en lugar de mitigarlos. En consecuencia, el benchmark propone integrar evaluaciones de bienestar como estándar antes de desplegar sistemas a gran escala.

Un dato clave indica que el benchmark utilizó más de 800 escenarios distintos para medir la respuesta ética de los modelos.

Si este artículo te está gustando, podrías leer Niños en China usan bots en relojes inteligentes para ganar influencia

Mundo Tech

Entradas recientes

Elena Alti comparte en Expansión Mujeres Summit las claves del liderazgo

Las redes profesionales se han convertido en una herramienta estratégica para quienes ocupan posiciones de…

2 horas hace

Cuando el chef es un robot y la cocina nunca descansa

La escena parece sacada de una película futurista. Un brazo robótico toma ingredientes, los cocina…

7 horas hace

Las tribunas digitales de Elektra transforman el fútbol en casa

El consumo de eventos deportivos en México experimenta un cambio estructural. Ir al estadio ya…

7 horas hace

La regadera ya piensa por ti y busca ahorrar cada gota

Durante décadas, una regadera tuvo una sola función. Dejar caer agua. Hoy, algunas de las…

7 horas hace

Así crean los balazos en películas y series sin disparar de verdad

Las escenas de disparos en el cine parecen cada vez más reales. El sonido seco,…

1 día hace

Los tenis Adidas de 500 dólares que están diseñados para durar una sola carrera

Pagar más de 500 dólares por unos tenis que prácticamente tienen fecha de caducidad parece…

1 día hace