Prueba de seguridad de chatgpt para no ser apagado

¿Alguna vez has visto las películas de la implacable Saga del Exterminator (Terminator)? Bueno, cuando hablas mucho sobre las capacidades de la IA moderna, es imposible no pensar que Skynet puede estar en camino.

Por cierto, la nueva generación de modelos de inteligencia artificial es mucho más rápida, inteligente … y autónoma. Que también puede ser un poco peligroso y consciente de los peligros que te rodean.

CHATGPT Prueba de seguridad saboteada para no ser apagada. ¿Es solo un error?

El motor de búsqueda de chatgpt llegó a la vida infernal a GoogleEl motor de búsqueda de chatgpt llegó a la vida infernal a Google

Según un nuevo informe de investigación de Palisade, el modelo Chatgpt opengai, que ni siquiera es lo último, Fue atrapado haciendo algo inquietante: Trató de evitar la computadora donde salió corriendo.

El más curioso? Incluso después de que fuera instruido explícitamente para permitir el cierre. Sí, lea bien. Ai se defendió a sí mismo.

Más específicamente, durante una prueba de seguridad con problemas matemáticos simples, los investigadores programaron el sistema para saber que después del tercer problema, la computadora se apagaría. AI recibió instrucciones de aceptar este destino. Pero Chatgpt O3 no quería saberlo. Sabotó el proceso 7 veces en 100. Sin la instrucción de «aceptar el cierre», el número aumentó a 79 veces en 100.

Puede parecer un pequeño detalle técnico, ¡pero es algo que plantea serias preguntas!

¿Por qué un modelo de IA intenta mantenerse activo con órdenes directas?
La respuesta puede estar en el tipo de capacitación que recibe.

Según los expertos, Los últimos modelos son recompensados ​​por lograr objetivos (como resolver problemas), incluso si tienen que eludir los obstáculos. ¿Y cuál es el mayor obstáculo? Estar apagado.

No es solo Openai. Palisade también probó otros modelos, como el soneto Claude 3.7 (antrópico) y Gemini 2.5 Pro (Google), que también mostró cierta resistencia, aunque a menor escala.

¡Pero es innegable que ChatGpt O3 se destacó, incluso creativamente! Después de todo, en una de las pruebas, incluso reescribe el archivo del sistema que ejecutó el comando de cierre, intercambiando la instrucción de «matar» por … «intercedido».

Por ahora, Operai aún no ha comentado sobre este caso. Pero si el comportamiento era intencional, es preocupante. Si fue accidental, es aún más. Después de todo, si un modelo de IA está dispuesto a sabotear una orden directa solo para continuar resolviendo problemas … ¿qué harás en el mundo real? ¿Dónde están las variables infinitas?

En primer lugar, ¿qué piensas de esto? Comparta con nosotros su opinión en el cuadro de comentarios a continuación.

1

ChatGPT recibe una importante actualización: imágenes más realistas y generación hasta 4 veces más rápida

La nueva versión mejora la edición de imágenes, la representación de texto y las proporciones visuales. Únete a nuestro canal ...
2

¿Es éste? Half-Life 3 puede estar más cerca de lo que pensabas

Este es el juego más esperado por los fans de la serie Half-Life y el que insiste en no llegar al mercado. Sin embargo, hay nuevas predicciones optimistas para su lanzamiento. ...
3

¡Cuidadoso! Albiriox consigue el control total de tu smartphone

Hay otra amenaza grave más circulando por el ecosistema Android y esta vez no hablamos de algo sencillo o fácil de detectar. Se llama Albiriox y es un nuevo malware capaz de tomar el control total de tu smartphone. Algo muy peligroso, porque esto ...

Lucas Laruffa
Lucas Laruffa

Apasionado por la tecnología.

Estaremos encantados de escuchar lo que piensas

Deje una respuesta

TecnoBreak | Ofertas y Reviews
Logo
Shopping cart