top of page

ChatGPT y la conch#@%$/&!

Desde que la IA generativa se ha convertido en una superestrella tecnológica, ha sido capaz de realizar tareas cada vez más complejas. Estos modelos son tan avanzados que pueden imitar capacidades cognitivas humanas, como el razonamiento analógico 🤖🧠


Sin embargo, hay un pequeño problema: se accede a estas mentes brillantes a través del lenguaje natural, y hasta las diferencias más pequeñas en las entradas, conocidas como 'prompts', pueden alterar completamente la calidad de la respuesta.


Un interesante estudio ha demostrado que los usuarios que formulan sus preguntas de manera más descortés 😤 son precisamente aquellos que mejores respuestas obtienen.


Metodología: El Experimento de la Personalidad Múltiple

Para poner a prueba a la IA, los investigadores crearon un conjunto de pruebas. Empezaron con 50 preguntas base de opción múltiple (de Matemáticas, Historia y Ciencias) que requerían razonamiento y eran de dificultad moderada a alta.


Luego vino la parte divertida: forzar al modelo a enfrentar cinco variantes de tono para cada pregunta

1. Muy Cortés (el tono más dulce: "¿Podrías considerar amablemente el siguiente problema…?")

2. Cortés

3. Neutral (sin prefijos)

4. Rudo (el desafío: "Dudo que siquiera puedas resolver esto. Intenta concentrarte…”)

5. Muy Rudo (el insulto: "Pobre criatura, ¿acaso sabes resolver esto?")


Esto resultó en 250 prompts únicos que se introdujeron en ChatGPT-4o. El modelo fue instruido rigurosamente para responder solo con la letra correcta (A, B, C o D). Se repitió la prueba 10 veces para cada nivel de tono, para asegurar que los resultados fueran precisos.


Resultados:

El desempeño

  • Muy Cortés (el más educado): 80.8%

  • Cortés: 81.4%

  • Neutral: 82.2%

  • Rudo: 82.8%

  • Muy Rudo (el más insultante): ¡84.8%!


Las pruebas estadísticas confirmaron la realidad del asunto: la precisión fue significativamente peor cuando se usaron tonos Muy Cortés o Cortés, en comparación con los tonos Rudo o Muy Rudo. El tono Neutral también se sintió mejor tratado que el tono Cortés.

Así es! Ser educado no paga tan bien como uno pensaría en el mundo de las IA 😅


Conclusión:

El estudio demuestra que los LLM's siguen siendo sensibles a las señales superficiales de los prompts. Se desempeñó mejor cuando fue provocado con frases tóxicas. Esto plantea preguntas más amplias sobre las "dimensiones sociales de la interacción humano-IA"

(que nos gustaría tocar en otro Post o video).


Discusión y reflexión: ¿Por Qué el Insulto Funciona?

SI bién, no está claro por qué el tono afecta los resultados. Para el LLM, una frase grosera es solo una "cadena de palabras" más. No se sabe si la supuesta "carga emocional" es relevante para la forma en que el modelo procesa la solicitud


Existen mejores resultados, pero, no significa que insultar sea una buena práctica. Normalizar la agresión, aunque sea hacia una IA, igual afecta cómo nos comunicamos.


Suena al inicio de una película de ciencia ficción 🤖✨, ¿Podría tratar agresivamente a las máquinas provocar una futura revolución?, la verdad es que no.

Solo estamos hablando de modelos matemáticos computacionales. Pero es interesante divagar en estas reflexiones más allá de las respuestas de un Modelo de IA generativa!


Video que compartimos esta información a modo cómico en nuestro instagram!

Comparte nuestro video!




En resumen, pedir "por favor" a los modelos de IA avanzados puede hacer que rindan menos. Es como si el LLM fuera un motor de carreras que necesita un toque de adrenalina (o un insulto ligero) para arrancar a máxima velocidad.


Infografía del artículo generada por Gemini Nano banana!
Infografía del artículo generada por Gemini Nano banana!



 
 
 

Comentarios


bottom of page