Ensayo editorial

De pixeles a caracteres

Esta es una página donde vive un efecto que convierte imágenes y video a caracteres ASCII.

Encontré este efecto por casualidad cuando estaba probando comandos de reproducción de vídeos con VLC en una raspberry pi. Intenté usar el comando CVLC que, según la documentación, sirve para reproducir un video sin interfaz gráfica. Para mi sorpresa el video se empezó a reproducir en la misma terminal de comandos, con caracteres y fondos de color. Me sorprendió que todos los colores del video estuvieran representados.

Comparación entre una versión en caracteres y la imagen original de un castillo

Luego, buscando cómo funciona esta reproducción en VLC, encontré que usa una librería que se llama caca, que aplica una serie de ecuaciones y algoritmos para traducir el color de los píxeles de la imagen a combinaciones de caracteres y fondos de color.

Esta capacidad de traducir las imágenes en textos con caracteres me hizo pensar en los LLM que se hicieron populares desde la salida de chatGPT. Estos modelos nos hacen pensar que "entienden" lo que les preguntamos, que "reflexionan" cuando les pedimos una explicación, pero en verdad solamente son algoritmos entrenados con mucha información para predecir cómo tiene que continuar un texto.

Escuché el otro día una entrevista de Andrej Karpathy donde dice: "(los modelos de IA) They are not very good at code that has never been written before", "no son muy buenos escribiendo código que nunca ha sido escrito".

Me pareció interesante esta aclaración. Llamamos inteligencia a herramientas que no son buenas generando ideas nuevas. Los modelos de inteligencia artificial están entrenados con el objetivo de predecir la siguiente palabra, basándose en todo lo que se ha escrito anteriormente. Pero si me preguntan a mí, no se si llamaría a eso inteligencia. Si una persona pudiera conocer todo lo que se ha escrito alguna vez, en todo caso lo que tendría sería una buena memoria.

De todas formas, no soy un negador de la tecnología. Creo que con las nuevas herramientas que salieron al público en los últimos años se amplía nuestra capacidad de acción. Pero también estoy preocupado por la dependencia cognitiva que pueden generar estas nuevas herramientas. Cuando la respuesta más probable es casi siempre la correcta, dónde se puede hacer lugar a las nuevas respuestas?

El efecto de caracteres ASCII me parece, de alguna manera, una metáfora de cómo funcionan los modelos. Siempre intentan convertir toda la información a lenguaje escrito. Pero en esa traducción algo se pierde. Información se escurre en los trazos gruesos de la probabilidad.

Seguramente los modelos sigan mejorando, y en el futuro se les escape cada vez menos de lo que sucede en el mundo. Pero aun en ese futuro creo que la creatividad de las personas, de combinar sus experiencias personales con un lenguaje común, seguirá siendo la verdadera fuente de nuevas ideas.

Referencias

Consultas sobre la herramienta o el sitio pueden enviarse a haiku8889@gmail.com.