Ir al contenido principal

Codex CLI para automatizar flujos de trabajo de datos: guía completa

Domina Codex CLI de OpenAI para automatizar flujos de trabajo de datos. Aprende a hacer EDA, crear pipelines ETL en Python y generar tests directamente desde tu terminal local.
Actualizado 14 abr 2026  · 15 min leer

Si trabajas con datos, seguramente lidias a diario con muchas tareas de código repetitivas. Cosas como perfilar conjuntos de datos completamente nuevos, construir pipelines de datos desde cero o escribir a mano tests de transformación. Son tareas necesarias, pero consumen muchísimo tiempo. 

¿Y si tu terminal pudiera encargarse de ese código boilerplate y escribirlo por ti, mientras tú te centras en idear y tomar decisiones? Ahí es donde entra Codex-CLI de OpenAI. Es un agente de programación con IA muy capaz que vive directamente en tu línea de comandos y, como verás, es ideal para agilizar flujos de trabajo de datos.

En este tutorial, veremos cómo analistas y científicos de datos pueden usar Codex-CLI para acelerar sus tareas diarias más habituales. Cubriremos desde el análisis exploratorio de datos inicial hasta la creación de pipelines completos, e incluso la generación de tests automatizados para tus transformaciones, todo desde la propia terminal.

Si quieres profundizar en la construcción de sistemas de IA agentica, te recomiendo inscribirte en nuestro itinerario de habilidades AI Agent Fundamentals, que cubre todo lo que necesitas saber.

¿Qué es Codex CLI?

Empecemos por entender qué es Codex CLI. En esencia, Codex CLI es un agente de codificación de código abierto basado en terminal, desarrollado por OpenAI. 

Está construido con el lenguaje Rust, lo que lo hace rápido y eficiente. Pero lo más importante es que opera directamente desde tu línea de comandos, lo que le da capacidad para leer tus archivos, editar tu código e incluso ejecutar comandos localmente en tu máquina.

Arquitectura de Codex CLI

En qué se diferencia Codex CLI de ChatGPT para tareas de datos

Aunque quizá ya uses la interfaz web estándar de ChatGPT para trabajar, Codex CLI es muy diferente. Con la interfaz web, el modelo de IA está completamente aislado del entorno donde trabajas. 

Con Codex CLI, el agente tiene acceso directo a tu sistema de archivos local. Puede ejecutar scripts de Python, revisar la salida o los errores que se produzcan y mantener un conocimiento completo de la estructura de tu proyecto sin que tengas que explicárselo todo antes.

Paso del flujo / Función

ChatGPT (navegador web)

Codex CLI (terminal)

Acceso a los datos

Tienes que abrir manualmente tu CSV y copiar-pegar unas filas de datos en el chat para darle contexto.

Puede abrir y leer tu CSV directamente desde tu sistema de archivos local, de forma autónoma.

Ejecución de código

Debes copiar el script generado, pegarlo en tu editor y ejecutarlo tú mismo.

Escribe automáticamente el script de Python necesario, lo ejecuta y te muestra la salida en la propia terminal.

Experiencia global

Implica mucho ir y venir, copiando y pegando entre ventanas.

Todo sucede en un único flujo continuo y fluido dentro de la terminal.

Claro que, como el agente Codex puede editar archivos y ejecutar comandos en tu máquina, incluye distintos modos de aprobación para que siempre tengas el control. Los tres modos son:

  • Auto (predeterminado): Codex puede trabajar de extremo a extremo dentro de la carpeta actual del proyecto. Si necesita salir de ese límite o hacer algo que implique red, se detendrá y te pedirá permiso.
  • Solo lectura: Codex puede inspeccionar tu proyecto y sugerir qué hacer, pero no tocará archivos ni ejecutará nada hasta que apruebes el plan.
  • Acceso completo: Codex deja de estar confinado al directorio del proyecto y puede operar por toda tu máquina, incluida la red, sin pausas para confirmar. Úsalo solo cuando confíes plenamente en el repo y sepas que la tarea es segura.

Cuando empieces, te recomiendo hacerlo en solo lectura y subir el nivel a medida que confíes en el flujo.

Puedes cambiar los modos de aprobación dentro de una sesión activa de Codex con /permissions. Es la forma más sencilla de pasar de Solo lectura a Auto cuando te sientas cómodo.

/permissions

Si quieres iniciar Codex en un modo más estricto desde el principio, puedes definir las flags de sandbox y política de aprobación al lanzarlo. Por ejemplo, esto arranca con una configuración conservadora de solo lectura que seguirá pidiendo confirmación cuando sea necesario.

codex --sandbox read-only --ask-for-approval on-request

Configurar Codex CLI para proyectos de datos

Hay algunos requisitos previos para poder seguir el tutorial correctamente. 

  • Python 3.10 o superior instalado en tu máquina
  • Conocimientos básicos de terminal o línea de comandos
  • pip (el gestor de paquetes de Python) instalado para gestionar dependencias
  • Una cuenta de ChatGPT de pago (Plus, Pro, Team, Business, Enterprise) o una clave de la API de OpenAI para acceder a los modelos sobre los que se basa Codex

Lo primero es instalar Codex CLI en tu máquina. Abre la terminal e instala la CLI globalmente en tu sistema con este comando:

npm install -g @openai/codex

El siguiente paso es autenticar tu cuenta para que la herramienta sepa quién eres. Puedes verificar que todo está instalado correctamente y lanzar el agente por primera vez escribiendo codex en tu terminal. Verás algo como esto:

Al pulsar intro, se abrirá una ventana del navegador donde iniciarás sesión con tu cuenta de ChatGPT. Una vez dentro, ya podrás usar la herramienta.

Si no tienes suscripción de pago a ChatGPT y prefieres usar una clave de API, también existe la opción de pago por uso. Puedes conseguir una clave en la consola de OpenAI.

Configurar tu entorno de datos en Python

Antes de pedir a la IA que haga análisis de datos, es importante configurar bien el entorno de Python. Es esencial porque Codex CLI opera dentro del entorno en el que se ejecuta. Así que, si el agente necesita escribir un script que use librerías de ciencia de datos como pandas, scikit-learn o matplotlib, debes asegurarte de que estén instaladas y disponibles.

Podemos hacerlo activando un entorno virtual de Python antes de lanzar Codex. Aquí tienes un script de ejemplo con los comandos exactos para crear un entorno virtual, instalar los paquetes de datos necesarios, activarlo y luego iniciar el agente:

python3 -m venv data_env
source data_env/bin/activate
pip install pandas scikit-learn matplotlib
codex

Crear un archivo AGENTS.md para proyectos de datos

Otro paso importante al preparar tu proyecto es crear un archivo llamado AGENTS.md en la carpeta raíz. Puedes verlo como un conjunto de instrucciones persistentes que el agente Codex lee automáticamente cada vez que abre tu proyecto. Le indica a la IA cómo quieres que se comporte y cómo quieres que escriba código en este espacio de trabajo.

Para trabajo con datos, queremos que el código generado sea limpio, legible y profesional. Aquí tienes un archivo AGENTS.md de ejemplo, pensado específicamente para un proyecto de datos. Simplemente crea el archivo y pega este texto:

# Data Project Guidelines


When writing Python code for this project, please strictly follow these rules:
- Enforce PEP 8 formatting standards for all Python code.
- Always use highly descriptive variable names. Do not use generic, lazy names like df, data, x, or y. Instead, use specific names like transaction_data or revenue_series.
- Prefer pandas best practices, such as using vectorized operations instead of iterating through rows.
- Generate clear, descriptive docstrings for every single function.
- Always include Python type hints for function arguments and return values.

Como este archivo se leerá siempre, independientemente de la tarea, es buena práctica mantenerlo conciso y centrarlo en instrucciones que apliquen a cualquier prompt. Para indicaciones más específicas, usa mejor skills

Usar Codex CLI para análisis exploratorio de datos

Pasemos al trabajo con datos propiamente dicho: empezaremos con el análisis exploratorio de datos (EDA). Como ya sabes, suele ser el punto de partida más habitual en prácticamente cualquier proyecto nuevo. Antes de crear modelos o pipelines, necesitas ver cómo es tu conjunto de datos. 

Lo mejor es que, con Codex CLI, un único prompt en lenguaje natural puede generar por ti un script de EDA completo y funcional.

El escenario: para los ejemplos de hoy, imaginemos que trabajamos con un dataset sintético realista. Supón que tenemos un dataset de e-commerce llamado transactions.csv en la carpeta del proyecto. Contiene datos típicos de negocio como IDs de pedido, IDs de usuario, marcas de tiempo de compra e importes de transacción.

Perfilar un dataset

Cuando recibes un archivo así, lo primero es perfilarlo para entender su estructura básica. En lugar de escribir tú el boilerplate de pandas, abre la terminal donde tienes la sesión de Codex y teclea un prompt como este:

Profile the transactions.csv file. Show shape, dtypes, missing values, and summary statistics.

Al pulsar intro, Codex lee las primeras líneas de tu archivo transactions.csv directamente desde tu sistema de archivos local. Generará un script completo en Python para realizar el perfilado y, en modo "suggest", te preguntará si quieres ejecutarlo. 

Verás al instante la forma del dataset, los tipos de datos de tus columnas de e-commerce y cuántos valores faltantes tienes que tratar (como en el ejemplo de abajo), sin escribir ni una línea de código.

Crear visualizaciones desde lenguaje natural

Los números en la terminal están bien, pero tarde o temprano necesitas ver los datos de forma visual. Puedes generar visualizaciones sorprendentemente complejas con solo describir lo que quieres en lenguaje natural.

Por ejemplo, si quieres una vista panorámica de tu negocio de e-commerce, puedes darle a Codex un prompt como este:

Create a matplotlib dashboard with 3 subplots showing revenue by month, product categories ranked by sales, and order distribution by day of week.

Es una petición bastante compleja. Pero Codex analizará el prompt y tu archivo de datos, calculará cómo agrupar fechas y sumar ingresos, creará un plan paso a paso y lo traducirá en un script robusto de matplotlib para generar esos subplots.

"Create a matplotlib dashboard with 3 subplots showing revenue by month, product categories ranked by sales, and order distribution by day of week."

Aquí viene algo clave al trabajar con agentes de IA: es un proceso iterativo por naturaleza. Cuando Codex sugiera la primera versión del código de visualización, apruébala para ver el resultado. 

Quizá el gráfico salga, pero veas que las etiquetas del eje x se solapan o que los colores son demasiado chillones. No necesitas abrir el script y ajustar a mano los parámetros de matplotlib. 

Responde con un prompt de seguimiento, por ejemplo: "Las etiquetas de abajo se solapan; gíralas 45 grados y usa colores más suaves en la leyenda". Codex refinará el script, lo ejecutará de nuevo y te entregará un dashboard más pulido.

Crear un pipeline de datos con Codex CLI

Cuando termines de explorar los datos y de hacer el análisis inicial, necesitarás dejar atrás los scripts rápidos y desordenados. 

Lo que conviene es avanzar hacia código real, reproducible y modular. En datos, esto suele significar construir un pipeline ETL (Extract, Transform, Load). Es la forma estándar de ingerir datos, limpiarlos y guardar los resultados para su uso posterior.

Para ilustrarlo, usaremos un caso práctico: queremos ingerir ese mismo CSV de transacciones, limpiar datos problemáticos, calcular agregaciones de negocio y guardar los resultados finales en un archivo nuevo y limpio. 

En lugar de escribir tú toda la arquitectura boilerplate, puedes usar Codex CLI para generar el andamiaje a partir de una descripción de alto nivel.

Generar la estructura del pipeline

El primer paso es crear la estructura del proyecto. Un buen pipeline se divide en archivos separados para facilitar su lectura y mantenimiento. Pídeselo al agente Codex. En tu terminal, dale un prompt como este:

Create a project layout for an ETL pipeline. I need separate Python modules for extraction, transformation, and loading, plus a main entry point script to run them all.

Codex creará esos archivos en tu directorio. Tras aprobar la acción, verás un árbol de archivos limpio y profesional, parecido a esto:

etl_pipeline/
├──__init__.py
├── extract.py
├── transformation.py
└── loading.py
– run_etl.py

Codex elige esta arquitectura porque separa responsabilidades. La lógica de lectura de datos vive separada de la lógica de negocio y cálculos, justo como debe estructurar su trabajo un data engineer.

Escribir la lógica de transformación

Ahora definamos la transformación que queremos aplicar. En un pipeline ETL, la transformación suele ser lo más complejo, pero podemos pedir a Codex que se encargue. Por ejemplo, necesitamos limpiar valores faltantes y calcular cuánto dinero generó cada pedido.

Puedes escribir un prompt directamente en la CLI que diga:

In transformation.py, write a function that takes the transactions data, drops any rows where the user ID is missing, and creates a new derived column called 'revenue' by multiplying the 'quantity' column by the 'unit_price' column.

Como Codex puede leer tu transactions.csv, conoce los nombres reales de las columnas. No va a adivinar y escribir df['qty'] * df['price'] esperando que funcione. Mirará tu archivo, verá que las columnas se llaman quantity y unit_price, y escribirá el código exacto de pandas para que funcione.

Ejecutar y validar el pipeline

Tras generar el código, el último paso es ejecutar el pipeline de extremo a extremo para comprobar que funciona. Puedes decirle a Codex, "Run the run_etl.py script."

Al ejecutarse, verás toda la salida en la terminal, y podría verse así:

Salida del pipeline ETL

El nuevo processed_transactions.csv debería verse así:

Archivo CSV de transacciones procesadas

En el mundo real, las cosas fallan. Quizá había una cadena rara en una columna numérica que provocó un TypeError. Si pasa, no hace falta que entres en pánico ni que copies el error en el navegador. Codex CLI capturará el error, leerá el traceback de Python y, a menudo, corregirá su propio código proponiendo un arreglo en el acto.

Esto ilustra el bucle iterativo central de trabajar con un agente de programación con IA: 

  1. Da un prompt a Codex
  2. Revisa el plan sugerido
  3. Aprueba los cambios de código
  4. Inspeccionad juntos la salida en la terminal
  5. Refina con un nuevo prompt

Es un bucle continuo y colaborativo que construye software funcional mucho más rápido que tecleándolo todo a mano.

Escribir tests para transformaciones de datos con Codex CLI

Probar tu código es crítico para no romper producción sin querer, pero es el paso que más se omite.

Escribir tests es tedioso, sobre todo cuando solo quieres sacar insights rápidos de un dataset nuevo; parar para escribir unit tests se siente como un peñazo. Tener Codex CLI en la terminal elimina esa barrera.

Generar tests de pytest a partir de código existente

Si quieres generar tests para la transformación que hicimos antes, ni siquiera necesitas salir de la terminal o abrir un archivo en blanco. Podemos usar un framework estándar como pytest. Dale a Codex un prompt sencillo como este:

Write high-quality, maintainable pytest tests for the transform module. Test null handling, extreme edge cases like zeroes or negative values, type casting, and revenue calculation.

Codex volverá al archivo transformation.py que creó antes. Lee tu lógica, entiende qué deben hacer las funciones y genera un archivo de tests nuevo. Abajo tienes lo que podrías ver en la terminal tras generarlos. 

En mi caso, creó un script test_transformation.py dentro de una carpeta tests, que comprueba si las funciones de transformación hacen bien su trabajo.

tests de pytest

Codex no se limita a escribir aserciones genéricas, sino que crea entradas pequeñas de datos sintéticos (fixtures) realistas para estresar tus funciones. Genera a propósito casos límite, como filas con IDs de usuario ausentes o cantidades de compra negativas, para asegurar que tu lógica de transformación los maneja con solidez.

Checks de validación de datos

Probar el código Python es una cosa, pero como profesionales de datos también debemos probar los propios datos que fluyen por el código. A esto se le llama validación de datos. Quieres generar aserciones que comprueben la calidad global de los datos antes de entregarlos a tus stakeholders o cargarlos en un dashboard.

Puedes demostrarlo pidiendo a Codex que genere un script específico de validación. Escribe un prompt como:

Create a data validation script that runs after the very end of the pipeline. It should check that the schema matches our expectations, ensure the null-percentage for user_id is exactly 0%, and verify that all revenue values are greater than or equal to zero.

Codex generará un script de validación dedicado que actúa como red de seguridad final. Puedes configurarlo fácilmente para que se ejecute al final del pipeline. 

Así, si mañana cambia la estructura del CSV o aparece un fallo raro que introduce ingresos negativos, este script lo detectará y lanzará un error al momento. Evita que tu pipeline envíe datos defectuosos río abajo a tus usuarios del negocio.

checks de validación de datos

Automatizar tareas repetitivas de datos con Codex CLI

Hasta ahora hemos visto cómo usar Codex CLI de forma interactiva, chateando ida y vuelta. Pero si quieres integrarlo de verdad en tu flujo de trabajo diario, hay patrones avanzados que prácticamente ponen el trabajo aburrido en piloto automático.

Convertir Jupyter Notebooks en scripts de producción

Jupyter Notebooks son fantásticos para explorar datos al principio, pero malos cuando toca ejecutar ese código de forma fiable en producción. Normalmente acabas copiando celdas a mano a ficheros .py y resolviendo problemas de variables globales.

Con Codex CLI, puedes señalarle tu notebook y pedirle que haga el trabajo sucio. Abre la terminal y escribe un prompt tal cual:

Refactor analysis.ipynb into a modular Python package with separate files for data loading, transformation, visualization, and a main.py entry point.

Al aprobarlo, Codex lee la estructura JSON del notebook, extrae el código Python, ignora salidas aleatorias y lo reorganiza. 

Si comparas el antes y el después, cambian mucho. Antes, un único analysis.ipynb con todo mezclado. 

Después, verás una carpeta profesional con data_loader.py, transformer.py y visualizer.py (los nombres pueden variar), unidos por un main.py. Cierra al instante la brecha entre la exploración desordenada y un software listo para producción.

Usar codex exec para automatización no interactiva

A veces no quieres interactuar con la interfaz de chat. Si estás montando pipelines automatizados, como comprobaciones previas a compartir código con tu equipo, necesitas que la IA haga su trabajo en segundo plano, en piloto automático. 

Para eso está el comando codex exec. Está pensado para ejecutar Codex en scripts y entornos no interactivos sin pedirte permiso a cada paso.

Como ejemplo práctico, vamos a lanzar una comprobación rápida. Podemos usar codex exec como un chequeo simulado de CI/CD para detectar/validar datos erróneos automáticamente.

Abre tu terminal y escribe exactamente este comando:

codex exec --skip-git-repo-check "Read transactions.csv. Write and run a quick python script to check if the 'quantity' column contains any negative numbers. If it does, print 'DATA VALIDATION FAILED: Negative quantities detected.' If it is clean, print 'DATA VALIDATION PASSED'." 2> /dev/null

Al pulsar intro, Codex se ejecutará sin interacción. No abrirá el chat habitual y el comportamiento de aprobación dependerá de las flags y valores por defecto configurados; puede que aún tengas que permitir ciertas acciones salvo que desactives las aprobaciones. Para más información, te recomiendo leer la documentación de Codex.

Escribirá rápidamente el script de validación, lo ejecutará contra tu CSV local y devolverá el resultado final directamente a la salida estándar de tu terminal siempre que el directorio se trate como de confianza y las aprobaciones lo permitan. Deberías ver una salida similar a esta:

salida de codex exec

Este comando tiene muchos casos de uso. Imagina usarlo tal cual en un pre-commit hook o en un workflow de GitHub Actions. Si tu pipeline se encuentra con datos sin una columna, con valores NaN o con cualquier comportamiento inesperado, Codex puede detectarlo al instante, sin que tengas que escribir a mano esos tests de PyTest y scripts de validación.

Buenas prácticas para profesionales de datos con Codex CLI

Al usar herramientas de IA para datos, cómo interactúas con el agente cambia por completo la calidad del código Python que recibes. Veamos algunas buenas prácticas para que tu flujo sea fluido y profesional.

Escribir prompts eficaces para tareas de datos

Lo primero es dominar la redacción de prompts eficaces. No puedes decirle a la IA "clean the data" y esperar resultados perfectos. Aquí tienes cómo estructurar tus peticiones:

  • Específica: Sé específico con los nombres de columnas, los tipos de datos que quieres y el formato de salida esperado. En lugar de algo vago, di explícitamente, por ejemplo: "cast the 'purchase_date' column to datetime and output a summarized CSV."

  • Referencia archivos directamente: Un truco muy útil es referenciar archivos con la sintaxis @ en tu prompt. Si escribes @transactions.csv, obligas a Codex a leer ese archivo en su contexto en ese mismo momento. 

  • Divide tareas complejas: Sobre todo, divide las tareas en partes pequeñas en lugar de lanzar un megaprompt. Usar el modo de plan de Codex para crear primero un borrador y luego ejecutarlo paso a paso es la mejor vía para tareas complejas.

Si quieres llevar tus prompts al siguiente nivel, te recomiendo nuestro curso Prompt Engineering with the OpenAI API.

Cuándo usar cada modo de aprobación

Como comentamos, la CLI tiene distintos modos de aprobación y conviene saber cuándo usar cada uno. Aquí va una guía:

  • Solo lectura: Úsalo cuando estés aprendiendo la herramienta o cuando trates datos sensibles de producción o tareas desconocidas. Te mantiene con el control total.
  • Auto (workspace): Cuando te sientas cómodo, Auto es ideal para transformaciones y refactors rutinarios en un proyecto con control de versiones. Codex puede editar archivos y ejecutar scripts dentro de la carpeta del proyecto, pidiendo permiso antes de hacer algo arriesgado fuera de ese ámbito.
  • Acceso completo: Resérvalo para experimentos en sandbox o análisis puntuales donde priorices la velocidad sobre la seguridad. En este modo, Codex tiene acceso amplio a tu máquina y pedirá menos confirmaciones, así que utilízalo solo con repos y tareas de total confianza.

Mantener flujos de trabajo reproducibles

Mantener la reproducibilidad es clave. Una regla importante es ejecutar Codex dentro de un repositorio Git inicializado. Como Codex va a escribir y editar archivos en tu máquina, tener Git rastreando cambios te permite ver exactamente qué hizo la IA y revertir si algo va mal.

Asegúrate también de commitear el archivo AGENTS.md que creamos junto al código del proyecto. Así, si otra persona clona el repo y abre Codex, todo el equipo se beneficia de los mismos estándares e instrucciones. 

Lo mismo aplica a cualquier agent skills que hayas definido para tareas concretas. Para inspirarte, consulta nuestra guía con más de cien top agent skills para Codex y otras herramientas de programación agentica.

Y si trabajas en un análisis largo durante varios días, no tienes que empezar de cero cada mañana. Usa el comando codex resume en la terminal para continuar proyectos multi-sesión. Carga tu chat anterior sin perder el contexto valioso de lo que tú y el agente hicisteis ayer.

Si trabajas en un análisis extenso durante varios días, no hace falta reiniciar cada mañana. Simplemente usa el comando codex resume en tu terminal para continuar proyectos multi‑sesión. Reabre tu última sesión de Codex en ese proyecto para retomar donde lo dejaste, con la conversación previa, planes y cambios de archivos aún en contexto (sujeto a los límites normales de modelo e historial).

Para más buenas prácticas de programación agentica, echa un vistazo a nuestra guía Claude Code Best Practices. Aunque Claude Code y Codex difieren, como señalamos en nuestra comparativa Codex vs Claude Code, muchos conceptos fundamentales también aplican a Codex.

Conclusión

Hemos configurado Codex CLI específicamente para tu trabajo con datos y tus entornos locales de Python. A partir de ahí, generamos scripts de análisis exploratorio desde cero, construimos pipelines ETL reproducibles, escribimos tests automatizados de transformaciones (que se suelen omitir) y, por último, exploramos formas avanzadas de automatizar esas tareas repetitivas del día a día. 

Lo más importante: hicimos todo esto desde la línea de comandos, sin ir y venir al navegador. Codex CLI cierra esa brecha frustrante entre el análisis exploratorio desordenado y la ingeniería de datos de calidad para producción. 

Si te interesa aprender a construir un agente más complejo con Codex CLI, te recomiendo nuestro Codex CLI MCP Tutorial, donde creas un agente para un dashboard de cartera financiera.

Codex CLI para analítica de datos: preguntas frecuentes

¿Qué es Codex CLI y en qué se diferencia de ChatGPT para trabajo con datos?

Codex CLI se ejecuta dentro de tu terminal, así que puede leer tus archivos locales del proyecto, escribir o refactorizar scripts y ejecutar comandos para mostrar salidas y errores reales. ChatGPT en el navegador suele estar desconectado de tu directorio de trabajo, por lo que acabas copiando y pegando datos, código y tracebacks constantemente.

¿Puede Codex CLI generar automáticamente scripts de EDA a partir de un CSV?

Sí. Si el CSV está en tu carpeta del proyecto, puedes pedir a Codex que perfile columnas, compruebe valores faltantes, calcule estadísticas descriptivas y genere gráficos con matplotlib. La clave es señalarle el archivo explícitamente para que lea el esquema real y use los nombres de columnas correctos en lugar de adivinar.

¿Cómo usar Codex CLI para construir un pipeline ETL para un dataset?

Un flujo fiable es pedir a Codex que genere primero el andamiaje de un pipeline sencillo (extract, transform, load), después implementar las transformaciones según tus reglas, y por último ejecutar el pipeline y corregir problemas usando los tracebacks. Obtienes resultados más consistentes si mantienes la lógica de transformación modular y haces que Codex ejecute los scripts para ver salidas reales, no hipótesis.

¿Puede Codex CLI escribir tests de pytest para transformaciones y checks de validación de datos?

Sí. Codex puede generar tests de pytest que cubran manejo de nulos, conversión de tipos, casos límite y comprobaciones de fórmulas como el cálculo de ingresos. También puede crear un script de validación aparte que imponga expectativas de esquema y reglas básicas de calidad al final del pipeline, lo que ayuda a detectar fallos silenciosos y drift.

¿Cuáles son las mejores prácticas para usar Codex CLI con seguridad en proyectos reales?

Empieza con un modo de aprobación conservador hasta que confíes en su comportamiento y trabaja dentro de un repo con control de versiones para que cada cambio sea revisable y reversible. Sé específico en los prompts, referencia los archivos exactos que quieres que lea y evita instrucciones amplias como “clean the data” sin definir qué significa “limpio” para tu caso.


Nikhil Adithyan's photo
Author
Nikhil Adithyan
Emprendedor incansable centrado en acercar las herramientas de analítica financiera a todo el mundo y en ayudar a empresas fintech a ampliar su alcance y visibilidad.
Actualmente trabajando en dos proyectos:
- BacktestZone, una plataforma sin código para backtestear estrategias de trading técnico
- Scriptonomy, una agencia de marketing especializada en FinTech
Temas

Cursos de IA

programa

Fundamentos de agentes de IA

6 h
¡Descubre cómo los agentes de IA pueden transformar tu forma de trabajar y aportar valor a tu organización!
Ver detalles
Iniciar curso
Ver más
Relacionado
An AI juggles tasks

blog

Cinco proyectos que puedes crear con modelos de IA generativa (con ejemplos)

Aprende a utilizar modelos de IA generativa para crear un editor de imágenes, un chatbot similar a ChatGPT con pocos recursos y una aplicación clasificadora de aprobación de préstamos y a automatizar interacciones PDF y un asistente de voz con GPT.
Abid Ali Awan's photo

Abid Ali Awan

10 min

Tutorial

Tutorial de DeepChecks: Automatizar las pruebas de aprendizaje automático

Aprende a realizar la validación de datos y modelos para garantizar un sólido rendimiento del aprendizaje automático utilizando nuestra guía paso a paso para automatizar las pruebas con DeepChecks.
Abid Ali Awan's photo

Abid Ali Awan

Tutorial

Construir agentes LangChain para automatizar tareas en Python

Un tutorial completo sobre la construcción de agentes LangChain multiherramienta para automatizar tareas en Python utilizando LLMs y modelos de chat utilizando OpenAI.
Bex Tuychiev's photo

Bex Tuychiev

Tutorial

Tutorial de Generación de nubes de palabras en Python

Aprende a realizar Análisis exploratorios de datos para el Procesamiento del lenguaje natural utilizando WordCloud en Python.
Duong Vu's photo

Duong Vu

Tutorial

Tutorial de DeepSeek-Coder-V2: Ejemplos, instalación, puntos de referencia

DeepSeek-Coder-V2 es un modelo de lenguaje de código de código abierto que rivaliza con el rendimiento de GPT-4, Gemini 1.5 Pro, Claude 3 Opus, Llama 3 70B o Codestral.
Dimitri Didmanidze's photo

Dimitri Didmanidze

Tutorial

Tutorial sobre cómo crear aplicaciones LLM con LangChain

Explore el potencial sin explotar de los grandes modelos lingüísticos con LangChain, un marco Python de código abierto para crear aplicaciones avanzadas de IA.
Moez Ali's photo

Moez Ali

Ver másVer más