Preparar los datos de texto para la IA. Una introducción al uso de soluciones sin código | por Brian Perron, PhD

Una introducción al uso de soluciones sin código

Gráfico que muestra el proceso de datos desordenados. Imagen del autor usando ChatGPT-4o.

La gente utiliza grandes modelos de lenguaje para realizar diversas tareas con datos de texto de diferentes fuentes. Dichas tareas pueden incluir (entre otras) editar, resumir, traducir o extraer texto. Uno de los principales desafíos de este flujo de trabajo es garantizar que sus datos estén preparados para la IA. Este artículo describe brevemente lo que significa estar preparado para IA y proporciona algunas soluciones sin código para llegar a este punto.

Estamos rodeados de vastas colecciones de datos de texto no estructurados de diferentes fuentes, incluidas páginas web, archivos PDF, correos electrónicos, documentos organizacionales, etc. En la era de la IA, estos documentos de texto no estructurados pueden ser fuentes esenciales de información. Para muchas personas, el flujo de trabajo típico para datos de texto no estructurados implica enviar un mensaje con un bloque de texto al modelo de lenguaje grande (LLM).

Imagen de una tarea de traducción en ChatGPT. Captura de pantalla del autor.

Si bien el método de copiar y pegar es una estrategia estándar para trabajar con LLM, es probable que encuentre situaciones en las que esto no funcione. Considere lo siguiente:

Si bien muchos modelos premium permiten cargar y procesar documentos, el tamaño del archivo está restringido. Si el archivo es demasiado grande, necesitará otras estrategias para introducir el texto relevante en el modelo.
Es posible que desee procesar sólo una pequeña sección de texto de un documento más grande. Proporcionar el documento completo al LLM puede interferir con la finalización de la tarea debido al texto irrelevante.
Algunos documentos de texto y páginas web, especialmente los PDF, contienen mucho formato que puede interferir con la forma en que se procesa el texto. Es posible que no pueda utilizar el método de copiar y pegar debido al formato del documento: las tablas y columnas pueden ser problemáticas.

Estar preparado para la IA significa que sus datos están en un formato que un LLM puede leer y procesar fácilmente. Para el procesamiento de datos de texto, los datos están en texto sin formato con un formato que el LLM interpreta fácilmente. El tipo de archivo Markdown es ideal para garantizar que sus datos estén listos para la IA.

El texto sin formato es el tipo de archivo más básico en su computadora. Esto normalmente se denota como un .TXT extensión. Se pueden utilizar muchos _editores_ diferentes para crear y editar archivos de texto sin formato de la misma manera que se utiliza Microsoft Word para crear y editar documentos estilizados. Por ejemplo, la aplicación Bloc de notas en una PC o la aplicación TextEdit en una Mac son editores de texto predeterminados. Sin embargo, a diferencia de Microsoft Word, los archivos de texto sin formato no permiten estilizar el texto (p. ej., negrita, subrayado, cursiva, etc.). Son archivos con solo caracteres sin formato en formato de texto sin formato.

Los archivos Markdown son archivos de texto sin formato con la extensión .Maryland. Lo que hace que el archivo de rebajas sea único es el uso de ciertos caracteres para indicar el formato. Estos caracteres especiales son interpretados por aplicaciones compatibles con Markdown para representar el texto con estilos y estructuras específicos. Por ejemplo, el texto que rodea a los asteriscos aparecerá en cursiva, mientras que los asteriscos dobles mostrarán el texto en negrita. Markdown también proporciona formas sencillas de crear encabezados, listas, enlaces y otros elementos estándar del documento, todo ello manteniendo el archivo como texto sin formato.

La relación entre Markdown y Large Language Models (LLM) es sencilla. Los archivos Markdown contienen contenido de texto sin formato que los LLM pueden procesar y comprender rápidamente. Los LLM pueden reconocer e interpretar el formato Markdown como información significativa, mejorando la comprensión del texto. Markdown utiliza hashtags para los títulos, que crean una estructura jerárquica. Un solo hashtag denota un encabezado de nivel 1, dos hashtags un encabezado de nivel 2, tres hashtags un encabezado de nivel 3, y así sucesivamente. Estos títulos sirven como señales contextuales para los LLM cuando procesan información. Los modelos pueden utilizar esta estructura para comprender mejor la organización y la importancia de las diferentes secciones del texto.

Al reconocer los elementos de Markdown, los LLM pueden captar el contenido y su estructura y énfasis previstos. Esto conduce a una interpretación y generación de texto más precisa. La relación permite a los LLM extraer significados adicionales de la estructura del texto más allá de las palabras mismas, mejorando su capacidad para comprender y trabajar con documentos con formato Markdown. Además, los LLM suelen mostrar sus resultados en formato Markdown. Por lo tanto, puede tener un flujo de trabajo mucho más optimizado al trabajar con LLM al enviar y recibir contenido de rebajas. También encontrará que muchas otras aplicaciones permiten el formato Markdown (por ejemplo, Slack, Discord, GitHub, Google Docs).

Existen muchos recursos en Internet para aprender Markdown. Aquí hay algunos recursos valiosos. Tómese un tiempo para aprender el formato de rebajas.

Esta sección explora herramientas esenciales para administrar Markdown e integrarlo con Large Language Models (LLM). El flujo de trabajo implica varios pasos clave:

Material fuente: comenzamos con fuentes de texto estructurado, como archivos PDF, páginas web o documentos de Word.
Conversión: Utilizando herramientas especializadas, convertimos estos textos formateados a texto plano, concretamente al formato Markdown.
Almacenamiento (opcional): el texto de Markdown convertido se puede almacenar en su forma original. Se recomienda este paso si reutiliza o hace referencia al texto más adelante.
Procesamiento de LLM: el texto Markdown luego se ingresa en un LLM.
Generación de resultados: el LLM procesa los datos y genera texto de salida.
Almacenamiento de resultados: el resultado del LLM se puede almacenar para su uso o análisis posterior.

Flujo de trabajo para convertir texto formateado a texto sin formato. Imagen del autor usando el diagrama de sirena.

Este flujo de trabajo convierte de manera eficiente varios tipos de documentos a un formato que los LLM pueden procesar rápidamente mientras mantienen la opción de almacenar tanto la entrada como la salida para referencia futura.

Obsidian: guardar y almacenar texto sin formato

Obsidian es una de las mejores opciones disponibles para guardar y almacenar archivos de texto sin formato y de rebajas. Cuando extraigo contenido de texto sin formato de archivos PDF y páginas web, normalmente guardo ese contenido en Obsidian, un editor de texto gratuito ideal para este propósito. También uso Obsidian para mi otro trabajo, incluido tomar notas y guardar indicaciones. Esta es una herramienta fantástica que vale la pena aprender.

Obsidian es simplemente una herramienta para guardar y almacenar contenido de texto sin formato. Probablemente querrás esta parte de tu flujo de trabajo, ¡pero NO es obligatoria!

Jina AI – Lector: extraiga texto sin formato de sitios web

Jina AI es una de mis empresas de IA favoritas. Crea un conjunto de herramientas para trabajar con LLM. Jina AI Reader es una herramienta notable que convierte una página web en formato Markdown, lo que le permite capturar contenido en texto sin formato para ser procesado por un LLM. El proceso es muy sencillo. Agregar https://r.jina.ai/ a cualquier URL y recibirá contenido listo para IA para su LLM.

Por ejemplo, considere la siguiente captura de pantalla de modelos de lenguaje grandes en Wikipedia: en.wikipedia.org/wiki/Large_language_model

Captura de pantalla de la página de Wikipedia realizada por el autor.

Supongamos que solo queremos utilizar el texto sobre LLM contenido en esta página. La extracción de esa información se puede realizar mediante el método de copiar y pegar, pero será engorroso con el resto del formato. Sin embargo, podemos usar Jina AI-Reader agregando `https://r.jina.ai` al principio de la URL:

Esto devuelve todo en un formato de rebajas:

Página de Wikipedia convertida a rebajas a través de Jina AI-Reader. Imagen del autor.

Desde aquí, podemos copiar y pegar fácilmente el contenido relevante en el LLM. Alternativamente, podemos guardar el contenido de rebajas en Obsidian, lo que permite reutilizarlo con el tiempo. Si bien Jina AI ofrece servicios premium a un costo muy bajo, puedes utilizar esta herramienta de forma gratuita.

LlamaParse: extracción de texto sin formato de documentos

Los archivos PDF muy formateados y otros documentos estilizados presentan otro desafío común. Cuando trabajamos con modelos de lenguaje grande (LLM), a menudo debemos eliminar el formato para centrarnos en el contenido. Considere un escenario en el que desea utilizar sólo secciones específicas de un informe PDF. El estilo complejo del documento hace que copiar y pegar sea poco práctico. Además, si carga el documento completo en un LLM, es posible que tenga dificultades para identificar y procesar solo las secciones deseadas. Esta situación requiere una herramienta que pueda separar el contenido del formato. LlamaParse de LlamaIndex aborda esta necesidad al desacoplar efectivamente el texto de sus elementos estilísticos.

Para acceder a LlamaParse, puede iniciar sesión en LlamaCloud: https://cloud.llamaindex.ai/login. Después de iniciar sesión en LlamaCloud, vaya a LlamaParse en el lado izquierdo de la pantalla:

Captura de pantalla de LlamaCloud. Imagen del autor.

Una vez que haya accedido a la función de análisis, puede extraer el contenido siguiendo estos pasos. Primero, cambie el modo a “Preciso”, lo que crea resultados en formato de rebajas. En segundo lugar, arrastre y suelte su documento. Puede analizar muchos tipos diferentes de documentos, pero mi experiencia es que normalmente necesitará analizar archivos PDF, archivos de Word y PowerPoint. Sólo tenga en cuenta que puede procesar muchos tipos de archivos diferentes. En este ejemplo, uso un informe disponible públicamente por la Junta Estadounidense de Trabajo Social. Se trata de un informe muy estilizado de 94 páginas.

Ahora, puede copiar y pegar el contenido de Markdown o puede exportar el archivo completo en Markdown.

Captura de pantalla del resultado de LlamaParse. Imagen del autor.

En el plan gratuito, puede analizar 1000 páginas por día. LlamaParse tiene muchas otras características que vale la pena explorar.

La preparación de datos de texto para el análisis de IA implica varias estrategias. Si bien el uso de estas técnicas puede parecer desafiante inicialmente, la práctica lo ayudará a familiarizarse más con las herramientas y los flujos de trabajo. Con el tiempo, aprenderá a aplicarlos de manera eficiente a sus tareas específicas.

Preparar los datos de texto para la IA. Una introducción al uso de soluciones sin código | por Brian Perron, PhD | octubre de 2024

ByEquipo de 7 minutos

Una introducción al uso de soluciones sin código

Obsidian: guardar y almacenar texto sin formato

Jina AI – Lector: extraiga texto sin formato de sitios web

LlamaParse: extracción de texto sin formato de documentos

By Equipo de 7 minutos

Related Post

La mayoría de los agentes de IA fallan en producción porque están construidos al revés

Cómo ejecutar eficazmente muchas sesiones de Claude Code en paralelo

Conozca EAGLE 3.1: el algoritmo de decodificación especulativa que soluciona la desviación de la atención en la inferencia LLM

You missed

Los británicos no registrados solicitan la amnistía para inmigrantes en España

Gwyneth Paltrow utiliza rúcula como sustituto lácteo del queso en una receta

El Texas T. Rex es un mosasaurio de 80 millones de años del tamaño de un autobús escolar

¿Quién es la jueza del tribunal de distrito que fue reprendida en privado por tener relaciones sexuales en voz alta en su despacho con un agente de la ley de su distrito?