¿La escritura compleja no es más que fórmulas? | de Vered Zimmerman | diciembre de 2024

El análisis de texto da pistas sobre cómo se crean volúmenes de escritura

En términos más amplios, el procesamiento del lenguaje natural transforma el lenguaje en construcciones que pueden manipularse de manera útil. Dado que las incorporaciones de aprendizaje profundo han demostrado ser tan poderosas, también se han convertido en las predeterminadas: elija un modelo, incruste sus datos, elija una métrica, haga algo de RAG. Para agregar nuevo valor, es útil tener una visión diferente del lenguaje complejo.
El que compartiré hoy comenzó hace años, con un solo libro.

El ladrón de orquídeas es a la vez no ficción y está lleno de travesuras. Lo leí por primera vez cuando tenía 20 años, saltándome la mayoría de las anécdata históricas, ansioso por sus relatos en primera persona. En ese momento, me reí a carcajadas, pero pasé las páginas con silenciosa furia, porque alguien podía vivir tan profundamente y escribir tan bien. No estaba tan seguro de que fueran cosas diferentes.

Al cabo de un año me mudé a Londres para empezar de nuevo.
Me dediqué a los servicios financieros, que es como un parque temático para nerds. Y, durante la década siguiente, sólo aceptaría trabajos con mucha escritura.

Mucho es la palabra clave.

Detrás de la moderna fachada de servicios profesionales, la industria británica está viva en sus antiguas fábricas y astilleros. Emplea a Alice para hacer una cosa y luego se la entrega a Bob; gira algunos tornillos y le pasa a Charlie. Un mes después, todos lo volvemos a hacer. Como recién llegado, me di cuenta de que los hábitos no eran tanto una zanja en la que caer, sino un montículo en el que apostar.

Yo también estaba leyendo mucho. Vale, estaba leyendo el neoyorquino. Lo que más me gustaba era darle la vuelta a uno nuevo en su portada, abrirlo por la parte posterior y leer las frases iniciales de uno, Anthony Lane, que escribe reseñas de películas. Años y años, ni una sola vez fui a ver una película.

De vez en cuando, un parpadeo me pillaba desprevenido. Un hilo apenas visible entre neoyorquino corpus y mis resultados no Pulitzer. En ambos corpus, cada pieza era diferente a sus hermanas, pero también…no exactamente. Las similitudes se hicieron eco. Y sabía que los de mi trabajo habían surgido de un proceso repetitivo.

En 2017 comencé a meditar sobre el umbral que separa la escritura que se siente formulado de uno que pueda escribirse explícitamente como una fórmula.

El argumento es el siguiente: el volumen de repeticiones insinúa una forma (típicamente tácita) de toma de decisiones algorítmica. Pero la repetición procesal deja huellas. Rastree las huellas dactilares para sacar a la luz el procedimiento; descifrar el algoritmo; y el software prácticamente se escribe solo.

En mi último trabajo ya no escribía mucho. Mi software era.

En principio, las empresas pueden aprender lo suficiente sobre sus propios flujos para obtener enormes ganancias, pero pocas se molestan. La gente parece mucho más cautivada con lo que algún otro está haciendo.

Por ejemplo, mis jefes, y más tarde mis clientes, seguían deseando que su personal pudiera imitar el EconomistaEl estilo de la casa. Pero, ¿cómo encontrarías qué pasos Economista ¿Se necesita para terminar sonando como lo hace?

Imagen del autor

Ingrese al análisis de texto

leer un solo Economista artículo, y se siente alegre y seguro. Lea muchos de ellos y suenan bastante parecidos. Una revista impresa completa sale una vez por semana. Sí, estaba apostando por el proceso.

Para divertirnos, apliquemos una función de legibilidad (medida en años de educación) a varios cientos Economista artículos. Hagamos también lo mismo con cientos de artículos publicados por un frustrado gestor de activos europeo.

Luego, consigamos un histograma para ver cómo se distribuyen esas puntuaciones de legibilidad.

¡Solo dos funciones y mire la información que obtenemos!

Perfil de legibilidad. Fuente: FinText

Observe cuán separadas están las curvas; este administrador de activos es no sonando como el Economista. Podríamos profundizar más para ver qué está causando esta disparidad. (Para empezar, a menudo es frases locamente largas.)

Pero también observe cómo el Economista pone un límite estricto a la puntuación de legibilidad que permiten. La curva es inorgánica, lo que delata que aplican un estricto control de legibilidad en su proceso de edición.

Finalmente, y muchos de mis clientes lucharon con esto, el Economista promete escribir con suficiente claridad como para que un estudiante de secundaria promedio pueda asimilarlo.

Esperaba estos gráficos. Los había garabateado en un papel. Pero cuando uno real iluminó mi pantalla por primera vez, fue como si el propio lenguaje se hubiera reído.

Ahora bien, no fui exactamente el primero en llegar a la escena. En 1964, los estadísticos Frederick Mosteller y David Wallace aparecieron en la portada de Tiempo revista, su análisis literario forense resolver un debate de 140 años sobre la autoría de una famosa docena de ensayos escritos de forma anónima.

Pero el análisis forense siempre analiza el elemento único en relación con dos corpus: el creado por el autor sospechoso y la hipótesis nula. El análisis comparativo sólo se preocupa por comparar cuerpos de texto.

Imagen del autor

Creación de un motor de análisis de texto

Volvamos sobre nuestros pasos: dado un corpus, aplicamos la misma función a cada uno de los textos (la función de legibilidad). Esto asignó el corpus a un conjunto (en este caso, números). En este conjunto aplicamos otra función (el histograma). Finalmente, lo hicimos con dos corpus diferentes y comparamos los resultados.

Si entrecierras los ojos, verás que acabo de describir Excel.

Lo que parece una mesa es en realidad a tubería, crujir columnas secuencialmente. Primero a lo largo de la columna, seguido de funciones sobre los resultados, seguido de funciones de análisis comparativo.

Bueno, quería Excel, pero para texto.

No cadenas: texto. Quería aplicar funciones como Count Verbs o First Paragraph Subjecto First Important Sentence. Y tenía que ser lo suficientemente flexible para poder preguntar cualquier pregunta; ¿Quién sabe qué terminaría importando?

En 2020 este tipo de solución no existía, así que la construí. ¡Y vaya que este software no “prácticamente se escribe solo”! Para hacer posible hacer cualquier pregunta se necesitaban algunas buenas decisiones arquitectónicas, en las que me equivoqué dos veces antes de solucionar los problemas.

Al final, las funciones se definen una vez, por lo que hacen con un único texto de entrada. Luego, selecciona los pasos del proceso y los corpus sobre los que actúan.

Con eso, comencé una empresa de consultoría en tecnología de escritura, Texto Fin. Planeé construir mientras trabajaba con clientes y ver qué se mantenía.

Lo que dijo el mercado

El primer caso de uso comercial que se me ocurrió fue escucha social. La investigación de mercado y las encuestas son un gran negocio. Ahora estamos en el apogeo de la pandemia, todos están en casa. Pensé que procesar conversaciones activas en comunidades en línea dedicadas podría ser una nueva forma de acceder al pensamiento del cliente.

Cualquier primer cliente de software se habría sentido especial, pero Éste fue emocionante, porque mi brebaje realmente ayudó a personas reales a salir de un apuro:

Trabajando de cara a un gran evento, habían planeado lanzar un informe emblemático, con datos de una encuesta pagada de YouGov. Pero sus resultados fueron tibios. Entonces, con el presupuesto restante, compraron un estudio de FinText. Fueron nuestros hallazgos los que pusieron al frente y al centro de su informe final.

Escucha social en Reddit ‘Investing’, 2020. Fuente: FinText

Pero la escucha social no despegó. Los terrenos para inversión son peculiares porque las reservas de dinero siempre necesitarán una casa; La única pregunta es quién es el propietario. La mayoría de las personas de la industria con las que hablé querían saber qué estaban haciendo sus competidores.

Entonces, el segundo caso de uso, el análisis de contenido competitivo, recibió una respuesta más cálida. Vendí esta solución a aproximadamente media docena de empresas (incluidas, por ejemplo, Inversores Aviva).

Todo el tiempo, nuestro motor estuvo recopilando datos que nadie más tenía. Era tal mi astucia que ni siquiera era idea mía realizar sesiones de formación, un cliente me pidió una por primera vez. Así aprendí que a las empresas les gusta comprar capacitación.

De lo contrario, mi versión steampunk de la escritura estaba resultando difícil de vender. Todo era demasiado abstracto. Lo que necesitaba era un panel: gráficos bonitos, con números reales, extraídos de datos en vivo. Un oleoducto hizo el cálculo y contraté a un pequeño equipo para hacer los bonitos gráficos.

Demostración del panel de análisis de texto. Fuente: FinText

Dentro del tablero, dos gráficos mostraban un desglose de los temas y el resto analizaba el estilo de escritura. Diré algunas palabras sobre esta elección.

Todos creen que lo que dicen es importante. Si a los demás no les importa, realmente es un moral fracaso, de sopesar el estilo sobre la sustancia. Un poco como que el mal gusto es algo que sólo tienen los demás.

Los científicos han contado clics, seguido el ojo, monitoreado el desplazamiento y cronometrado la atención. Sabemos que a los lectores les toma una fracción de segundo decidir si algo es “para ellos”, y lo deciden comparando vagamente la información nueva con lo que ya les gusta. El estilo es un pase de entrada.

Lo que mostró el panel

Antes, no había estado siguiendo los datos que se recopilaban, pero ahora tenía todos esos bonitos gráficos. Y estaban demostrando que yo había estado en lo cierto y al mismo tiempo muy, muy equivocado.

Al principio, sólo tenía conocimiento directo de unas pocas grandes empresas de inversión y sospechaba que los flujos de sus competidores eran muy similares. Esto resultó correcto.

Pero también había asumido que las empresas un poco más pequeñas tendrían sólo un poco menos de producción. Esto simplemente no es cierto.

El análisis de texto resultó útil si una empresa ya tenía capacidad de producción de escritura. De lo contrario, lo que necesitaban era una fábrica en funcionamiento. Había muy pocas empresas en el primer grupo, porque todas las demás estaban abarrotando el segundo.

Epílogo

Como producto, el análisis de texto ha sido una mezcla. Ganó algo de dinero, probablemente podría haber ganado algo más, pero era poco probable que se convirtiera en un éxito arrollador.

Además, había perdido el apetito por el neoyorquino. En algún momento todo se inclinó demasiado hacia el lado de las fórmulas y la magia desapareció.

Las palabras están ahora en su era mayorista, con grandes modelos de lenguaje como ChatGPT. Al principio, consideré aplicar canalizaciones para discernir si el texto se genera por máquina, pero ¿cuál sería el punto?

En cambio, a finales de 2023 comencé a trabajar en una solución que ayude a las empresas a ampliar su capacidad de escribir para clientes expertos. Es una aventura completamente diferente, aún en su infancia.

Al final, llegué a pensar en el análisis de texto como un par de gafas extra. En ocasiones, la borrosidad se vuelve nítida. Lo guardo en mi bolsillo, por si acaso.