La IA se une a XBRL para hablar el mismo idioma

Todo el mundo está experimentando con la IA. Los másteres en Derecho se están utilizando en todo tipo de aplicaciones (desde las teleconferencias sobre resultados hasta la calificación ESG y la debida diligencia automatizada) y existe la creciente sensación de que estamos al borde de algo transformador en el análisis financiero. Pero, en definitiva, trabajan con archivos PDF extraídos, resúmenes de páginas web o hojas de cálculo «adaptadas a los modelos» que sacrifican la estructura en aras de la comodidad. Los modelos generan textos que parecen plausibles. Pero, ¿qué ocurre si se les pide que verifiquen sus fuentes, expliquen cómo llegaron a una cifra o superen el escrutinio regulatorio? Ahí es cuando empiezan a surgir los problemas.

Los datos estructurados, especialmente XBRL, siempre han ofrecido información veraz, rastreable y legible por máquina. Pero, ¿cómo integrarlos en un modelo de lógica descriptiva (LLM)? Hasta hace poco, no era tan sencillo. Esto se debía a que estos modelos no estaban diseñados para navegar con XML, espacios de nombres, taxonomías ni la rica semántica por capas que XBRL pretende ofrecer. Si se les proporcionaba un informe Inline XBRL o xBRL-XML, se veían incapaces de manejarlo. Esto no es una crítica a XBRL, sino una deficiencia en la forma en que se han entrenado los LLM.

Ahí es donde entra en juego xBRL-JSON. Y esta semana, en XBRL International, nos complace publicar una guía práctica sobre cómo usarlo: convertir sus datos de cumplimiento normativo en algo con lo que un modelo de lenguaje natural (LLM) pueda trabajar. ¿Lo mejor de todo? No se pierde nada de la integridad. Sigue siendo XBRL, solo que expresado de una manera que se adapta a cómo los modelos de lenguaje procesan la información. Estamos enseñando al modelo a hablar nuestro idioma.

El proceso completo: convierte el informe con una herramienta certificada (es tan sencillo como un clic), sube el JSON al modelo que prefieras y empieza a formular preguntas. ¿Quieres calcular el beneficio neto? ¿Comparar los ingresos de cuatro años? ¿Resumir una nota sobre políticas en lenguaje sencillo? Puedes hacerlo. Y como es XBRL, puedes rastrear cada respuesta hasta el concepto, el período y el contexto.

No estás aplanando tus datos para que se ajusten. Estás adaptando la IA para que funcione con la estructura que ya has creado. Y así es como debe ser.

Experimentando con LLM para el análisis XBRL

El fascinante potencial de utilizar modelos de lenguaje a gran escala (LLM, por sus siglas en inglés) para analizar datos financieros, especialmente datos estructurados como los informes XBRL, es cada vez más evidente. Imagínese pedirle a un LLM que resuma las principales conclusiones financieras directamente de un documento XBRL: este es el tipo de experimento que muchos están deseosos de comenzar.

Sin embargo, quienes se embarcan en esta aventura pronto se topan con un obstáculo. Los informes XBRL en sus formatos tradicionales, como Inline XBRL (iXBRL) y xBRL-XML, si bien están etiquetados y estructurados digitalmente, presentan complejidades al introducirlos directamente en los modelos LLM. Su estructura basada en XML no es intuitiva para estos modelos, ya que requiere un análisis específico y la comprensión de las taxonomías XBRL. Muchos investigadores principiantes se encuentran estancados en esta etapa inicial de ingesta de datos, con dificultades para interpretar los datos XBRL sin procesar dentro del entorno LLM.

Aquí es donde entra en juego xBRL-JSON. xBRL-JSON forma parte de una familia de formatos de informe más recientes, y actualmente existe una amplia gama de herramientas que permiten convertir de un formato XBRL a otro. Diseñado para facilitar su uso por parte de herramientas y sistemas, xBRL-JSON ofrece una representación mucho más sencilla e intuitiva de los datos XBRL. Su estructura es intrínsecamente más compatible con los modelos de lógica de negocio (LLM), lo que facilita la ingesta y el análisis de datos. xBRL-JSON cierra la brecha, haciendo que los datos XBRL precisos sean fácilmente accesibles para la experimentación libre dentro de los LLM.

Esto está dirigido a cualquier persona interesada en experimentar con informes XBRL y explorar las capacidades de herramientas de gestión de lenguajes (LLM) como ChatGPT. Tanto si eres analista financiero, científico de datos o simplemente un entusiasta de XBRL, esta guía te proporcionará un punto de partida práctico para tu aprendizaje.

Conversión al formato xBRL-JSON

Abordar el desafío principal: lograr que los informes XBRL sean fácilmente comprensibles para modelos de lenguaje grandes. Esto se basa en la transformación de los formatos XBRL tradicionales más complejos —ya sean iXBRL o xBRL-XML— al formato simplificado xBRL-JSON. Estos formatos están diseñados para una transformación sin pérdida de datos, lo que significa que no se pierde ni se malinterpreta ningún dato durante este proceso de conversión.

Es posible usar el software certificado XBRL para la conversión (siempre que esté certificado para el módulo xBRL-JSON). Por ejemplo, utilizar la interfaz gráfica de usuario de Arelle, una interfaz fácil de usar para la plataforma de código abierto Arelle XBRL. El proceso de conversión es sencillo:

Abrir el informe XBRL: Inicie Arelle y abra el archivo de informe XBRL de origen (en formato iXBRL o XBRL-XML) dentro de la aplicación. Asegúrese de que el complemento saveLoadableOIM esté habilitado. Puede administrar los complementos desde el menú «Ayuda» seleccionando «Administrar complementos».
Guardar como xBRL-JSON: Vaya al menú “Herramientas”, seleccione “Guardar OIM cargable” y elija “Guardar como tipo” – “Archivo JSON.json”. Seleccione una ubicación para guardar el archivo convertido.
¡Conversión completada! En tan solo unos clics, ha transformado con éxito su informe XBRL en xBRL-JSON. Ahora dispone de una versión de sus datos XBRL compatible con LLM, lista para su análisis.

Cargar xBRL-JSON en LLM

Ahora que tenemos nuestro informe xBRL-JSON, comienza la parte emocionante: ¡explorarlo con un LLM!

En este ejemplo, utilizaremos Google Gemini para interactuar con nuestros datos xBRL-JSON recién convertidos. Tenga en cuenta que para analizar informes xBRL-JSON, necesita utilizar modelos de lenguaje grandes con intérpretes de código integrados. Al momento de escribir este texto, estos incluyen ChatGPT, Gemini y Mistral.

Comencemos subiendo el archivo de informe xBRL-JSON a Gemini. Para subir un archivo, simplemente haga clic en el icono «Subir» debajo del cuadro de chat y seleccione su archivo. json. Esto funciona de la misma manera en la mayoría de las interfaces de LLM.

Asegurar la comprensión del LLM

Un excelente primer paso en nuestra exploración es comprender qué tan bien Gemini interpreta la estructura de estos datos xBRL-JSON. Por lo tanto, nuestra consulta inicial estará diseñada para indagar esta cuestión, en lugar de los datos en sí. Por ejemplo, podemos preguntar:

Géminis respondió de la siguiente manera:

Gemini parece haber interpretado correctamente la estructura de los datos, lo que genera confianza para análisis posteriores. Al trabajar con modelos lineales lógicos (MLL) en el análisis de datos, este paso inicial garantiza que el modelo comprenda completamente los datos y sus relaciones.

Aunque la mayoría de los principales modelos de lógica descriptiva (LLM), como ChatGPT, Gemini y Mistral, generalmente comprenden la estructura de los archivos xBRL-JSON bien formados, no hay garantía de que el modelo siempre la interprete correctamente. Si el modelo no parece comprender la estructura o responde con errores o respuestas incompletas, no se preocupe: puede guiarlo.

Intenta explicar qué contiene el archivo, por ejemplo: «Este archivo JSON contiene datos XBRL con información financiera clave en el nodo ‘facts'».
Menciona cualquier consejo importante sobre la estructura, como dónde encontrar los nombres de las entidades, los datos de los períodos o las unidades.

Proporcionar a los LLM una breve introducción puede marcar una gran diferencia. También puede comprobar si han comprendido correctamente los datos formulando preguntas sencillas como «¿Cuál es el nombre de la entidad?» o «¿Qué periodo abarca este informe?».

Utilizar indicaciones para el análisis.

Ahora podemos proceder a formular preguntas sobre el informe que hemos subido.

Esto nos permite comprender mejor el criterio adoptado por el LLM, demostrando que seleccionó la información correcta del informe original. La trazabilidad y la transparencia que ofrece XBRL son cruciales para proporcionar información verificable y fiable.

Modelos de razonamiento

Los modelos de lógica descriptiva (LLM) proporcionan automáticamente su razonamiento, lo que aclara su funcionamiento. La IA ya no es una caja negra que exige confianza ciega. Ahora es posible comprobar cómo el LLM que se utiliza ha ejecutado una consulta, lo que garantiza la fiabilidad de las conclusiones. A continuación, se muestra un extracto del razonamiento de la consulta de análisis de tendencias anterior. El razonamiento suele proporcionarse como parte de la respuesta del LLM, antes de la respuesta final.

El modelo ha detectado que cada archivo contiene información sobre dos periodos fiscales, con muchos datos correspondientes tanto al ejercicio actual como al anterior. Si bien la mayoría de los valores coinciden entre los años superpuestos, existe una ligera discrepancia en el periodo de 2022. En este caso, se ha indicado que se está utilizando la versión más reciente y revisada de la información divulgada.

Este razonamiento explícito, similar a una cadena de pensamiento precisa, nos ayuda a comprender los mecanismos internos de los modelos de lógica descriptiva (LLM). Facilita la transparencia en la toma de decisiones de la IA —complementando la transparencia inherente a XBRL— y es un factor importante para generar confianza.

Limitaciones a tener en cuenta

Los LLM no siempre proporcionan respuestas precisas. Es importante revisar los conceptos XBRL que se utilizan y refinar las indicaciones si se aplican conceptos incorrectos o irrelevantes. Al analizar informes de diferentes empresas, recuerde mencionar explícitamente si es necesario convertir o estandarizar las monedas. Además, la forma en que se identifican las entidades en los informes puede no ser intuitiva, por lo que podría ser necesario proporcionar nombres de empresas o asignaciones. En los informes XBRL en línea, los preparadores pueden etiquetar el mismo valor en varias secciones para garantizar la coherencia y facilitar la navegación. Si bien esto no es incorrecto, la eliminación de duplicados es importante durante el análisis para evitar la doble contabilización. Asegúrese de indicar claramente al LLM que elimine la información duplicada cuando sea necesario, como en el ejemplo siguiente.

No es un enfoque de entorno de producción

El método descrito en esta publicación para analizar informes XBRL mediante modelos lineales de lógica (MLL) es experimental y no está diseñado para su uso en producción. En un entorno de producción, se necesitaría un modelo personalizado que comprenda completamente cada detalle de los informes XBRL analizados, sin dejar lugar a suposiciones, para garantizar resultados consistentes y fiables. Por ejemplo, la representación de los periodos de tiempo podría requerir mayor claridad. A mayor escala, el análisis de miles de informes podría requerir la fusión de los datos xBRL-JSON en un formato tabular y la integración de información taxonómica para obtener información realmente relevante.

Conclusiones

En conclusión, esto no es una guía definitiva sobre qué analizar en un informe XBRL, sino más bien una recopilación de consejos prácticos para comenzar a experimentar con las herramientas actuales. La clave es que xBRL-JSON simplifica el análisis al integrarse a la perfección con los modelos de lógica de negocio (LLM), lo que lo convierte en una forma eficaz de canalizar informes XBRL hacia estas plataformas analíticas.

Deja una respuesta Cancelar la respuesta