La relación entre los puntos de datos, la codificación de etiquetas, XBRL y la IA

Por qué la codificación abstracta de etiquetas no ayuda a la IA a comprender los datos XBRL, ni a los humanos.

La idea de que la codificación abstracta es perjudicial para los grandes modelos de lenguaje (LLM, por sus siglas en inglés) llevó a pensar que, por razones similares, la codificación también debe ser contraproducente para la comprensión humana.

Si bien la generación de etiquetas codificadas es esencial para diversas aplicaciones informáticas, plantea desafíos específicos para el funcionamiento de los sistemas de recopilación de datos XBRL, como el marco de informes de la Autoridad Bancaria Europea (EBA). La EBA utiliza tanto la Metodología de Puntos de Datos (DPM) como el Lenguaje Extensible de Informes Empresariales (XBRL) en la implementación de su sistema de Directiva sobre Riesgo de Crédito (CRD).

La EBA genera la taxonomía XBRL a partir de su modelo DPM interno y la proporciona a 27 autoridades de países europeos que recopilan los informes XBRL de miles de bancos. El cambio a un nuevo formato de recopilación más compacto, XBRL-CSV, ofrece la oportunidad de analizar cómo se genera el modelo XBRL y cómo lo interpretan los bancos obligados a presentar informes en este formato. También es un buen momento para revisar cómo se analizan los datos XBRL para facilitar la supervisión bancaria en Europa.

También analiza si la codificación DPM constituye una barrera para el uso futuro de herramientas avanzadas de IA que permitan descubrir información potencialmente útil en los grandes conjuntos de datos que se recopilan.

Codificación: el enfoque DPM

Primero, explicar cómo funciona el enfoque de la EBA para DPM y XBRL. Comienza con el análisis de hojas de cálculo definidas por los expertos del negocio para identificar los datos que deben recopilarse. Cada hoja se considera una tabla y se le asigna un nombre, por ejemplo, ‘F.02.00’, que es el ‘Estado de resultados’ en el módulo FINREP. En la hoja, a cada punto de datos se le proporciona un código dinámico basado en la columna y la fila. Por ejemplo, las coordenadas ‘F02.00, c010, r670’ son el punto de datos en la fila 670, en la columna 10 de la tabla FINREP ‘02.00’, que está etiquetada como ‘Resultado o pérdida del año’ y el ‘Período actual’ para la columna.

El siguiente paso en el enfoque DPM de la EBA consiste en analizar los puntos de datos mediante un método de alta dimensionalidad. De esta forma, el modelo resultante presenta pocas métricas (o «conceptos» en XBRL), pero numerosas dimensiones para desglosar los datos en puntos individuales. Posteriormente, el modelo DPM se utiliza para generar la taxonomía XBRL. La forma en que se genera el modelo influye significativamente en cómo lo comprenden las personas que participan en el proceso de recopilación de datos.

El enfoque actual da como resultado una taxonomía CRD de EBA extremadamente difícil de revisar con herramientas XBRL debido a su estructura altamente dimensional y al uso de la codificación DPM. Si se examina la taxonomía CRD de EBA, que proporciona el diccionario central, la estructura y las reglas de validación, resulta difícil discernir cualquier estructura semántica. En efecto, la codificación DPM y el uso de una dimensionalidad extrema han eliminado toda la información semántica.

Las taxonomías XBRL suelen diseñarse para ser auto explicativas y completas, proporcionando toda la información necesaria para la entidad informante. Sin embargo, la EBA considera necesario publicar un conjunto de documentos asociados que no están en formato XBRL, incluyendo plantillas anotadas en Excel. Estas últimas proporcionan al usuario los diseños de tabla necesarios para comprender qué información debe reportarse y cómo se vinculan los datos con la taxonomía.

La plantilla anotada FINREP F02.00 describe semánticamente el elemento a reportar. También proporciona las coordenadas DPM para la columna y la fila en las celdas grises. A cada punto de datos se le asigna un identificador (DPM-ID) resaltado en amarillo. Finalmente, en el lado derecho se muestra la lista de dimensiones para cada punto de datos en la taxonomía CRD XBRL.

El documento de instancia XBRL generado (archivo de datos) muestra el nivel de abstracción. No hay ninguna referencia ni codificación semántica de la etiqueta de ganancias o pérdidas mencionada anteriormente, solo un concepto, ‘eba_met:md103’, para ‘periodo actual’ (lo cual es inusual, pero lo veremos más adelante) y referencias de contexto que enlazan con las dimensiones.

Por lo tanto, la traducción «mecánica» actual del modelo DPM al sistema de recopilación de datos CRD de la EBA solo es comprensible para los humanos si se dispone de la documentación EBA correspondiente, y en particular de las plantillas anotadas. Esto no se ajusta al enfoque habitual de XBRL.

Transición a la generación de informes XBRL-CSV

A partir de 2025, la EBA tiene previsto utilizar un nuevo formato para comprimir los datos y reducir el tamaño de los archivos de los informes. El nuevo formato es XBRL-CSV.

La EBA planea usar el código DPM-ID, como el ‘57025’ mencionado anteriormente, como identificador clave en el nuevo formato XBRL-CSV. Este código se vincula desde el archivo CSV a la taxonomía XBRL mediante un archivo de metadatos JSON, que describe la estructura y el significado de los elementos CSV. Por lo tanto, la tabla ‘Estado de resultados’ en XBRL-CSV tendrá un aspecto similar a este:

Representación XBRL-CSV del estado de resultados

El DPM-ID es una construcción pura de base de datos, un código que actúa como una clave simple de base de datos para describir uno de estos puntos de datos. No tiene valor semántico y es una codificación puramente abstracta, que no contiene información de agrupación para ayudar a los procesadores a optimizar el rendimiento. Las coordenadas DPM pueden considerarse abstracciones o codificación de primer nivel. El DPM-ID es una abstracción de segundo nivel.

La codificación de etiquetas no aporta nada a los modelos de aprendizaje a gran escala, como los utilizados en ChatGPT, etc., ya que la codificación pierde «contexto y matices» al simplificar atributos o clasificaciones complejos en representaciones abstractas o numéricas. Esto se traduce en un rendimiento deficiente de los sistemas de IA utilizados para explorar los datos.

Basándonos en argumentos similares a los de Harrison Hoffman, creemos que el nivel de codificación utilizado en la taxonomía EBA XBRL y el uso del DPM-ID como identificador clave en la estructura XBRL-CSV propuesta dificultan la aplicación del aprendizaje automático a estos grandes conjuntos de datos, y por lo tanto, hacen más difícil «descubrir» nuevas relaciones en los datos utilizando herramientas avanzadas de IA.

Así pues, los sistemas altamente codificados, como el marco de informes CRD de la EBA, afectan tanto a la comprensión humana como a la de la IA.

Codificando el impacto humano

El marco de informes CRD de la EBA recopila información compleja relacionada con el desempeño y las operaciones de los bancos, donde cada banco cuenta con sus propios sistemas y procesos de datos heterogéneos para obtener la información requerida. XBRL debería funcionar como la lengua franca para ayudar a los miles de bancos a determinar qué información deben reportar. La capacidad de XBRL para estandarizar el diccionario de datos y validar los informes es la razón de su gran éxito en los sistemas de informes regulatorios, donde la calidad de los datos es fundamental.

Sin embargo, a diferencia de la taxonomía CRD de la EBA, las taxonomías XBRL, como la ampliamente citada taxonomía IFRS, utilizan etiquetas conceptuales con gran riqueza semántica, como «beneficio» y «pérdida». Utilizan la base de enlaces de presentación para mostrar al usuario la jerarquía de conceptos, la base de enlaces de cálculo para mostrar relaciones matemáticas sencillas y nombres cortos en lenguaje natural para los desgloses dimensionales, por ejemplo, «beneficio operativo neto» y «beneficio antes de impuestos».

Es evidente que codificar etiquetas en un marco de recopilación puede generar dificultades de interpretación que pueden dar lugar a malentendidos. La EBA publica y mantiene actualizada una serie de documentos que no utilizan XBRL, como las plantillas anotadas, y recurre a las Normas Técnicas de Implementación (ITS) sobre informes de supervisión para respaldar el marco, lo cual resulta laborioso y costoso. ¿Podría la EBA haber evitado gran parte de este trabajo adicional si la taxonomía se hubiera diseñado de otra manera?

En este contexto, si un informe no supera la validación, por ejemplo, cuando una fórmula XBRL produce un resultado anómalo, el analista suele tener que consultar numerosos documentos que no son XBRL debido a la opacidad del modelo XBRL; es decir, los conceptos y dimensiones codificados le generan trabajo adicional. Por lo tanto, el enfoque de la EBA consiste, en la práctica, en trasladar los costes a lo largo de la cadena de suministro de información a las 27 Autoridades Nacionales Competentes (ANC) europeas que gestionan el marco local de informes XBRL y a los bancos obligados a informar.

Es difícil cuantificar el tiempo perdido al resolver las abstracciones causadas por la codificación, pero se espera que la transición a XBRL-CSV y el uso del DPM-ID generen trabajo adicional al añadir otro nivel de indirección en el proceso de generación de informes. El software, por supuesto, podrá leer las descripciones JSON proporcionadas como parte de XBRL-CSV, pero los responsables de cumplimiento y los analistas bancarios dependerán de la lectura de las plantillas anotadas para comprender el significado de cada DPM-ID mediante la traducción de los identificadores de hoja, fila y columna. Además, la depuración de problemas requerirá resolver todos los niveles de abstracción en la taxonomía a través de los metadatos JSON. Como hasta ahora, los proveedores de software XBRL deberán seguir ofreciendo plantillas de hojas de cálculo renderizadas o formatos CSV alternativos más sencillos como opciones de entrada.

Codificación del impacto del análisis

En cuanto a la comunicación de los requisitos de información de la CRD, la taxonomía XBRL actual no es la mejor, pero ¿es peor la propuesta de migrar al formato XBRL-CSV utilizando el DPM-ID como identificador clave? O bien, ¿compensa el nivel adicional de abstracción la capacidad del enfoque para lograr los objetivos del sistema, es decir, supervisar el mercado bancario en Europa, de forma más eficaz que antes?

Sin duda, el enfoque DPM ha ayudado a la EBA a desarrollar un modelo y un diccionario de datos coherentes en todo el sistema bancario. El enfoque de puntos de datos funciona bien para sistemas que generan análisis predeterminados, como OLAP y los almacenes de datos tradicionales.

Se da por sentado que tanto la EBA como las NCA utilizan el amplio conjunto de datos de información bancaria europea para obtener un conjunto de indicadores clave de rendimiento bancario con los que comparar bancos individuales. Los informes de tendencias históricas y diversos paneles de control también son fáciles de generar. Sin embargo, se sospecha que gran parte de los datos recopilados no se utilizan para la supervisión bancaria, ya que dichos informes se limitan a lo que los humanos pueden procesar, es decir, datos altamente agregados o cuando es necesario analizar con mayor detalle un conjunto de datos específico en el que se ha emitido una alerta.

El poder del análisis mediante IA reside en su capacidad para descubrir información valiosa oculta en grandes volúmenes de datos detallados. Sin embargo, como argumenta el artículo de Harrison Hoffman, el uso de la codificación DPM en el sistema de recopilación no facilita el uso de modelos de lenguaje natural (LLM) en el conjunto de datos resultante. Si bien se podría aplicar el aprendizaje automático a los datos brutos, el sistema de IA requeriría un entrenamiento exhaustivo en el enfoque y la arquitectura DPM, así como en la vinculación del ID de DPM con etiquetas significativas. Todo esto implicaría un coste adicional y requeriría una amplia experiencia.

Los modelos de lenguaje natural (LLM) y las técnicas modernas de IA funcionan de manera diferente al almacenamiento de datos estándar y la IA tradicional (aprendizaje supervisado), es decir, mediante el entrenamiento no supervisado de modelos, a veces aumentado con conocimiento específico adicional, generación aumentada por recuperación (RAG). A gran escala, comienzan a ocurrir cosas especiales, como con los modelos de lenguaje, tales como GPT, Llama y Gemini, que comienzan a mostrar comprensión general del lenguaje. Este tipo de enfoque de IA sería más simple y económico de aplicar a medida que la tecnología madure.

Las arquitecturas de bases de datos modernas, como las bases de datos semánticas, permiten la recopilación eficiente de datos XBRL, y existen bases de datos XBRL basadas en SQL más económicas y sencillas para aplicaciones de menor tamaño. Estas tecnologías proporcionan un almacén de datos operativo donde ejecutar algoritmos de descubrimiento, especialmente útiles para la IA. Gracias a la estructura inherente de XBRL, también resulta sencillo transformar y cargar (o cargar y transformar) datos en estructuras analíticas, como una base de datos DPM.

Alternativas de codificación

Creemos que XBRL-CSV es ideal para la actualización del marco de informes CRD de la EBA, ya que puede reducir significativamente el tamaño de los archivos de los informes enviados. Por ello, el Consejo de Estándares XBRL (XSB) creó la especificación Open Information Model (OIM), que define tanto XBRL-CSV como XBRL-Json. La preocupación radica en que la EBA la está utilizando incorrectamente en lo que respecta a la estructura XBRL-CSV. Por primera vez, la EBA planea introducir la codificación DPM directamente en los informes XBRL utilizando una construcción semánticamente vacía, el DPM-ID, como una capa adicional de abstracción.

Sin repetir los argumentos del artículo original, creemos que la nueva estructura XBRL-CSV basada en el DPM-ID dificultará su comprensión tanto para humanos como para IA. Como aspecto positivo, los archivos serán más pequeños y, al menos para la EBA, resultará más sencillo cargar los datos recopilados en su propia base de datos DPM. Sin embargo, hay que tener en cuenta 27 autoridades nacionales competentes y miles de bancos al evaluar el impacto.

La alternativa sería utilizar directamente un buen modelo XBRL. Sin embargo, rediseñar las herramientas DPM para generar un modelo XBRL semántico «mejor» supondría un esfuerzo y un coste considerables, además de plantear otros problemas. Por ejemplo, el problema de la verbosidad en los términos XBRL es real. La codificación garantiza un tamaño fijo para nombrar los elementos, mientras que en un modelo XBRL típico los nombres de conceptos y dimensiones tienen una longitud variable. Esto último implica que cualquier sistema XBRL puede ser verboso y generar archivos grandes según la aplicación. No obstante, la especificación XBRL permite etiquetas tanto cortas como largas, por lo que creemos que estos problemas pueden resolverse mediante una codificación «sencilla» y no abstracta.

Resulta más sencillo para los humanos visualizar la disposición de la tabla, lo que facilitaría el trabajo de los proveedores de software, que ya generan las bases de datos de enlaces de tabla en otros formatos, como hojas de cálculo para la entrada de datos, y muestran mensajes de error útiles a los usuarios empresariales. Sin embargo, esto requeriría una mayor transformación por parte de la EBA al cargar su base de datos DPM interna.

Una posible solución sería utilizar las coordenadas DPM como identificadores dimensionales en el archivo XBRL-CSV. Los bancos comprenden las coordenadas a partir de las plantillas anotadas, lo que constituye una abstracción visual sencilla. Si se utilizaran las coordenadas DPM en el formato de archivo XBRL-CSV en lugar del ID de DPM, los procesadores XBRL podrían identificar grupos de datos (es decir, todos los datos de una columna o fila), lo que permitiría establecer una relación entre los datos para mejorar la velocidad de procesamiento. Al invertir los roles, la EBA podría ayudar a los usuarios a comprender los datos y, al mismo tiempo, facilitar su carga en la base de datos, es decir, utilizar las coordenadas DPM, los ID de hoja, columna y fila en la estructura CSV y vincularlos al ID de DPM en los metadatos técnicos JSON.

La EBA argumentaría que el DPM-ID posee una solidez histórica de la que carecen las coordenadas de la hoja de cálculo, ya que estas cambian entre periodos de informe. Sin embargo, las taxonomías XBRL se actualizan en cada periodo de informe y, por lo tanto, son transitorias por naturaleza. En consecuencia, el uso de las coordenadas DPM para una taxonomía no afecta al sistema de análisis, sino únicamente a la transformación y carga de datos. Además, la EBA ya dispone de la conexión histórica entre los puntos de datos mediante el DPM-ID en su base de datos analítica interna, que es donde debería establecerse la conexión histórica entre los elementos del informe.

El uso de las coordenadas DPM también se vincularía con la notación DPM para la verificación de la calidad de los datos. Esta notación propietaria se utiliza para ayudar a construir y documentar fórmulas XBRL que permiten comprobar la exactitud y la coherencia de los datos reportados. La codificación y las pruebas de estas reglas requieren un esfuerzo considerable. XBRL Europe propone un formato XF DPM para escribir fórmulas EBA que funcionen a nivel de hoja en lugar de a nivel de punto de datos, lo que simplifica la escritura y el procesamiento de las reglas. Si el modelo de datos cuenta con una estructura semántica, se podrían emplear técnicas de IA para generar estas reglas directamente a partir del modelo semántico, utilizando la estructura y la nomenclatura de los elementos.

Una vez que los reguladores y los proveedores de software logren que el nuevo formato funcione, el sistema de recopilación XBRL-CSV debería funcionar sin problemas, pero al igual que otros sistemas de recopilación basados ​​en sistemas de almacenamiento de datos propietarios, podría quedar obsoleto.

Conclusiones

Desde nuestro punto de vista, la EBA parece no haber elegido la estrategia más eficaz al adoptar el formato de informes XBRL-CSV, codificando toda la información y descartando la riqueza semántica de las hojas de cálculo desarrolladas por las propias empresas. Los escasos beneficios de este enfoque recaen en la EBA, pero no en las autoridades nacionales competentes ni en los bancos que recopilan o elaboran los informes.

Nuestra principal conclusión es que, al adoptar el DPM-ID como identificador clave en la estructura XBRL-CSV, la EBA dificulta la comprensión humana de la estructura y el significado de los datos, y además podría estar impidiendo un cambio importante en la informática hacia el análisis de grandes conjuntos de datos basado en IA. A medida que se enseña a las computadoras a pensar como los humanos, buscan relaciones semánticas entre los datos, como nombres de conceptos semánticos significativos, y estructuras basadas en jerarquías y tablas, que puedan orientar su comprensión.



Deja una respuesta