El potencial de XBRL como capa semántica

¿Puede XBRL desempeñar un papel clave en las arquitecturas de datos modernas?

La era digital ha dado paso a una época sin precedentes de proliferación de datos, donde la información empresarial se genera y difunde a un ritmo exponencial. Los métodos tradicionales de elaboración de informes y análisis de datos tienen dificultades para gestionar este aumento de volumen y complejidad. Por consiguiente, las empresas están recurriendo a plataformas nativas de la nube, lagos de datos, centros de datos y redes malladas para encontrar soluciones innovadoras que aporten significado a los datos empresariales, permitiendo el procesamiento automatizado y una mejor toma de decisiones.

A medida que las organizaciones se esfuerzan por unificar diversos conjuntos de datos en estas herramientas y extraer información relevante a gran escala, el concepto de una «capa semántica» universal está ganando terreno. Estas estructuras buscan ofrecer una visión comprensible para el usuario de los datos almacenados, presentando la información en términos empresariales significativos.

Al mismo tiempo, el lenguaje XBRL (eXtensible Business Reporting Language) se ha consolidado como el estándar fundamental en el ámbito de la información digital y el cumplimiento normativo, ofreciendo un enfoque estructurado y estandarizado para la comunicación electrónica de datos empresariales y financieros.

Este artículo explora el potencial de XBRL como capa semántica para datos empresariales, analizando sus capacidades, beneficios y limitaciones, así como su posición con respecto a otras tecnologías semánticas. Al profundizar en estos aspectos, se busca ofrecer una comprensión integral de cómo XBRL puede contribuir a un ecosistema de información empresarial más rico e inteligente desde el punto de vista semántico.

Desmitificando XBRL

XBRL, acrónimo de eXtensible Business Reporting Language (Lenguaje Extensible de Informes Empresariales), fue diseñado para el intercambio de datos empresariales y financieros. Su función principal es automatizar el intercambio de información empresarial mediante la inclusión de etiquetas estandarizadas en un informe. Estas etiquetas y sus relaciones semánticas se definen en una taxonomía XBRL independiente.

La taxonomía funciona como un diccionario y modelo común (jerarquías, dimensiones, etc.). Cada etiqueta en un informe XBRL corresponde a un concepto de negocio proporcionado por el autor de la taxonomía o creado como una nueva extensión. La extensibilidad es una característica clave de XBRL, ya que permite generar taxonomías a partir de un conjunto de taxonomías estándar. Por lo tanto, se puede construir un modelo de informes complejo a partir de bloques de construcción simples.

Por ejemplo, el Formato Electrónico Único Europeo (ESEF) se basa en la taxonomía de referencia de las NIIF, además de taxonomías técnicas de XBRL International (XII). Al presentar informes, las empresas pueden añadir sus propias extensiones específicas, creando así su propia taxonomía de extensión ESEF, que adjuntan al informe. El software de procesamiento XBRL valida automáticamente el informe.

Más allá de las definiciones, una taxonomía XBRL incluye componentes (bases de enlaces) que especifican diversas relaciones, como su presentación (jerarquías), tablas (cuadrículas), la forma de realizar cálculos y comprobaciones de coherencia, etiquetas asociadas para diferentes idiomas y referencias a bibliografía autorizada. Los informes XBRL, denominados técnicamente instancias, también contienen contextos que definen la entidad, el período, la unidad y la precisión de los datos, por ejemplo, millones de dólares estadounidenses.

El formato iXBRL (XBRL en línea), que integra los datos XBRL directamente en un documento HTML, permite que estos informes sean legibles tanto para humanos como para máquinas en un único archivo. Esto resulta fundamental para informes que se publican o imprimen, así como para aquellos cuyos datos se someten a un análisis exhaustivo, como los informes financieros anuales y los informes de sostenibilidad de las empresas.

XBRL ha ampliado recientemente su presencia con la iniciativa Open Information Model (OIM), introduciendo los formatos XBRL-CSV y XBRL-JSON para una representación e intercambio de datos más eficientes y fáciles de usar para los desarrolladores, en particular para grandes conjuntos de datos y aplicaciones web.

El siguiente paso del programa OIM consiste en simplificar la definición de la taxonomía XBRL y las reglas para verificar su precisión y coherencia. Esto ofrece a la comunidad XBRL la oportunidad ideal para profundizar en el tema y desarrollar XBRL hasta convertirlo en uncomponente clave de las pilas de datos modernas, es decir, parte de una capa semántica universal.

¿Qué es una capa semántica?

Los numerosos sistemas y aplicaciones fragmentados actuales, que utilizan diferentes etiquetas y definiciones para los datos, dificultan enormemente la creación de una visión organizativa unificada y su transformación en un sistema de análisis común.

En el ámbito de la gestión de datos y la inteligencia empresarial, una capa semántica actúa como una capa de abstracción que traduce datos técnicos y diseños complejos en términos empresariales comprensibles para los usuarios. Además, la capa semántica de una herramienta moderna de inteligencia empresarial de autoservicio puede proporcionar al usuario una visión consolidada de los datos almacenados en múltiples sistemas.

Sin embargo, cada herramienta de BI tiene su propio formato y sintaxis, y cada solución de almacenamiento de datos cuenta con sus propias capas de acceso y métodos de recuperación. Si bien muchos sistemas de almacenamiento de datos generan catálogos de datos, esenciales para comprender qué datos están disponibles para su acceso y análisis, estos no contienen la información semántica de los datos que describen.

De aquí surge la idea de una capa semántica «universal». Esta capa actúa como base central donde se almacenan los conceptos de negocio y los metadatos relacionados, además de definir cálculos comunes y estandarizar las métricas de datos, garantizando que todos los departamentos, desde finanzas hasta marketing, trabajen con los datos desde una perspectiva y terminología coherentes.

La aparición de herramientas que incorporan estas ideas se muestra en el diagrama de arquitectura de Dremio que aparece a continuación. Este diagrama refleja la visión de las herramientas destinadas a facilitar la gestión de estas arquitecturas de datos modernas y a simplificar las consultas para los usuarios empresariales.

Una búsqueda rápida revela una serie de proveedores que ofrecen plataformas de capa semántica independientes, es decir, que son independientes de herramientas de BI específicas y permiten un acceso «abierto»:

AtScale se centra en proporcionar métricas consistentes, optimización del rendimiento y una gobernanza simplificada. AtScale admite múltiples perfiles de modelado (code-first y no-code).
Cube ofrece funcionalidades como modelado de datos, control de acceso, almacenamiento en caché y API para la integración con diversos puntos finales. Además, Cube se centra en mejorar la precisión de la IA generativa proporcionando contexto empresarial.
Capa semántica de dbt (con MetricFlow): DBT es una herramienta popular de gestión y almacenamiento de datos; su extensión de capa semántica permite la definición centralizada de términos y métricas empresariales clave mediante código.
Dremio se conecta a diversas fuentes de datos, proporcionando un catálogo integrado para la organización y ofreciendo una sólida gobernanza de datos. La función Reflections optimiza la capa semántica para cargas de trabajo de análisis y aprendizaje automático mediante la creación de vistas materializadas que aceleran el rendimiento de las consultas.
Kyvos Insights: ofrece una capa semántica impulsada por IA diseñada para gestionar conjuntos de datos grandes y complejos, centrándose en mejorar los datos, acelerar el rendimiento de las consultas y proporcionar modelos de datos enriquecidos con jerarquías y medidas calculadas.
Progress Semaphore: se centra en la gestión de metadatos y la IA semántica para crear una capa semántica para un ecosistema digital.
Veezoo: se centra en una experiencia de preguntas y respuestas potente y fácil de usar, basada en datos. Utiliza un lenguaje de modelado semántico (VKL) para que los usuarios empresariales obtengan información valiosa al instante mediante búsquedas y consultas en lenguaje natural.

Muchas plataformas de BI tradicionales, como Microsoft Power BI, Tableau, SAP BusinessObjects y Oracle Analytics Cloud (OAC), incluyen funcionalidades de capa semántica que podrían desarrollarse aún más, pero que actualmente están estrechamente integradas en sus respectivos ecosistemas. Looker de Google también cuenta con una sólida capa de modelado semántico llamada LookML, que permite definir modelos de datos y lógica de negocio, lo que abre la puerta a otra opción para una capa semántica independiente.

Así pues, una capa semántica típica incluye definiciones de modelos semánticos, gestión de metadatos, una capa de lógica de negocio para definir cálculos y reglas, una capa de acceso a datos para gestionar la interacción del usuario y la seguridad, y, a menudo, componentes de gestión de taxonomía y ontología. En conjunto, estos componentes permiten que la capa semántica proporcione una visión simplificada, coherente y segura de los datos de la organización. ¿Cómo se compara XBRL con esta lista?

Descifrando el significado semántico mediante XBRL

XBRL posee características destacables para funcionar como una capa semántica. Como se mencionó, las taxonomías XBRL establecen un marco semántico integral para la presentación de informes empresariales, sirviendo como vocabularios estandarizados, organizando estos elementos en una estructura jerárquica, facilitando la agrupación lógica y la navegación de la información, reflejando las relaciones inherentes entre diferentes conceptos y proporcionando reglas para verificar la precisión y la coherencia. Este modelo estructurado constituye la base semántica sobre la cual se pueden construir los marcos de información financiera.

El potencial de XBRL como base para sistemas de cumplimiento y marcos de presentación de informes ya se está haciendo realidad.

Las iniciativas nacionales, como el programa Standard Business Reporting (SBR) en los Países Bajos, coordinan numerosos requisitos de información financiera del gobierno mediante XBRL: declaraciones anuales de empresas, impuestos, recopilación de estadísticas, presupuestos de corporaciones de vivienda, sector educativo y seguimiento de préstamos comerciales.
La Autoridad Europea de Seguros y Pensiones de Jubilación (EIOPA) y la Autoridad Bancaria Europea (EBA) utilizan el formato de datos XBRL para definir modelos de información comunes para 27 países europeos, con el fin de recopilar diversos informes de miles de bancos y compañías de seguros. (Lamentablemente, la EBA ha comenzado a desviarse del modelo semántico al utilizar etiquetas codificadas abstractas de su base de datos interna para identificar datos, lo que anula las ventajas en cuanto a comprensión y acceso. Otros artículos abordan este tema, pero esperamos que puedan retomar el camino correcto en el futuro).
La taxonomía ESEF, publicada por la Autoridad Europea de Gestión de Valores (ESMA), es un buen ejemplo de cómo combinar varios componentes taxonómicos en un único modelo. Además, está traducida a todos los idiomas europeos para que las empresas europeas que cotizan en bolsa puedan presentar sus informes en su idioma local.

Sin embargo, a pesar de las numerosas ventajas del uso de XBRL, existen varias preocupaciones y limitaciones que merecen ser consideradas:

La complejidad asociada a XBRL suele ser citada por los críticos como una barrera. Las taxonomías pueden ser extensas e intrincadas, abarcando miles de elementos y relaciones complejas. Sin embargo, la complejidad de los modelos radica en que la naturaleza de los dominios que describen parece simple para los humanos, pero es compleja a nivel de datos.
Otra barrera para la adopción que se suele mencionar son los costes iniciales asociados a la implementación de XBRL, que incluyen la adquisición de software especializado, la formación adecuada del personal y la posible contratación de consultores externos. Sin embargo, si se consideran como parte del coste total de la estandarización y la presentación de informes digitales, los costes del etiquetado XBRL son relativamente bajos y se deben en parte a que la industria del software aún está en desarrollo.
Comprender e implementar la taxonomía adecuada para una industria o jurisdicción específica requiere conocimientos y experiencia especializados. La escasez de personal cualificado es un problema real, pero también puede considerarse parte de las dificultades propias del crecimiento de una tecnología en rápida expansión.
La resistencia al cambio dentro de las organizaciones también puede obstaculizar el proceso de adopción, ya que podría requerir ajustes significativos en los flujos de trabajo y procesos de informes existentes. Todo esto forma parte de los desafíos que implica la transición a un mundo digital, impulsado por el creciente uso de la IA, a los que todos nos enfrentaremos.
Finalmente, la extensibilidad de XBRL, si bien ofrece flexibilidad, también puede plantear desafíos. La posibilidad de que las empresas creen extensiones personalizadas puede generar dificultades en los sistemas de análisis estructurado y en garantizar la comparabilidad entre diferentes fuentes de datos. Lograr un equilibrio entre la flexibilidad necesaria y el mantenimiento de un nivel de estandarización que permita una comparación efectiva es un reto constante en la comunidad XBRL; un tema controvertido, por así decirlo.

En mi opinión, se trata de problemas tecnológicos típicos. Sin embargo, si bien XBRL mejora significativamente las capacidades de validación automatizada y análisis de datos en los ejemplos anteriores y muchos más, actualmente se limita a mecanismos de almacenamiento y análisis que pueden procesar específicamente su estructura y sintaxis únicas. Este factor, en particular, está frenando la adopción de XBRL.

XII ha demostrado que, al convertir informes XBRL a XBRL-JSON y vincularlos con herramientas como Tableau y LLM, las definiciones semánticas de XBRL pueden utilizarse de forma productiva. Además, actualmente existen bases de datos XBRL comerciales, como la base de datos XT de UBPartner, que pueden ayudar a transformar grandes volúmenes de informes XBRL en datos utilizables. Sin embargo, esto no parece ser suficiente para impulsar un mayor uso de XBRL.

¿Cómo se puede implementar OIM de manera que impulse XBRL hacia una capa semántica universal?

XBRL en el contexto de la Web Semántica más amplia

Para comprender plenamente el papel de XBRL como capa semántica, conviene compararlo con otras tecnologías semánticas consolidadas, especialmente aquellas asociadas a la Web Semántica, como RDF (Resource Description Framework) y OWL (Web Ontology Language). La Web Semántica es una extensión de la World Wide Web cuyo objetivo es hacer que los datos de internet sean legibles por máquinas, permitiendo así que los ordenadores comprendan y procesen la información con mayor eficacia.

RDF proporciona un modelo estándar para el intercambio de datos en la web. Permite la creación de una red de datos interconectados donde las relaciones entre las diferentes piezas de información se definen explícitamente. Por ejemplo, se podría usar RDF para indicar que la «Empresa A» tiene ingresos de 1.000.000 de dólares estadounidenses.
OWL se basa en RDF y ofrece un lenguaje más sofisticado para definir ontologías, que son representaciones formales del conocimiento, detallando conceptos, sus propiedades y las relaciones entre ellos. OWL permite la creación de modelos semánticos más ricos y complejos.

El uso principal de RDF y OWL es la búsqueda semántica en grandes conjuntos de datos, en su mayoría no estructurados. El lenguaje de consulta SPARQL se utiliza habitualmente para almacenes de datos RDF y permite a los usuarios especificar patrones gráficos para compararlos con los datos RDF, lo que posibilita búsquedas complejas basadas en relaciones y propiedades, permitiendo a los usuarios encontrar información en función del significado, en lugar de solo de palabras clave.

Los grafos de conocimiento construidos con RDF y OWL permiten navegar y realizar búsquedas para descubrir conexiones e información que podrían pasar desapercibidas en los almacenes de datos tradicionales. Las técnicas de recorrido y consulta de grafos permiten explorar las relaciones entre entidades, lo que mejora significativamente la búsqueda de datos. Además, herramientas como Ontopic Studio permiten diseñar capas semánticas basadas en los estándares del W3C, ofreciendo un enfoque más centrado en los grafos de conocimiento.

OWL admite un razonamiento lógico e inferencia más sofisticados que el estándar XBRL. Su semántica basada en modelos permite la verificación automatizada de la coherencia, la clasificación y otras formas de razonamiento sobre los datos. Sin embargo, en términos de adopción y ecosistema, XBRL ha logrado una amplia adopción en el ámbito de la información financiera, con un ecosistema consolidado de normativas, herramientas de software y proveedores de servicios.

La adopción de RDF y OWL está creciendo en diversos sectores, pero el ecosistema empresarial está menos desarrollado. Al parecer, también presentan muchos de los problemas mencionados anteriormente para XBRL. En resumen, se diferencian de la siguiente manera:

Existen iniciativas y enfoques en curso que buscan combinar las ventajas de las tecnologías XBRL y la Web Semántica. Charlie Hoffman (a menudo considerado el «padre» de XBRL) ha reflexionado frecuentemente sobre estas conexiones en su blog sobre informes digitales. Estos proyectos e iniciativas en curso ponen de manifiesto el creciente reconocimiento y utilización del potencial de XBRL como capa semántica, al menos para datos financieros.

Queda por determinar si XBRL y las herramientas de la web semántica pueden integrarse para definir un modelo semántico universal y si pueden utilizarse conjuntamente para definir taxonomías para las nuevas especificaciones OIM. Una mayor colaboración entre el Consejo de Estándares XBRL (XSB) y la comunidad OWL parece beneficiosa.

El futuro de los datos semánticos con XBRL

El análisis anterior subraya el gran potencial de XBRL para funcionar como una capa semántica para datos empresariales. Su estructura inherente, su sistema de etiquetado estandarizado y sus taxonomías exhaustivas proporcionan una base sólida para dotar a la información de un significado que trasciende la mera sintaxis.

La continua evolución de XBRL, con nuevos formatos y la simplificación de taxonomías, sugiere que su uso para el cumplimiento normativo se expandirá y ofrecerá aún mayores beneficios. A medida que la IA siga avanzando, cabe esperar una creciente demanda de etiquetado XBRL, ya que, contrariamente a muchas afirmaciones erróneas, XBRL proporciona la estructura sintáctica y semántica necesaria para que la IA interprete mejor los informes financieros.

Para la comunidad XBRL, las especificaciones de la taxonomía OIM supondrán un cambio radical con respecto al pasado, brindando a la comunidad la oportunidad de abordar una preocupación común: que XBRL aún no facilita, simplifica ni agiliza las tareas de forma visible. El primer paso será garantizar que OIM sea una plataforma de alta calidad que respalde las ambiciones actuales de la comunidad, incluyendo reglas de verificación de calidad de datos más sofisticadas y una mayor velocidad de procesamiento.

Si bien el camino hacia la utilización generalizada y eficaz de XBRL como capa semántica es prometedor, no estará exento de desafíos. Requerirá una gobernanza sólida y una colaboración continua de la comunidad para alcanzar su máximo potencial.

A pesar de la advertencia anterior, sigo recomendando que la comunidad XBRL mire más allá:

Analizando cómo XBRL podría integrarse en las pilas de datos modernas.
El objetivo es proporcionar una capa semántica verdaderamente universal para estas implementaciones de una manera más coherente y estandarizada.
Es fundamental que el futuro de XBRL incluya una gobernanza semántica transversal a las taxonomías, ya que los marcos de informes mencionados anteriormente se han desarrollado como soluciones puntuales, lo que implica que el mismo concepto se describe de forma diferente en distintas taxonomías. Nuevas iniciativas, como BIRD del BCE, buscan crear diccionarios de manera más coherente, algo que XBRL debe admitir.

El XSB debería ofrecer una visión a largo plazo como parte de la dirección que tomen en materia de OIM, para animar a los proveedores de software a invertir en nuevas herramientas y enfoques de visualización que ayuden a los usuarios a crear y revisar modelos de taxonomía.

Al abordar estos desafíos desde las primeras etapas del proceso de definición de OIM y al seguir innovando, XBRL puede consolidar su papel como piedra angular de un futuro con mayor inteligencia semántica para la información financiera.

Deja una respuesta Cancelar la respuesta