
Publicado el 9 de junio de 2024 por Editor
Revathy Ramanan, de XBRL International, profundiza esta semana en el potencial de GPT-4 para analizar revelaciones narrativas en datos de XBRL. A medida que el aprendizaje automático y la IA generativa continúan avanzando, presentan nuevas oportunidades para comprender datos complejos de desempeño empresarial. En particular, estas nuevas tecnologías pueden descifrar datos relativamente difíciles de analizar de manera convencional, lo que facilita el acceso a información sin conocimientos técnicos profundos.
En su última publicación de blog, Ramanan exploró cómo GPT-4 puede comprender datos XBRL y puede aprovecharse para realizar análisis fundamentales mediante consultas simples en inglés. En la publicación de esta semana, profundiza en lo que GPT-4 puede hacer específicamente con datos narrativos o bloques de texto. Las divulgaciones de sostenibilidad en particular son ricas en datos narrativos y se necesitan nuevos enfoques analíticos para procesar eficazmente esta información basada en texto.
A diferencia de los datos cuantitativos, que incluyen números y estadísticas, las divulgaciones narrativas ofrecen una explicación detallada y un contexto en torno al desempeño, los riesgos y las perspectivas de una empresa. Sin embargo, es más difícil comparar y detectar patrones en grandes cantidades de datos narrativos.
GPT-4 se puede utilizar para analizar textos de políticas contables de los informes ESEF durante años consecutivos. La IA identificó eficientemente cambios materiales en el texto, demostrando capacidad para manejar comparaciones narrativas. Para las divulgaciones de empresas en funcionamiento, GPT-4 calculó las puntuaciones de TF-IDF para 180 informes ESEF, destacando las variaciones y ayudando a identificar valores atípicos para una mayor investigación. Este proceso, que normalmente requiere software estadístico y habilidades de codificación, se hizo accesible mediante consultas simples en lenguaje natural.
Utilizando datos del mandato de Informes de Sostenibilidad y Responsabilidad Empresarial (BRSR) de la India, se asignó al GPT-4 la tarea de analizar la objetividad de las divulgaciones de mitigación de riesgos. La IA clasificó las entradas según criterios específicos, proporcionando una distinción clara entre declaraciones subjetivas y objetivas. Este tipo de análisis claramente podría ser útil tanto para los auditores como para los reguladores.
Estos ejemplos subrayan cómo GPT-4 puede democratizar el acceso a análisis de datos complejos, permitiendo a las partes interesadas interactuar con los datos de forma intuitiva. La integración de Large Language Models (LLM) con el análisis de datos tradicional abre nuevos horizontes para explorar datos más allá de los paneles predefinidos y las vistas estáticas. Sin embargo, los datos limpios y estructurados son cruciales para un análisis preciso, y el uso de informes con formato xBRL-JSON mejora la confiabilidad de los conocimientos generados por GPT-4.
Lea el blog completo para descubrir cómo la divulgación narrativa se puede analizar fácilmente en GPT-4 utilizando lenguaje natural y sin necesidad de saber codificar.

Análisis de divulgación narrativa con GPT-4
Publicado el 6 de junio de 2024 por Revathy Ramanan
Las nuevas tecnologías, como el aprendizaje automático y la IA generativa, están creando nuevas e interesantes oportunidades para comprender el desempeño empresarial. En particular, pueden descifrar datos relativamente intratables que son difíciles de analizar de manera convencional, lo que facilita el acceso a nuevos conocimientos sin un conocimiento técnico profundo.
En mi última publicación de blog comencé a explorar cómo GPT-4 puede comprender datos XBRL y puede aprovecharse para realizar análisis fundamentales mediante consultas simples en inglés. En esta publicación, profundizaré en lo que GPT-4 puede hacer específicamente con datos narrativos, también conocidos como bloques de texto. Las divulgaciones sobre sostenibilidad en particular son ricas en narrativa y requieren nuevos enfoques analíticos para procesar eficazmente esta información basada en texto.
A diferencia de los datos cuantitativos, que incluyen números y estadísticas, las divulgaciones narrativas ofrecen una explicación detallada y un contexto en torno al desempeño, los riesgos y las perspectivas de una empresa. Sin embargo, es más difícil comparar y detectar patrones en grandes cantidades de datos narrativos.
Históricamente, los analistas (y las herramientas de software disponibles) se han centrado principalmente en los conocimientos que podemos extraer de los datos numéricos de los informes corporativos. Con el auge de los modelos de análisis de texto, ahora también podemos analizar mejor las revelaciones narrativas y hacer un mejor uso de este valioso recurso. Sin embargo, el uso de análisis de texto normalmente implica escribir código, usar bibliotecas relevantes e interpretar los resultados, todo lo cual requiere un cierto nivel de experiencia técnica.
Esta publicación de blog explora cómo la divulgación narrativa se puede analizar fácilmente en GPT-4 utilizando lenguaje natural y sin necesariamente conocer técnicas de codificación.
Análisis de políticas contables.
Comencemos con un análisis de texto de política contable simple para dos empresas de muestra. Las políticas contables tienden a permanecer sin cambios de un año a otro. Sin embargo, cuando hay cambios, es útil poder identificarlos para permitir una mayor investigación si es necesario. Veamos cómo GPT-4 puede ayudar a detectar dichos cambios.
Aquí proporcioné a GPT-4 los datos necesarios cargando dos informes ESEF para la misma empresa en formato xBRL-JSON durante años consecutivos. En mi consulta, enumeré los conceptos de política contable relevantes y le pedí a GPT-4 que identificara cualquier cambio de texto entre los dos informes.

Aquí, GPT-4 lee el informe, reconoce que hay etiquetas HTML en el contenido del bloque de texto y las elimina para mayor claridad, lo cual es impresionante.

Dadas las discusiones en curso sobre la conservación de etiquetas de formato de bloques de texto para facilitar la lectura, este es un suave recordatorio de que el estilo HTML generalmente se descarta durante el análisis de texto automatizado.
Para la primera empresa (Nestlé Holdings, Inc.), GPT-4 no reconoció ningún cambio significativo en el texto de la política contable.

Para la segunda empresa (ASCENTIAL PLC), GPT-4 identificó dos cambios: una modificación menor en la política contable del fondo de comercio y una nueva divulgación, probablemente de mayor interés, relacionada con la política contable de gastos ambientales.

Estos conocimientos son valiosos y lo que es aún mejor es que se pueden obtener sin escribir ningún código de análisis de texto. Experimentos sencillos como este demuestran cómo estas técnicas de IA facilitan mucho el análisis.
Divulgaciones de empresas en funcionamiento
En este ejemplo, analizaremos las divulgaciones de empresas en funcionamiento entre empresas. Supongamos que está haciendo un análisis temático de una gran cantidad de divulgaciones de la empresa. El primer paso es controlar estas revelaciones, capturando la amplia variación en el texto de una manera significativa y útil.
Una métrica común utilizada para comprender los datos de texto es la puntuación TF-IDF, que significa Frecuencia de términos-Frecuencia de documentos inversa. TF-IDF proporciona una puntuación numérica combinada basada en la cantidad de palabras, la frecuencia de las palabras y la rareza de las palabras dentro del conjunto de documentos de muestra.
Aquí le proporcioné a GPT-4 divulgaciones de empresas en funcionamiento de 180 informes europeos en formato electrónico único (ESEF) y le pedí a GPT-4 que calculara las puntuaciones de TF-IDF. Normalmente, el proceso de calcular las puntuaciones TD-IDF implicaría el uso de Python, R o algún otro lenguaje estadístico y una variedad de habilidades de codificación especializadas.

La puntuación media es 8,99 con una desviación estándar de 2,7. Esto significa que un texto típico de empresa en funcionamiento en la muestra tiene una puntuación TF-IDF de alrededor de 9. Al trazar un histograma, podemos ver que algunas empresas tienen puntuaciones inusualmente altas mientras que otras tienen puntuaciones muy bajas, las cuales podrían ser interesantes de investigar. más. Una puntuación TF-IDF muy alta indica el uso de más palabras y más palabras únicas.

Entendamos e interpretemos estas partituras con ejemplos. A continuación, se presenta una divulgación de empresa en funcionamiento con una puntuación TF-IDF de 8,9, muy cercana a la media, que representa una divulgación típica dentro de la muestra. Parece una divulgación estándar de una empresa en funcionamiento sin nada particularmente sorprendente que destacar.

Comparemos esto con una divulgación con una puntuación TF-IDF mucho más alta, de 14,6.

Esta divulgación es visiblemente más larga que una divulgación estándar de empresa en funcionamiento. Contiene frases notables como “el volumen cayó un 24%”, “menor demanda” y “no hay signos de recuperación”. Para cualquiera que realice un análisis temático sobre las revelaciones de empresas en funcionamiento, este informe se destaca como candidato para una mayor investigación. El estado financiero muestra una caída en los ingresos, las ganancias y el efectivo de las actividades operativas, lo que explica la extensión y el detalle de esta divulgación de empresa en funcionamiento e indica riesgos potenciales de interés para los analistas.
En este ejemplo, vimos cómo la aplicación de una medida estadística relativamente compleja puede permitirnos detectar revelaciones inusuales y proporcionar información útil. Todo esto se hizo con consultas simples en inglés usando GPT-4, lo que facilitó mucho el análisis y evitó la necesidad de estadísticas detalladas y conocimientos de codificación.
Divulgaciones de sostenibilidad
Los mandatos de sostenibilidad se están implementando en todo el mundo. Los informes de sostenibilidad tienden a ser ricos en narrativa, ofreciendo al mismo tiempo un terreno fértil y un fuerte incentivo para que la innovación analítica aproveche al máximo esta enorme y nueva fuente de información.
Uno de los desafíos en torno a la divulgación de información sobre sostenibilidad es el potencial de lavado verde por parte de las empresas. En este ejemplo, veremos si GPT-4 puede detectar indicios de lavado verde, utilizando datos de informes de sostenibilidad de la India. El mandato de Informes de Sostenibilidad y Responsabilidad Empresarial (BRSR) de la India introdujo una amplia gama de divulgaciones de sostenibilidad para las 1000 principales empresas que cotizan en bolsa a partir de 2023, con una garantía gradual a partir de 2024. La recopilación de datos está en formato XBRL junto con PDF.
He utilizado el ejemplo de divulgación “Enfoque para adaptar o mitigar los riesgos identificados”, que requiere que las empresas informen sus planes de adaptación o mitigación para los riesgos identificados. Se espera que las revelaciones sean objetivas y específicas sobre estos planes.
Aquí le pedí a GPT-4 que analizara la objetividad, usando un lenguaje sencillo y sin especificar cómo debería definirse.

GPT-4 describió su enfoque para determinar la objetividad, que incluye la búsqueda de cronogramas, acciones, calificadores y resultados mensurables específicos.

Luego, GPT-4 clasificó cada entrada según su objetividad según estos criterios, analizando más de 6500 divulgaciones en 1000 informes. En toda la muestra clasificó la mayoría de las divulgaciones como subjetivas, como se muestra en el resumen a continuación.

Veamos algunos ejemplos para comprender la clasificación objetiva y subjetiva según el modelo.
Divulgaciones subjetivas (con mi propio énfasis en negrita):
- Abordar y gestionar las crisis de maneras tangibles e intangibles que creemos que mitigarán los impactos de manera efectiva.
- Creemos en garantizar que nuestros lugares de trabajo sean seguros, saludables y propicios para una alta productividad.
- La Compañía se mantiene actualizada con los últimos desarrollos en la industria para garantizar las mejores prácticas.
- Reducir la intensidad energética a través de diversas medidas para alcanzar objetivos de sostenibilidad a largo plazo.
Divulgaciones objetivas:
- Invertir continuamente en la capacidad de los empleados a través de programas de capacitación obligatorios, con un mínimo de 40 horas de capacitación por empleado por año, para mejorar la eficiencia operativa y la seguridad.
- Hemos establecido un objetivo anual del 5 % para la reducción del consumo de energía y hacemos cumplir estos objetivos mediante actividades periódicas…
- Hemos firmado un acuerdo por 13,20 MW para obtener energía renovable, lo que contribuye a nuestros objetivos de sostenibilidad.
- Todas las transacciones con partes relacionadas son aprobadas por la Junta Directiva para garantizar la transparencia y la rendición de cuentas.
Respuestas útiles para la toma de decisiones a partir de preguntas sencillas
La llegada de los modelos de lenguaje grande (LLM) ofrece una adición transformadora a las técnicas de análisis convencionales. Al integrar los LLM con el análisis de datos tradicional, abrimos nuevos horizontes para explorar datos más allá de los paneles predefinidos y las vistas estáticas. Una de las ventajas más convincentes de los LLM es su capacidad para procesar consultas en un lenguaje sencillo. Esta característica reduce significativamente la necesidad de una formación exhaustiva en estadística y aprendizaje automático. Los analistas y las partes interesadas ahora pueden interactuar con los datos de forma intuitiva y formular preguntas complejas sin necesidad de traducirlas a una sintaxis o código especializado.
Los datos limpios y estructurados son vitales para garantizar la precisión y confiabilidad de los conocimientos generados tanto por los métodos tradicionales como por el análisis basado en LLM. Los análisis presentados en esta publicación utilizaron informes XBRL originales convertidos al formato xBRL-JSON o extractos de informes xBRL-JSON. GPT-4 comprende xBRL-JSON mejor que los datos no estructurados extraídos de PDF, lo que hace que el análisis sea más confiable y genere información más valiosa.
Apenas estamos comenzando a comprender lo que pueden hacer los LLM y este blog incluye algunas advertencias. Recordamos a los usuarios que sean conscientes de la posibilidad de alucinaciones por IA y que confirmen resultados notables utilizando los datos de la fuente original (¡una tarea que se hace mucho más fácil utilizando divulgaciones digitales estructuradas y rastreables!). Los ejemplos presentados aquí son experimentales y no forman parte de un estudio académico. Se basaron únicamente en divulgaciones en inglés y GPT-4 no estuvo expuesto a la taxonomía subyacente. Pero si bien el enfoque no es perfecto, los resultados fueron demasiado poderosos para ignorarlos.
¿Te sientes inspirado y quieres experimentar? Comience con un informe xBRL-JSON en GPT y haga preguntas. ¡Estoy seguro de que será divertido!
Sostenibilidad de AI ANALYTICS CHATGPT LLM

Publicado originalmente: https://www.xbrl.org/news/narrative-disclosure-analysis-with-gpt-4-unlocking-new-insights/