Más datos, más desafíos: el director de DERA explica el uso cada vez mayor de Big Data por parte de la SEC

La División de Análisis y Riesgo Económico de la SEC (DERA) es el eje del uso cada vez mayor de datos estructurados y análisis de datos por parte de la SEC. DERA se creó en 2009, cuando la SEC recién comenzaba a exigir a los contribuyentes que usaran XBRL. Su misión declarada es «integrar la economía financiera y el análisis de datos riguroso en la misión principal de la SEC». En concreto, elabora los análisis económicos y estadísticos que se utilizan en toda la agencia. Para hacer esto, DERA emplea un equipo multidisciplinario y completo de abogados, economistas, analistas, estadísticos y programadores de computadoras. Los frutos de su trabajo incluyen herramientas analíticas utilizadas por la División de Finanzas Corporativas de la SEC y la División de Cumplimiento.

El actual economista jefe y director de DERA es SP Kothari, quien llegó a la SEC procedente de la Sloan School of Management del MIT en Cambridge, Massachusetts. Volvió a visitar Cambridge en 2019 para dar un discurso en una conferencia, Big Data and High-Performance Computing for Financial Economics, celebrada por la Oficina Nacional de Investigación Económica. Su charla ofrece información valiosa sobre el uso actual de big data por parte de la SEC, sus éxitos y desafíos en esta área y el futuro de la ciencia de big data en DERA. Él enfatiza que estructurar los datos para que sean legibles por máquina en XBRL hará que sea mucho más fácil para los inversores analizar la información rápidamente al tomar decisiones de inversión y mucho más difícil para las empresas ocultar el fraude contable a la SEC.

Qué significa «big data» en la SEC El.

Dr. Kothari comienza por delinear el universo de big data en el dominio de la SEC. Por ejemplo, cada año se realizan dos millones de presentaciones separadas en EDGAR, cada una de las cuales es en sí misma una divulgación extensa y elaborada que contiene multitud de datos. Otro ejemplo es la Autoridad de informes de precios de opciones (OPRA) de la SEC, que recopila dos terabytes de información todos los días. Para poner eso en perspectiva, un terabyte son 1,000 gigabytes. La computadora portátil o de escritorio típica de hoy en día tiene una capacidad máxima de almacenamiento entre 500 y 1,000 gigabytes, por lo que la dieta diaria de datos de OPRA llenaría completamente un disco duro a la hora del almuerzo.

El Dr. Kothari enumera tres características comunes de big data:

  • Volumen (la cantidad de datos)
  • Velocidad (la velocidad a la que se crean y almacenan los datos)
  • Variedad (diferencias en tipos y formatos de datos)

“A esta lista de tres”, señala, “algunos agregarían una cuarta v, veracidad. La veracidad es la calidad y precisión de los datos”.

Desafíos de la política de big data: ciberseguridad, tecnología y comunicaciones

La SEC enfrenta varios desafíos políticos, en los ámbitos de la ciberseguridad, la tecnología y las comunicaciones, que surgen del uso de big data. Los macrodatos son difíciles de almacenar y salvaguardar; además, cuanto más grande es, más atractivo se vuelve como objetivo para los piratas informáticos criminales. El Dr. Kothari explica que “los datos de tenencias de cartera de todos los asesores de inversión son más valiosos que los datos de tenencias de cartera para un asesor de inversiones, y los datos de tenencias de cartera semanales son más valiosos que los datos de tenencias de cartera anuales. Estos desafíos se vuelven más difíciles a medida que ciertos conjuntos de datos comienzan a incluir más información de identificación personal (PII) o identificadores que vinculan a inversores e instituciones dentro y entre conjuntos de datos”.

Haciéndose eco de un discurso de apertura pronunciado solo días antes por el presidente de la SEC, Jay Clayton, el Dr. Kothari reitera el compromiso de la SEC con la recopilación y el uso responsable de datos confidenciales de los contribuyentes. “Naturalmente, la recopilación de datos no es un fin en sí mismo; la SEC no debe estar en el negocio del almacenamiento de datos indefinido y mal definido”, la misma expresión utilizada por el presidente Clayton. Por ejemplo, el Formulario N-PORT es un nuevo formulario para divulgar las tenencias de carteras de fondos públicos y privados. La SEC cambió recientemente sus plazos de presentación para reducir el volumen de datos confidenciales que tiene la SEC. «Este simple cambio redujo el perfil de riesgo cibernético de la SEC sin afectar el momento o la cantidad de información que se pone a disposición del público».

En la interminable carrera armamentista tecnológica de la SEC con el mercado, el uso de inteligencia artificial, aprendizaje automático y herramientas relacionadas está creciendo entre los principales actores de Wall Street y otras firmas de comercio de valores. Algunas tecnologías, como el comercio algorítmico artificialmente inteligente, son «intrínsecamente desafiantes» para que las controle la SEC. Para hacer coincidir el ingenio con el mercado, la agencia ha priorizado el desarrollo y el apoyo a una fuerza laboral con habilidades y experiencia en big data. En su única década de funcionamiento, indica, DERA se ha expandido de 30 empleados a casi 150 empleados ahora.

XBRL ayuda a convertir big data en información útil

Los macrodatos deben convertirse en información útil para todo tipo de participantes del mercado, desde grandes fondos de pensiones hasta inversores minoristas individuales. Un desafío continuo para la SEC es descubrir métodos rentables para perfeccionar la variedad de datos financieros en una forma fácilmente consumible sin perder información sustancial. El Dr. Kothari cita la historia de éxito de las discotecas financieras etiquetadas en XBRL. «Al reducir drásticamente la variedad de datos, el etiquetado hace que un documento electrónico pase de ser legible por humanos a uno que también sea legible por máquina». Esto hace que sea más fácil para los inversores evaluar la información y más difícil para los contribuyentes ocultar el fraude. Al rastrear las raíces de los datos estructurados en la SEC hasta su requisito XML en 2003, señala que el nuevo requisito de la SEC para Inline XBRL promoverá los beneficios de los datos estructurados. (Ver CD y

“La información estructurada también puede ayudar a automatizar las presentaciones regulatorias y el procesamiento de información comercial”, agrega el Dr. Kothari. Etiquetar los elementos de divulgación numéricos y narrativos de los estados financieros y los resúmenes de riesgo / rendimiento en XBRL estandariza esos elementos de divulgación; luego pueden ser procesados ​​inmediatamente por software para su análisis. «Esta estandarización permite la agregación, la comparación y los análisis estadísticos a gran escala que son menos costosos y más oportunos para los usuarios de datos que si la información se presentara en un formato no estructurado».

El etiquetado también tiene «efectos de red». Los datos de los Formularios 10-K se pueden vincular a los datos de otros formularios y de otros contribuyentes, así como a través de las fronteras nacionales y reglamentarias. “[Un] beneficio clave de la coherencia entre reguladores en los datos etiquetados es la capacidad de comprender mejor la naturaleza de los riesgos en los mercados financieros”, observa el Dr. Kothari. «Los mercados de hoy no se detienen en las fronteras nacionales, por lo que mirar solo los datos intranacionales proporciona solo una imagen parcial del riesgo del sistema».

Futuro brillante para la ciencia de big data en la SEC

El Dr. Kothari ve muchas oportunidades futuras para la investigación de DERA basadas en los próximos conjuntos de datos masivos, desde el tan esperado Consolidated Audit Trail (CAT) hasta el Legal Entity Identifier (LEI). A través de la mejora de la ciencia de datos por parte de la SEC, «los macrodatos continuarán ayudando a la SEC y a otros reguladores del mercado a identificar y cerrar a los malos actores».

Deja una respuesta