Education · Understanding Algorithmic IR
How AI Reads Your 10-K: A Visual Guide to Algorithmic Filing Analysis
June 2026·10 min read·By the AxonIR Team
AI investor relations systems operate fundamentally differently from human analysts. Rather than evaluating narrative quality or management credibility, they perform statistical analysis on filing text — with outputs feeding directly into institutional trading models within 60 seconds of EDGAR submission.
The Pipeline: From EDGAR to Algo Signal in 60 Seconds
The process unfolds through four sequential steps:
- Text extraction — isolates prose sections (MD&A, Risk Factors, Business description, footnotes), processing each independently. MD&A and Risk Factors receive the highest signal weight.
- Tokenization and normalization — breaks text into words and phrases, removes punctuation, reduces words to lowercase roots. This eliminates tone while preserving word choice.
- Dictionary scoring — applies the Loughran-McDonald Master Dictionary, developed specifically for financial disclosures and containing six empirically-validated word categories.
- Signal generation — combines dictionary scores with structural features (filing length, sentence complexity) to produce composite signals feeding quant screens and risk algorithms.
The Six Loughran-McDonald Categories
Each category was tested against actual market outcomes — specifically predicting abnormal returns within 3–12 months post-filing:
1. Negative (2,355 words) HIGH IMPACT
Words including "adverse," "volatility," and "uncertainty." Research indicates that increased negative word density correlates with lower abnormal returns in the following 12 months. This is the most critical category to monitor.
2. Positive (354 words) MODERATE
Terms like "achieve," "strength," and "improvement." The notably shorter positive list reflects that financial disclosures are inherently cautious. Excessive positivity can trigger credibility discounts — the system is calibrated to expect measured language.
3. Uncertainty (297 words) HIGH IMPACT
"Approximately," "uncertain," "contingent," "possibility." High uncertainty scores correlate strongly with analyst downgrades and increased short interest within 60 days post-filing. This is the top predictor of follow-on scrutiny.
4. Litigious (903 words) SECTOR-RELATIVE
Legal terminology like "litigation," "plaintiff," "defendant." The relevant metric is whether your litigious word density exceeds your sector peer average — context matters here.
5. Strong Modal (68 words) POSITIVE
"Will," "must," "require," "should." High density signals commitment and generally produces positive algorithmic outcomes.
6. Weak Modal (27 words) MOST AVOIDABLE
"Could," "may," "might," "would," "possible." This is the most common avoidable signal problem in small-cap filings. Excessive hedging signals management lacking conviction.
Benchmarks: Where Small-Caps Stand
| Metric | Industry Avg | Top Quartile | Bottom Quartile |
| Negative word density | 3.2% | 2.1% | 4.8% |
| Weak modal density | 1.8% | 0.9% | 2.9% |
| Uncertainty score | 1.4% | 0.8% | 2.3% |
| Fog Index (MD&A) | 17.2 | 13.8 | 21.4 |
| YoY cosine similarity | 0.82 | 0.91 | 0.71 |
Bottom-quartile companies are often communicating identical financial realities in algorithmically penalized language.
The Delta Problem: How Change Gets Detected
Algorithms prioritize textual changes between consecutive filings over absolute content. Substantial filing changes between periods correlate with lower post-filing returns — large textual shifts signal instability or disclosure anxiety.
Key sections receiving delta analysis: Risk Factors (new vs. removed risks), MD&A (language drift on core business description), Liquidity sections (going-concern language changes), Legal Proceedings (new additions).
Bottom-quartile companies are not necessarily communicating worse financial results than top-quartile companies. They are communicating the same results in algorithmically penalized language. That is a correctable problem.
Five Filing Changes That Improve Your Algo Score
- Replace weak modals in forward guidance. Transform "may be able to achieve" into "expect revenue growth of X%."
- Trim resolved Risk Factors. Accumulating unresolved risks sends direct negative signals. Remove mitigated risks and document the rationale briefly.
- Shorten Liquidity section sentences. This section typically generates high Fog scores. Adopt conversational CFO language — shorter sentences, specific numbers.
- Use parallel structure in MD&A. "Revenue increased 12%. Gross margin expanded 80 basis points." outperforms discursive paragraphs that achieve the same content at twice the word count.
- Anchor the Management Assessment section. Specific numbers, timelines, and named business drivers outperform vague industry commentary. This section receives the highest NLP weighting.
Get Your Filing Benchmarked Against 500+ Peers
Free algorithmic analysis of your latest SEC filings across all covered NLP metrics. No account required.
Run Free Score →
This article is informational and not investment or legal advice. See our Disclaimer.
Educación · Comprensión de las RI Algorítmicas
Cómo la IA Lee Su 10-K: Una Guía Visual del Análisis Algorítmico de Presentaciones
Junio 2026·10 min de lectura·Por el Equipo de AxonIR
Los sistemas de relaciones con inversionistas basados en IA operan de manera fundamentalmente diferente a los analistas humanos. En lugar de evaluar la calidad narrativa o la credibilidad de la dirección, realizan análisis estadístico sobre el texto de las presentaciones — con resultados que alimentan directamente los modelos de negociación institucional en 60 segundos tras la presentación en EDGAR.
El Proceso: De EDGAR a Señal Algorítmica en 60 Segundos
El proceso se desarrolla en cuatro pasos secuenciales:
- Extracción de texto — aísla las secciones de prosa (MD&A, Factores de Riesgo, descripción del negocio, notas al pie), procesando cada una de forma independiente. El MD&A y los Factores de Riesgo reciben el mayor peso de señal.
- Tokenización y normalización — divide el texto en palabras y frases, elimina la puntuación y reduce las palabras a sus raíces en minúsculas. Esto elimina el tono mientras preserva la elección de palabras.
- Puntuación por diccionario — aplica el Diccionario Maestro de Loughran-McDonald, desarrollado específicamente para divulgaciones financieras y que contiene seis categorías de palabras validadas empíricamente.
- Generación de señales — combina las puntuaciones del diccionario con características estructurales (longitud de la presentación, complejidad de las oraciones) para producir señales compuestas que alimentan los filtros cuantitativos y los algoritmos de riesgo.
Las Seis Categorías de Loughran-McDonald
Cada categoría fue testada frente a resultados reales del mercado — específicamente prediciendo retornos anormales en los 3 a 12 meses posteriores a la presentación:
1. Negativas (2,355 palabras) ALTO IMPACTO
Palabras como "adverso," "volatilidad" e "incertidumbre." La investigación indica que una mayor densidad de palabras negativas se correlaciona con menores retornos anormales en los 12 meses siguientes. Esta es la categoría más crítica para monitorear.
2. Positivas (354 palabras) MODERADO
Términos como "lograr," "fortaleza" y "mejora." La lista positiva notablemente más corta refleja que las divulgaciones financieras son inherentemente cautelosas. El exceso de positividad puede desencadenar descuentos de credibilidad — el sistema está calibrado para esperar un lenguaje moderado.
3. Incertidumbre (297 palabras) ALTO IMPACTO
"Aproximadamente," "incierto," "contingente," "posibilidad." Las puntuaciones altas de incertidumbre se correlacionan fuertemente con rebajas de analistas y mayor interés en posiciones cortas en los 60 días posteriores a la presentación. Es el principal predictor de escrutinio adicional.
4. Litigiosas (903 palabras) RELATIVO AL SECTOR
Terminología legal como "litigación," "demandante," "demandado." La métrica relevante es si su densidad de palabras litigiosas supera el promedio de sus pares sectoriales — el contexto importa aquí.
5. Modal Fuerte (68 palabras) POSITIVO
"Hará," "debe," "requiere," "debería." Una alta densidad señala compromiso y generalmente produce resultados algorítmicos positivos.
6. Modal Débil (27 palabras) MÁS EVITABLE
"Podría," "puede," "podría," "haría," "posible." Este es el problema de señal evitable más común en las presentaciones de small-caps. El exceso de cobertura lingüística señala una dirección sin convicción.
Benchmarks: Dónde Se Ubican las Small-Caps
| Métrica | Promedio del Sector | Cuartil Superior | Cuartil Inferior |
| Densidad de palabras negativas | 3.2% | 2.1% | 4.8% |
| Densidad modal débil | 1.8% | 0.9% | 2.9% |
| Puntuación de incertidumbre | 1.4% | 0.8% | 2.3% |
| Índice Fog (MD&A) | 17.2 | 13.8 | 21.4 |
| Similitud coseno interanual | 0.82 | 0.91 | 0.71 |
Las empresas del cuartil inferior a menudo están comunicando realidades financieras idénticas con lenguaje algorítmicamente penalizado.
El Problema del Delta: Cómo se Detectan los Cambios
Los algoritmos priorizan los cambios textuales entre presentaciones consecutivas por encima del contenido absoluto. Los cambios sustanciales en las presentaciones entre períodos se correlacionan con menores retornos post-presentación — los grandes cambios textuales señalan inestabilidad o ansiedad en las divulgaciones.
Secciones clave que reciben análisis de diferencias: Factores de Riesgo (riesgos nuevos frente a eliminados), MD&A (deriva del lenguaje en la descripción del negocio principal), secciones de Liquidez (cambios en el lenguaje de empresa en funcionamiento), Procedimientos Legales (nuevas adiciones).
Las empresas del cuartil inferior no están necesariamente comunicando peores resultados financieros que las del cuartil superior. Están comunicando los mismos resultados con lenguaje algorítmicamente penalizado. Ese es un problema corregible.
Cinco Cambios en las Presentaciones que Mejoran Su Puntuación Algorítmica
- Reemplace los modales débiles en la orientación prospectiva. Transforme "puede que sea capaz de lograr" en "esperamos un crecimiento de ingresos del X%."
- Elimine los Factores de Riesgo resueltos. La acumulación de riesgos no resueltos envía señales negativas directas. Elimine los riesgos mitigados y documente brevemente el razonamiento.
- Acorte las oraciones de la sección de Liquidez. Esta sección típicamente genera puntuaciones Fog altas. Adopte el lenguaje conversacional de un CFO — oraciones más cortas, números específicos.
- Use estructura paralela en el MD&A. "Los ingresos aumentaron un 12%. El margen bruto se expandió 80 puntos básicos." supera a los párrafos discursivos que logran el mismo contenido con el doble de palabras.
- Ancle la sección de Evaluación de la Dirección. Los números específicos, los plazos y los impulsores del negocio nombrados superan a los comentarios vagos sobre el sector. Esta sección recibe la mayor ponderación NLP.
Compare Sus Presentaciones con Más de 500 Competidores
Análisis algorítmico gratuito de sus últimas presentaciones ante la SEC en todas las métricas NLP cubiertas. Sin necesidad de cuenta.
Obtener Puntuación Gratuita →
Este artículo es informativo y no constituye asesoría de inversión ni legal. Consulte nuestro Aviso Legal.