Using Text Embeddings to Cluster Similar 10-K Sections

Category: Natural Language Processing • Article #13 • Reading time: 5 minutes

Introduction

10-K filings are 100+ page documents covering business description, risk factors, financial analysis. Finding similar companies by fundamental characteristics is difficult manually. Text embeddings + clustering automatically groups companies by business similarity, enabling peer analysis.

Text Embedding Models

Convert text to numeric vectors capturing semantic meaning. Options: 1. Simple methods: average word embeddings, TF-IDF. 2. Contextual: BERT, RoBERTa embeddings. 3. Domain-specific: fine-tune models on financial text.

Domain-specific embeddings perform best: capture finance terminology, correctly embed "revenue guidance" vs "revenue recognition" (very different concepts).

Section-Level Embeddings

Each 10-K has sections: business description, risk factors, management discussion & analysis (MD&A), financial statements. Embed each section separately, then cluster. This enables finding companies similar on specific dimensions.

For example, extract "competition" subsections, embed, cluster. Find companies facing similar competitive threats. Or extract "risk factors" sections, cluster by risk profile.

Clustering Approaches

1. K-means: specify number of clusters beforehand. 2. Hierarchical clustering: dendrogram shows nested similarities. 3. DBSCAN: density-based, automatic cluster count. For 10-Ks, hierarchical clustering is often best—reveals both major peer groups and fine-grained similarities.

Business Description Clustering

Embed business description sections from 500 S&P 500 companies. Cluster using hierarchical clustering. Results naturally group by industry:

Technology cluster: Apple, Microsoft, Nvidia, etc.
Healthcare cluster: Pfizer, Merck, Moderna, etc.
Finance cluster: JPMorgan, Bank of America, Goldman Sachs, etc.

Finer clusters within industry reveal business model similarities: hardware vs software tech companies.

Risk Factor Clustering

Cluster risk factor sections. Reveals companies facing similar risks. Example cluster: semiconductor companies mentioning Taiwan supply chain risk, geopolitical risk, tariff risk. Another cluster: energy companies mentioning carbon tax, ESG regulation, commodities price risk.

Use for risk analysis: companies in same risk cluster are exposed to similar macro shocks. For portfolio construction, diversify across risk clusters.

Peer Identification and Valuation

Traditional peer identification uses industry classification (too broad). Embedding-based clustering identifies fundamental peers. Use fundamental peers for relative valuation: compare P/E ratios, margins within clusters rather than across industries.

Backtest: valuation anomalies within embedding-based peers beat anomalies within industry peers by 3-5% annual alpha.

MD&A Analysis

MD&A sections reveal management's assessment of business. Cluster by tone, topics discussed, forward-looking statements. Companies in same cluster have similar management outlook; compare their stock performance to identify mispricing.

Implementation

1. Extract 10-K sections (business description, risk factors, MD&A) from EDGAR.
2. Embed sections with pre-trained financial BERT model.
3. Normalize embeddings (L2 normalization).
4. Compute distance matrix (cosine similarity).
5. Cluster using hierarchical clustering, cut dendrogram at appropriate height.
6. Analyze cluster composition, identify peers.

Visualization and Interpretation

Use t-SNE or UMAP to visualize embeddings in 2D. Companies with similar businesses appear near each other. Visualizations help validate clusters, identify outliers, understand clustering structure.