Dense Vectors

Dense vectors (embeddings) are numerical representations of text that capture semantic meaning.

Text is transformed into a high-dimensional vector:

"The quick brown fox" → [0.12, -0.45, 0.78, ..., 0.23]  // 1024 dimensions

Similar texts produce similar vectors, enabling semantic search.

LH42 uses BGE-M3, which stands for:

python

# BGE-M3 produces 1024-dimensional vectors
embedding = client.embed("Hello world")
print(len(embedding))  # 1024

We use cosine similarity to compare vectors:

similarity = (A · B) / (||A|| × ||B||)

Range: -1 (opposite) to 1 (identical)

For efficiency, embed multiple texts at once:

python

texts = ["Document 1", "Document 2", "Document 3"]
embeddings = client.embed_batch(texts)

Bring your own embedding model:

python

client = LakehouseClient(
    api_key="...",
    embedding_model="your-custom-model"
)