現状の LSA (Latent Semantic Analysis) 検索において、新規単語が無視される問題や、検索精度の不安定さを解消するため。また、ユーザーからの「近似近傍検索ライブラリの有無」という問いに対し、最適な技術スタックを再検討するため。
lsa.rs および mcp.rs を分析し、LSA モデルが「学習時の語彙」に完全に固定されていることを特定した。sqlite-vec の標準的な L2 距離計算と現状の LSA 圧縮(50次元)の相性を確認し、データ数が少ない場合の不安定さを指摘した。graph TD
A[クエリ / 新規文書] --> B{語彙チェック}
B -- 未知語が含まれる --> C[ベクトルから除外]
C --> D{全単語が未知?}
D -- Yes --> E[零ベクトル生成]
D -- No --> F[既知語のみで射影]
E --> G[検索結果 0 または 不正確]
F --> H[意味の欠落]
H --> G
現在の LSA 実装は「完全に閉じたデータセット」に対しては有効だが、動的にアイテムが増え続ける現在の TelosDB の運用には不向きであることが判明した。ユーザーの関心が ANN ライブラリに向いていることから、hnsw-rs や USearch などの「動的な追加」に強い基盤への移行、あるいは事前学習済み Embedding モデルの導入を検討すべき段階にある。