エディション概要は 01_system_overview.md、アーキテクチャは 02_architecture_design.md を参照。本文書は Pro 版の埋め込みまわりの技術仕様のみを扱う。
sentence-bert-base-ja-mean-tokens-v2)cargo build で完結する。| 方式 | 特徴 |
|---|---|
| LSA(現行) | 軽量・CPU のみ・学習データ不要。次元数は 50 などで調整可能。 |
| LDA | トピックモデル。検索の「意味の近さ」には LSA ほど直結しない。次元を増やしてもスパースになりがち。 |
| ICA | 独立性の最大化が目的で、意味検索には不向き。 |
| Elasticsearch | ベクトルは外部の埋め込みモデルで作成。GPU は一般的に使わず、多くは CPU 推論。 |
| モデル | 次元数 | パラメータ数 | ファイルサイズ(目安) |
|---|---|---|---|
| paraphrase-multilingual-MiniLM-L12-v2 | 384 | 約 118M | 約 470 MB |
| sonoisa/sentence-bert-base-ja | 768 | 約 110M | 約 440 MB |
embedding_model/ に model_quantized.onnx と vocab.txt をコピーして置く。README は embedding_model/README.md を参照。TELOS_EMBEDDING_MODEL_DIR(上書き用)、(2) 配布ビルド時は resource_dir/embedding_model(同梱リソース)、(3) 開発時は exe からの相対 ../../embedding_model。いずれも model_quantized.onnx の存在で有効とみなす。tauri.conf.json の bundle.resources に上記2ファイルを登録。Pro ビルド前にファイルを置いておくとインストーラに含まれる。into_optimized() で Cast ノード失敗することがある。その場合は最適化スキップ(TELOS_EMBEDDING_NO_OPTIMIZE=1 等)で起動し、FTS のみでも検索可能。ort 利用時は出力 shape が [1, 768] の場合はそのまま採用(mean_pool 不要)。動作確認・KPI は 08_embedding_tract_goals_and_kpi.md・09_embedding_tract_implementation_and_tests.md・11_pro_vectorization_and_ann.md を参照。