Newer
Older
TelosDB / docs / plans / lda / lda_01_scope.md

LDA 計画: 01 スコープ

計画トップ


スコープ

項目 内容
対象エディション Community 版のみ。LSA と LDA の両方とも Community 版専用であり、Pro 版には含めない(Pro は埋め込みモデルのみ)。
リリース目標 v0.3.3 の Community 版で LDA 対応を実装・出荷する。
役割 LSA と同様に「ベクトル化の一方式」として扱う。トピック分布を K 次元ベクトルとみなし、検索時はクエリのトピック分布とチャンクのトピック分布の類似度(例: コサイン)でランキングする。必要に応じて「トピック一覧」「この文書の主トピック」表示なども検討する。
切り替え 設定で 「LSA」と「LDA」を切り替えて使用する。いずれか一方を選択し、その方式で学習・検索を行う。同時に両方は動かさない(ハイブリッドは将来の拡張として検討可)。
語彙・前処理 LSA と同じ日本語トークナイザ・語彙を使い、学習コーパスも同じ(全チャンク)とする。
LDA 次元数(K) 規定は 128 次元。設定でユーザーが K を指定でき、変更時は再学習・再構成して items_lda をその K で作り直す。
flowchart TB
  subgraph Community["Community 版のみ(v0.3.3)"]
    S[ベクトル化: LSA / LDA 切り替え]
    S --> LSA[LSA 学習・検索]
    S --> LDA[LDA 学習・検索]
    LSA --> R[検索結果]
    LDA --> R
  end
  subgraph Pro["Pro 版"]
    E[埋め込みモデルのみ]
  end