ローカルLLM（GGUF）推論ビューア

指定URLのGGUFモデルをブラウザでダウンロードし、IndexedDBに保存して再利用しながら実推論を行います。Ollama互換の /api/tags / /api/generate / /api/chat も利用できます。

推論エンジンを初期化中...

1) 固定モデル（Qwen2.5-1.5B-Instruct-GGUF）を取得

※ 初回および定期的に約1GBの通信が発生します。

モデル未ロード（ボタン押下でダウンロード/キャッシュ再利用）

1.5) API有効化（Service Worker）

API状態: 未確認

2) プロンプト入力

ここにレスポンスが表示されます。

3) Ollama互換API（同一オリジン fetch）

GET /api/tags POST /api/generate {"model":"default","prompt":"こんにちは","stream":false} POST /api/chat {"model":"default","messages":[{"role":"user","content":"こんにちは"}],"stream":false}

※ stream を省略すると既定値は true（NDJSON ストリーム）です。モデル未ロード時は 503 を返します。