DeepSeek V3 量子化比較研究

外付けGPU 16GB環境における INT4 vs INT8 量子化の性能・品質比較

🎯 プロジェクト概要

このプロジェクトは、外付けGPU 16GB環境でのDeepSeek V3 (6.7B) モデルの量子化による性能・品質・リソース効率の違いを定量的に分析する研究です。

研究目的

INT4 (Q4_0) vs INT8 (Q8_0) 量子化の実用性比較
16GB GPU環境での最適な量子化選択指針の提供
プログラミング・技術解説タスクでの量子化影響評価

対象ユーザー

LLM研究者・開発者
限られたGPUリソースでの実用展開を検討している方
量子化技術による品質・性能トレードオフに関心のある方

🛠️ 実験環境

ハードウェア

GPU: NVIDIA GeForce RTX 4060 Ti 16GB
CPU: Intel/AMD (Ryzen 7相当以上)
RAM: 16GB以上
OS: Windows 11

ソフトウェア

推論エンジン: Ollama v0.1+
CUDA: 12.6+
Python: 3.11+
量子化: GGUF形式 (llama.cpp互換)

📊 比較結果サマリー

量子化	モデルサイズ	GPU使用量	推論速度	品質スコア	推奨用途
Q4_0	3.8GB	6.1GB	10-15 tok/s	⭐⭐⭐⭐☆	日常利用・高速処理
Q8_0	7.2GB	10-12GB	5-10 tok/s	⭐⭐⭐⭐⭐	高品質要求・重要タスク

🏆 主要な発見

Q4_0: 16GB環境で余裕のあるリソース使用、実用十分な品質
Q8_0: 16GB環境の限界近くまで使用、原モデルに近い高品質
速度差: Q4_0がQ8_0の約2倍高速
品質差: 技術説明で顕著、コード生成では差は小さい

📁 プロジェクト構造

takato-llm-quantization-benchmark/
├── 📄 README.md                    # このファイル
├── 📄 LICENSE                      # MITライセンス
├── 📋 requirements.txt             # Python依存関係
├── ⚙️ setup.bat                    # Windows自動セットアップ
├── 📊 RESULTS.md                   # 詳細な実験結果
├── scripts/
│   ├── quantization_comparison.py  # メイン比較スクリプト
│   ├── deepseek_quick_test.py      # 簡単動作確認
│   └── system_benchmark.py        # システム性能測定
├── results/
│   ├── quantization_comparison_log.csv    # 数値データ
│   ├── quantization_evaluation.md         # 詳細比較結果
│   ├── performance_charts.png             # 性能グラフ
│   └── quality_analysis.md               # 品質分析結果
├── data/
│   ├── test_prompts.json          # テストプロンプト集
│   └── benchmark_results.json     # ベンチマーク生データ
└── docs/
    ├── SETUP.md                   # セットアップガイド
    ├── METHODOLOGY.md             # 実験方法論
    └── TROUBLESHOOTING.md         # トラブルシューティング

🚀 クイックスタート

1. 環境セットアップ

# リポジトリクローン
git clone https://github.com/[USERNAME]/takato-llm-quantization-benchmark.git
cd takato-llm-quantization-benchmark

# Windows自動セットアップ
setup.bat

# または手動セットアップ
python -m venv venv
venv\Scripts\activate
pip install -r requirements.txt

2. モデルダウンロード

# Ollama環境構築
winget install Ollama.Ollama

# DeepSeek V3モデル取得
ollama pull deepseek-coder:6.7b-instruct-q4_0
ollama pull deepseek-coder:6.7b-instruct-q8_0

3. 比較実行

# 量子化比較テスト実行（約15分）
python scripts/quantization_comparison.py

# 結果確認
python scripts/generate_report.py

📈 実験結果

性能比較グラフ

詳細データ

🔬 実験方法論

テストカテゴリ

コード生成: アルゴリズム実装（クイックソート）
技術解説: 機械学習概念説明（過学習）
数学・論理: 計算過程説明（フィボナッチ）
問題解決: 実践的トラブルシューティング

評価指標

応答時間: 推論開始から完了まで（ms）
生成速度: トークン/秒
GPU使用量: nvidia-smiによる実測値
品質評価: 正確性・詳細度・実用性の5段階評価

統計的有意性

各テスト3回実行の平均値
標準偏差とp値の算出
外れ値の除外処理

💡 実用的な推奨事項

Q4_0選択ケース

✅ 日常的な技術質問・学習支援
✅ プロトタイピング・反復開発
✅ 複数アプリケーション並行利用
✅ 電力効率重視

Q8_0選択ケース

✅ 重要なコード生成・レビュー
✅ 技術文書・ドキュメント作成
✅ 研究・論文執筆支援
✅ 品質が最優先のタスク

🤝 貢献方法

歓迎する貢献

他のGPU環境での追加実験
異なる量子化手法の比較
テストケースの拡充
文書の改善・翻訳

貢献手順

Forkしてブランチ作成
実験実行・結果追加
Pull Request提出
レビュー・マージ

📄 ライセンス・引用

ライセンス

MIT License - 商用利用・改変・再配布自由

引用

この研究を引用する場合：

@misc{takato2025quantization,
  title={DeepSeek V3 Quantization Benchmark: INT4 vs INT8 Performance Analysis},
  author={Takato},
  year={2025},
  url={https://github.com/[USERNAME]/takato-llm-quantization-benchmark}
}

🔗 関連リンク

🏷️ Tags: LLM Quantization GPU DeepSeek Benchmark INT4 INT8 Performance

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DeepSeek V3 量子化比較研究

🎯 プロジェクト概要

研究目的

対象ユーザー

🛠️ 実験環境

ハードウェア

ソフトウェア

📊 比較結果サマリー

🏆 主要な発見

📁 プロジェクト構造

🚀 クイックスタート

1. 環境セットアップ

2. モデルダウンロード

3. 比較実行

📈 実験結果

性能比較グラフ

詳細データ

🔬 実験方法論

テストカテゴリ

評価指標

統計的有意性

💡 実用的な推奨事項

Q4_0選択ケース

Q8_0選択ケース

🤝 貢献方法

歓迎する貢献

貢献手順

📄 ライセンス・引用

ライセンス

引用

🔗 関連リンク

FilesExpand file tree

README_GITHUB.md

Latest commit

History

README_GITHUB.md

File metadata and controls

DeepSeek V3 量子化比較研究

🎯 プロジェクト概要

研究目的

対象ユーザー

🛠️ 実験環境

ハードウェア

ソフトウェア

📊 比較結果サマリー

🏆 主要な発見

📁 プロジェクト構造

🚀 クイックスタート

1. 環境セットアップ

2. モデルダウンロード

3. 比較実行

📈 実験結果

性能比較グラフ

詳細データ

🔬 実験方法論

テストカテゴリ

評価指標

統計的有意性

💡 実用的な推奨事項

Q4_0選択ケース

Q8_0選択ケース

🤝 貢献方法

歓迎する貢献

貢献手順

📄 ライセンス・引用

ライセンス

引用

🔗 関連リンク