DeepSeek R1モデルをローカル環境で実行したい

この記事は、DeepSeek R1モデルをローカル環境で実行するための手順をまとめたレポートです。各手順ごとに必要な準備やツール、注意点などをわかりやすく解説しています。

1. はじめに
2. システム要件と前提条件
1. ハードウェア・OS
2. ソフトウェア・ライブラリ
3. モデルのダウンロードと入手方法
1. GitHub / Hugging Face からのダウンロード
4. 環境構築の手順
5. トラブルシューティングと注意点
6. まとめ

1. はじめに

DeepSeek R1は、低コストで高性能な推論型大規模言語モデルとして発表され、オープンソースとしても公開されています。これにより、ユーザーはクラウドサービスを介さずに自社サーバーや個人PC上でモデルを実行できるようになりました。以下のレポートでは、ローカル実行のための環境構築手順、必要なツール・ライブラリのインストール、モデルのダウンロード方法、実行方法などを段階的にまとめています。

2. システム要件と前提条件

ハードウェア・OS

GPU搭載PC（CUDA対応 NVIDIA GPU 推奨）
- モデルサイズに応じた十分なGPUメモリ（大規模モデルの場合、16GB以上が望ましい）
OS：Linux、Windows、または macOS（Ollama などMac向けツール利用時）

ソフトウェア・ライブラリ

Python 3.8 以上
PyTorch（GPU環境に合わせたバージョン）
Transformers ライブラリ（Hugging Face の実装を利用）
【オプション】Docker（コンテナ環境で実行する場合）
【オプション】Ollama（Macユーザー向けのローカルLLM実行ツール）または LM Studio（Windowsユーザー向け）

3. モデルのダウンロードと入手方法

DeepSeekはオープンソースとしてモデルの重みやコードを公開しており、以下の方法で入手できます。

GitHub / Hugging Face からのダウンロード

GitHub リポジトリ：DeepSeek の公式 GitHub（例：https://github.com/deepseek-ai）にアクセスし、該当する R1 のブランチまたはリリース版をダウンロード
Hugging Face：DeepSeek のモデルページ（例：https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B-Japanese など）から、目的のモデル（日本語対応版やベースモデル）を取得

4. 環境構築の手順

以下は、Python環境で DeepSeek R1 を実行する場合の一般的な手順です。

ステップ1：Python 環境の準備

Python 3.8 以降をインストール
仮想環境（venv や conda）を作成してアクティベートする python -m venv deepseek_env source deepseek_env/bin/activate # Linux/macOS deepseek_env\Scripts\activate # Windows

ステップ2：必要なライブラリのインストール

以下のように pip で主要ライブラリをインストールします。

pip install torch torchvision torchaudio  # GPU版の場合、公式サイトの案内に従ってインストール
pip install transformers
pip install sentencepiece  # モデルによって必要な場合

※ GPU環境の場合、CUDA のバージョンに合わせた PyTorch のインストール方法は公式サイト（https://pytorch.org/）を参照してください。

ステップ3：モデルのダウンロード

GitHub または Hugging Face からモデルの重みをダウンロードします。
- 例：Hugging Face のリポジトリからクローンまたはダウンロード git clone https://github.com/deepseek-ai/DeepSeek-R1.git
- または、Hugging Face の Transformers から直接読み込むコードを利用
  （※利用するモデル名は自分の目的に合わせて選択してください）

ステップ4：サンプルスクリプトの作成と実行

以下は、Transformers ライブラリを用いて DeepSeek R1 をロードし、簡単な問い合わせに応答させるサンプルコード例です。

from transformers import AutoModelForCausalLM, AutoTokenizer

# 例として日本語対応モデル（DeepSeek-R1-Distill-Qwen-32B-Japanese）を使用
model_name = "deepseek-ai/DeepSeek-R1-Distill-Qwen-32B-Japanese"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# 入力プロンプトの設定
input_text = "DeepSeek R1モデルをローカル環境で実行する方法を教えてください。"
input_ids = tokenizer.encode(input_text, return_tensors="pt")

# 推論実行（max_length等のパラメータは必要に応じて調整）
outputs = model.generate(input_ids, max_length=200, do_sample=True, temperature=0.7)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("モデルの応答:")
print(result)

このスクリプトを実行することで、ローカル上で DeepSeek R1 に問い合わせた応答が得られます。
注意：モデルによってはメモリや推論時間が大きく異なるため、初回実行時は十分なGPUメモリがある環境でテストしてください。

ステップ5：ツールを用いたローカル実行の代替手段

4-1. Ollama を利用する方法（Mac 向け）

Ollama は、Mac 上で大規模言語モデルを簡単にローカル実行できるツールです。
手順：
1. Ollama の公式サイトからアプリをダウンロード
2. アプリ内で「DeepSeek-R1」モデルのインポート（または URL 指定）
3. 設定画面でメモリや動作オプションを調整し、ローカルで実行
  参考：Ollama を用いたローカル構築ガイド

4-2. LM Studio を利用する方法（Windows 向け）

LM Studio は、Windows環境でローカルLLMを動かすためのGUIツールです。
手順：
1. LM Studio をインストール（公式サイトから最新版をダウンロード）
2. LM Studio 内で DeepSeek R1 の重みファイル（ダウンロード済み）を読み込み
3. 設定画面で必要なパラメータ（コンテキスト長、バッチサイズなど）を設定し、モデルを起動
  参考：LM StudioでDeepSeekをローカル環境で動かす手順についての解説記事

5. トラブルシューティングと注意点

メモリ不足
- モデルのサイズによっては GPU メモリが不足する場合があります。軽量化版（Distill モデル）を利用するか、バッチサイズ・コンテキスト長の調整を検討してください。
依存関係の問題
- Transformers や PyTorch のバージョンが最新と合わない場合、エラーが発生することがあります。公式ドキュメントを参考に推奨バージョンを確認してください。
推論速度
- ローカル環境での推論はクラウドサービスに比べて遅い場合があります。必要に応じてハードウェアのアップグレードや最適化ツールの導入を検討してください。
ツール固有の設定
- Ollama や LM Studio を使用する場合、各ツール独自の設定項目（メモリ割り当て、スレッド数など）があるため、利用ガイドをよく参照してください。

6. まとめ

DeepSeek R1はオープンソースとして公開されており、ローカル環境での実行が可能です。
【まとめると】

Python（または対応ツール）環境を整備し、必要なライブラリ（PyTorch、Transformers 等）をインストール
GitHub や Hugging Face からモデルの重みを取得
サンプルスクリプトを作成してモデルをロードし、推論を実行
Mac では Ollama、Windows では LM Studio などのGUIツールを利用する選択肢もあり
環境設定や依存ライブラリ、GPUメモリなどの注意点に留意しながら、最適なローカル実行環境を構築する

参考：