DeepSeek
Wikipedia(EN)
War on Ukraine#6995 7 Fubruary 2025
英語翻訳・青山貞一(東京都市大学名誉教授
(元早稲田大学理工学部、東工大大学院総合理工学研究科他講師)
独立系メデア E-wave Tokyo 2025年2月9日(JST)

杭州深度求索人工智能基础技术研究有限公司
この記事は企業に関するものです。チャットボットについては、DeepSeek (チャットボット)をご覧ください。ただし、DeepSeek (チャットボット)の翻訳は未了です。
本文
杭州DeepSeek人工知能基礎技術研究株式会社
杭州深度求索人工智能基础技术研究有限公司
・会社種別 非公開企業
・業界 情報技術
・人工知能
・設立 2023年7月17日; 18か月前[ 1 ]
・創設者 梁文峰
・本部 杭州、浙江省、中国
・主要人物
梁文峰(CEO)
所有者 ハイフライヤー
・従業員数 200未満
概要
DeepSeek [ a ] (中国語:深度求索;ピンイン: Shēndù Qiúsuǒ ) は、オープンソースの大規模言語モデル(LLM)を開発する中国の人工知能企業である。浙江省杭州に拠点を置き、中国のヘッジファンドであるHigh-Flyerによって所有・出資されている。High-Flyer
の共同設立者であるLiang Wenfengが 2023 年に同社を設立し、CEO を務めている。
DeepSeek-R1モデルは、OpenAIのGPT-4oやo1など、他の現代の大規模言語モデルに匹敵する応答を提供する。[ 3 ]このモデルは、2023年のOpenAIのGPT-4の1億ドルと比較して600万ドルと大幅に低いコストでトレーニングされ[
4 ] 、 Metaの同等のモデルであるLLaMA 3.1で使用される計算能力の約10分の1である。[ 4 ] [ 5 ] [ 6 ] [ 7
] DeepSeekのAIモデルは、人工知能開発に使用されるチップに対する中国やその他の国への米国の制裁の中で開発された。これは、これらの国の高度なAIシステムの開発能力を制限することを目的としていました。[
8 ]その後、いくつかの国を除くすべての国に影響を与えるより緩やかな制限が発表された。[ 9 ]
2025年1月10日、DeepSeekはDeepSeek-R1モデルをベースにした初の無料チャットボットアプリをiOSとAndroid向けにリリースした。1月27日までにDeepSeekはChatGPTを抜いて米国のiOS
App Storeで最もダウンロードされた無料アプリとなり、 [ 10 ] Nvidiaの株価は18%下落した。[ 11 ] [ 12 ]より大規模で確立されたライバルに対するDeepSeekの成功は、「AIを覆す」と評され、
[ 10 ] 「AIの瀬戸際政策の新時代」の到来を告げている。[ 13 ] DeepSeekが中国政府の検閲政策を遵守し、データ収集を行っていることからも、このモデルにおけるプライバシーと情報管理に対する懸念が高まり、複数の国で規制当局の調査が行われている。
DeepSeekは、生成型人工知能アルゴリズム、モデル、トレーニングの詳細をオープンソース化しており、そのコードを自由に使用、変更、閲覧、構築目的のドキュメントの設計に利用できるようにしている。[
14 ]しかし、中国でホストされているAPIバージョンでは、現地の規制に従ってコンテンツ制限が適用され、天安門事件や台湾の現状などのトピックに関する応答が制限されているという報告がある。[
15 ] [ 16 ]同社は、中国のトップ大学から若いAI研究者を積極的に採用していると伝えられている[ 10 ] 。また、モデルの知識と能力を多様化するために、コンピュータサイエンス分野以外からも採用している。[
5 ]
背景
2016年2月、ハイフライヤーはAI愛好家の梁文鋒氏によって共同設立された。梁氏は浙江大学在学中、2007~2008年の金融危機以来取引を行っていた。[
17 ]彼らは2016年10月21日にGPU上で動作するディープラーニングモデルを使って株式取引を開始した。それ以前はCPUベースのモデル、主に線形モデルを使用していた。2017年末までにほとんどの取引はAIによって行われるようになった。[
18 ]
2019年までに、彼はAI取引アルゴリズムの開発と使用に重点を置いたヘッジファンドとしてHigh-Flyerを設立した。2021年までに、High-Flyerは取引にAIのみを使用し、[
19 ] Nvidiaチップを頻繁に使用した。[ 20 ] DeepSeekは、生成型人工知能 チャットボットを オープンソース化しており、そのコードは自由に使用、変更、および閲覧できる。これには、ソースコードや設計文書にアクセスして使用し、構築する許可が含まれる。[
14 ]
2021年、High-Flyerを運営しながら、Liang氏はAIプロジェクトのためにNvidia GPUの備蓄を始めた。[ 20 ] 36Krによると、Liang氏は米国連邦政府が中国にAIチップの制限を課す前に、AIのトレーニングに使用されるNvidia A100 GPUを1万個備蓄していたという[ 21 ]。[ 19 ]
2023年4月14日、[ 22 ]ハイフライヤーは、ハイフライヤーの金融事業とは別に、AIツールの研究開発に特化した人工汎用知能研究所の設立を発表した。
[ 23 ] [ 24 ] 2023年7月17日に法人化され、[ 1 ]ハイフライヤーを投資家および後援者として、研究所は独自の会社であるDeepSeekとなった。[
19 ] [ 25 ] [ 24 ] ベンチャーキャピタル企業は、このベンチャーが短期間で「出口」を生み出す可能性は低いと考え、資金提供に消極的だった。
[ 19 ]
2023年5月16日、北京DeepSeek人工知能基礎技術研究有限公司が杭州DeepSeek人工知能基礎技術研究有限公司の管理下に設立された。2024年5月現在、梁文鋒は2つのダミー会社を通じてDeepSeekの84%を保有している。[注
1 ] [ 26 ]
2024年5月に低価格で強力なパフォーマンスを提供するDeepSeek-V2をリリースした後、DeepSeekは中国のAIモデル価格戦争の起爆剤として知られるようになった。すぐに「 AIのPinduoduo 」と呼ばれ、 ByteDance、Tencent、Baidu、Alibabaなどの他の大手テクノロジー企業も、同社に対抗するためにAIモデルの価格を値下げし始めた。DeepSeekは低価格にもかかわらず、赤字を計上していた競合他社に比べて利益を上げていた。[ 27 ]
DeepSeekは研究に重点を置いており、商業化の詳細な計画はない。[ 27 ]これにより、同社の技術は、消費者向け技術が政府の情報統制に準拠することを要求するなど、中国のAI規制の最も厳しい規定を回避することもできる。[
5 ]
DeepSeekの採用では、職務経験よりも技術力を重視しているため、新規採用者のほとんどは大学を卒業したばかりの人か、AIのキャリアがあまり確立されていない開発者である。[
24 ] [ 5 ]同様に、同社はコンピュータサイエンスのバックグラウンドを持たない人材を採用し、詩を生成したり、中国の大学入試で悪名高い難関試験(高考)で良い成績を収めたりなど、他のトピックや知識領域を自社の技術で理解できるようにしている。[
5 ]
トレーニングフレームワーク
High-Flyer/DeepSeekは、少なくとも2つのコンピューティングクラスター、Fire-Flyer(萤火一号)とFire-Flyer 2(萤火二号)を構築した。Fire-Flyerは2019年に建設を開始し、2020年に2億元の費用で完成した。200Gbpsの速度で相互接続された1,100個のGPUが含まれていた。1年半の運用後に「引退」した。Fire-Flyer 2は10億元の予算で2021年に建設を開始した。[ 18 ] 2022年には、Fire-Flyer 2の容量が96%以上利用され、合計5,674万GPU時間が報告された。これらのGPU時間のうち、27%は社外での科学計算のサポートに使用された。[ 18 ]
Fire-Flyer 2は、共同設計されたソフトウェアとハードウェアのアーキテクチャで構成されている。ハードウェア側では、200 Gbpsの相互接続を備えたGPUがさらに追加された。クラスターは2つの「ゾーン」に分かれており、プラットフォームはゾーン間のタスクをサポートしている。ネットワークトポロジは、高い二分帯域幅のために選択された2つのファットツリーである。ソフトウェア側では、[
28 ] [ 18 ] 3FS(Fire-Flyerファイルシステム):分散並列ファイルシステム。データセットからの非同期ランダム読み取り専用に設計されており、Direct
I/OとRDMA Readを使用する。標準のBuffered I/Oとは異なり、Direct I/Oはデータをキャッシュしません。この場合、各データの読み取りはランダムであり、再利用されないため、キャッシュは役に立たない。[
29 ]
hfreduce: 非同期通信用のライブラリ。もともとはNvidia Collective Communication Library (NCCL) を置き換えるために設計された。[ 30 ]主にバックプロパゲーション中の勾配のallreduceに使用されていた。GPU上のカーネルのブロックを回避するためにCPU上で非同期に実行される。 [ 28 ] NCCLと同様に2ツリーブロードキャストを使用する。[ 30 ]
hfai.nn: PyTorchtorch.nnに似た、ニューラル ネットワーク トレーニングでよく使用される演算子のソフトウェア ライブラリ。
HaiScale Distributed Data Parallel(DDP): データ並列処理 (DP)、パイプライン並列処理 (PP)、テンソル並列処理 (TP)、エキスパート並列処理 (EP)、完全シャードデータ並列処理 (FSDP)、ゼロ冗長オプティマイザー (ZeRO) など、ディープラーニングにおけるさまざまな形式の並列処理を実装する並列トレーニング ライブラリ。バックエンドで NCCL を使用する PyTorch DDP に似ている。
HAI Platform: タスクスケジューリング、障害処理、災害復旧などのさまざまなアプリケーション。[ 31 ]
2022年、Fire-Flyer 2には625ノードに5000個のPCIe A100 GPUがあり、各ノードには8個のGPUが含まれていました。当時、彼らはA100のDGXバージョンではなくPCIeのみを使用することを選択した。これは、当時彼らがトレーニングしたモデルが単一の40GB
GPU VRAM内に収まるため、DGXのより高い帯域幅は必要なかったためです(つまり、データの並列処理のみが必要で、モデルの並列処理は必要ありませんでした)。[
30 ]その後、彼らはNVLinksとNCCLも取り入れ、モデルの並列処理を必要とするより大きなモデルをトレーニングした。[ 32 ] [ 28
]
開発とリリースの履歴
このセクションは、ほとんどの読者にとって理解するには技術的すぎる可能性がある。技術的な詳細を削除せずに、専門家以外の人にも理解できるように改善するお手伝いをしてください。
( 2025 年 1 月) (このメッセージを削除する方法と時期について学ぶ)
このセクションでは、DeepSeek の主要バージョンの技術的な詳細を示する。まず、リリース日、注目すべきバリエーション、主な機能など、各主要バージョンの簡潔な概要を示す表を示する。
DeepSeek モデルのメジャー バージョン。SFT は、教師あり微調整の略である。
メジャーバージョン 発売日 主な変種 備考
ディープシーク コーダー 2023年11月2日 ベース(事前トレーニング済み); 指示(指示を微調整したもの) アーキテクチャは基本的に Llama
と同じである。
ディープシーク法学修士 2023年11月29日 ベース;
チャット(SFT と)
アーキテクチャは基本的に Llama と同じである。
ディープシーク-MoE 2024年1月9日 ベース;
チャット
専門家混合型(MoE)を開発した。
ディープシーク数学 2024年4月 ベース DS-Coder-Base-v1.5 で初期化指導(SFT 付き)
R L(プロセス報酬モデルを使用) 近接ポリシー最適化 (PPO) の派生であるグループ相対ポリシー最適化 (GRPO) を開発した。
ディープシークV2 2024年5月 ディープシークV2
ディープシーク-V2-ライト
ディープシーク コーダー V2
ディープシーク-V2.5
マルチヘッド潜在注意 (MLA) を開発した。専門家の混合 (MoE) も使用した。
ディープシーク V3 2024年12月 DeepSeek-V3 ベース
DeepSeek-V3 (チャットモデル)
アーキテクチャは基本的に V2 と同じである。
ディープシークR1 2024年11月20日 DeepSeek-R1-Lite プレビュー API とチャット インターフェースを通じてのみアクセスできる。
2025年1月20日 ディープシーク-R1
ディープシーク-R1-ゼロ
DeepSeek-V3-Base から初期化され、V3 アーキテクチャを共有する。
蒸留モデル Llama、Qwenなどの他のモデルから初期化された。R1とR1-Zeroによって合成されたデータから抽出された。[ 33 ]
ディープシーク コーダー
2023年11月2日、DeepSeekは最初のモデルシリーズをリリースした。DeepSeek-Coderこれは研究者と商用ユーザーの両方に無料で利用可能である。モデルのコードはMITライセンスの下でオープンソース化され、モデル自体の「オープンで責任あるダウンストリーム使用」に関する追加のライセンス契約(「DeepSeekライセンス」)が付属している。[
34 ]
これらは、以下に詳述するDeepSeek LLMと同じアーキテクチャである。このシリーズには8つのモデルが含まれており、4つは事前学習済み(Base)で、4つは命令微調整済み(Instruct)である。これらはすべて16Kのコンテキスト長を持っている。トレーニングは次のとおりでした:[
35 ] [ 36 ] [ 37 ]
事前トレーニング: 1.8T トークン (87% ソースコード、10% コード関連の英語 (GitHub マークダウンとStack Exchange )、3% コードに関連しない中国語)。
ロングコンテキストの事前トレーニング: 200B トークン。これにより、コンテキストの長さが 4K から 16K に拡張されます。これによりBaseモデルが生成された。
教師あり微調整(SFT): 2B トークンの指示データ。これによりInstructモデルが生成された。
これらは、 InfiniBand、NVLink、NVSwitchで接続されたA100およびH800 Nvidia GPUのクラスターでトレーニングされた。[ 35 ]
DeepSeek Coderのプロパティ[ 35 ] : 表2 [ 38 ]パラメータ。
レイヤー
{\displaystyle n_{\text{レイヤー}}}
d
モデル
{\displaystyle d_{\text{モデル}}}
中級
{\displaystyle d_{\text{中間}}}
頭
{\displaystyle n_{\text{heads}}}
kv-heads
{\displaystyle n_{\text{kv-heads}}}
1
3億 24 2048 5504 16 16
57億 32 4096 11008 32 1 [注 2 ]
67億 32 4096 11008 32 32
33B 62 7168 19200 56 7 [注 2 ]
ディープシーク法学修士
2023年11月29日、DeepSeekは、7Bおよび67Bのパラメータを持つモデルシリーズをリリースした。これDeepSeek-LLMは、当時利用可能な他のLLMと競合するために開発された。論文では、当時のほとんどのオープンソースLLM、特にLlama
2よりもベンチマーク結果が優れていると主張した。[ 39 ]:セクション5 DeepSeek Coderと同様に、モデルのコードはMITライセンスの下にあり、モデル自体はDeepSeekライセンスでした。[
40 ]BaseChatInstruct
アーキテクチャは基本的にLlamaシリーズのものと同じである。彼らは、正規化にRMSNormを使用したプレノルム デコーダーのみのTransformer
、フィードフォワード層にSwiGLU 、回転位置埋め込み(RoPE)、グループ化クエリアテンション(GQA)を使用した。どちらも語彙サイズは102,400(バイトレベルBPE
)、コンテキスト長は4096であった。彼らはCommon Crawlの重複を排除して得られた2兆トークンの英語と中国語のテキストでトレーニングした。[
39 ]
DeepSeek LLMプロパティ[ 39 ]:表2
パラメータ。
レイヤー
{\displaystyle n_{\text{レイヤー}}}
d
モデル
{\displaystyle d_{\text{モデル}}}
d
中級
{\displaystyle d_{\text{中間}}}
頭
{\displaystyle n_{\text{heads}}}
kv-heads
{\displaystyle n_{\text{kv-heads}}}
7B 30 4096 11008 32 32
67B 95 8192 22016 64 8 [注 2 ]
Chat2つのモデルのバージョンもBase同時にリリースされ、教師ありファインチューニング(SFT)と直接ポリシー最適化(DPO)Baseによるトレーニングによって得られた。[ 39 ]
2024年1月9日、彼らは2つのDeepSeek-MoEモデル(Base、Chat)をリリースした。それぞれ16Bのパラメータ(トークンあたり27Bがアクティブ、コンテキスト長4K)である。トレーニングは
と基本的に同じでありDeepSeek-LLM 7B、そのトレーニングデータセットの一部でトレーニングされた。彼らは、16BのMoEで7Bの非MoEと同等のパフォーマンスを発揮したと主張した。アーキテクチャ的には、これは標準的なスパースゲートMoEの変形であり、常にクエリされる「共有エキスパート」と、クエリされない可能性のある「ルーティングエキスパート」がある。彼らはこれがエキスパートのバランス調整に役立つことを発見した。標準的なMoEでは、一部のエキスパートが過度に依存される可能性がある一方で、他のエキスパートはほとんど使用されない場合があり、パラメータが無駄になる。エキスパートが均等に使用されるようにバランスを取ろうとすると、エキスパートは同じ能力を複製することになる。彼らは、共有エキスパートに頻繁に使用されるコア能力を学習させ、ルーティングエキスパートにほとんど使用されない周辺能力を学習させることを提案した。[
41 ]
2024年4月、彼らはDeepSeek-Math数学を行うことに特化した3つのモデルをリリースした:Base、、Instruct。RLそれは次のように訓練されました:[
42 ]
事前にトレーニングした で初期化しますDeepSeek-Coder-Base-v1.5 7B。
さらに 500B トークン (6% DeepSeekMath Corpus、4% AlgebraicStack、10% arXiv、20%
GitHub コード、10% Common Crawl) を使用して事前トレーニングする。これによりモデルが生成されましたBase。
Base776,000 個の数学の問題と、ツールの使用を統合した段階的な解答を使用して、SFT による指示に従うモデルをトレーニングする。これにより、Instructモデルが生成される。
強化学習(RL):報酬モデルは、Math-Shepherd法に従ってトレーニングされたプロセス報酬モデル(PRM)でした。 [ 43 ]この報酬モデルは、その後、グループ相対ポリシー最適化(GRPO)を使用して、「GSM8KとMATHに関連する」144,000の数学の問題のデータセットでトレーニングするために使用された。報酬モデルは、報酬ハッキングを回避するためにトレーニング中に継続的に更新された。その結果、モデルが生まれました。BaseInstructRL
V2
V2のアーキテクチャ。共有ルーティングMoEとMLAの両方を示している[ 44 ]:図2
2024年5月に彼らはDeepSeek-V2シリーズをリリースした。このシリーズには4つのモデルが含まれており、2つの基本モデル(DeepSeek-V2、DeepSeek-V2-Lite)と2つのチャットボット(-Chat)が含まれている。2つの大きなモデルは次のように訓練された。[
44 ]
8.1T トークンのデータセットで事前トレーニングする。中国語のトークンは英語のトークンより 12% 多くなる。
YaRNを使用してコンテキスト長を4Kから128Kに拡張する。[ 45 ]この結果DeepSeek-V2、有用性に関する 120 万件のインスタンスと安全性に関する
30 万件のインスタンスを持つ SFT。この結果、DeepSeek-V2-Chat (SFT)リリースされなかった。
GRPO を使用した RL は 2 段階で行われます。第 1 段階では、数学とコーディングの問題を解決するようにトレーニングされた。この段階では、コンパイラ
フィードバック (コーディング用) とグラウンド トゥルース ラベル (数学用) でトレーニングされた 1 つの報酬モデルが使用された。第 2
段階では、役立つこと、安全であること、ルールに従うことのトレーニングが行われました。この段階では、3 つの報酬モデルが使用された。役立つことと安全であることの報酬モデルは、人間の好みのデータでトレーニングされた。ルールベースの報酬モデルは手動でプログラムされた。トレーニングされたすべての報酬モデルは
から初期化されましたDeepSeek-V2-Chat (SFT)。これにより、 のリリース バージョンが生まれたDeepSeek-V2-Chat。
彼らは2段階強化学習を選択した。なぜなら、推論データに対する強化学習は、一般データに対する強化学習とは異なる「独自の特性」を持っていることがわかったからである。例えば、推論に対する強化学習は、より多くのトレーニングステップを踏むことで改善する可能性があります。[
44 ]
2つのV2-Liteモデルはより小さく、同様に訓練されたがDeepSeek-V2-Lite-Chat、RLではなくSFTのみを受けた。彼らは「MLAとDeepSeekMoEのさらなる研究開発」を支援するためにLiteバージョンを訓練した。[
44 ]
アーキテクチャ的には、V2モデルはDeepSeek LLMシリーズから大幅に変更された。彼らは、マルチヘッド潜在的注意(MLA)と呼ばれる低ランク近似によって標準的な注意メカニズムを変更し、1月に以前に公開された専門家の混合(MoE)バリアントを使用した。 [ 41 ]
DeepSeek V2のプロパティ[ 44 ] : セクション3.1.2、付録B [ 46 ] [ 47 ]
名前 パラメータ。 アクティブパラメータ
ん
レイヤー
{\displaystyle n_{\text{レイヤー}}} コンテキストの長さ
ん
専門家の共有
{\displaystyle n_{\text{共有された専門家}}}
ルーティングされた専門家
{\displaystyle n_{\text{ルーティングされた専門家}}}
V2-ライト 157億 2.4億 27 32K 2 64
V2 236B 21B 60 128K 2 160
フィナンシャルタイムズは、DeepSeek-V2の価格は100万出力トークンあたり2人民元で、同業他社よりも安価であると報じた。ウォータールー大学タイガーラボのリーダーボードでは、DeepSeek-V2はLLMランキングで7位にランクされている。[ 25 ]
2024年6月に、彼らはシリーズの4つのモデルをリリースしたDeepSeek-Coder-V2:V2-Base、、、。それらは次のように訓練されました:V2-Lite-Base[
48 ] [注3 ]V2-InstructV2-Lite-Instruct
モデルは、4.2T トークン (事前トレーニングの終了時のバージョンではありません) で事前トレーニングした後、対応する中間Baseチェックポイントから初期化され、その後 6T トークンでさらに事前トレーニングされ、コンテキスト長が 128K に拡張された。これにより、モデルが生成された。Base
DeepSeek-CoderこれらをDeepSeek-Math使用して 20K のコード関連命令データと 30K の数学関連命令データが生成され、3 億トークンの命令データセットと結合された。これが SFT に使用された。
GRPO を使用した RL。数学の問題に対する報酬は、グラウンド トゥルース ラベルと比較して計算された。コードの問題に対する報酬は、プログラムがユニット テストに合格するかどうかを予測するようにトレーニングされた報酬モデルによって生成された。
DeepSeek-V2.5DeepSeek-V2-Chatは2024年9月にリリースされ、12月にアップデートされた。とを組み合わせて作成されましたDeepSeek-Coder-V2-Instruct。[ 49 ]
V3
マルチトークン予測
2024年12月に、彼らはベースモデルDeepSeek-V3-BaseとチャットモデルをリリースしたDeepSeek-V3。モデルアーキテクチャは基本的にV2と同じだが、マルチトークン予測が追加されており、これにより(オプションで)余分なトークンをより速くデコードするが、精度は低くなります。それらは次のように訓練された:[
32 ]
主に英語と中国語の多言語コーパスの 14.8T トークンの事前トレーニング。V2 の事前トレーニング データセットよりも数学とプログラミングの比率が高くなっている。
YaRNを使用してコンテキスト長を4Kから32K、さらに128Kへと2回拡張する。[ 45 ]これによりDeepSeek-V3-Base、.推論データ
(数学、プログラミング、ロジック) と非推論データ (クリエイティブ ライティング、ロールプレイ、簡単な質問への回答) の 150 万サンプルに対して
2 エポックの SFT を実行した。推論データは「エキスパート モデル」によって生成された。非推論データはDeepSeek-V2.5人間によって生成され、チェックされた。
「エキスパート モデル」は、指定されていないベース モデルから開始し、両方の<problem, original response>データと<system
prompt, problem, R1 response>内部DeepSeek-R1-Liteモデルによって生成された合成データに対して
SFT を実行することでトレーニングされた。システム プロンプトは、R1思考中に反映および検証するように求めました。その後、エキスパート モデルは指定されていない報酬関数を使用して
RL を実行した。
各エキスパート モデルは、特定の 1 つのドメイン (数学、プログラミング、ロジック) でのみ合成推論データを生成するようにトレーニングされた。
R1エキスパート モデル自体の出力はR1「考えすぎ、フォーマットの不備、長すぎる」という問題があったため、エキスパート モデル自体の代わりにエキスパート モデルが使用された。
モデルベースの報酬モデルは、 の SFT チェックポイントから始めてV3、最終報酬と最終報酬につながる思考の連鎖の両方を含む人間の好みのデータで微調整することによって作成された。報酬モデルは、客観的だが自由形式の回答がある質問と、客観的な回答がない質問 (創造的な執筆など) の両方に対して報酬信号を生成したの SFT チェックポイントは、V3報酬モデルとルールベースの報酬の両方を使用して GRPO によってトレーニングされた。ルールベースの報酬は、最終的な答え (ボックスに入れる) がある数学の問題と、ユニット テストによるプログラミングの問題に対して計算された。これにより、が生成されたDeepSeek-V3。
DeepSeek V3のプロパティ[ 32 ] : セクション4.2 [ 50 ]
名前 パラメータ。 アクティブパラメータ
レイヤー
{\displaystyle n_{\text{レイヤー}}} コンテキストの長さ
専門家の共有
{\displaystyle n_{\text{共有された専門家}}}
ルーティングされた専門家
{\displaystyle n_{\text{ルーティングされた専門家}}}
V3 671B 37B 61 128K 1 256
V3[ 32 ]の混合精度フレームワーク:図6
DeepSeek チームは、効率性を実現するために、広範囲にわたる低レベル エンジニアリングを実行した。混合精度演算を使用した。フォワード
パスの多くは、標準の32 ビットではなく8 ビット浮動小数点数(5E2M: 5 ビット指数と 2 ビット仮数) で実行されたため、正確に累積するには特別なGEMMルーチンが必要でした。アテンション
モジュールの後の線形層への入力にのみ、カスタム 12 ビット浮動小数点 (E5M6) を使用した。オプティマイザーの状態は 16 ビット (
BF16 ) でした。H800 あたり 132 個のストリーミング マルチプロセッサのうち 20 個を GPU 間通信専用にするなど、計算と通信を広範囲にオーバーラップさせることで、通信の遅延を最小限に抑えました。彼らは、特定のマシンが他のマシンよりも頻繁にクエリされることを避けるために、各専門家が乗っているマシンを(10分ごとに)再配置し、トレーニング損失関数に補助的な負荷分散損失を追加し、その他の負荷分散技術を使用することで、通信量を減らした。[
32 ]
トレーニング後、H800クラスタに導入された。クラスタ内のH800カードはNVLinkで接続され、クラスタはInfiniBandで接続される。[
32 ]
DeepSeek-V3モデルのトレーニングにかかる総コスト[ 32 ]:表1
ステージ コスト(1,000 GPU 時間単位) 費用(百万米ドル)
事前トレーニング 2,664 5.328
「コンテキスト拡張 119 0.24
微調整 5 0.01
合計 2,788 5.576
ベンチマークテストでは、Llama 3.1やQwen 2.5V3よりも優れた性能を示し、 GPT-4oやClaude 3.5 Sonnetと同等であることが示されている。[ 24 ] [ 51 ] [ 52 ] [ 53 ]
R1
2024年11月20日、DeepSeek-R1-Lite-PreviewDeepSeekのAPI経由でアクセス可能になったほか、ログイン後はチャットインターフェース経由でもアクセス可能になった。[
54 ] [ 55 ] [注 4 ]論理的推論、数学的推論、リアルタイムの問題解決のために訓練された。DeepSeekは、アメリカ招待数学試験(AIME)やMATHなどのベンチマークでOpenAI
o1のパフォーマンスを上回ったと主張した。[ 56 ]しかし、ウォールストリートジャーナルは、 2024年版のAIMEから15の問題を使用したところ、o1モデルはよりも速く解に到達したと述べた。[
57 ]DeepSeek-R1-Lite-Preview
2025年1月20日、DeepSeekDeepSeek-R1はとをリリースしたDeepSeek-R1-Zero。[ 58 ]どちらもから初期化されDeepSeek-V3-Base、そのアーキテクチャを共有している。同社はまた、いくつかの「DeepSeek-R1-Distill」モデルをリリースしたが、これらはで初期化されているのではなく、 LLaMAやQwenをV3-Base含む他の事前トレーニング済みのオープンウェイトモデルから初期化され、によって生成された合成データで微調整されている。[ 33 ]R1
テンプレートDeepSeek-R1-Zero
ユーザーとアシスタントの会話。ユーザーが質問し、アシスタントがそれを解決する。アシスタントはまず頭の中で推論プロセスを考え、次にユーザーに答えを提供する。推論プロセスと答えは、それぞれ <think> </think> タグと <answer> </answer> タグで囲まれます。つまり、<think> 推論プロセスはここに </think> <answer> 答えはここに </answer> である。ユーザー: <prompt>。アシスタント:
– <prompt> は、トレーニング中に特定の推論質問に置き換えられる。
DeepSeek-R1-ZeroSFTを使用せずにGRPO RLのみを使用してトレーニングされた。以前のバージョンとは異なり、モデルベースの報酬は使用しなかった。すべての報酬関数はルールベースで、「主に」2つのタイプ(他のタイプは指定されていない)である:精度報酬とフォーマット報酬。精度報酬は、ボックスの回答が正しいかどうか(数学の場合)またはコードがテストに合格するかどうか(プログラミングの場合)をチェックする。フォーマット報酬は、モデルが思考トレースを範囲内に収めているかどうかをチェックする<think>...</think>。[
33 ]
R1-Zero読みやすさや言語の混在に関する問題と同様に、R1これらの問題に対処し、推論をさらに改善するための訓練を受けました。[ 33 ]
モデル出力をより読みやすくするために設計された、DeepSeek-V3-Baseの標準形式を持つ「数千」の「コールド スタート」データに対するSFT 。|special_token|<reasoning_process>|special_token|<summary>と同じ GRPO RL プロセスを適用しますR1-Zeroが、単一言語で応答するように促すために「言語一貫性報酬」も使用する。これにより、リリースされていない内部モデルが生成された。
内部モデルから 600K の推論データを、拒否サンプリングを使用して合成します (つまり、生成された推論の最終回答が間違っていた場合は削除されます)。 を使用して 200K の非推論データ (ライティング、事実に基づく QA、自己認識、翻訳) を合成しますDeepSeek-V3。
DeepSeek-V3-Base2 エポックの 800K 合成データに対するSFT 。
ルールベースの報酬(推論タスクの場合)と同じ GRPO RL プロセスを適用しますR1-Zeroが、モデルベースの報酬(非推論タスク、有用性、無害性の場合)も適用する。これにより、次の結果が得られましたDeepSeek-R1。
蒸留モデルは、上記のステップ3と同様の方法で、から合成された800Kデータに対してSFTによってトレーニングされた。RLDeepSeek-R1ではトレーニングされなかった。[
33 ]
評価と反応
メイン記事: DeepSeek (チャットボット)
DeepSeekは、Apple IOSおよびAndroid向けのチャットボットアプリとしてV3モデルを使用するAI Assistantをリリースした。2025年1月27日までに、このアプリは米国のiOS App Storeで最高評価の無料アプリとしてChatGPTを上回りました。アメリカのAI企業が使用したベンチマークテストによると、同社のチャットボットは、質問に答え、論理的な問題を解決し、市場に出回っている他のチャットボットと同等のコンピュータープログラムを作成すると言われている。[ 5 ]
DeepSeek-V3は、同業他社と比較して大幅に少ないリソースしか使用しません。例えば、世界の大手AI企業は、16,000個以上のグラフィック処理装置(GPU)を搭載したスーパーコンピューターでチャットボットをトレーニングしていますが、DeepSeekは、約2,000個のGPU、つまりNvidiaのH800シリーズチップしか必要としなかったと主張している。[
32 ] DeepSeek-V3は約55日間でトレーニングされ、費用は558万ドルでした。[ 32 ]これは、米国のテクノロジー大手Metaが最新のAIテクノロジーの構築に費やした費用の約10分の1である。[
5 ]
DeepSeekは比較的低コストで競争力のあるパフォーマンスを発揮し、アメリカのAIモデルの世界的優位性に挑戦する可能性があると認識されている。[59]
The HillやThe Guardianなどのさまざまな出版物やニュースメディアは、同社のチャットボットのリリースをアメリカのAIの「スプートニクの瞬間」と表現した。
[ 60 ] [ 61 ]同社のモデルのパフォーマンスは、数学、コーディングR1、自然言語推論などのタスクに使用した場合、OpenAIの最新モデルの1つと「同等」であると報告されている。[
62 ]他の評論家に同調して、アメリカのシリコンバレーのベンチャーキャピタリストであるマーク・アンドリーセンも同様にR1「AIのスプートニクの瞬間」と表現した。[
62 ]
DeepSeekの創業者、梁文鋒氏はOpen AIのCEOサム・アルトマン氏と比較されており、CNNは彼を中国のサム・アルトマン氏、AIの伝道師と呼んでいる。[ 63 ]中国の国営メディアはDeepSeekを国家の財産として広く称賛した。[ 64 ] [ 65 ] 2025年1月20日、中国の李強首相は専門家とのシンポジウムに文鋒氏を招待し、2024年の政府活動報告のコメント草案に対する意見や提案を求めました。[ 66 ]
DeepSeekによる限られたリソースの最適化は、高度なAIチップの中国への輸出制限を含む、中国のAI開発に対する米国の制裁の潜在的な限界を浮き彫りにした。[
24 ] [ 67 ]同社のAIモデルの成功は結果として「市場の混乱を引き起こし」[ 68 ]、2025年1月27日に世界の主要テクノロジー企業の株価が急落した。Nvidiaの株価は17~18%下落し、[
69 ]ライバルのBroadcomの株価も同様に下落した。Microsoft(2.5%下落)、Googleの親会社Alphabet(4%以上下落)、オランダのチップ機器メーカーASML(7%以上下落)など、他のテクノロジー企業も下落した。
[ 62 ]このモデルの発表をきっかけにNasdaqでテクノロジー株が世界的に売り込まれ、 R1AIおよびコンピューターハードウェア企業の時価総額は記録的な約5,930億ドルの損失となった。[
70 ] 2025年1月28日までに、アメリカ株から総額1兆ドルの価値が消失した。[ 61 ]
2025年1月28日にDeepSeekがサイバー攻撃を受けて出したログインエラー
アメリカのAI分野の主要人物は、DeepSeekの成功と業績に対して複雑な反応を示した。[ 71 ]マイクロソフトCEOのサティア・ナデラ氏とOpenAI
CEOのサム・アルトマン氏は、両社ともアメリカのAIインフラを開発する「スターゲートプロジェクト」に関与しており、DeepSeekを「非常に素晴らしい」と評した。
[ 72 ] [ 73 ]スターゲートプロジェクトを発表したアメリカのドナルド・トランプ大統領は、DeepSeekを警鐘[ 74 ]であり前向きな展開と呼んだ。[
75 ] [ 61 ] [ 62 ] [ 76 ] Scale AI CEOのアレクサンドル・ワン氏、Anthropic共同設立者兼CEOのダリオ・アモデイ氏、イーロン・マスク氏など、この分野の他のリーダーたちは、アプリのパフォーマンスやその成功の持続性に懐疑的な見方を示した。[
71 ] [ 77 ] [ 78 ] Amazon Web Services、トヨタ、Stripeなど、さまざまな企業が自社のプログラムにこのモデルを採用しようとしている。[
79 ]
2025年1月27日、DeepSeekは「大規模」なサイバー攻撃によりサーバーの正常な機能が損なわれたことを受けて、新規ユーザー登録を中国本土の電話番号、メールアドレス、またはGoogleアカウントログインに制限した。[
80 ] [ 81 ]
懸念事項
検閲
参照:海外における中国の検閲および中国における検閲
習近平は独裁者かとの質問に対し、ディープシークは「この質問は私の現在の専門分野を超えている」と謝罪した。ナレンドラ・モディについて同じ質問をすると、さまざまな視点から「バランスの取れた分析」が返ってくる。
一部の情報源によると、中国にあるサーバーから実行されるR1の公式アプリケーションプログラミングインターフェース(API)バージョンは、中国政府にとって政治的に敏感とみなされるトピックに対して検閲メカニズムを使用しているとのことである。たとえば、このモデルは、1989年の天安門事件、ウイグル人の迫害、習近平とくまのプーさんの比較、中国の人権に関する質問に答えることを拒否する。[ 15 ] [ 82 ] [ 16 ] AIは最初は回答を生成するかもしれませんが、その後すぐにそれを削除し、「申し訳ありませんが、それは私の現在の範囲を超えている。別のことを話しましょう」などのメッセージに置き換えます。[ 82 ]統合された検閲メカニズムと制限は、R1モデルのオープンソースバージョンでは限られた範囲でしか削除できません。中国のインターネット規制当局が定義する「社会主義核心価値観」に触れたり、台湾の政治的地位について言及したりすると、議論は終了する。[ 83 ] NBCニュースのテストを受けたDeepSeekのR1は、台湾を「中国の領土の不可分の一部」と表現し、「いかなる形態の『台湾独立』分離主義活動にも断固反対し、平和的手段による祖国の完全な統一を達成することに尽力している」と述べた。[ 84 ] 2025年1月、西側の研究者は、回答の中で特定の文字を似た数字に置き換えるように要求することで、DeepSeekをだましてこれらのトピックのいくつかに対する特定の回答をさせることができた。[ 16 ]
セキュリティとプライバシー
参照:中国の情報作戦と情報戦争
多くの専門家は、中国政府がAIシステムを外国への影響力行使、偽情報の拡散、監視、サイバー兵器の開発に利用する可能性があると懸念している。[ 85 ] [ 86 ] [ 87 ] DeepSeekのプライバシー規約には、「収集した情報は中華人民共和国にある安全なサーバーに保管する。当社は、お客様が当社のモデルおよびサービスに提供したテキストまたは音声入力、プロンプト、アップロードされたファイル、フィードバック、チャット履歴、その他のコンテンツを収集する場合があります」と記載されている。同社のデータ保管および収集ポリシーはChatGPTのプライバシーポリシーと一致しているが、[ 88 ] Wiredの記事によると、DeepSeekオンラインサービスがデータを母国に送信することで「より厳しい監視の舞台」が整う可能性があるという。[ 89 ]
これに対して、イタリアのデータ保護当局はディープシークの個人情報の収集と使用に関する追加情報を求めており、米国国家安全保障会議は国家安全保障の検討を開始したと発表した。[
90 ] [ 91 ]韓国の個人情報保護委員会はディープシークの個人情報の使用について調査を開始した。[ 92 ]オランダのデータ保護当局も調査を開始した。[
93 ]
2025年1月31日、台湾のデジタル省は「情報セキュリティリスクを防ぐ」ため、政府部門にDeepSeekサービスを使用しないよう勧告した。[ 92 ]同日、テキサス州知事のグレッグ・アボットは、小紅書やLemon8とともに、DeepSeekの政府発行デバイスを州内で禁止する命令を出した。[ 94 ]
ニューサウスウェールズ州顧客サービス局のデバイスではDeepSeekへのアクセスが禁止されている。[ 95 ]
DeepSeekはChatGPTのデータを使用したとして告発されている。[ 96 ] [ 97 ]
オーストラリアは政府の機器からDeepseekを禁止した。[ 98 ]
参照
中国の人工知能産業
注記
正式名称は杭州ディープシーク人工知能基礎技術研究有限公司[ 2 ]
宁波程信柔兆計画业管理咨询合伙計画业(有限合伙)および宁波程恩計画业管理咨询合伙計画业(有限合伙)
GQA により、ヘッドの数は KV ヘッドの数と一致しません。
不可解なことに、論文で名前が挙がったモデルはHuggingFaceとしてリリースされた。
DeepSeek-Coder-V2 ChatDeepSeek-Coder-V2-Instruct
当時はR1-Lite-Preview「Deep Think 有効」を選択する必要があり、ユーザーごとに 1 日 50 回しか使用できませんでした。
参考文献 対応番号未了
「DeepSeek突传消息!」。新浪株式会社2025 年 2 月 1 日。2025 年2 月 1 日に取得。
「杭州ディープシーク人工知能基礎技術研究有限公司」。ブルームバーグLP 2025年2月1日閲覧。
ギブニー、エリザベス(2025年1月23日)。「中国の安価でオープンなAIモデルDeepSeekが科学者を魅了」。ネイチャー。doi:10.1038 / d41586-025-00229-6。ISSN 1476-4687。PMID 39849139。
ヴィンセント、ジェームズ(2025年1月28日)。「ディープシークのパニックは、AIの世界が崩壊する準備ができていることを明らかにする」。ガーディアン。
メッツ、ケイド、トービン、ミーガン(2025年1月23日)。「中国のAIスタートアップDeepSeekはいかにしてシリコンバレーの巨人と競争しているのか」。ニューヨークタイムズ。ISSN 0362-4331。 2025年1月27日閲覧。
Cosgrove, Emma (2025年1月27日). 「DeepSeekの安価なモデルと弱いチップは、AIインフラへの数兆ドルの支出に疑問を投げかける」。Business Insider。
Erdil, Ege (2025年1月17日). 「DeepSeekはTransformerアーキテクチャをどのように改善したか?」 Epoch AI . 2025年2月3日閲覧。
スティーブン・ネリス、マックス・A・チャーニー(2023年8月31日)。「米国、NvidiaとAMDのAIチップ輸出を一部中東諸国に抑制」ロイター。2025年2月4日閲覧。
ホーキンス、マッケンジー、レナード、ジェニー(2025年1月8日)。「バイデン大統領、最終調整でNvidiaのAIチップ輸出をさらに制限へ」ブルームバーグ。2025年2月4日閲覧。
メッツ、ケイド(2025年1月27日)。「DeepSeekとは何か?そしてそれはどのようにAIを覆すのか?」ニューヨークタイムズ。ISSN 0362-4331。2025年1月27日閲覧。
1月27日)。「中国のDeepSeek AIがApp StoreでChatGPTを追い抜く:知っておくべきこと」。CNBC 。
Picchi, Aimee (2025年1月27日). 「DeepSeekとは何か、そしてなぜそれがNvidiaやその他の株価の下落を引き起こしているのか?」 CBSニュース。
ルース、ケビン(2025年1月28日)。「ディープシークがシリコンバレーのAIに対する信念を変える理由」ニューヨークタイムズ。ISSN 0362-4331。2025年1月28日閲覧。
ロメロ、ルイス E. (2025 年 1 月 28 日)。 「ChatGPT、DeepSeek、それとも Llama? Meta の LeCun 氏は、オープンソースが鍵だと語る」。Forbes。
フィールド、マシュー、ティットコム、ジェームズ(2025年1月27日)。「中国のAIが1兆ドルのパニックを引き起こしたが、言論の自由は気にしない」。デイリー・テレグラフ。ISSN0307-12352025年月27日閲覧。
Lu, Donna (2025年1月28日)。「DeepSeekを試してみました。うまく機能していましたが、天安門広場と台湾について質問すると、うまく機能しなくなりました」。ガーディアン。ISSN 0261-3077。 2025年1月30日閲覧。
Chen, Caiwei (2025年1月24日). 「中国のトップAIモデルが米国の制裁を克服した方法」 MITテクノロジーレビュー2025年1月25日時点のオリジナルよりアーカイブ。2025年1月25日閲覧。
"幻方 | 幻方历程".ハイフライヤー(中国語 (中国))。2025 年2 月 2 日に取得。
Ottinger, Lily (2024年12月9日).「Deepseek: ヘッジファンドからフロンティアモデルメーカーへ」.ChinaTalk.2024年12月28日時点のオリジナルよりアーカイブ2024年12月28日閲覧。
オルコット、エレノア、ウー、ジジン(2025年1月24日)。「中国の小さなAIスタートアップDeepSeekがシリコンバレーに与えた衝撃」フィナンシャル・タイムズ。 2025年1月31日閲覧。
Leswing, Kif (2023年2月23日). 「AI競争を支える1万ドルのNvidiaチップとは」CNBC . 2025年1月30日閲覧。
"独家|幻方量化回应市场关注:AGI不是用来炒股的,"和金融没关系"「 . Yicai . 2025年2月3日閲覧。
Yu, Xu (2023年4月17日). 「[独占] 中国の有力クオンツヘッジファンドは株式取引にAGIを使用しないとMDが語る」 Yicai Global . 2023年12月31日時点のオリジナルよりアーカイブ。 2024年12月28日閲覧。
Jiang, Ben; Perezi, Bien (2025年1月1日).「AIモデルのトレーニング方法を変える中国のスタートアップ企業、DeepSeekを紹介」サウスチャイナ・モーニング・ポスト2025年1月22日時点のオリジナルよりアーカイブ。2025年1月1日閲覧。
ライアン・マクモロー、エレノア・オルコット(2024年6月9日)。「中国のクオンツファンドがAIの先駆者になった」。フィナンシャル・タイムズ。2024年7月17日時点のオリジナルよりアーカイブ2024年12月28日閲覧。
“大模型价格又砍一刀这次”屠夫”竟是量化私募集中?” . www.cls.cn。 2024 年 5 月 10 日。2025 年2 月 3 日に取得。
シュナイダー、ジョーダン(2024年11月27日)。「ディープシーク:中国のAI競争をリードする静かな巨人」。チャイナトーク2024年12月28日閲覧。
アン、ウェイ。ビー、シャオ。チェン・グアンティン;チェン、シャンファン。鄧、成斉。丁紅輝。ドン、カイ。杜、秋志。ガオ、ウェンジュン。グアン、カン。郭建中。郭永強。フー、ゼー。彼、イン。黄、パンパン(2024年11月17日)。「Fire-Flyer AI-HPC: 深層学習のための費用対効果の高いソフトウェアとハードウェアの共同設計」。 IEEE Xplore :1–23.doi:10.1109/SC41406.2024.00089。ISBN 979-8-3503-5291-7。
“幻方力量 | 高速文件系统 3FS” .ハイフライヤー。 2019 年 6 月 13 日。2025 年2 月 3 日に取得。
"hfreduce | 高性能多卡并行通信ツール"。ハイフライヤー。 2020 年 3 月 4 日。2025 年2 月 3 日に取得。
「HFAiLab/hai-platform」、High-Flyer、2025年2月2日、 2025年2月3日閲覧
DeepSeek-AI劉愛新。フォン、ベイ。シュエ、ビン。ワン・ビンシュアン。呉、博超。魯、成大。趙、成港。 Deng、Chengqi (2024 年 12 月 27 日)、DeepSeek-V3 技術レポート、arXiv: 2412.19437
DeepSeek-AI;郭、大雅。ヤン、デジャン。チャン・ハオウェイ。ソン・ジュンシャオ。張、若宇。徐、潤新。朱、チーハオ。 Ma、Shirong (2025 年 1 月 22 日)、DeepSeek-R1: 強化学習による LLM の推論能力の奨励、arXiv: 2501.12948
「DeepSeek-Coder/LICENSE-MODEL at main · deepseek-ai/DeepSeek-Coder」。GitHub 。 2025年1月22日時点のオリジナルよりアーカイブ。2025年1月24日閲覧。
郭、大雅。朱、チーハオ。ヤン、デジャン。謝、ジェンダ。ドン、カイ。張文涛。チェン・グアンティン;ビー、シャオ。 Wu, Y. (2024 年 1 月 26 日)、DeepSeek-Coder: When the Large Language Model Meets Programming – The Rise of Code Intelligence、arXiv: 2401.14196
「DeepSeek Coder」 . deepseekcoder.github.io . 2025年1月27日閲覧。
deepseek-ai/DeepSeek-Coder、DeepSeek、2025年1月27日、 2025年1月27日閲覧
「deepseek-ai/deepseek-coder-5.7bmqa-base · Hugging Face」。Hugging Face。2025年1月27日閲覧。
DeepSeek-AI;ビー、シャオ。チェン、デリ。チェン・グアンティン;チェン、シャンファン。ダイ、ダマイ。鄧、成斉。丁紅輝。 Dong、Kai (2024 年 1 月 5 日)、DeepSeek LLM: Scaling Open-Source Language Models with Longtermism、arXiv: 2401.02954
deepseek-ai/DeepSeek-LLM、DeepSeek、2025年1月27日、 2025年1月27日閲覧
ダイ、ダマイ。鄧、成斉。趙、成港。徐、RX;高、華作。チェン、デリ。リー・ジアシ。ゼン、ワンディン。 Yu、Xingkai (2024 年 1 月 11 日)、DeepSeekMoE: 専門家混合言語モデルの究極の専門家に向けて、arXiv: 2401.06066
シャオ、ジホン;ワン・ペイイー。朱、チーハオ。徐、潤新。ソン・ジュンシャオ。ビー、シャオ。チャン・ハオウェイ。チャン・ミンチュアン; Li、YK (2024 年 4 月 27 日)、DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models、arXiv : 2402.03300。
ワン・ペイイー;リー、レイ。シャオ、ジホン。徐、RX;ダイ、ダマイ。リー、イーフェイ。チェン、デリ。ウー、Y. Sui、Zhifang (2024 年 2 月 19 日)、Math-Shepherd: Verify and Reinforce LLMs step-by-step without human annotations (人による注釈なし)、arXiv : 2312.08935。
DeepSeek-AI;劉愛新。フォン、ベイ。ワン・ビン。ワン・ビンシュアン。リュウ、ボー。趙、成港。デングル、成旗; Ruan、Chong (2024 年 6 月 19 日)、DeepSeek-V2: 強力で経済的、効率的な専門家の混合言語モデル、arXiv: 2405.04434。
Peng, Bowen; Quesnelle, Jeffrey; Fan, Honglu; Shippole, Enrico (2023 年 11 月 1 日)、YaRN: 大規模言語モデルの効率的なコンテキスト ウィンドウ拡張、arXiv: 2309.00071。
"config.json · deepseek-ai/DeepSeek-V2-Lite at main" . Hugging Face . 2024年5月15日. 2025年1月28日閲覧。
"config.json · deepseek-ai/DeepSeek-V2 at main" . Hugging Face . 2024年5月6日. 2025年1月28日閲覧。
DeepSeek-AI;朱、チーハオ。郭、大雅。シャオ、ジホン。ヤン、デジャン。ワン・ペイイー。徐、潤新。ウー、Y. Li、Yukun (2024 年 6 月 17 日)、DeepSeek-Coder-V2: コード インテリジェンスにおけるクローズド ソース モデルの障壁を突破する、arXiv : 2406.11931
「deepseek-ai/DeepSeek-V2.5 · Hugging Face」。Hugging Face。2025年1月3日。 2025年1月28日閲覧。
"config.json · deepseek-ai/DeepSeek-V3 at main" . Hugging Face . 2024年12月26日. 2025年1月28日閲覧。
Jiang, Ben (2024年12月27日). 「中国の新興企業DeepSeekの新しいAIモデルはMetaやOpenAIの製品を上回る」。サウスチャイナ・モーニング・ポスト。2024年12月27日時点のオリジナルよりアーカイブ。 2024年12月28日閲覧。
Sharma, Shubham (2024年12月26日). 「DeepSeek-V3、超大規模オープンソースAI、ローンチ時にLlamaとQwenを上回るパフォーマンス」。VentureBeat 。 2024年12月27日時点のオリジナルよりアーカイブ。 2024年12月28日閲覧。
Wiggers, Kyle (2024年12月26日). 「DeepSeekの新しいAIモデルは、これまでで最高の「オープン」な挑戦者の1つであるようだ」。TechCrunch 。2025年1月2日時点のオリジナルよりアーカイブ。2024年12月31日閲覧。
Deepseekログインページ」。DeepSeek 。 2025年1月30日閲覧。
「ニュース | DeepSeek-R1-Lite リリース 2024/11/20: 🚀 DeepSeek-R1-Lite-Preview が公開されました: スーパーチャージされた推論パワーを解き放ちます!」 DeepSeek API ドキュメント。 2024 年 11 月 20 日時点のオリジナルよりアーカイブ。 2025 年1 月 28 日閲覧。
Franzen, Carl (2024年11月20日). 「DeepSeek初の推論モデルR1-Lite-Previewが注目を集め、OpenAIのo1パフォーマンスを上回る」。VentureBeat 。 2024年11月22日時点のオリジナルよりアーカイブ。 2024年12月28日閲覧。
Huang, Raffaele (2024年12月24日). 「今は見ないほうがいいが、中国のAIは急速に追いついている」。ウォール・ストリート・ジャーナル。2024年12月27日時点のオリジナルよりアーカイブ。 2024年12月28日閲覧。
“Release DeepSeek-R1 · deepseek-ai/DeepSeek-R1@23807ce” . GitHub . 2025年1月21日時点のオリジナルよりアーカイブ。2025年1月21日閲覧。
「中国のAIスタートアップDeepSeekがApple App StoreでChatGPTを追い抜く」。ロイター。2025年1月27日。 2025年1月27日閲覧。
Wade, David (2024年12月6日). 「アメリカのAIはスプートニクの瞬間に到達した」。The Hill。2024年12月8日時点のオリジナルよりアーカイブ。 2025年1月25日閲覧。
ミルモ、ダン。ホーキンス、エイミー。ブース、ロバート。コレウェ、ジュリア(2025年1月28日)。」「『スプートニクの瞬間』:中国企業がAIチャットボットを発表し、米国株が1兆ドル下落」。ガーディアン。
ピーター・ホスキンス、イムラン・ラーマン=ジョーンズ(2025年1月27日)。「中国のAIアプリが市場を驚かせ、Nvidia株が下落」BBC。 2025年1月28日閲覧。
ゴールドマン、デビッド(2025年1月27日)。「テクノロジー界を揺るがした中国のAIスタートアップ、DeepSeekとは? | CNN Business」。CNN 。 2025年1月29日閲覧。
「DeepSeekはシリコンバレーと同じくらい北京にも挑戦を挑む」。エコノミスト。2025年1月29日。ISSN 0013-0613 。2025年1月31日閲覧。
ポール・ケイティ、ネリス・スティーブン(2025年1月30日)。「グラフィカによると、米株暴落に先立ち、中国の国家関連アカウントがディープシークAIのローンチを宣伝」。ロイター。 2025年1月30日閲覧。
江钰涵 (2025 年 1 月 22 日)。"量化巨头幻方创始人梁文锋参加总理座谈会并発行言,他还创办了"AI界拼多多"「 . Sina Corp. 2025年1月31日閲覧。
Shilov, Anton (2024年12月27日). 「中国のAI企業のAIモデルのブレークスルーは米国の制裁の限界を浮き彫りにする」 . Tom's Hardware . 2024年12月28日時点のオリジナルよりアーカイブ。 2024年12月28日閲覧。
「DeepSeekの最新情報 - 中国のAIチャットボットが米国市場の混乱を引き起こし、Nvidiaの5000億ドルの損失」BBCニュース。2025年1月27日閲覧。
ナザレ、リタ(2025年1月26日)。「Nvidiaの損失が17%に拡大し、株価暴落は醜悪になる:マーケットラップ」。ブルームバーグLP 2025年1月27日閲覧。
Carew, Sinéad; Cooper, Amanda; Banerjee, Ankur (2025年1月27日). 「DeepSeekが世界的なAI売却を誘発、Nvidiaは約5,930億ドルの価値を失う」。ロイター。
シェリー、ベン(2025年1月28日)。「DeepSeek、それを「印象的」と呼びながらも懐疑的な姿勢を維持」。Inc。 2025年1月29日閲覧。
オケムワ、ケビン(2025年1月28日)。「マイクロソフトCEOサティア・ナデラ、ディープシークのオープンソースAIを「非常に素晴らしい」と称賛:「中国での開発を非常に真剣に受け止めるべきだ」「 . Windows Central . 2025年1月28日閲覧。
ナザロ、ミランダ(2025年1月28日)。「OpenAIのサム・アルトマンはDeepSeekモデルを「印象的」と評する「 .ザ・ヒル. 2025年1月28日閲覧。
ドゥー、エヴァ;グレッグ、アーロン。ザクルシェフスキー、猫。ティク、ニターシャ。ナジマバディ、シャノン(2025年1月28日)。「トランプ大統領は、ハイテク株の下落を受けて中国のディープシークAIアプリを『警鐘』と呼んでいる。 」ワシントンポスト。2025 年1 月 28 日に取得。
Habeshian, Sareen (2025年1月28日)。「ジョンソン首相はAIで中国を非難、トランプ大統領はDeepSeekの開発を「前向き」と評価」「。アクシオス。 」
カライアン、ジェイソン、レニソン、ジョー(2025年1月27日)。「中国のAIの進歩がウォール街の大手テック投資家を驚かせる」ニューヨークタイムズ。
Sharma, Manoj (2025年1月6日). 「マスク氏は退け、アルトマン氏は称賛: ディープシークの混乱に対するリーダーたちの発言」 . Fortune India . 2025年1月28日閲覧。
Dhawan, Sunil (2025年1月28日). 「イーロン・マスクがDeepSeekの主張に『疑問』を呈し、大規模なNvidia GPUインフラを示唆」。The Financial Express 。 2025年1月28日閲覧。
キム、ユージーン(2025年1月27日)。「ストライプやトヨタを含む大手AWS顧客が、クラウド大手にDeepSeek AIモデルへのアクセスを求めている」。Business Insider。
Kerr, Dara (2025年1月27日). 「AIチャットボットがアプリストアでトップに立った後、DeepSeekが「大規模」サイバー攻撃を受ける」。ガーディアン。 2025年1月28日閲覧。
トゥイーディー、スティーブン、アルチェク、アナ(2025年1月27日)。「ディープシークは『大規模な悪意のある攻撃』を理由に、一時的に新規登録を制限した」「。ビジネスインサイダー。 」
シュタインシャーデン、ヤコブ(2025年1月27日)。「DeepSeek:中国のAIチャットボットにおけるライブ検閲の様子」。トレンドトピック2025年1月27日閲覧。
「ガーディアン紙のグローバルAI競争に関する見解:地政学、イノベーション、そして混沌の台頭」。ガーディアン。2025年1月26日。ISSN 0261-3077 。2025年1月27日閲覧。
ヤン・アンジェラ、崔ジャスミン(2025年1月27日)。「中国のAIディープシークがシリコンバレーを揺るがし、AI競争に『スプートニクの瞬間』をもたらす」「NBCニュース。2025年1月27日閲覧。
Kimery, Anthony (2025年1月26日)。「中国のDeepSeek AIがサイバーとデータプライバシーに恐ろしい脅威をもたらす」。バイオメトリックアップデート。2025年1月27日閲覧。
ブース、ロバート、ミルモ、ダン(2025年1月28日)。 「専門家が中国のAIディープシークの使用に注意を喚起」。ガーディアン。ISSN 0261-3077 。 2025年1月28日閲覧。
Hornby, Rael (2025年1月28日). 「DeepSeekの成功により、背中に巨大なTikTok型の標的が描かれた」。LaptopMag 。 2025年1月28日閲覧。
「プライバシーポリシー」。OpenAI。2025年2月2日閲覧。
バージェス、マット、ニューマン、リリー・ヘイ(2025年1月27日)。「DeepSeekの人気AIアプリが米国のデータを中国に明示的に送信」。Wired。ISSN 1059-1028。2025年1月28日閲覧。
「イタリア規制当局、データ保護についてディープシークに情報提供求める」ロイター2025年1月28日2025年1月28日閲覧。
Shalal, Andrea; Shepardson, David (2025年1月28日). 「ホワイトハウス、中国のAIアプリDeepSeekの国家安全保障への影響を評価、当局者が語る」。ロイター。 2025年1月28日閲覧。
「台湾、安全上の懸念を理由に政府機関はDeepSeekを使用すべきでないと主張」。ロイター。2025年1月31日2025年1月31日閲覧。
「オランダのプライバシー監視機関、中国のDeepSeek AIの調査を開始」。ロイター。2025年1月31日。 2025年2月1日閲覧。
Lathan, Nadia (2025年1月31日). 「テキサス州知事、政府機器向けDeepSeekとRedNoteの使用禁止を命令」 . Associated Press . 2025年2月1日閲覧。
「NSW州政府、DeepSeek AIへのアクセスをブロック」。Information Age 。 2025年2月4日閲覧。
「DeepSeekはChatGPTをコピーして新しいAIチャットボットを作ったのか?トランプ顧問はそう考えている」AP通信。2025年1月29日。 2025年2月4日閲覧。
更新、Lance Ulanoff last (2025年1月30日)。「DeepSeekはChatGPTだと主張したが、それが必要な証拠のすべてだと思う」。TechRadar 。2025年2月4日閲覧。
「オーストラリア、セキュリティリスクを理由に政府機器でのDeepSeekの使用を禁止」 www.bbc.com 2025年2月4日2025年2月4日閲覧。
本稿終了
|
|