작성자: APPSO

지난 주 중국의 DeepSeek R1 모델이 해외 AI계 전체를 뒤흔들었습니다.

한편으로는 더 낮은 교육 비용으로 OpenAI o1에 필적하는 성능을 달성하여 엔지니어링 역량과 규모 혁신에서 중국의 장점을 입증하는 한편, 오픈 소스 정신을 유지하고 기술 세부 사항을 공유하고자 합니다.

최근 캘리포니아대학교 버클리캠퍼스 박사과정생 Jiayi Pan 연구팀이 DeepSeek R1-Zero의 핵심 기술인 'Aha Moment'를 매우 저렴한 비용(미국보다 적은 비용)으로 재현하는데 성공했습니다. $30).

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

따라서 Meta CEO Zuckerberg, Turing Award 수상자 Yann LeCun, Deepmind CEO Demis Hassabis가 모두 DeepSeek을 높이 평가한 것은 당연합니다.

DeepSeek R1의 인기가 계속 높아지면서, 오늘 오후에는 사용자 방문 폭증으로 인해 DeepSeek 앱 서버가 일시적으로 혼잡해 한동안 '다운'되기도 했습니다.

OpenAI CEO인 Sam Altman은 국제 언론의 헤드라인을 장식하기 위해 o3-mini의 사용 제한을 공개하려고 시도했습니다. ChatGPT Plus 회원은 하루에 100번 쿼리할 수 있습니다.

그러나 잘 알려지지 않은 사실은 DeepSeek의 모회사인 Huanfang Quantitative가 유명해지기 전에는 실제로 국내 퀀트 사모펀드 분야의 선두 기업 중 하나였다는 것입니다.

DeepSeek 모델은 실리콘 밸리에 충격을 주었고 금 함량은 여전히 ​​​​상승하고 있습니다

2024년 12월 26일 DeepSeek은 DeepSeek-V3 대형 모델을 공식 출시했습니다.

이 모델은 특히 지식 질문 및 답변, 긴 텍스트 처리, 코드 생성 및 수학적 기능과 같은 영역에서 업계 최고의 주류 모델을 능가하는 여러 벤치마크 테스트에서 우수한 성능을 보였습니다. 예를 들어, MMLU 및 GPQA와 같은 지식 작업에서 DeepSeek-V3의 성능은 국제 최고 모델 Claude-3.5-Sonnet에 가깝습니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

수학적 능력 측면에서는 AIME 2024 및 CNMO 2024와 같은 테스트에서 알려진 모든 오픈 소스 및 폐쇄 소스 모델을 능가하는 새로운 기록을 세웠습니다. 동시에, 이전 세대에 비해 생성 속도가 200% 증가하여 60TPS에 도달하여 사용자 경험이 크게 향상되었습니다.

독립 평가 웹사이트인 Artificial Analysis의 분석에 따르면 DeepSeek-V3는 여러 주요 지표에서 다른 오픈 소스 모델을 능가하며, 성능 면에서 세계 최고의 비공개 소스 모델인 GPT-4o 및 Claude-3.5-Sonnet과 동등합니다.

DeepSeek-V3의 핵심 기술 이점은 다음과 같습니다.

  1. MoE(Mixed Expert) 아키텍처: DeepSeek-V3에는 6,710억 개의 매개변수가 있지만 실제 작동에서는 각 입력에 대해 370억 개의 매개변수만 활성화됩니다. 이 선택적 활성화 방법은 고성능을 유지하면서 컴퓨팅 비용을 크게 절감합니다.
  2. MLA(Multi-Head Latent Attention): 이 아키텍처는 DeepSeek-V2에서 입증되었으며 효율적인 교육 및 추론을 달성할 수 있습니다.
  3. 보조 손실이 없는 로드 밸런싱 전략: 이 전략은 모델 성능에 대한 로드 밸런싱의 부정적인 영향을 최소화하도록 설계되었습니다.
  4. 멀티 토큰 예측 훈련 목표: 이 전략은 모델의 전반적인 성능을 향상시킵니다.

효율적인 훈련 프레임워크: HAI-LLM 프레임워크를 사용하여 16방향 PP(파이프라인 병렬성), 64방향 EP(전문가 병렬성) 및 ZeRO-1 DP(데이터 병렬성)을 지원하고 다양한 최적화 방법을 통해 훈련 비용을 절감합니다. .

더 중요한 점은 DeepSeek-V3의 훈련 비용이 558만 달러에 불과해 훈련 비용이 7,800만 달러인 GPT-4에 비해 훨씬 낮다는 점이다. 또한 API 서비스 가격도 과거에도 계속해서 사람들에게 우호적이었습니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

입력 토큰의 비용은 백만개당 0.5위안(캐시 적중) 또는 2위안(캐시 미스)에 불과하고, 출력 토큰의 비용은 백만개당 8위안입니다.

파이낸셜타임스는 이를 “국제 기술계를 충격에 빠트린 다크호스”라고 표현하며 그 성능이 자금력이 풍부한 OpenAI 등 미국 경쟁 모델과 맞먹는다고 믿었다. Maginative 창립자 Chris McKay는 DeepSeek-V3의 성공이 기존의 AI 모델 개발 방법을 재정의할 수 있다고 지적했습니다.

즉, DeepSeek-V3의 성공은 미국의 컴퓨팅 파워 수출 제한에 대한 직접적인 대응으로도 간주됩니다. 이러한 외부 압력은 오히려 중국의 혁신을 자극했습니다.

DeepSeek 창립자 Liang Wenfeng, 절강대학교의 겸손한 천재

DeepSeek의 부상으로 인해 실리콘밸리는 잠들지 않게 되었습니다. 글로벌 AI 산업을 뒤흔든 이 모델의 창시자인 Liang Wenfeng은 중국 전통적 의미인 젊은 성공, 지속적인 성공이라는 천재의 성장 궤적을 완벽하게 설명합니다.

훌륭한 AI 기업 리더는 기술과 비즈니스를 모두 이해하고, 비전이 있고 실용적이며, 혁신할 용기와 엔지니어링 규율을 갖춰야 합니다. 이런 복합재능 자체가 희소한 자원이다.

17세에 저장대학교 정보전자공학과에 입학했으며 30세에 HQuant를 설립하고 완전 자동화된 양적 거래를 탐구하는 팀을 이끌기 시작했습니다. Liang Wenfeng의 이야기는 천재가 항상 적절한 때에 올바른 일을 한다는 것을 증명합니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

  • 2010년: CSI 300 주가 지수 선물 출시와 함께 정량적 투자로 발전 기회가 생겼습니다. Huanfang 팀은 이러한 추진력을 활용하여 자체 운영 자금이 빠르게 성장했습니다.
  • 2015년: Liang Wenfeng은 동창들과 함께 Magic Square Quantitative를 공동 창립했습니다. 이듬해 그는 최초의 AI 모델을 출시하고 딥 러닝을 통해 생성된 거래 포지션을 시작했습니다.
  • 2017년: Huanfang Quantitative는 포괄적인 AI 기반 투자 전략을 실현한다고 주장했습니다.
  • 2018년: AI를 회사의 주요 개발 방향으로 설정합니다.
  • 2019년: 자금 관리 규모가 100억 위안을 초과하여 국내 양적 사모 펀드의 "4대 거물" 중 하나가 되었습니다.
  • 2021년: Huanfang Quantitative는 규모가 1,000억 달러를 초과하는 국내 최초의 정량적 사모펀드 회사가 됩니다.

성공했다고 해서 지난 몇 년간 방관했던 회사를 생각할 수만은 없습니다. 그러나 양적무역회사가 AI로 전환하는 것과 마찬가지로 의외인 것처럼 보이지만 사실은 논리적이다. 모두 데이터 중심의 기술집약적 산업이기 때문이다.

Huang Renxun은 게임을 잘 못하는 우리를 위해 돈을 벌기 위해 게임 그래픽 카드를 팔고 싶었을 뿐 세계 최대의 AI 무기고가 될 것이라고는 기대하지 않았습니다. 이는 Huanfang이 AI 분야에 진출하는 것과 비슷합니다. 이러한 종류의 진화는 현재 많은 산업에서 기계적으로 적용하고 있는 대규모 AI 모델보다 더 실행 가능합니다.

Magic Square Quantitative는 정량적 투자 과정에서 데이터 처리 및 알고리즘 최적화에 대한 많은 경험을 축적했으며, AI 모델 훈련을 위한 강력한 하드웨어 지원을 제공하는 A100 칩도 다수 보유하고 있습니다. Magic Square는 2017년부터 AI 컴퓨팅 성능을 대규모로 배포하고 "Yinghuo One" 및 "Yinghuo Two"와 같은 고성능 컴퓨팅 클러스터를 구축하여 AI 모델 교육을 위한 강력한 컴퓨팅 성능 지원을 제공했습니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

2023년 Magic Square Quantification은 대규모 AI 모델 개발에 집중하기 위해 DeepSeek을 공식 설립했습니다. DeepSeek은 Magic Quantitative의 축적된 기술, 재능 및 자원을 계승하여 AI 분야에서 빠르게 등장했습니다.

DeepSeek 창업자 Liang Wenfeng 역시 'Undercurrent'와의 심층 인터뷰에서 남다른 전략적 비전을 보여주었습니다.

Llama 아키텍처를 복사하는 대부분의 중국 회사와 달리 DeepSeek는 AGI의 야심찬 목표를 목표로 모델 구조에서 직접 시작합니다.

Liang Wenfeng은 현재 중국의 AI와 최고 수준의 국제 수준 사이에 상당한 격차가 있음을 숨기지 않습니다. 동일한 효과를 달성하려면 모델 구조, 훈련 역학 및 데이터 효율성의 포괄적인 격차가 4배 필요합니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

 ▲CCTV 뉴스 화면 캡처

도전에 정면으로 맞서는 이러한 태도는 Liang Wenfeng의 Huanfang에서의 수년간의 경험에서 비롯됩니다.

그는 오픈소스가 기술 공유일 뿐만 아니라 문화적 표현이기도 하다는 점을 강조했습니다. 진정한 해자는 팀의 지속적인 혁신 능력에 있습니다. DeepSeek의 독특한 조직 문화는 상향식 혁신을 장려하고 계층 구조를 경시하며 인재의 열정과 창의성을 중요하게 생각합니다.

이 팀은 주로 명문 대학 출신의 젊은 사람들로 구성되어 있으며, 직원들이 독립적으로 탐색하고 협업할 수 있도록 자연스러운 노동 분업 모델을 채택합니다. 채용 시 전통적인 의미의 경험과 배경보다는 직원의 열정과 호기심을 중요하게 생각합니다.

업계 전망과 관련하여 Liang Wenfeng은 AI가 응용의 폭발적인 시기라기보다 기술 혁신의 폭발적인 시기라고 믿고 있습니다. 그는 중국은 좀 더 독창적인 기술 혁신이 필요하며 영원히 모방 단계에 머물 수는 없다고 강조했습니다.

OpenAI와 같은 기업이 현재 선두를 달리고 있지만 혁신의 기회는 여전히 존재합니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

실리콘밸리 뒤집은 Deepseek, 해외 AI계를 불안하게 만든다

업계에서는 DeepSeek에 대해 서로 다른 의견을 갖고 있지만, 우리는 업계 내부자들로부터 몇 가지 의견도 수집했습니다.

NVIDIA GEAR Lab 프로젝트 리더인 Jim Fan은 DeepSeek-R1을 높이 평가했습니다.

그는 이는 미국 이외의 기업이 OpenAI 본래의 개방형 사명을 이행하고 독창적인 알고리즘과 학습 곡선을 공개하여 영향력을 행사하고 있음을 의미한다고 지적했습니다. 그런데 여기에는 OpenAI의 물결도 포함되어 있습니다.

DeepSeek-R1은 일련의 모델을 오픈 소스로 제공했을 뿐만 아니라 모든 훈련 비밀을 공개했습니다. 이는 RL 플라이휠의 중요하고 지속적인 성장을 보여주는 최초의 오픈 소스 프로젝트일 수 있습니다.

"ASI 내부 구현" 또는 "스트로베리 프로젝트"와 같은 전설적인 프로젝트를 통해 또는 단순히 원래 알고리즘과 matplotlib 학습 곡선을 노출함으로써 영향력을 얻을 수 있습니다.

월스트리트 최고의 벤처 캐피탈 회사인 A16Z의 창립자인 Marc Andreesen은 DeepSeek R1이 그가 지금까지 본 것 중 가장 놀랍고 인상적인 혁신 중 하나이며 오픈 소스로서 세상에 미치는 광범위한 선물이라고 믿습니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

텐센트 수석연구원이자 북경대 인공지능 박사후 연구원인 루징(Lu Jing)은 이를 기술 축적의 관점에서 분석했다. 그는 딥식(DeepSeek)이 갑자기 인기를 얻은 것은 아니라고 지적했다. 이전 세대 모델 버전에서 많은 혁신을 이어받았기 때문에 관련 모델 아키텍처와 알고리즘 혁신이 반복적으로 검증됐고, 업계를 뒤흔드는 것은 불가피하다고 지적했다.

Turing Award 수상자이자 Meta의 수석 AI 과학자인 Yann LeCun은 새로운 관점을 제시했습니다.

“DeepSeek의 성능을 보고 'AI 분야에서 중국이 미국을 능가하고 있다'고 생각하시는 분들의 해석은 잘못된 것입니다. 올바른 해석은 "오픈소스 모델이 독점 모델을 능가하고 있다"이다. "

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

딥마인드 CEO 데미스 허사비스(Demis Hassabis)의 발언은 우려의 힌트를 드러냈습니다.

"DeepSeek가 달성한 성과는 매우 인상적이며 서구 프론티어 모델의 리더십을 유지할 방법에 대해 생각해야 한다고 생각합니다. 서구가 여전히 앞서 있다고 생각하지만 확실히 중국은 매우 강력한 엔지니어링 및 확장 능력을 보유하고 있습니다. "

Microsoft CEO Satya Nadella는 스위스 다보스에서 열린 세계 경제 포럼에서 DeepSeek이 추론 계산에서 뛰어난 성능을 발휘할 뿐만 아니라 슈퍼컴퓨팅에서도 매우 효율적인 오픈 소스 모델을 효과적으로 개발했다고 말했습니다.

그는 Microsoft가 중국에서 이러한 획기적인 발전에 최우선적으로 대응해야 한다고 강조했습니다.

주커버그 메타 CEO는 딥식(DeepSeek)이 보여주는 기술력과 성능이 인상적이라고 평가하며, 중국과 미국 간 AI 격차는 이미 최소화됐고, 중국의 전력 질주가 이를 가능하게 했다고 지적했다. 경쟁이 더 치열해짐.

경쟁사의 반응은 아마도 DeepSeek에 대한 최고의 지지일 것입니다. 익명 직장 커뮤니티인 TeamBlind의 Meta 직원들의 보고서에 따르면 DeepSeek-V3 및 R1의 등장으로 Meta의 생성 AI 팀이 패닉 상태에 빠졌습니다.

메타 엔지니어들은 DeepSeek의 기술을 분석하고 가능한 모든 기술을 복사하기 위해 시간을 다투고 있습니다.

그 이유는 DeepSeek-V3의 훈련 비용이 558만 달러에 불과해 일부 메타 임원들의 연봉에도 미치지 못하기 때문이다. 이러한 입출력 비율의 차이로 인해 메타 경영진은 막대한 AI R&D 예산을 설명할 때 큰 압박을 받게 됩니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

해외 주류 언론도 DeepSeek의 부상에 큰 관심을 기울였습니다.

파이낸셜타임스는 딥식(DeepSeek)의 성공이 “AI 연구개발은 막대한 투자에 의존해야 한다”는 전통적인 이해를 뒤엎고, 정밀한 기술 루트도 훌륭한 연구 결과를 얻을 수 있음을 입증했다고 지적했다. 더 중요한 것은 DeepSeek 팀의 기술 혁신에 대한 사심 없는 공유가 연구 가치에 더 많은 관심을 기울이는 이 회사를 매우 강력한 경쟁자로 만들었다는 것입니다.

이코노미스트는 AI 기술의 비용 효율성 측면에서 중국의 급속한 발전이 미국의 기술적 우위를 흔들기 시작했으며, 이는 향후 10년 동안 미국의 생산성 향상과 경제 성장 잠재력에 영향을 미칠 수 있다고 믿고 있다고 밝혔습니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

New York Times는 다른 각도에서 설명합니다. DeepSeek-V3는 미국 기업의 고급 챗봇과 성능은 동일하지만 비용은 크게 절감됩니다.

이는 칩 수출 통제에도 불구하고 중국 기업이 혁신과 효율적인 자원 사용을 통해 경쟁할 수 있음을 보여줍니다. 더욱이 미국 정부의 칩 제한 정책은 오픈 소스 AI 기술 분야에서 중국의 혁신적인 혁신을 촉진하는 대신 역효과를 낳을 수 있습니다.

DeepSeek는 GPT-4라고 주장하며 "잘못된 문을 보고했습니다"

칭찬이 쏟아지는 가운데 DeepSeek도 논란에 직면했습니다.

많은 외부인들은 DeepSeek가 훈련 과정에서 ChatGPT와 같은 모델의 출력 데이터를 훈련 자료로 사용했을 수 있다고 생각합니다. 모델 증류 기술을 통해 이러한 데이터의 "지식"이 DeepSeek의 자체 모델로 마이그레이션됩니다.

이런 관행은 AI 분야에서 드문 일이 아니지만 DeepSeek이 OpenAI 모델의 출력 데이터를 완전히 공개하지 않고 사용했는지에 대해 회의적인론자들이 우려하고 있습니다. 이는 DeepSeek-V3의 자기인식에도 반영되는 것으로 보입니다.

이전 사용자들은 모델의 신원에 대해 질문했을 때 자신을 GPT-4로 잘못 식별했다는 사실을 발견했습니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

AI 발전에 있어 고품질 데이터는 언제나 중요한 요소였으며, OpenAI도 데이터 수집에 대한 논란을 피할 수 없습니다. New York Times는 부츠가 도착하기 전에 첫 번째 판결을 내렸습니다.

따라서 DeepSeek은 Sam Altman과 John Schulman으로부터 공개적인 의미도 받았습니다.

"효과가 있을 것으로 알고 있는 것을 복사하는 것은 (상대적으로) 쉽습니다. 효과가 있을지 모를 때 새롭고 위험하며 어려운 일을 하는 것은 매우 어렵습니다."

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

그러나 DeepSeek 팀은 R1의 기술 보고서에서 OpenAI 모델의 출력 데이터를 사용하지 않았음을 분명히 밝히고 강화 학습과 독특한 훈련 전략을 통해 높은 성능을 달성했다고 밝혔습니다.

예를 들어, 기본 모델 훈련, 강화 학습(RL) 훈련, 미세 조정 등을 포함한 다단계 훈련 방법이 채택됩니다. 이 다단계 순환 훈련 방법은 모델이 여러 단계에서 다양한 지식과 능력을 흡수하는 데 도움이 됩니다.

비용을 절감하는 것도 기술적인 일이며 DeepSeek의 기술이 최고의 솔루션입니다.

DeepSeek-R1 기술 보고서에는 R1 제로 훈련 과정에서 발생한 "아하 순간"이라는 주목할만한 발견이 언급되어 있습니다. 모델의 중간 훈련 단계에서 DeepSeek-R1-Zero는 초기 문제 해결 아이디어를 적극적으로 재평가하고 전략을 최적화하는 데 더 많은 시간을 할당하기 시작합니다(예: 다양한 솔루션을 여러 번 시도).

즉, RL 프레임워크를 통해 AI는 인간과 같은 추론 능력을 자발적으로 개발할 수 있으며, 심지어 미리 설정된 규칙의 한계를 뛰어넘을 수도 있습니다. 그리고 이는 복잡한 의사결정(의료진단, 알고리즘 설계)에서 전략을 동적으로 조정하는 등 보다 자율적이고 적응력이 뛰어난 AI 모델 개발의 방향을 제시할 것으로 기대됩니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

동시에 많은 업계 관계자들이 DeepSeek의 기술 보고서를 심층적으로 분석하려고 노력하고 있습니다. OpenAI의 전 공동 창립자인 Andrej Karpathy는 DeepSeek V3 출시 후 다음과 같이 말했습니다.

DeepSeek(중국 AI 회사)는 오늘 최첨단 언어 모델(LLM)을 공개하고 매우 낮은 예산(2048 GPU, 2개월 지속, 600만 달러 비용)으로 훈련을 완료했습니다.

참고로 이 기능을 지원하려면 일반적으로 16K GPU 클러스터가 필요하며 오늘날 대부분의 고급 시스템은 약 100K GPU를 사용합니다. 예를 들어 Llama 3(405B 매개변수)은 3,080만 GPU 시간을 사용한 반면 DeepSeek-V3는 280만 GPU 시간(Llama 3 계산의 약 1/11)만 사용하여 더 강력한 모델로 보입니다.

이 모델이 실제 테스트에서도 잘 수행된다면(예를 들어 LLM Arena 순위가 진행 중이고 빠른 테스트가 잘 수행된 경우) 리소스 제약 하에서 연구 및 엔지니어링 기능을 어떻게 입증할 수 있는지 보여주는 아주 좋은 예가 될 것입니다. 인상적인 결과.

그렇다면 이는 최첨단 LLM을 교육하기 위해 더 이상 대규모 GPU 클러스터가 필요하지 않다는 의미입니까? 꼭 그렇지는 않지만, 사용하는 자원이 낭비되지 않도록 해야 한다는 점을 보여주며, 이 사례는 데이터와 알고리즘 최적화가 여전히 큰 진전을 가져올 수 있음을 보여줍니다. 게다가 기술 보고서도 매우 흥미롭고 상세하여 읽어 볼 가치가 있습니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

DeepSeek V3의 ChatGPT 데이터 사용에 대한 논란에 직면한 Karpathy는 대규모 언어 모델에는 본질적으로 인간과 같은 자기 인식이 없다고 말했습니다. 모델이 자신의 정체성에 올바르게 대답할 수 있는지 여부는 전적으로 개발 팀이 특별히 자체 인식을 구축했는지 여부에 달려 있습니다. 훈련 세트는 특별히 훈련되지 않은 경우 훈련 데이터에서 가장 가까운 정보를 기반으로 응답합니다.

또한, 모델이 자신을 ChatGPT로 식별한다는 사실은 문제가 되지 않습니다. 인터넷에 ChatGPT 관련 데이터가 어디에나 있다는 점을 고려하면, 이 대답은 실제로 "근처 지식 출현"이라는 자연스러운 현상을 반영합니다.

Jim Fan은 DeepSeek-R1의 기술 보고서를 읽은 후 다음과 같이 지적했습니다.

이 논문의 가장 중요한 점은 지도 학습(SFT)을 전혀 포함하지 않고 완전히 강화 학습에 의해 구동된다는 것입니다. 이 방법은 AlphaZero와 유사합니다. 즉, "콜드 스타트"와 체스를 통해 바둑과 장기를 처음부터 마스터하는 것입니다. 인간 체스 선수들의 플레이.

– 강화 학습으로 쉽게 “해킹”될 수 있는 학습된 보상 모델이 아닌 하드 코딩된 규칙을 기반으로 계산된 실제 보상을 사용합니다.

– 훈련이 진행됨에 따라 모델의 사고 시간이 꾸준히 증가합니다. 이는 미리 프로그래밍된 것이 아니라 자발적인 기능입니다.

– 자기반성과 탐색적 행동이 나타난다.

– PPO 대신 GRPO 사용: GRPO는 PPO에서 해설자 네트워크를 제거하고 대신 여러 샘플의 평균 보상을 사용합니다. 이는 메모리 사용량을 줄이는 간단한 방법입니다. GRPO가 2024년 2월 DeepSeek 팀에 의해 발명되었다는 점은 주목할 가치가 있습니다. 이는 정말 매우 강력한 팀입니다.

Kimi도 같은 날 유사한 연구 결과를 발표했을 때 Jim Fan은 두 회사의 연구 결과가 동일한 목표에 도달했음을 발견했습니다.

  • 그들은 모두 MCTS와 같은 복잡한 트리 검색 방법을 포기하고 전통적인 자동 회귀 예측 방법을 사용하여 더 간단한 선형 사고 궤적으로 전환했습니다.
  • 모두 추가 모델 복사본이 필요한 가치 기능을 사용하지 않아 컴퓨팅 리소스 요구 사항이 줄어들고 교육 효율성이 향상됩니다.
  • 그들은 모두 집중적인 보상 모델링을 포기하고 훈련의 안정성을 보장하기 위해 가능한 한 실제 결과에 지침을 의존합니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

그러나 둘 사이에는 다음과 같은 중요한 차이점도 있습니다.

  • DeepSeek은 AlphaZero 스타일 순수 RL 콜드 스타트 ​​방식을 채택하고 Kimi k1.5는 AlphaGo-Master 스타일 예열 전략을 선택하고 경량 SFT를 사용합니다.
  • DeepSeek은 MIT 라이선스에 따른 오픈 소스이며 Kimi는 다중 모드 벤치마크 테스트에서 우수한 성능을 발휘합니다. 종이 시스템 설계 세부 사항은 RL 인프라, 하이브리드 클러스터, 코드 샌드박스 및 병렬 전략을 포함하여 더욱 풍부해졌습니다.

그러나 빠르게 반복되는 AI 시장에서는 선두가 순간적으로 사라지는 경우가 많습니다. 다른 모델링 회사들은 DeepSeek의 경험을 통해 빠르게 배우고 이를 개선할 것이며 곧 따라잡을 수 있을 것입니다.

대형모델 가격전쟁의 시작

DeepSeek에 'AI 핀둬둬'라는 타이틀이 있다는 것은 많은 분들이 알고 계시지만, 그 이면의 의미가 사실 지난해부터 시작된 대형 모델 가격 전쟁에서 유래했다는 사실은 잘 모르고 계십니다.

2024년 5월 6일 DeepSeek은 MLA(다중 헤드 잠재 주의 메커니즘) 및 MoE(혼합 전문가 모델)와 같은 혁신적인 아키텍처를 통해 성능과 비용 측면에서 이중 혁신을 달성한 DeepSeek-V2 오픈 소스 MoE 모델을 출시했습니다.

추론 비용은 토큰 100만 개당 1위안으로 줄어들었는데, 이는 당시 Llama3 70B의 7분의 1, GPT-4 Turbo의 70분의 1 수준이었습니다. 이러한 기술적 혁신을 통해 DeepSeek은 비용을 청구하지 않고도 매우 비용 효율적인 서비스를 제공할 수 있으며 다른 제조업체에도 엄청난 경쟁 압력을 가할 수 있습니다.

DeepSeek-V2의 출시는 연쇄 반응을 불러일으켰고, ByteDance, Baidu, Alibaba, Tencent 및 Zhipu AI도 이에 따라 대형 모델 제품의 가격을 크게 인하했습니다. 이러한 가격 전쟁의 영향은 태평양까지 확대되어 실리콘 밸리에 큰 우려를 불러일으키고 있습니다.

따라서 DeepSeek은 "AI의 핀둬듀오"로 불립니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

외부 세계의 의심에 직면한 DeepSeek 창립자 Liang Wenfeng은 Undercurrent와의 인터뷰에서 다음과 같이 답변했습니다.

"사용자를 잡는 것이 우리의 주된 목적은 아닙니다. 한편으로는 차세대 모델의 구조를 탐구하고 있기 때문에 가격을 낮추었고, 비용이 먼저 내려갔습니다. 다른 한편으로는 API와 AI는 모두가 감당할 수 있는 것이어야 합니다.”

실제로 이번 가격 전쟁의 의미는 경쟁 그 자체를 훨씬 넘어서는 것입니다. 진입 장벽이 낮아지면 더 많은 기업과 개발자가 최첨단 AI에 접근하고 적용할 수 있게 되며, 업계 전체가 가격 책정 전략을 재고하게 됩니다. 그 결과, DeepSeek이 대중의 눈에 들어오기 시작했고 두각을 나타내기 시작했습니다.

수천 달러를 들여 말 뼈를 구입한 레이준, AI 천재 소녀들을 밀렵하다

몇 주 전에 DeepSeek도 세간의 이목을 끄는 인사 변경을 단행했습니다.

China Business News에 따르면 Lei Jun은 연봉 수천만 달러로 Luo Fuli를 성공적으로 밀렵하고 그녀에게 Xiaomi AI Lab의 대규모 모델 팀장이라는 중요한 임무를 맡겼습니다.

Luo Fuli는 2022년 Magic Square Quantitative의 자회사인 DeepSeek에 합류했습니다. 그녀는 DeepSeek-V2 및 최신 R1과 같은 중요한 보고서에서 볼 수 있습니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

이후 한때 B사이드에 집중했던 딥시크(DeepSeek)도 C사이드를 레이아웃하고 모바일 애플리케이션을 출시하기 시작했다. 보도 시점 현재 DeepSeek의 모바일 애플리케이션은 애플 앱스토어 무료 버전에서 2위를 기록하며 강력한 경쟁력을 보이고 있다.

일련의 작은 클라이맥스가 DeepSeek을 유명하게 만들었지만 동시에 더 높은 클라이맥스도 있습니다. 1월 20일 저녁, 660B 매개변수를 갖춘 초대형 모델 DeepSeek R1이 공식 출시되었습니다.

예를 들어, 이 모델은 AIME 2024에서 pass@1 점수 79.8%를 달성했으며, 이는 OpenAI-o1과 동등한 MATH-500에서 97.3%의 높은 점수를 기록했습니다. .

예를 들어 프로그래밍 작업 측면에서 Codeforces의 2029 Elo 등급을 획득하여 인간 참가자의 96.3%를 능가했습니다. MMLU, MMLU-Pro 및 GPQA Diamond와 같은 지식 벤치마크에서 DeepSeek R1은 각각 90.8%, 84.0% 및 71.5%를 기록했습니다. OpenAI-o1보다 약간 낮지만 다른 비공개 소스 모델보다 우수합니다.

최신 대형모델경기장 LM경기장 종합목록에서는 DeepSeek R1이 o1과 공동 3위를 차지했다.

  • "Hard Prompts"(어려운 프롬프트 단어), "Coding"(코딩 능력) 및 "Math"(수학적 능력) 분야에서 DeepSeek R1이 1위를 차지했습니다.
  • '스타일 컨트롤' 부문에서는 DeepSeek R1과 o1이 공동 1위를 차지했습니다.
  • "스타일 제어를 통한 하드 프롬프트" 테스트에서도 DeepSeek R1은 o1과 함께 공동 1위를 차지했습니다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

오픈 소스 전략 측면에서 R1은 MIT 라이선스를 채택하여 사용자에게 최대한의 사용 자유를 제공하고 추론 기능을 32B 및 70B 모델과 같은 더 작은 모델로 증류할 수 있는 모델 증류를 지원하며 여러 기능에서 벤치마크 o1-mini를 달성했습니다. 오픈소스의 효과는 이전에 비판받았던 메타를 능가하기도 한다.

DeepSeek R1의 등장으로 국내 사용자는 처음으로 o1급 모델을 무료로 사용할 수 있게 되어 오랜 정보 장벽을 허물었습니다. Xiaohongshu와 같은 소셜 플랫폼에서 촉발된 논의의 급증은 출시 당시 GPT-4와 비슷합니다.

바다로 나가서 참여하다

DeepSeek의 개발 궤적을 되돌아보면 그 성공 코드는 강점이지만 브랜드 인지도는 해자입니다.

옌준지에(Yan Junjie) 미니맥스 CEO는 'Later'와의 대화에서 AI 산업과 회사의 전략적 변화에 대한 자신의 생각을 심도 있게 공유했다. 그는 두 가지 주요 전환점을 강조했습니다. 첫째는 기술 브랜딩의 중요성을 인식하는 것이고, 둘째는 오픈 소스 전략의 가치를 이해하는 것입니다.

Yan Junjie는 AI 분야에서는 현재의 성과보다 기술 진화의 속도가 더 중요하며, 오픈 소스는 커뮤니티 피드백을 통해 이 프로세스를 가속화할 수 있다고 믿습니다. 둘째, 강력한 기술 브랜드는 인재를 유치하고 자원을 확보하는 데 중요합니다.

OpenAI를 예로 들면, 후기에는 경영 혼란에 직면했지만 초기에 확립된 혁신적인 이미지와 오픈 소스 정신은 좋은 첫 인상을 남겼습니다. Claude가 미래에 기술적으로 균등하게 일치하고 점차적으로 OpenAI의 B측 사용자를 잠식하더라도 OpenAI는 사용자의 경로 의존성으로 인해 C측 사용자에서 여전히 훨씬 앞서 있습니다.

AI 분야에서 진정한 경쟁 무대는 언제나 글로벌이다. 해외로 진출하고 참여하고 홍보하는 것도 좋은 방법이다.

DeepSeek, App Store 장악, 중국 AI가 해외 기술계 자극

이러한 해외 진출의 물결은 이미 업계에 파급력을 일으켰습니다. 초기 Qwen, Wall-facing Smart, 그리고 최근에는 DeepSeek R1, kimi v1.5 및 Doubao v1.5 Pro가 이미 해외에서 큰 반향을 불러일으켰습니다.

2025년은 스마트바디 원년, AI 안경 원년으로 꼽혀왔지만, 올해는 중국 AI 기업이 글로벌 시장을 포용하는 중요한 원년이 될 것이며, 글로벌 진출은 피할 수 없는 키워드가 될 것이다.

더욱이, 오픈 소스 전략은 많은 기술 블로거와 개발자가 자발적으로 DeepSeek의 "수돗물"이 되도록 유도하는 좋은 움직임입니다. "모두를 위한 AI"라는 슬로건이 아니라 진정한 의미를 위한 기술이 되어야 합니다. 기술 포괄성을 바탕으로 DeepSeek은 OpenAI보다 더 순수한 길을 시작했습니다.

OpenAI를 통해 AI의 힘을 볼 수 있다면 DeepSeek은 다음과 같은 사실을 믿게 만듭니다.

이 힘은 결국 모든 사람에게 도움이 될 것입니다.