저자: Yu Yan, The Paper 기자
·대형 모델 분야의 첨단 기술 인재 발굴을 담당하는 한 헤드헌터는 The Paper에 DeepSeek의 고용 논리가 대형 모델 분야의 다른 회사와 크게 다르지 않다고 말했습니다. 인재의 핵심 라벨은 '젊고 높은 잠재력'입니다. 즉, 1998년경 출생자는 직장경력 5년 이내, 즉 '똑똑하고, 이공계 전공이고, 젊고, 경험이 적은 사람'이어야 한다.
·업계 관계자의 눈에 DeepSeek은 중국의 다른 대형 모델 스타트업에 비해 운이 좋았습니다. 자금 조달에 대한 압박이 없고 투자자에게 입증할 필요가 없으며 모델의 기술적 반복과 모델을 고려할 필요가 없습니다. 제품 응용 프로그램의 최적화. 그러나 상업 회사로서 막대한 자금을 투자한 후에는 조만간 다른 모델 회사가 현재 직면하고 있는 것과 동일한 압력과 도전에 직면하게 될 것입니다.
2024년 중국 대형 모델계에서는 어떤 회사가 가장 인기를 끌까? Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.(이하 DeepSeek)는 작년 중반 대형 모델 가격 전쟁의 시작자로 DeepSeek가 처음으로 대중의 주목을 받고 잇따라 출시되면서 강력한 경쟁자임이 틀림없습니다. DeepSeek-V3와 추론 모델 DeepSeek-R1 이후 DeepSeek은 대규모 모델계의 여론 분야를 완전히 폭발시켰습니다. 사람들은 한편으로는 비용 효율적인 훈련 비용에 놀랐고(DeepSeek-V3는 훈련 비용으로 557만 6천 달러만 썼다고 합니다), 다른 한편으로는 DeepSeek-V3의 오픈 소스와 공개 기술 보고서에 박수를 보냅니다. 모델. DeepSeek-R1의 출시는 많은 과학자, 개발자 및 사용자를 흥분시켰으며 심지어 DeepSeek이 OpenAI의 o1 및 기타 추론 모델에 대한 강력한 경쟁자라고 믿고 있습니다.
이 로키 회사가 어떻게 극도로 낮은 교육 비용으로 좋은 성능을 갖춘 대규모 모델을 구축할 수 있습니까? 오늘날 인기가 높은 이유는 무엇을 제대로 했기 때문일까요? 앞으로 '모델 서클'에서 바람과 파도를 계속 타고 싶다면 어떤 도전에 직면하게 될까요?
알고리즘 혁신으로 컴퓨팅 전력 비용이 크게 절감되었습니다.
국내 스타 대형 모델 스타트업의 한 임원은 “딥식은 일찍부터 투자를 많이 하고, 축적도 많이 하고, 알고리즘 면에서도 나름의 특징을 갖고 있다”고 딥식의 인기 비결은 바로 감사함이라고 말했다. 알고리즘 혁신에 대해서는 "중국 기업은 컴퓨팅 파워가 부족하기 때문에 OpenAI보다 컴퓨팅 파워 비용 절감에 더 관심을 가질 것"이라고 말했다.
DeepSeek가 공개한 DeepSeek-R1 정보에 따르면, 훈련 후 단계(Post-Training)에서 강화 학습(Reinforcement Learning) 기술을 대규모로 사용하여, 아주 적은 양의 라벨링된 데이터만으로 모델의 추론 능력을 크게 향상시킵니다. . 수학, 코딩, 자연어 추론 등의 작업에서는 OpenAI o1 공식 버전과 성능이 비슷합니다.
DeepSeek-R1 API 가격
DeepSeek 창립자인 Liang Wenfeng은 DeepSeek이 OpenAI의 모델을 복사하기보다는 차별화된 기술 경로를 개발하는 데 전념하고 있음을 반복적으로 강조했습니다.
"그들은 모델 하이브리드 방법의 혁신적인 사용과 같은 일련의 엔지니어링 기술을 사용하여 모델 아키텍처를 최적화했습니다. 본질적인 목적은 엔지니어링을 통해 비용을 절감하고 수익성을 높이는 것입니다." 몇 년 동안 The Paper에 말했습니다.
DeepSeek이 공개한 정보에 따르면, MLA(Multi-head Latent Attention) 다중 헤드 잠재 주의 메커니즘과 자체 개발한 DeepSeekMOE(Mixture-of-Experts 하이브리드 전문가 모델)에서 상당한 진전을 이룬 것을 확인할 수 있습니다. 이 두 가지 기술의 설계는 DeepSeek 모델을 더욱 비용 효율적으로 만들고 훈련 컴퓨팅 리소스를 줄여 훈련 효율성을 향상시킵니다. 연구 회사인 Epoch AI의 데이터에 따르면 DeepSeek의 최신 모델은 매우 효율적입니다.
데이터 측면에서 보면 OpenAI의 '대량 데이터 공급' 방식과 달리 DeepSeek은 알고리즘을 사용하여 데이터를 요약하고 분류한 후 대규모 모델에 공급하므로 훈련 효율성이 향상되고 DeepSeek의 비용이 절감됩니다. DeepSeek-V3의 등장은 고성능과 저비용의 균형을 달성하여 대형 모델 개발에 새로운 가능성을 제공합니다.
"미래에는 초대형 GPU 클러스터가 필요하지 않을 수도 있습니다." OpenAI 창립 멤버인 Andrej Karpathy는 DeepSeek의 비용 효율적인 모델이 출시된 후 말했습니다.
Tsinghua University 컴퓨터 과학과의 상임 부교수인 Liu Zhiyuan은 The Paper에 DeepSeek의 업계 등장은 제한된 자원을 극도로 효율적으로 사용함으로써 더 적은 비용으로 더 많은 승리를 거둘 수 있다는 점을 증명한다고 말했습니다. R1의 출시는 우리와 미국 사이의 AI 전력 격차가 크게 줄어들었음을 보여준다. 이코노미스트(Economist)도 최신 보고서에서 "DeepSeek은 저렴한 교육과 모델 설계 혁신을 통해 기술 산업을 동시에 변화시키고 있다"고 밝혔습니다.
현재 Google DeepMind의 CEO이자 공동 창립자인 Demis Hassabis는 DeepSeek이 데이터 및 오픈 소스 모델 교육을 위해 서양 시스템에 얼마나 의존하고 있는지 완전히 명확하지는 않지만 팀이 달성한 성과는 정말 인상적이라고 말했습니다. 그는 한편으로는 중국이 매우 강력한 엔지니어링 역량과 대규모 역량을 보유하고 있음을 인식했지만, 다른 한편으로는 서구가 여전히 앞서 있으며 서구 첨단 기술의 선두 위치를 유지하는 방법을 고려해야 한다고 지적했습니다. 모델.
다년간의 집중력의 축적
DeepSeek이 이러한 혁신을 이룰 수 있는 이유는 하루아침에 이루어진 성과가 아닌, 수년간의 '인큐베이션'과 장기적인 계획의 결과입니다. Liang Wenfeng은 선도적인 퀀트 사모펀드 회사인 Magic Square Quantitative의 창립자이기도 합니다. Deepseek은 매직스퀘어가 축적한 자금, 데이터, 카드를 최대한 활용한 것으로 추정됩니다.
Liang Wenfeng은 Zhejiang University에서 학사 및 석사 학위를 취득했으며 정보 전자 공학 분야의 학사 및 석사 학위를 취득했습니다. 2008년부터 그는 팀을 이끌고 기계 학습 및 기타 기술을 사용하여 완전히 자동화된 양적 거래를 탐색했습니다. 2015년에는 매직스퀘어 퀀티티브(Magic Square Quantitative)가 설립되었고, 이듬해에는 최초의 AI 모델이 출시되었고, 딥러닝으로 생성된 최초의 거래 포지션이 온라인에 올려져 실행이 이루어졌습니다. 2020년에는 누적 투자액이 1억 위안이 넘고 면적이 농구장과 맞먹는 환팡의 AI 슈퍼컴퓨터 '잉훠원(Yinghuo One)'이 정식 가동돼 개인 4만명의 슈퍼컴퓨팅 능력과 맞먹을 수 있을 것으로 알려졌다. 컴퓨터. 2021년 Huanfang은 "10,000개의 A100 GPU 칩을 탑재한" "Yinghuo 2"를 구축하기 위해 10억 달러를 투자했습니다. 당시 국내 GPU 1만개 이상을 보유한 기업은 5개 남짓이었고, 매직스퀘어 퀀티피케이션을 제외한 나머지 4개 기업은 모두 인터넷 메이저 기업이었다.
2023년 7월 DeepSeek이 정식 설립되어 일반 인공지능 분야에 진출한 적이 없습니다.
"상대적으로 풍부한 카드를 보유하고 있으며 자금 조달에 대한 압박도 없습니다. 지난 몇 년 동안 모델만 만들었지 제품은 만들지 않았습니다. 다른 국내 대형 모델 회사에 비해 DeepSeek은 더 단순하고 집중적이며 엔지니어링 기술과 알고리즘에서 획기적인 발전을 이룰 수 있습니다. .”위. 국내 대형 모델사 임원들은 말했다.
또한 대형 모델 산업이 점점 폐쇄화되고 OpenAI가 CloseAI라는 별명을 갖게 되면서 DeepSeek의 모델 오픈 소스와 공개 기술 보고서도 개발자들로부터 많은 찬사를 받아 자사의 기술 브랜드가 국내외 대형 모델 시장에서 빠르게 두각을 나타낼 수 있었습니다. 해외에서. .
일부 과학 연구자들은 The Paper에 DeepSeek의 개방성이 놀랍고 모델 V3 및 R1의 오픈 소스가 시장에서 오픈 소스 모델의 벤치마크 수준을 높였다고 말했습니다.
성공은 젊은이들의 힘을 증명한다
"DeekSeek의 성공은 또한 모든 사람이 젊은이들의 힘을 볼 수 있게 해줍니다. 본질적으로 이 세대의 인공 지능을 개발하려면 젊은 마음이 필요합니다."라고 The Paper에 말했습니다.
이전에 OpenAI의 전 정책 책임자이자 Anthropic의 공동 창립자인 Jack Clark은 DeepSeek이 "예측할 수 없는 마법사 그룹"을 고용했다고 믿었습니다. 이와 관련하여 Liang Wenfeng은 셀프 미디어와의 인터뷰에서 신비한 마법사는 없다고 말한 적이 있습니다. 국내 유수의 대학을 졸업한 졸업생들, 아직 졸업하지 않은 박사 4, 5급 인턴들, 그리고 이제 막 졸업한 청년들도 있습니다.
DeepSeek 팀의 가장 큰 특징은 팀 리더 수준에서도 대부분이 35세 미만인 명문 학교라는 점입니다. 140명 미만의 팀으로 거의 모든 엔지니어와 R&D 직원이 칭화대학교, 북경대학교, 쑨원대학교, 베이징 우편통신대학교 등 국내 최고의 대학 출신이며 근무 시간이 짧습니다. .
대형 모델 분야의 첨단 기술 인재 발굴을 담당하는 한 헤드헌터는 The Paper에 DeepSeek의 고용 논리가 대형 모델 분야의 다른 회사와 크게 다르지 않다고 말했습니다. 인재의 핵심 라벨은 “젊고 높은 잠재력”입니다. 즉, 1998년경 출생으로 5년 이내의 직장경력이 있는 것이 가장 좋다. "똑똑하고, 이공계 전공하고, 젊고, 경험이 거의 없다"는 것이다.
그러나 앞서 언급한 헤드헌터들 역시 대규모 스타트업은 여전히 본질적으로 스타트업일 뿐 해외 우수 AI 인재를 영입하고 싶지 않다는 뜻은 아니라고 말했다. 그러나 현실은 해외 우수 AI 인재가 돌아오려는 경우가 많지 않다. .
익명의 DeepSeek 직원은 The Paper에 회사의 경영진이 매우 평평하고 자유로운 의사소통의 분위기가 비교적 좋다고 밝혔습니다. 평일에는 Liang Wenfeng의 행방을 예측할 수 없으며 대부분의 경우 모두가 온라인으로 그와 소통합니다.
이 직원은 이전에 국내 대형 공장에서 대형 모델 기술 연구개발 업무를 맡았으나 자신은 대형 공장의 나사에 가깝고 가치를 창출할 수 없다고 느껴 결국 DeepSeek에 입사하게 되었습니다. 그의 견해에 따르면 DeepSeek은 현재 기본 모델 기술에 더 중점을 두고 있습니다.
DeepSeek의 업무 분위기는 완전히 상향식이며, 자연스럽게 업무가 분업됩니다. 모든 사람이 카드와 사람을 동원하는 데에는 상한선이 없습니다. "자신의 아이디어를 가져오면 됩니다. 탐색 과정에서, 그는 문제에 직면하면 스스로 사람들을 모집할 것입니다." 토론에서 Liang Wenfeng은 인터뷰에서 말했습니다.
“중국의 AI가 미국을 넘어섰다고 보기는 아직 이르다”
미국 경제 매체 비즈니스 인사이더(Business Insider)의 분석에 따르면 새로 출시된 R1은 중국이 업계 최고의 인공 지능 모델과 경쟁할 수 있고 미국 실리콘 밸리의 최첨단 발전에 보조를 맞출 수 있음을 보여줍니다. 이러한 첨단 인공지능의 원천은 통과하려는 사람들에게도 도전이 될 수 있습니다. 막대한 이익을 위해 기술을 판매하는 회사는 도전을 안겨줍니다.
하지만 “중국의 AI가 미국을 넘어섰다”고 외치기에는 아직 이르다. Liu Zhiyuan은 여론이 극단적인 비관주의에서 극단적인 낙관주의로 바뀌는 것을 경계해야 한다고 공개적으로 밝혔습니다. 그는 우리가 완전히 뛰어넘었고 훨씬 앞서 있다고 느낍니다. Liu Zhiyuan은 현재 AGI 신기술이 여전히 진화를 가속화하고 있으며 향후 개발 경로가 여전히 불분명하다고 생각합니다. 남들이 개척한 길을 빠른 속도로 따라가라." 달리는 것은 상대적으로 쉽지만, 안개 속에서 어떻게 새로운 길을 여는가가 더 큰 도전이다."
“지금은 너무 바쁘고 모두가 너무 불안하며 DeepSeek이 마침내 품절되었다는 사실을 깨닫지 못했습니다.” DeepSeek에 가까운 사람들은 The Paper에 업계가 너무 빠르게 변화하고 있으며 무엇을 할 수 있는지 예측하는 것이 불가능하다고 한탄했습니다. 다음으로 우리가 할 수 있는 일은 3분기의 변화를 살펴보는 것뿐입니다.
한편으로 Demis Hassabis는 중국이 매우 강력한 엔지니어링 역량과 대규모 역량을 보유하고 있음을 인식한 반면, 다른 한편으로는 서구가 여전히 앞서 있으며 서구 절단의 선두 위치를 유지하는 방법을 고려해야 한다고 지적했습니다. 엣지 모델.
Liang Wenfeng은 이전에 DeepSeek이 제품이 아닌 모델만 만든다고 밝혔습니다. 하지만 영리기업으로서 제품을 만들지 않고 모형만 만드는 것은 거의 불가능합니다. 1월 15일 DeepSeek 공식 앱이 공식 출시되었습니다. DeepSeek에 가까운 사람들은 The Paper에 상용화가 DeepSeek의 의제에 포함되었다고 말했습니다.
업계 관계자에 따르면 DeepSeek은 자금 조달에 대한 압박이 없고 투자자에게 입증할 필요가 없으며 모델의 기술적 반복과 제품 최적화를 고려할 필요가 없는 중국의 다른 대형 모델 스타트업에 비해 운이 좋습니다. 응용 프로그램. 그러나 상업 회사로서 막대한 자금을 투자한 후에는 조만간 다른 모델 회사가 현재 직면하고 있는 것과 동일한 압력과 도전에 직면하게 될 것입니다. "이번 원 밖으로 나온 것은 상용화를 앞둔 DeepSeek의 성공적인 마케팅입니다. 그러나 향후 실제 상용화 후에는 시장에서 테스트를 거쳐야 할 것입니다. 계속해서 깨질 수 있을지는 아직 판단하기 어렵습니다. 파도." 해당 모델회사 관계자는 말했다.
확실한 것은 DeepSeek이 앞으로 더 많은 압박과 도전에 직면할 것이라는 점입니다. 보편적인 모델을 향한 경쟁은 이제 막 시작되었으며, 누가 이길 수 있는지는 자금과 기술 반복에 대한 지속적인 투자에 달려 있습니다. 하지만 업계 관계자들은 “국내 모델 업계 입장에서는 딥식처럼 실질적인 기술력을 갖춘 기업이 합류하는 것은 좋은 일”이라고 평가하고 있다.