본문 바로가기
카테고리 없음

DeepSeek의 성공과 우리의 도전 그리고 이에 대한 대응방안

by lovelystella1 2025. 2. 3.

■ DeepSeek의 성공과 우리의 도전■

 

 김진형 (KAIST School of Computing, 명예교수)

최근 AI 업계에서 가장 주목받는 뉴스는 중국 AI 스타트업 DeepSeek(이하 딥시크) 이야기다. 딥시크는 선두주자 Open AI의 ChatGPT o1과 유사한 성능의 DeepSeek R1모델을 20분의 1의 비용으로 개발하였다고 주장해서 주목받는다. 특히, 미국의 반도체 수출 규제에서도 새로운 기회를 창출했다는 점에서 미국의 빅테크들을 놀라게 했고, GPU를 독점하고 있는 NVIDIA의 주식 가격을 크게 흔들어 놓았다. 

딥시크는 2023년 항저우에서 설립된 AI 스타트업이다. 정보공학을 전공한 저장대학교 출신 리앙 웬펑이 설립했다. 그는 미중 갈등으로 야기된 어려운 환경에서도 인공일반지능(AGI)을 목표로 이 분야  선두주자인 OpenAI의 샘 알트만과 경쟁한다. 둘 다 40세의 나이다. ChatGPT와 같은 대규모 언어모델(LLM)을 훈련하려면 고도로 훈련된 연구자 팀이 필요해서 일반적으로 '선두주자'만이 참여할 수 있다고 알려져 있다. 그런데 딥시크는 중국에서 훈련 받은 젊은 AI 연구자 140명으로 2000명 규모의 OpenAI와 맞짱을 뜨고 있다. 중국 인재들의 능력이 미국에 뒤지지 않는다는 것을 만천하에 알린 것이다.

 딥시크는 효율적인 모델을 구축하기 위하여 이미 잘 알려진 방법론을 채용하되, 제한된 환경에서 성과를 내기 위하여 깊이있는 엔지니어링 기술을 개발했다. 
LLM 구축은 사전훈련과 사후훈련이라는 두 과정으로 이루어진다. 사전훈련에서는 웹사이트, 책, 코드 저장소 등에서 가져온 수십억 개의 문서로 훈련시킨다. 원하는 텍스트를 생성하는 방법을 학습할 때까지 한 번에 한 단어씩 신경망에 입력하며 파라미터 수정을 반복한다. 이렇게 만들어진 결과물을 기반모델(Foundation Model)이라고 한다. 대용량 언어 기반모델로는 자연스러운 대화를 생성할 수 있다. 대부분의 기반모델은 구글에서 연구개발한 Transformer 구조를 갖고 있다. 딥시크는 V3이라는 자체 기반모델을 구축했다. V3에서는 입력 한번에 계속될 여러 개의 단어를 생성하여 속도를 높였다. 

두번째 사후 훈련 단계는 기반모델을 유용한 도구로 전환하는 단계다. 즉 자주 쓰는 특정 작업이나 특정 도메인의 전문가로 양성하는 학습 단계다. 미세 조정이라고도 한다. 지난 몇 년 동안 이 작업은 사람이 제공한 질문-답변 쌍을 이용하여 기반모델에 변형을 가했다. 강화학습(Reinforcement Learning) 기법이 사용되었다. 그러나 딥시크는 사람 개입없이도 강화학습하도록 그 과정을 자동화했다. 즉 사람의 피드백을 사용하여 모델을 조정하는 것이 아니라 컴퓨터가 스스로 생성한 피드백 점수를 사용했다. 따라서 사람이 수고할 필요 없이 모델을 훈련할 수 있게 된 것이다. 딥시크는 사후 학습으로 수학문제, 코딩 등에서 강력한 능력을 보이는 추론 강화 모델 R1을 만들었다. 

 

딥시크가 크게 칭찬 받는 것은 제한된 환경에서 좋은 성능을 구현했다는 점이다. 

많은 데이터 처리가 필요한 백터 계산을 차원을 낮춰 시행하기도 했고, 전체를 여러 개의 전문가 네트워크로 나누어 입력에 따라 적절한 전문가만 활성화하는 전문가 복합(Mixture of Expert)방식을 사용했다. 또 추론 과정에서는 모든 논리적 단계를 자세히 설명하기보다는 정확한 답변을 목표로 했다.  이 모든 것이 연산 양을 줄이고 효율성을 높이기 위함이었다. 또  NVIDIA의 CUDA 환경을 어셈블리 언어로 우회하여 메모리 최적화하거나 연산 속도를 향상했다. 하드코어 GPU 엔지니어링으로 하드웨어 성능이 부족한 상황에서도 높은 성능을 유지할 수 있었다. 


딥시크가 보여준 것은 사전 훈련된 모델을 추론 모델로 전환하는 방법이다. 추론 모델을 만드는 것이 사람들이 생각했던 것만큼 어렵지 않다는 것을 보여 주었었다. 강력한 기반 모델이 있으면 자동화된 강화학습으로, 인간의 감독 없이도 강력한 추론 모델델을 이끌어 낼 수 있다. 그 노하우가 공개되었기 때문에 앞으로 유능한 무료 모델이 급증할 것이고, 소규모 회사 간의 협업이 더 많아지고,  대기업의 우위가 약해질 것이다.

딥시크는 대형 AI 모델뿐만 아니라 경량화된 AI 모델 6가지 버전을 함께 공개했다. 특히, 일부 모델은 노트북에서도 실행할 수 있을 정도로 소형화되었다. 이 모델들을 개발자들이 직접 테스트하고 응용할 수 있도록 오픈소스로 공개했다. 단순히 훈련된 모델을 공개한 것뿐만 아니라, 훈련 과정, 데이터 처리 방식, 최적화 기법 등도 함께 GitHub, Hugging Face 등 글로벌 플랫폼에 공개했다. 전 세계 개발자들이 쉽게 접근하여, 모델을 개선하고 확장하는 데 기여하도록 배려했다. 이러한 전략은 기업에서 자체적인 AI 모델을 개발하고 활용할 수 있어서 글로벌 AI 연구자들의 관심을 끌고 있다. 지금까지 오픈소스로 혜택만 보던 중국이 커뮤니티에 커다란 공헌을 한 것이다.
  
그런데 딥시크가 자사의 지적재산권을 침해했다고 OpenAI가 발끈하고 나섰다. 크고 성능이 뛰어난 모델의 출력을 사용하여 작은 모델에서 저렴한 비용으로 유사한 결과를 얻을 수 있는 “증류”라는 기술을 ChatGPT에 대하여 사용했다고 주장한다. 또 실제 사용한 개발비를 축소 발표했다는 의심도 있다. 더구나 보안과 개인정보에 관한 우려 때문에 사용을 금지하는 기업과 국가가 나타나기 시작했다. 어떻게 결론이 날 것인가 두고 볼 일이다.

딥시크의 사례는 대한민국 스타트업들에게 많은 것을 생각케 한다. 우리도 할 수 있었는데 하며 그들의 성공을 부러워 하기도 하고, 우리가 기술적으로 더 좋은 환경을 가지고 있으면서도 글로벌 AI 시장에서 충분한 경쟁력을 확보하지 못하고 있다는 비판도 있다. 우리 대학에도 훌륭한 인재들이 있는데 하며 안타까워 하기도 하고, 의대 쏠림 현상을 지적하면서 국내 AI인력 수급에 문제가 있는 것이 아닌가하는 우려도 있다.  딥시크의 사례를 통해 우리 AI 생태계를 위하여 정부, 대학, 스타트업들이 어떻게 대응하여야 하는가를 생각해 보자. 

 

첫째는 

우리에게 ‘크게’ 도전하는 정신이 필요하다. 무모한 것 같지만 AGI에 도전하는 우리 스타트업도 보고 싶다.  리앙 웬펑은 AI가 대부분 서방세계에서 개발되었던 것을 지적하며 동방에서도 공헌하고 싶다는 멋진 발언을 했다.  AI개발에 많은 자원이 소요된다는 것은 잘 알려진 문제다. 막대한 전력이 소요되기 때문에 지구 온난화와도 연계되어 있는 문제다. 지속적인 AI 발전을 위해서 AI의 효율화, 경량화는 꼭 극복해야 될 문제다. 아직 갈 길은 멀지만 양자컴퓨터가 신경망 학습 방법을 획기적으로 바꾸게 될 것이다. 우리 스타트업이 이런 본질적인 문제를 해결하면 대박이다. 

둘째는 

우리는 우리의 문제에 도전하는 것이 필요하다.  딥시크의 성공 사례를 보고는 우리도 유사한  시도를 하자는 주장이 있는데 바람직하지 않다. 흉내내서 독자적인 OS(운영체계)를 만들자는 주장처럼 들린다. AI는 도구이기 때문에 이를 잘 사용하면 많은 문제를 해결할 수가 있다. 우리가 문제를 먼저 해결하면 이것으로 글로벌로 진출할 수도 있다.  우리가 갖고 있는 상대적으로 좋은 환경도 있다. (의대 지망생이 많다는 것도 기회가 아닐까?) 우리의 성공 사례도 적지 않다. 그래서 세계 6위의 기술 강국이 된 것이 아닌가? 원자력 산업과 방위산업을 봐라. 깊이 생각하여 국가나 기업 차원에서 전략을 세우고, 우리가 잘하는 것을 열심히 하면 우리에게도 좋은 일이 생길 것이다. 

셋째는 

글로벌 마인드가 필요하다. 우리의 독자적인 기술을 강조하는 경향이 크지만, 국제적인 협업 전략이 중요하다. 그런 면에서 오픈소스 전략은 정말로 중요하다. 공개-공유를 통해서 연구자들과 아이디어를 공유하고, 글로벌 네트워크를 형성할 수 있다. 딥시크가 개방성 측면에서 지금까지의 중국답지 않은 모습을 보였다. AI 모델을 오픈소스로 공개하면서 글로벌 AI 연구자들과 협업을 강화했다. 간단히 회원가입해서 써볼수 있도록 배려했다. 논문이 공개되어 누구나 읽고 판단할 수가 있다. 우리 기업들도 유사한 LLM 연구를 시도했었고 어느 정도 성과를 낸 것으로 알고 있으나 개방성에서는 뒤졌던 것 같다.
우리는 혁신의 스타트업 생태계를 만들기에 충분한 잠재력을 가지고 있다. 인터넷 도입 시기에 우리 사회와, 기업들도 잘 적응하지 않았는가? 전자정부는 성공한 세계적인 서비스다. 우리의 엔지니어링 능력은 최고 수준이다. 다음에 오는 혁신은 아마도 AI라는 이름으로 오지 않을 수도 있다. 남의 성공을 쫓지 말고, 자기 분야에서 열심히 문제를 해결하면 우리 스타트업들이 글로벌 무대에서 성과를 내는 날을 곧 올 것이다. 딥시크를 보면 대한민국 스타트업들도 충분히 해낼 수 있다는 확신이 든다.

Will Douglas Heaven,” How DeepSeek ripped up the AI playbook—and why everyone’s going to follow its lead” MIT Tech Review, 2025.01.31 참조