'from scratch' 정의와 독자성, 학계 의견 전문가 의견 26-006 독자 파운데이션 모델의 '독자성' 기준 논란
2026.1.13. 엠바고 없음
|
|
|
-
배경
- 정부의 국가대표 인공지능(AI) 모델 프로젝트가 진행중인 가운데, 독자 파운데이션 모델의 '독자성'을 둘러싼 논쟁이 깊어지고 있습니다.
- 현재는 참여한 5개 컨소시엄의 모델에 대한 성능 평가가 진행되고 있습니다. 15일 첫 번째 탈락 팀이 결정됩니다.
- 이달 초 일부 모델에 대해 해외 모델 파생 주장이 제기됐지만, 학습 모델이 아닌 추론용 코드에 일부 오픈 소스를 사용했을 뿐이라 독자성을 위배하지 않는다는 반론이 나왔습니다.
- 하지만 일부 모델의 경우 학습 모델 일부 구성 요소를 해외 모델로부터 차용하면서 가중치(weight)까지 사용했다는 주장에 제기돼 논란이 되고 있습니다.
- 이 논란은 독자 파운데이션 모델의 정의 논란으로도 번지고 있습니다. '독자성'의 기준으로 제시한 '밑바닥부터(from scratch)'의 정의가 어디까지냐는 논란입니다.
-
- 이번 논쟁에 대한, 데이터 또는 머신러닝 전문가로서의 의견 또는 해설
- 이번 논란에 대한 입장 및 근거
- from scratch 의미 및 독자 파운데이션 모델에서의 적합성
- 머신러닝/딥러닝 개발 커뮤니티에서의 시각
- 독자성에 대한 개발 커뮤니티와 언론의 기준 불일치에 대한 의견
- 미래 방향성 등
|
|
|
기자 여러분은 아래 주의사항을 참고해 활용해주시길 부탁드립니다.
- 엠바고는 없습니다. 자유롭게 활용 가능합니다.
- 되도록 원문을 그대로 활용해주시길 부탁드립니다.
- SMCK를 꼭 인용할 필요는 없습니다. 만약 인용 출처가 필요한 경우, 아래 형식을 따를 수 있습니다.
- "ㅇㅇㅇ(전문가)는 한국과학기술미디어센터에 ㅁㅁㅁ라고 말했다."
|
|
|
임성빈 고려대 통계학과 교수
*2026.1.13.
1. 이번 논란에 대한 입장 및 근거 / from scratch 의미 및 독자 파운데이션 모델에서의 적합성
- 기계학습 연구 분야에서 말하는 from scratch 는 모델 가중치 및 학습 전략의 독립성을 얘기하지, 모델 구조의 독자성을 의미하지 않습니다.
- 모델 구조 측면에서 독자성을 취해야 한다는 의견은 딥러닝 모델 연구 역사와 기술 트렌드와 결이 맞지 않는 주장입니다.
- 같은 Transformer 모델 구조라 할지라도 구현 방법과 엔지니어링 실력에 따라 성능이 천차만별입니다.
- 현실적으로 NVIDIA GPU 는 Transformer 모델 구조에 특화되어 최적화되고 있습니다.
- 일부 신경망의 가중치를 그대로 쓰고 transfer learning / fine-tuning 하는 경우는 from scratch 와 대립하는 용어입니다.
- 만일 국제 컨퍼런스에서 이렇게 발표했다가는 연구자들로부터 큰 비판을 받게될 것입니다.
- 같은 데이터로 학습 시키더라도 학습 전략 및 알고리즘에 따라 모델 가중치는 독립적으로 도출될 수 있습니다.
- 학계에서 말하는 from scratch 는 대체로 이런 맥락에서 사용되는 용어입니다.
- 위 세 가지를 토대로 정리해서 말씀드리면 - 기계학습 커뮤니티에서 from scratch 란 완전히 서로 다른 모델 구조, 데이터를 말하는 것이 아닙니다.
- 오픈소스 중심의 개발문화와 from scratch 가 어울리지 않는다는 주장은 소프트웨어 개발 전략과 AI 학습 전략의 차이를 혼동하는 주장입니다.
- 기존 모델을 사용하지 않는다 → X (모델 구조는 사용하되 학습을 독립적으로 수행하는 것임)
- 주요 프레임워크, 라이브러리를 쓰지 않는다 → X (현대 기계학습 개발 패러다임과 상충하는 의견임)
2. 머신러닝/딥러닝 개발 커뮤니티에서의 시각 / 독자성에 대한 개발 커뮤니티와 언론의 기준 불일치에 대한 의견
- 커뮤니티에서의 의견은 순수한 연구자·개발자 시각과 비즈니스 및 정치적 시각이 뒤섞인 상태로 보입니다.
- 10년 이상 기계학습 연구 커뮤니티에 참여한 연구자·개발자들의 의견은 위에서 언급한 from scratch 정의에 동의하는 편입니다.
- 그러나 독자성이란 단어가 추상적이므로 이에 대한 사람들의 의견은 다를 수 있습니다.
- 일부 사람들이 주장하는 프레임워크, 라이브러리, 모델 구조의 독자성은 대체로 동의하기 어렵습니다.
- 저작권 문제가 없는 모델들을 활용하는 전략(가중치 재사용, 지식 증류 등)은 독자성과 거리가 멀지만 현실적으로 필요할 수 있습니다.
- 개인적으로 저는 이 전략을 옹호하는 편입니다. 시간과 비용 측면에서 완전히 처음부터 개발하는 건 현실적으로 손실이 큽니다. 단, 이 경우 from scratch 란 말을 쓰는 것은 삼가해야 합니다.
- 저작권 이슈가 걸린 모델들을 활용하는 전략들은 반드시 피해야 합니다.
- 국제적으로 큰 이슈가 되거니와 독자 파운데이션 모델 프로젝트를 무(無)로 돌릴 수 있습니다. 특히 from scratch 로 pre-training 은 시켜도 fine-tuning 단계에서 빅테크 회사들의 LLM 을 사용하는 전략은 반드시 피해야 합니다.
3. 미래 방향성에 대한 논의
- from scratch 이냐, 아니냐 논쟁보다 현실적으로 독자 파운데이션 모델들이 출시되었을 때 어떻게 활용하면 좋을지 논의가 더 필요합니다.
- 학습 과정에서 저작권 문제가 없는지 꼼꼼하게 검토하는 것이 필요합니다. 특히 지식 증류(knowledge distillation) 과정에서 저작권 이슈가 있는 타사 LLM 을 쓴 경우 독자 파운데이션 모델 프로젝트의 가장 큰 리스크가 될 수 있습니다.
*COI: 저는 현재 LG AI 연구원과 공동연구 및 산학협력을 하고 있습니다. 그러나 아래 의견은 회사의 입장과 전혀 무관한 제 개인 의견입니다.
sungbin@korea.ac.kr
|
|
|
윤세영 KAIST 김재철AI대학원 교수
*2026.1.13.
이번 독자 파운데이션 모델 개발 사업을 매우 기대하며 지켜보고 있습니다. 거대 모델을 학습하는 과정에서는 필연적으로 다양한 예기치 못한 문제들이 발생할 것이고, 그러한 문제를 실제로 해결해 나가는 경험을 축적한 기업과 연구자가 많아질수록 국내 AI 생태계 전반에 큰 자산이 될 것이라 생각합니다.
본 과제가 진행되는 과정에서 from scratch의 정의를 둘러싼 논의가 지속적으로 제기되는 이유는, 해당 개념에 대해 사람마다 상정하는 범위와 기준이 다르기 때문이라고 봅니다. 이 논의에서 가장 중요한 가치는 투명성입니다. 어떤 방식과 절차를 통해 모델을 개발하였는지를 명확하고 투명하게 공개하고, 그 과정에 허위가 없음을 확인하는 것이 무엇보다 중요합니다. 그 위에서 평가자에 대한 신뢰를 바탕으로, 사전에 정의된 평가 기준에 따라 공개된 정보를 근거로 평가가 이루어지면 충분하다고 생각합니다.
From scratch의 정의를 지나치게 엄밀하게 규정하려는 시도나, 그러한 정의를 기준으로 개발을 진행 중인 팀들을 성급하게 비난하는 상황으로 논의가 흐르지 않기를 바랍니다.
yunseyoung@kaist.ac.kr
|
|
|
한국과학기술미디어센터(SMCK) 소개
한국과학기술미디어센터는 근거 기반의 과학 정보를 언론에 제공하는, 과학계와 미디어 사이의 다리 역할을 하는 독립 비영리 조직입니다. 잘못된 정보와 가짜 뉴스가 넘쳐나는 세상에서, 제대로 된 전문가의 해설과 의견을 빠르고 다양하게 기자들에게 제시하고 이를 체계적으로 아카이빙하는 역할을 합니다.
2025년 7월 이사회를 구성하고(이사장 노정혜 전 한국연구재단 이사장) 센터장(이근영 전 한겨레 과학전문기자)을 선임했으며, 같은해 9월 개소식을 열며 활동을 시작했습니다.
*참고 기사:
SMCK 역할
SMCK는 세 분야 전문가인 과학자, 기관 커뮤니케이터(홍보팀), 기자에게 구체적인 도움을 드리고자 설립됐습니다. 각각 아래와 같습니다.
- 과학자, 연구자에게는 의견과 해설이 온전한 맥락과 함께 제공되는 안전한 발언 공간이 돼줍니다. 선의를 위해 한 논평이 기사화 과정에서 왜곡되거나 부정확하게 변질될 우려를 줄이는 완충 작용을 합니다.
- 기관 홍보 담당자에게는 기관의 성과를 기자들에게 보다 객관적이고 정교하게 알리고, SMC 글로벌 네트워크를 통해 영향력을 높일 기회를 제공합니다.
- 기자에게는 사안을 해석하는 데 도움이 될 치우침 없는 종합적인 정보를 빠르고 풍성하게 제공하고, 이를 통해 기사에서 과학과 기술을 보다 자유롭고 편리하게 활용하도록 돕습니다.
SMCK는 이를 통해, 궁극적으로 근거에 기반해 사안을 합리적으로 판단하고 이것이 정책에까지 반영되는 사회를 만드는 데 기여하고자 합니다.
해외 협력
사이언스미디어센터(SMC)는 2002년 영국에서 최초로 설립됐고 현재 호주와 뉴질랜드, 독일, 스페인, 대만 등으로 확장됐습니다. 글로벌 네트워크에 포함된 6개 조직은 엄격한 독립성과 신뢰성이라는 가치를 공유하고 있으며 협력을 통해 주요한 국제 과학 이슈에 공동 대응하고 있습니다.
한국은 신생 조직으로서 글로벌 네트워크와 긴밀히 협력하고 있습니다.
|
|
|
* 지난 의견은 '지난 의견 다시 보기'를 선택해주세요. |
|
|
내용문의: 윤신영 미디어국장 yoonsy@smck.or.kr
한국과학기술미디어센터(SMCK)
|
|
|
|
|