![[이미지=셔터스톡]](https://cdn.fortunekorea.co.kr/news/photo/202508/49481_42959_5839.jpg)
AI가 생물학 무기 제조를 돕지 못하도록 하는 방법이 처음부터 그런 지식을 가르치지 않는 것만큼 간단하다면 어떨까?
이 질문은 비영리 연구소 엘류서AI(Eleuther AI)의 스텔라 비더만 사무총장이 오랫동안 품어온 의문이었다. 비더만은 영국 정부의 AI 보안 연구소와 협력하여 카일 오브라이언과 스티븐 캐스퍼를 주 저자로 삼아 이전에 공개적으로 탐구된 적 없는 이 문제의 해답을 찾고자 했다.
새로운 논문인 '딥 이그노런스'에서 연구진은 AI 모델의 훈련 데이터에서 위험한 정보를 처음부터 걸러내면 누구나 다운로드하고 수정할 수 있는 오픈소스 모델에서도 더 강력한 안전장치를 '내재화'할 수 있음을 발견했다. 중요한 점은 이러한 보호 조치가 모델의 전반적인 성능에 눈에 띄는 악영향을 미치지 않았다는 것이다.
이 접근법을 시험하기 위해 연구팀은 오픈소스 AI 모델의 여러 버전을 특정 '프록시' 정보가 제거된 데이터셋으로 훈련시켰다. 여기서 프록시 정보란 생물학적 무기와 관련된 자료 등 위험한 내용을 안전하게 대체할 수 있는 정보를 말한다. 더 깨끗한 데이터로 훈련된 모델은 유해한 정보를 생성하는 능력이 떨어졌지만, 대부분의 다른 작업에서는 동일한 수준의 성능을 보였다.
캐스퍼는 이 프로젝트에 대해 X에 올린 글에서 "대형 언어 모델(LLM)을 그대로 사용해도 안전할 뿐만 아니라 유해한 조작에도 저항할 수 있게 만드는 것이 목표"라고 밝혔다. 이는 지금까지 대부분의 안전 노력이 훈련 후 조정, 즉 모델이 구축된 후에 이루어지는 변경에 초점을 맞췄기 때문에 어려운 과제다. 위험한 출력을 피하기 위해 모델의 응답을 미세 조정하는 것과 같은 이러한 수정은 단기적으로는 효과가 있을 수 있지만, 되돌리기 쉽고 때로는 의도치 않게 모델을 약화시킬 수 있다. 사전 훈련 필터는 처음부터 안전성을 내재화하여 나중에 누군가가 조작을 시도하더라도 모델이 안전하게 유지되도록 하는 것을 목표로 한다.
비더만은 이런 종류의 연구가 공개적으로 이루어지는 경우가 드문데, 이는 대부분의 학계와 비영리 단체에게는 부담이 되는 비용과 시간이 많이 소요되기 때문이라고 설명했다. 오픈AI(OpenAI)나 앤트로픽과 같은 민간 AI 기업들은 자원은 있지만 경쟁상의 이유와 저작권 위험에 대한 우려로 사전 훈련 과정의 세부 사항을 공개하지 않는다고 그는 말했다.
그는"그들은 충분히 이런 일을 할 수 있고, 실제로 하고 있을지도 모른다"라며"하지만 그들은 굉장히 비밀스러워서 거의 아무것도 알려주지 않는다"라고 말했다. 그는 오픈AI가 최근 공개한 오픈 웨이트 모델과 독점 모델인 GPT-4o 모두에서 일종의 필터링을 사용한다는 암시를 언급했다.
오픈AI는 오픈 웨이트 모델의 모델 카드에서 다음과 같이 밝혔다. "모델의 안전성을 높이기 위해 사전 훈련 단계에서 유해한 콘텐츠, 특히 위험한 생물안보 지식과 관련된 데이터를 필터링했다. 이를 위해 GPT-4o의 화학, 생물학, 방사선, 핵(CBRN) 사전 훈련 필터를 재사용했다." 즉, 회사는 GPT-4o에서 사용된 것과 동일한 선별 과정을 적용하여 잠재적으로 위험한 화학, 생물학, 방사선, 핵 정보를 훈련 전에 걸러냈다는 것이다.
비더만에게 '딥 이그노런스'는 기술 기업들이 공개적으로 말하고자 하는 것 이상을 다루고자 하는 의도를 담고 있다. 그는 "이를 공개함으로써 더 많은 사람들이 더 나은 일을 할 수 있게 된다"고 말했다. 또한 그는 기술 산업이 자주 언급하는 '방대한 데이터셋은 문서화하거나 면밀히 조사할 수 없다'는 주장에 대해 부분적으로 동기부여를 받았다고 덧붙였다. 그는 "특히 오픈AI가 즐겨 하는 이야기가 있는데, 데이터가 상상할 수 없을 정도로 방대해서 우리 데이터에 무엇이 들어있는지 어떻게 알 수 있겠냐는 것이다"라며"이는 오랫동안 나를 화나게 한 것이다. 이것이 잘못되었다는 것을 반복적으로 입증하는 것이 중요하다고 생각한다"라고 말했다.
/ 글Sharon Goldman & 편집 육지훈 기자 jihun.yook@fortunekorea.co.kr