이유한 KAIST 박사과정생팀, 세계 AI 경진대회서 금메달
'캐글 코리아' 운영하고 직접 대회도 개최
"BERT 모델이 난제 해결 실마리···졸업해도 AI 공부 지속"

인공지능 분자물성 예측 대회에서 이유한 KAIST 박사과정생이 속한 팀은 세계 3위로 금메달을 수상했다. <사진=정민아 기자>
인공지능 분자물성 예측 대회에서 이유한 KAIST 박사과정생이 속한 팀은 세계 3위로 금메달을 수상했다. <사진=정민아 기자>
"혼자서는 해결할 수 없던 과제를 팀원들과 수행하며 많은 깨달음을 얻었어요. 아무리 생각해도 답이 나오지 않던 문제에 직면할 때면 막막했는데 팀원들에게 제안받은 솔루션을 적용하니 바로 문제가 해결됐어요. 혼자서만 끙끙 앓았다면 이러한 성과를 달성하지 못했을 거예요."

세계 인공지능 대회에서 금메달을 받은 이유한 KAIST 박사과정생에게 성과 비결을 묻자 망설임 없이 "팀원들과의 협업"이라고 답했다.

지난 9월 인공지능 대회 플랫폼인 캐글이 주관하고 영국의 챔스(CHAMPS)가 주최한 AI 분자물성 예측 경진대회에서 그가 속한 팀인 'Solve chem. together'는 최종 3위를 기록, 당당히 금메달을 차지했다. 팀명에서도 알 수 있듯이 함께 문제를 해결하며 내로라하는 세계적 팀을 제치고 얻은 성과다.

대회는 분자의 특성을 정확히 예측해 냈는가를 기준으로 평가한다. 데이터셋을 통해 주최 측이 제시한 분자물성(NMR 상수)을 딥러닝으로 학습해서 오차값을 최소화하는 팀에게 가장 높은 점수가 부여됐다. 대회 상금은 총 3만 달러로 1위부터 5위까지 차등적으로 수여한다.

"처음부터 제가 무조건 참가해야 할 대회라고 생각했어요. 상금도 있었지만 무엇보다도 금메달 수상자에게는 주최 측과 함께 논문을 작성할 수 있는 기회가 제공됐는데 정말 욕심나는 제안이었죠."

그는 박사과정 2년 차까지 분자 시뮬레이션을 공부했고 3년 차부터는 딥러닝을 이용한 가스 센서의 성능 향상 연구를 진행하고 있다. 이번 대회는 화학공학을 전공하면서 AI에도 관심이 많은 대학원생인 그에게 안성맞춤이었다.

가장 먼저 여러 경우의 데이터셋을 분석하고 이어서 그래프 뉴럴 네트워크(GNN) 작업에 착수했다. GNN 작업은 분자를 그래프로 표현해내서 그 그래프를 GNN에 넣는 일이다. 그는 학업으로 바쁜 와중에도 작업에 몰두했지만 70~80등 사이에서 더 이상 순위가 오르지 않았다.

이번 대회는 전체 참가자 수를 기준으로 일정 퍼센트 안에 속한 팀에게 메달을 수여했다. 논문을 작성하고자 하는 그의 목표를 달성하기 위해서는 최종 5위 안에 들어야만 했다.

◆ 각 분야 전문가들과 아이디어 모으니 바로 금메달권 진입

캐글 대회는 5명까지 팀을 이룰 수 있다. 유사한 연구를 많이 수행해서 도메인과 대회 데이터셋에 해박한 최성환 KISTI 박사가 합류했고 국내 캐글 랭킹 2위의 실력자 김상훈 이베이코리아 데이터 사이언티스트도 팀원으로 섭외했다. 데이터 분석이 특기인 송원호 중앙대 학부생과 딥러닝에 일가견이 있는 이영수 마인즈앤컴퍼니 연구원도 팀의 일원으로 참여했다. 대회 중반부터는 총 5명이 함께 과제를 수행했다.  

캐글에서 2년 넘게 활약한 이유한 박사과정생의 적극적인 리드 아래 모두가 힘을 모았다. 그래프 신경망(GNN)과 언어모델 중 하나인 버트(BERT) 분석부터 설계까지 각자가 맡은 역할을 충실히 수행하면서도 끊임없이 서로를 지원했다.

최성환 박사는 문제해결에 필수적인 도메인 지식을 팀원들에게 아낌없이 공유했다. 송원호 학부생은 데이터셋을 탐색하고 분석하는 데 힘썼으며 이영수 연구원은 대회와 관련된 문헌을 검색하고 정리해 팀원들에게 제공했다.

김상훈 데이터 사이언티스트는 기존에 사용하던 GNN 방식 대신 BERT의 인코더 모델을 사용해 데이터를 분석할 것을 제안했다. 효과는 금방 나타났다. 이 방식으로 문제를 해결하니 그의 팀은 바로 금메달권에 진입했다.

데이터 분석에 BERT 모델을 사용하려면 X·Y·Z 좌표와 각 원자들의 정보, 분자들이 가지고 있던 거리정보를 적용해야 한다. 이전에 그는 좌표가 크게 의미가 없을 것이라고 생각했지만 좌표정보를 분석에 적용한 결과 BERT 인코더가 좌표를 이용해 복잡한 정보를 스스로 학습하고 예측 성능을 크게 향상시켜 문제의 핵심 솔루션을 찾아냈다.

그는 "대회가 끝나고 참가자들이 솔루션을 공유했는데 1위부터 3위까지 세 팀이 전부 BERT 인코더 트랜스포머를 사용해서 문제를 해결했다"고 전하며 "함께하면서 해답을 찾을 수 있었다"며 팀원들에게 감사의 말을 전했다.

세계 인공지능(AI)대회에서 우리나라 산학연 협력팀은 2749개팀이 참여한 가운데 3위의 성적을 거뒀다.<사진=KISTI>
세계 인공지능(AI)대회에서 우리나라 산학연 협력팀은 2749개팀이 참여한 가운데 3위의 성적을 거뒀다.<사진=KISTI>
◆ 캐글 정보 공유하고 스터디, 캐글 코리아 만든 주인공

그는 캐글이 주최하는 대회의 정보를 공유하면서 머신러닝과 데이터 사이언스를 연구하는 커뮤니티인 '캐글 코리아'를 만든 주인공이다. 캐글 코리아 커뮤니티는 2018년 6월 13일에 처음 개설돼 현재 6700명의 회원이 활동 중이다.

처음에 그는 대전지역에서 활동하는 소규모 캐글 스터디 모임을 만들었다. 스터디를 진행하던 중 캐글 대회에 대한 정보를 공유하는 페이스북 페이지를 만들면 어떻겠냐는 제안이 들어왔다. 이에 캐글 측의 허가를 받아 커뮤니티의 이름을 '캐글 코리아'로 공식 명명하고 페이지를 운영하기 시작했다. 처음에는 단 3명으로 구성된 모임이었지만 AI 열풍이 불면서 모임의 규모는 점점 커졌다.

올해 초반부터는 구글 코리아의 후원을 받고 캐글 측의 동의를 얻어 캐글 내에서 가벼운 대회를 직접 개최하기 시작했다. 현재 캐글 코리아 이름으로 전국에서 약 20개 정도의 스터디 모임이 활발히 운영 중이다.

이유한 박사과정생은 12만명 이상의 캐글 등록자 중 103위의 순위를 기록하며 상위 0.1%에 랭크되어 있다. <사진=캐글 홈페이지>
이유한 박사과정생은 12만명 이상의 캐글 등록자 중 103위의 순위를 기록하며 상위 0.1%에 랭크되어 있다. <사진=캐글 홈페이지>
현재 그는 전 세계 캐글 등록자 약 12만명 중 103위를 차지해 상위 0.1%에 올라 있다. 그는 "머신러닝을 지속적으로 공부해 높은 순위에 도달하면서 내 실력에 대한 자신감이 늘었다"고 전했다.

이번 학기를 마지막으로 박사과정 졸업을 앞둔 그는 "졸업 이후에도 학계든 산업계든 상관없이 나의 능력이 많은 사람들에게 도움이 될 수 있도록 꾸준히 인공지능 공부를 지속할 것"이라고 포부를 밝혔다.

저작권자 © 헬로디디 무단전재 및 재배포 금지