오마이뉴스
광주 서구에서 평생 하역 일을 해온 70대 가장. 서초구 부동산 회계 사무소에 다니는 40대 직장인. 목동에 사는 꼼꼼한 은퇴자. 이 세 사람은 실제로 존재하지 않는다. 이름도, 주민등록번호도 없다. 그런데 이들은 통계적으로 '반드시 어딘가에 있을 법한' 한국인으로 설계되었고, 지금 AI 훈련용 데이터셋 안에 살아 숨 쉬고 있다. Nemotron-Personas-Korea는 이런 가상의 한국인을 약 700만 명 분량으로 생성한 합성 인구 데이터셋이다. 공개 직후 허깅페이스(Hugging Face) 데이터셋 랭킹에서 1위를 기록했으며, 세계 최대 규모의 '페르소나 확률 그래픽 모델' 중 하나로 소개되고 있다. 출처만 밝히면 누구나 무료로 활용할 수 있다. 가상의 주민등록 700만 장이 데이터셋을 가장 쉽게 이해하는 방법은 '가상의 주민등록 카드 + 생활 프로필'의 조합으로 보는 것이다. 실제 사람의 개인정보는 단 한 건도 들어가 있지 않다. 대신 통계청, 국민건강보험공단, 대법원 등에서 공개한 인구 통계, 즉 연령별 비율, 직업 분포, 지역별 가구 구성 등을 기반으로 "이 비율이라면 이런 사람이 이만큼 있겠지"라고 AI가 역산해 만들어낸 인물들이다. 각 인물에게는 나이, 성별, 거주지, 학력, 직업, 혼인 여부 같은 기본 인구통계 정보뿐 아니라, 직업적 성향, 취미, 여행 스타일, 음식 취향, 보유 기술, 가족관계, 문화적 배경까지 부여된다. 한 마디로 마케터들이 흔히 쓰는 '페르소나 카드'를 국가 통계 기반으로 수백만 장 찍어낸 것이다. 개인정보보호법을 준수하면서도 현실에 근접한 한국 사회의 축소판을 만들었다는 것이 이 프로젝트의 핵심 설계 원리이다. 해외에는 이미 비슷한 흐름이 있었다. 사실 '합성 인구' 개념 자체는 해외에서 먼저 시작되었다. 미국 교통부와 유럽 각국 연구소는 도시 교통 최적화나 감염병 확산 시뮬레이션을 위해 수천만 명 규모의 합성 국민 데이터를 이미 만들어 쓰고 있다. 전체 내용보기
Go to News Site