본문 바로가기
비즈니스 & 테크

OpenAI가 음성을 복제하려면 15초 분량의 오디오만 있으면 됩니다.

by 정보톡톡01 2024. 4. 11.

최근 몇 년 동안 AI가 사람의 목소리를 복제하는 데 필요한 청취 시간은 점점 더 짧아지고 있습니다.

예전에는 몇 분 걸렸지만 이제는 단 몇 초면 충분합니다.

Microsoft의 지원을 받아 바이럴 생성 AI 챗봇 ChatGPT를 개발한 OpenAI는 최근 자체 음성 복제 기술을 통해 단 15초의 오디오 자료로 사람의 목소리를 재현할 수 있다고 밝혔습니다.

OpenAI는 웹사이트에 올린 게시물을 통해 2022년 말부터 개발 중인 음성 엔진이라는 모델의 소규모 프리뷰를 공개했습니다.

음성 엔진은 최소 15초 분량의 음성 자료를 제공하는 방식으로 작동합니다. 그런 다음 사용자는 텍스트를 입력해 "원래 화자와 매우 흡사한" "감정적이고 사실적인" 음성을 생성할 수 있습니다.

OpenAI는 "합성 음성의 오용 가능성 때문에 더 광범위한 출시를 위해 신중하고 정보에 입각한 접근 방식을 취하고 있다"고 주장하며 "합성 음성의 책임 있는 배포와 사회가 이러한 새로운 기능에 적응할 수 있는 방법에 대한 대화를 시작하고 싶다"고 덧붙였습니다.

또한 "이러한 대화와 소규모 테스트 결과를 바탕으로 이 기술을 대규모로 배포할지 여부와 방법에 대해 더 많은 정보를 바탕으로 결정을 내릴 것"이라고 덧붙였습니다.

반응형

OpenAI가 언급하는 오용 사례 중 하나는 일부 범죄자들이 이미 한동안 공개적으로 사용 가능했던 유사한 기술을 이용해 행하고 있는 사기 수법입니다. 이 사기에는 음성을 복제한 다음 해당 사람의 친구나 친 척에게 전화를 걸어 은행 송금을 통해 현금을 전달하도록 속이는 방식이 포함됩니다. 이러한 기술이 다가오는 대통령 선거에서 어떻게 사용될 수 있는지에 대한 우려도 있는데, 이는 최근 조 바이든 대통령의 목소리를 복제한 로보콜이 1월 뉴햄프셔 예비선거에서 사람들에게 투표하지 말라고 한 유명한 사건으로 부각된 문제입니다.

또 다른 우려는 빠르게 발전하는 기술이 성우들의 생계에 어떤 영향을 미칠 것인가에 대한 것인데, 성우들은 AI가 합성 버전을 만드는 데 사용할 수 있도록 자신의 목소리에 대한 권리를 넘겨달라는 요청이 점점 더 많아지고 그러한 계약에 대한 보상은 배우가 직접 작업을 수행할 때보다 훨씬 낮을 것이라고 우려하고 있습니다.

OpenAI는 이 기술의 보다 긍정적인 적용 사례를 살펴보면, "사전 설정된 음성으로 가능한 것보다 더 넓은 범위의 화자를 대표하는" 자연스럽고 감정적인 목소리를 사용하여 비독자 및 어린이에게 읽기 지원을 제공할 수 있을 뿐만 아니라 Spotify가 이미 시험 중인 동영상 및 팟캐스트의 즉시 번역에 사용할 수 있다고 제안합니다.

또한 질병으로 인해 점차 목소리를 잃어가는 환자들이 자신의 목소리와 같은 소리로 의사소통을 계속할 수 있도록 돕는 데에도 사용할 수 있습니다.

OpenAI의 웹사이트에 AI가 생성한 오디오와 레퍼런스 오디오의 예시가 몇 가지 있는데, 꽤 놀랍다는 데 동의하실 겁니다.

반응형

댓글