오디오가이 :: 디지털처럼 정확하고 아날로그처럼 따뜻한 사람들
자유게시판

극적으로 동화 읊어줘 하니 성우 말투로 줄줄 新인류 AI

페이지 정보

작성자 라이더1
작성일

본문

인공지능이 사람과 단순히 대화하는 걸 넘어서 보고 듣고 감정을 표현할 수 있게 됐습니다.
이번에 새롭게 공개된 챗GPT 모델은 사람에게 농담을 건네거나 심지어는 표정과 숨소리까지 살필 수 있다고 하는데요. 홍영재 기자가 취재했습니다. 인공지능 비서 사만다 와 주인공이 사랑에 빠진다는 11년 전 영화입니다. 오픈AI가 이런 영화 속 상상을 현실로 구현했습니다. 발표를 앞두고 긴장했다는 사람의 거친 호흡을 인지하고 내놓은 답입니다. 잠들기 어려워하는 친구를 위해 이야기를 지어 달라고 하자 대답 도중 끼어들어 한 요구에도 즉시 감정과 톤을 바꿔 답한 겁니다. 면접 복장에 대한 조언에는 유머도 녹아 있습니다. 사진 속 표정도 읽고 메모 이미지만 보고도 감정을 담아 답합니다. 놀라운 건 반응 속도입니다. 오픈AI의 GPT-4가 응답에 5. 4초가 걸리는 데 비해 이번 모델은 평균 0. 32초에 불과합니다. 사람과 실시간 대화가 가능한 수준입니다.
글과 이미지 음성을 실시간으로 인식해 반응하기 때문에 시각 장애인이 휴대전화만 들고 택시를 잡는 것도 가능합니다. 샘 올트먼 CEO는 자신의 SNS에 이 모델이 마법처럼 느껴졌다고 썼습니다. 이 모델이 아이폰 등 애플 기기에 탑재될 것이라는 관측이 나오는데 이 경우 IT 기기 시장에도 상당한 판도 변화가 예상됩니다. 오픈AI 진화한 GPT-4o 공개수학 문제 비추면 이렇게 풀어 이건 단순한 운영체제 가 아니야. 의식 이지. 2013년 개봉한 스파이크 존즈 감독의 공상과학 영화 허 에서 남자 주인공 테오도르는 자신이 인공지능 비서 사만사를 사랑하게 된 이유를 이렇게 설명합니다. 자신과 같은 것을 보고 실시간으로 함께 웃고 떠드는 AI는 그 자체로 자아를 갖춘 의식체이며 사랑하지 않을 이유가 없다는 것입니다. 영화는 인기를 얻었지만 개봉 당시만 해도 이토록 인간다운 AI가 나오기까진 아주 오랜 시간이 걸릴 것이라는 평가들이 나왔었습니다. 하지만 불과 11년 만에 사만사는 현실이 됐습니다. 13일 미국의 오픈AI는 온라인 신제품 공개 행사 봄 업데이트에서 신규 AI 모델 GPT-4o 를 공개했습니다. o는 Omni의 약자로 모든 것을 뜻합니다. 이 AI 모델을 기반으로 오픈AI는 실시간으로 세상을 보고 듣고 말할 수 있는 음성 AI 서비스를 선보였습니다. 이용자와 자유롭게 대화를 나누는 동시에 카메라를 눈 삼아 세상을 관찰합니다.
사용자와 대화에서 GPT-4o의 평균 응답 속도는 0. 32초. 인간의 평균 반응 속도인 0. 25초와 큰 차이가 없습니다. 그동안 AI는 사용자의 말을 인식하고 그에 맞는 해답을 찾아 대답하는 데 시간이 1초 안팎 걸렸습니다. 하지만 기존 AI 모델보다 2~4배 빠른 GPT-4o의 빠른 응답 속도 때문에 사람과 이야기를 주고받듯 자연스러운 대화가 가능해진 것입니다. 더구나 카메라를 통해 주변의 시각적 정보를 실시간 인식하고 분석하며 말할 수 있습니다. 사용자가 웃는 얼굴을 비추면 즐겁고 신나보이네라고 말하고 등 뒤로 갑자기 사람이 나타났다 사라지면 아까 네 뒤로 모르는 사람이 지나가더라라고 언급하는 식입니다. 이날 신제품 공개 후 샘 올트먼 오픈AI 최고경영자 는 자신의 X 에 영화 허를 언급하며 새로운 음성과 영상 모드는 지금까지 사용해본 최고의 컴퓨터 인터페이스 라며 영화에 나오는 AI 같은 느낌이라고 했습니다. 김정호 KAIST 교수는 응답 생성 속도는 AI 서비스 경쟁의 핵심이라며 속도와 성능에서 획기적 발전을 이룬 GPT-4o의 등장으로 인간과 같은 AI의 등장은 점점 가까워지고 있다고 말했습니다. 지난 수년간 우리는 인공지능 모델의 지능을 향상시키는 데 중점을 뒀고 성과를 냈습니다. 하지만 이번처럼 사용 편의성 측면에서 큰 진전을 이룬 것은 처음입니다. 13일 온라인 신제품 공개 행사에 나타난 오픈AI의 미라 무라티 최고기술책임자 는 더 빠르고 똑똑한 플래그십 AI 모델 GPT-4o를 공개한다며 이렇게 말했습니다.
2022년 11월 생성형 AI 모델인 챗GPT를 선보인 오픈AI는 지난해 3월 GPT-4′ 11월 GPT-4 터보를 선보이며 AI 기술 혁명을 이끌어 왔습니다. 그리고 7개월 만에 또다시 신모델을 선보이며 무라티 CTO는 GPT-4o는 GPT-4 수준의 지능을 더 빠르게 제공하는 데 초점을 맞췄고 문자시각청각 데이터를 넘나드는 능력을 더 강화했다고 설명했습니다. AI를 더 인간답게 만들었다는 것입니다. 수학 문제 척척 풀고 감정 포착까지이날 오픈AI는 GPT-4o를 기반에 둔 신규 음성 AI 서비스를 실시간 시연했습니다. 모바일 챗GPT 앱에서 음성 대화 모드를 실행하고 수학 문제를 풀 건데 정답을 말하지 말고 풀이 과정을 도와줘라고 요청했습니다. 이후 카메라를 실행시켜 종이에 적은 3x+1=4′라는 방정식을 비추자 AI는 바로 문제를 인식하고 x의 값을 구하기 위해선 x를 제외한 모든 숫자를 한쪽으로 모아야 한다며 풀이법을 말했습니다. 이날 온라인으로 진행된 시연 장면을 보면 여성의 목소리를 한 AI의 말투에서 불편한 기계음이 전혀 느껴지지 않았습니다. 때로는 감탄사와 농담도 자유자재로 섞었습니다. GPT-4o 이전에도 챗GPT를 활용한 수학 풀이는 가능했습니다. 다만 과거에는 수학 문제를 카메라로 찍어 채팅창에 사진을 올리면 AI가 풀이를 문자로 설명해주는 식이었습니다. 풀이 과정과 정답을 한 번에 보여줘 학습용으로 부적합한 점도 있었습니다. GPT-4o는 마치 과외 교사처럼 바로 옆에서 실시간으로 대화를 나누며 풀이 과정을 지도해 준다. 분양의 모든것 이날 시연에선 이탈리아어영어의 실시간 통번역 동화를 다양한 말투로 읽어주거나 노래 불러주기 등의 기능도 보여줬습니다.
동화를 좀 더 극적인 말투로 읽어줘라고 요청하자 바로 성우처럼 감정을 넣은 말투로 동화를 구술했습니다. 대화 중 다른 사람이 끼어들어 말을 해도 곧바로 알아듣고 지체없이 추가 요청을 수행했습니다. 샘 올트먼 오픈AI 최고경영자 는 이날 자신의 블로그에서 컴퓨터와 대화하는 것은 나에게 결코 자연스러웠던 적이 없지만 이제는 다르다며 앞으론 컴퓨터를 사용해 훨씬 다양한 작업을 수행할 수 있는 흥미로운 미래가 실현될 것이라고 했습니다. 구글 행사 하루 전 기습 공개전문가들은 GPT-4o는 응답 속도를 높이기 위해 매개변수 100억~1000억개 단위의 중간급 AI로 설계됐을 것으로 보고 있습니다. GPT-4의 매개변수는 1조개가 넘는다. 매개변수가 많으면 성능은 좋아지지만 구동에 시간이 걸립니다. GPT-4o는 엔비디아가 아직 공식 출시하지 않은 최신 AI 반도체 블랙웰을 활용해 성능은 유지하면서 반응 속도를 높였을 것으로 추측하고 있습니다. 오픈AI는 GPT-4o를 이날부터 글로벌 모든 이용자에게 무료로 제공합니다. 다만 기존 유료 회원들은 무료 회원보다 한 번에 입력할 수 있는 메시지의 양이 5배 많다. 다만 이날 오픈AI가 시연한 음성 AI 서비스는 몇 주 안에 일반에 공개될 예정입니다. 인간에 가까운 음성 AI를 두고 빅테크의 경쟁은 치열해질 전망입니다. 이날 오픈AI의 발표는 구글의 연례 최대 개발자 콘퍼런스 I/O를 하루 앞두고 나왔습니다. 구글 역시 자사 AI 모델 제미나이의 업데이트 및 이미지음성텍스트를 아우르는 신규 AI 서비스를 내놓을 것으로 예측되고 있습니다.
IT 매체 디인포메이션은 오픈AI가 구글에 쏟아지는 관심을 빼앗는 데 성공했고 수년 전부터 음성 AI를 운영해온 애플을 능가했다고 평가했습니다.

회원서명

SIGNATURE

dd

서명 더보기 서명 가리기

관련자료

등록된 댓글이 없습니다.

+ 뉴스


+ 최근글


+ 새댓글


통계


  • 현재 접속자 605 명
  • 오늘 방문자 5,010 명
  • 어제 방문자 6,048 명
  • 최대 방문자 15,631 명
  • 전체 방문자 12,818,299 명
  • 오늘 가입자 0 명
  • 어제 가입자 1 명
  • 전체 회원수 37,545 명
  • 전체 게시물 281,576 개
  • 전체 댓글수 193,391 개