오픈AI는 텍스트, 음성, 시각적 프롬프트를 통해 상호 작용할 수 있는 GPT-4o를 발표했습니다.
이 새로운 모델은 데스크톱 버전으로 제공되며, 다양한 기능과 성능 향상을 자랑합니다.
주요 기능 및 개선 사항
- 멀티모달 인식:
- 스크린샷, 사진, 문서, 차트 및 손으로 쓴 정보를 포함한 다양한 시각적 데이터를 인식하고 이에 응답할 수 있습니다.
- 얼굴 표정과 손으로 쓴 정보까지 인식하여 보다 정교한 상호작용을 제공합니다.
- 빠른 응답 시간:
- 오디오 입력에 최소 232밀리초, 평균 320밀리초 만에 응답하여 사람의 응답 시간과 유사한 속도를 자랑합니다.
- 이전 버전의 대화형 보이스 모드에 비해 상당히 개선된 속도를 제공합니다(GPT-3.5는 2.8초, GPT-4는 5.4초의 지연 시간).
- 향상된 텍스트 및 코딩 실력:
- GPT-4 터보와 비슷한 수준의 영어 텍스트와 코딩 실력을 보유하고 있으며, 비 영어권 언어 실력도 크게 개선되었습니다.
- API 버전에서는 더 빠르고 50% 저렴하며, 50개 언어에 능통합니다.
- 메모리 기능:
- 새로운 메모리 기능을 통해 사용자와의 이전 대화를 학습하고 이를 답변에 활용할 수 있습니다.
- 실시간 통역 및 상호작용:
- 실시간 데모에서 이탈리아어로 말하는 무라티와 오픈AI의 포스트 트레이닝 책임자 바렛 조프가 영어로 말하는걸 실시간 통역을 시연했습니다.
- 사용자가 대화를 중단하고 새로운 쿼리를 시작할 수 있는 더 나은 대화 기능을 제공합니다.
- 음성 모드에서 감정을 담은 이야기 읽기 기능을 시연하였으며, 억양 감정을 조절할 수 있습니다.
- 개선된 성능:
- GPT-4 터보보다 2배 빠르고, 가격은 절반입니다.
- 유료 챗GPT 플러스 사용자는 메시지 한도가 최대 5배 증가합니다.
- 컨텍스트 창 크기:
- 12만 8,000개의 토큰 컨텍스트 창을 유지합니다.
- 컨텍스트 크기가 클수록 더 많은 데이터를 입력할 수 있으며, 더 나은 결과를 얻을 수 있습니다.
발표 행사 및 시연
- 온라인 발표 행사에서 GPT-4o 기반 챗GPT의 성능을 시연하였습니다. 다양한 실시간 데모를 통해 자연어 처리 엔진의 인상적인 성능을 보여주었습니다.
- 조프는 챗GPT가 종이에 적힌 대수 방정식을 인식하고 풀이 과정을 설명하도록 요청하는 시연을 했습니다.
- 노트북 화면에 소프트웨어 코드를 띄우고 GPT-4o의 음성 명령 앱을 사용하여 날씨 차트 앱의 코드를 평가하고 데이터 포인트를 확인하는 데모도 시연했습니다.
향후 계획
- 무라티는 레드팀 액세스 권한이 확대된 GPT-4o의 텍스트 및 이미지 기능이 순차적으로 출시될 예정이라고 밝혔습니다.
- 몇 주 안에 GPT-4o가 포함된 새로운 버전의 음성 모드가 알파 버전으로 출시될 예정입니다.
- 모델 개발자는 이제 API에서 텍스트 및 비전 모델로 GPT-4o에 액세스할 수 있습니다.
- 오픈AI는 앞으로 몇 주 내에 신뢰할 수 있는 소수의 파트너 그룹을 대상으로 새로운 오디오 및 비디오 기능에 대한 지원을 시작할 계획입니다.
보안 및 윤리적 고려사항
- 오픈AI는 실시간 오디오 및 시각 인식이 오용될 수 있다는 점을 인지하고 있으며, 정부, 미디어, 엔터테인먼트 업계 등 다양한 기관과 협력하여 보안 문제를 해결하기 위해 노력하고 있습니다.
- GPT-4o가 텍스트, 시각, 오디오에 걸쳐 단일 엔드투엔드 모델을 사용하므로 모든 입출력이 동일한 신경망에 의해 처리되어 보다 실시간 경험을 제공한다고 설명했습니다.
GPT-4o는 텍스트, 시각, 오디오 입력을 통합하여 보다 실시간 경험을 제공하며, 향후 단계적으로 배포될 예정입니다.