"오픈AI의 GPT-4o, 더 빠르고 똑똑한 AI 챗봇의 탄생"

오픈AI는 텍스트, 음성, 시각적 프롬프트를 통해 상호 작용할 수 있는 GPT-4o를 발표했습니다.
이 새로운 모델은 데스크톱 버전으로 제공되며, 다양한 기능과 성능 향상을 자랑합니다.

주요 기능 및 개선 사항

멀티모달 인식:
- 스크린샷, 사진, 문서, 차트 및 손으로 쓴 정보를 포함한 다양한 시각적 데이터를 인식하고 이에 응답할 수 있습니다.
- 얼굴 표정과 손으로 쓴 정보까지 인식하여 보다 정교한 상호작용을 제공합니다.
빠른 응답 시간:
- 오디오 입력에 최소 232밀리초, 평균 320밀리초 만에 응답하여 사람의 응답 시간과 유사한 속도를 자랑합니다.
- 이전 버전의 대화형 보이스 모드에 비해 상당히 개선된 속도를 제공합니다(GPT-3.5는 2.8초, GPT-4는 5.4초의 지연 시간).
향상된 텍스트 및 코딩 실력:
- GPT-4 터보와 비슷한 수준의 영어 텍스트와 코딩 실력을 보유하고 있으며, 비 영어권 언어 실력도 크게 개선되었습니다.
- API 버전에서는 더 빠르고 50% 저렴하며, 50개 언어에 능통합니다.
메모리 기능:
- 새로운 메모리 기능을 통해 사용자와의 이전 대화를 학습하고 이를 답변에 활용할 수 있습니다.
실시간 통역 및 상호작용:
- 실시간 데모에서 이탈리아어로 말하는 무라티와 오픈AI의 포스트 트레이닝 책임자 바렛 조프가 영어로 말하는걸 실시간 통역을 시연했습니다.
- 사용자가 대화를 중단하고 새로운 쿼리를 시작할 수 있는 더 나은 대화 기능을 제공합니다.
- 음성 모드에서 감정을 담은 이야기 읽기 기능을 시연하였으며, 억양 감정을 조절할 수 있습니다.
개선된 성능:
- GPT-4 터보보다 2배 빠르고, 가격은 절반입니다.
- 유료 챗GPT 플러스 사용자는 메시지 한도가 최대 5배 증가합니다.
컨텍스트 창 크기:
- 12만 8,000개의 토큰 컨텍스트 창을 유지합니다.
- 컨텍스트 크기가 클수록 더 많은 데이터를 입력할 수 있으며, 더 나은 결과를 얻을 수 있습니다.

발표 행사 및 시연

온라인 발표 행사에서 GPT-4o 기반 챗GPT의 성능을 시연하였습니다. 다양한 실시간 데모를 통해 자연어 처리 엔진의 인상적인 성능을 보여주었습니다.
조프는 챗GPT가 종이에 적힌 대수 방정식을 인식하고 풀이 과정을 설명하도록 요청하는 시연을 했습니다.
노트북 화면에 소프트웨어 코드를 띄우고 GPT-4o의 음성 명령 앱을 사용하여 날씨 차트 앱의 코드를 평가하고 데이터 포인트를 확인하는 데모도 시연했습니다.

향후 계획

무라티는 레드팀 액세스 권한이 확대된 GPT-4o의 텍스트 및 이미지 기능이 순차적으로 출시될 예정이라고 밝혔습니다.
몇 주 안에 GPT-4o가 포함된 새로운 버전의 음성 모드가 알파 버전으로 출시될 예정입니다.
모델 개발자는 이제 API에서 텍스트 및 비전 모델로 GPT-4o에 액세스할 수 있습니다.
오픈AI는 앞으로 몇 주 내에 신뢰할 수 있는 소수의 파트너 그룹을 대상으로 새로운 오디오 및 비디오 기능에 대한 지원을 시작할 계획입니다.

보안 및 윤리적 고려사항

오픈AI는 실시간 오디오 및 시각 인식이 오용될 수 있다는 점을 인지하고 있으며, 정부, 미디어, 엔터테인먼트 업계 등 다양한 기관과 협력하여 보안 문제를 해결하기 위해 노력하고 있습니다.
GPT-4o가 텍스트, 시각, 오디오에 걸쳐 단일 엔드투엔드 모델을 사용하므로 모든 입출력이 동일한 신경망에 의해 처리되어 보다 실시간 경험을 제공한다고 설명했습니다.

GPT-4o는 텍스트, 시각, 오디오 입력을 통합하여 보다 실시간 경험을 제공하며, 향후 단계적으로 배포될 예정입니다.

“오픈AI의 GPT-4o, 더 빠르고 똑똑한 AI 챗봇의 탄생”

주요 기능 및 개선 사항

발표 행사 및 시연

향후 계획

보안 및 윤리적 고려사항