NEW

멀티모달 AI: GPT-4o와 이미지·음성 처리

GPT-4o Vision + Whisper + DALL-E 3으로 음성·이미지·텍스트 통합 AI 구현

4.8
(392개 후기)
수강생 3,920
강사:김도현
중급
7시간 55분
26개 강의
한국어
마지막 업데이트: 2025년 5월 5일

이런 것을 배울 수 있어요

GPT-4o Vision으로 이미지 분석 AI를 구현할 수 있습니다
Whisper로 실시간 음성 인식 시스템을 구축할 수 있습니다
멀티모달 AI 파이프라인을 설계하고 통합할 수 있습니다

강의 소개

텍스트를 넘어 이미지, 음성, 영상을 동시에 처리하는 멀티모달 AI 시스템을 개발합니다. GPT-4o Vision, Whisper(음성→텍스트), DALL-E 3, Sora API 등 OpenAI의 멀티모달 API를 모두 실습하고, 실제 서비스에 통합하는 방법을 배웁니다. 음성 기반 AI 비서, 이미지 분석 챗봇, 자동 영상 요약 시스템을 완성합니다.

수강 전 알아두세요

  • Python 기초 이상, OpenAI API 사용 경험
  • OpenAI API 키 (유료)

태그

#GPT-4o#Whisper#DALL-E#멀티모달#Vision API
₩139,000
₩220,000
Maroa - 국내 No.1 AI 전문 강의 플랫폼