NEW

멀티모달 AI: GPT-4o와 이미지·음성 처리

GPT-4o Vision + Whisper + DALL-E 3으로 음성·이미지·텍스트 통합 AI 구현

4.8

(392개 후기)

수강생 3,920명

강사:김도현

중급

총 7시간 55분

26개 강의

한국어

마지막 업데이트: 2025년 5월 5일

이런 것을 배울 수 있어요

GPT-4o Vision으로 이미지 분석 AI를 구현할 수 있습니다

Whisper로 실시간 음성 인식 시스템을 구축할 수 있습니다

멀티모달 AI 파이프라인을 설계하고 통합할 수 있습니다

강의 소개

텍스트를 넘어 이미지, 음성, 영상을 동시에 처리하는 멀티모달 AI 시스템을 개발합니다. GPT-4o Vision, Whisper(음성→텍스트), DALL-E 3, Sora API 등 OpenAI의 멀티모달 API를 모두 실습하고, 실제 서비스에 통합하는 방법을 배웁니다. 음성 기반 AI 비서, 이미지 분석 챗봇, 자동 영상 요약 시스템을 완성합니다.

수강 전 알아두세요

•Python 기초 이상, OpenAI API 사용 경험
•OpenAI API 키 (유료)

멀티모달 AI: GPT-4o와 이미지·음성 처리

이런 것을 배울 수 있어요

강의 소개

수강 전 알아두세요

태그

이 강의에 포함된 것

관련 강의

ChatGPT API & LangChain으로 AI 앱 개발

RAG 시스템 구축: LlamaIndex & 벡터 DB

Claude API로 AI 에이전트 개발하기

Stable Diffusion & ComfyUI 이미지 생성 AI