이번에 새로 chatGPT-4o가 발표되었습니다.
이미지를 분석하는 비전기능은 예전에 gpt-4-vision-preview 모델을 통해서 할 수 있었는데 이제는 통합 모델로 나오고 있습니다.
2024.05 현재 OpenAI 에서 Vision 기능을 사용할 수 있는 모델은 다음과 같습니다.
1. GPT Vision 모델
상세한 내용은 다음을 참고 하세요
https://platform.openai.com/docs/models
2. API를 이용하여 이미지 해석 해보기
(1) URL 이미지
온라인 이미지를 url 로 접근해서 해석해보겠습니다.
'이 그림은 넓은 초원 위에 나무 덱 보드워크가 길게 펼쳐져 있는 풍경을 보여줍니다. 보드워크 양쪽에는 푸르른 잔디와 식물들이 무성하게 자라고 있으며, 멀리에는 나무들이 듬성듬성 서 있습니다. 하늘은 맑고 푸르르며, 곳곳에 흰 구름들이 떠 있습니다. 전체적으로 매우 평화롭고 자연이 아름답게 표현된 장면입니다.'
(2) 파일 업로드
다음에는 이미지 파일을 로드해서 해석해보도록 하겠습니다.
'이 그림은 두 사람이 소파에 앉아 있는 모습입니다. 왼쪽 남자는 검은색 재킷을 입고 있으며 하얀 머그잔을 손에 들고 있고, 오른쪽 여자는 갈색 스카프를 두르고 있으며, 마찬가지로 손에 하얀 머그잔을 들고 있습니다. 두 사람 모두 편안하게 웃고 있습니다. 그들 사이에는 작은 갈색 불독이 앉아 있는 모습도 보입니다. 배경은 나무로 된 벽입니다. 이들은 따뜻하고 편안한 분위기 속에서 휴식을 취하고 있는 것처럼 보입니다.'
GPT4o는 속도가 정말 이전보다 많이 빨라진것 같네요.
앞으로 어떤 모델들이 나올지 기대됩니다.
키등록 및 초기 설정은 다음을 참고하세요.
https://yongeekd01.tistory.com/141
'IT > 개발' 카테고리의 다른 글
paddle OCR을 이용해서 문자 인식 해보기(easy OCR과 결과 비교) (0) | 2024.06.10 |
---|---|
객체 탐지 모델 YOLO의 버전별 라이센스 비교 (MIT, Apache 2.0, GPL-3.0, AGPL-3.0 차이, license) (0) | 2024.05.22 |
ChatGPT-4o, GPT-4 Turbo 특성 및 가격 비교(OpenAI API 사용예제) (0) | 2024.05.16 |
tesseract OCR을 이용하여 이미지에서 문자 인식해보기(초간단) (0) | 2024.05.09 |
easyOCR을 이용하여 이미지에서 문자 인식해보기(초간단) (0) | 2024.05.03 |