여기서는 google gemini API를 이용하여 vision 모델을 구동 시켜 보는 예제를 살펴 보겠습니다.
API 사용에 대한 기초는 다음을 참고.
https://yongeekd01.tistory.com/179
google gemini API 이용 개발 기초(제미나이 소개, API 사용준비, 모델들, gemini-pro, gemini-pro-vision)
1. Google gemini 소개 1.1 Gemini 개요 제미나이는 구글 AI에서 개발한 멀티모달 기반 대규모 언어 모델입니다. 텍스트, 이미지, 오디오, 동영상, 코드 등 다양한 형태의 정보를 이해하고 처리할 수 있는
yongeekd01.tistory.com
1. gemini-pro-vision 모델 사용 예제
Gemini는 텍스트와 이미지 및 입력을 모두 허용하는 멀티모달 모델(gemini-pro-vision)을 제공합니다. GenerativeModel.generate_content API는 멀티모달 프롬프트를 처리하고 텍스트 출력을 반환할 수 있습니다
gemini-pro-vision 모델을 사용, generate_content를 사용하여 모델에 이미지를 전달하고 그 결과를 확인하는 방법입니다.
처음에는 이미지만 모델에 전달하여 간단한 이미지 설명을 받아내고
두번째는 이미지에 대하여 추가적인 작업을 함께 프롬프트에 넣어 모델에 전달하여 결과를 받아오는 코드입니다.

위와 같이 프롬프트에 텍스트와 이미지를 모두 제공하기 위해 목록을 전달할 수 있습니다.
잘 사용하면 여러가지로 응용할 수 있을 것 같습니다.
'IT > 개발' 카테고리의 다른 글
easyOCR을 이용하여 이미지에서 문자 인식해보기(초간단) (0) | 2024.05.03 |
---|---|
GPT-4 Turbo 성능 및 API 가격 비교(chatGPT4, 타모델과 성능 비교) (0) | 2024.04.11 |
google gemini API text 모델을 이용한 개발 기초(제미나이, gemini-pro) (0) | 2024.04.04 |
google gemini API 이용 개발 기초(제미나이 소개, API 사용준비, 모델들, gemini-pro, gemini-pro-vision) (0) | 2024.04.04 |
youtube-dl을 사용해서 유투브 컨텐츠를 다운로드 해보자 (0) | 2024.03.20 |