본문 바로가기

반응형

IT

DALLI-E 모델을 이용한 이미지 수정 및 유사이미지 만들기(chatGPT, OpenAI API) DALLI-E 모델 설명 참조 https://yongeekd01.tistory.com/144 chatGPT, OpenAI API, DALLI-E 모델을 이용한 이미지 생성 기초 1.1 Image Models 1.1.1 DALL-E 모델 설명 DALL-E는 자연어로 된 설명을 바탕으로 사실적인 이미지와 예술 작품을 만들 수 있는 인공지능 시스템 - dall-e-3 DALL-E : 3 2023년 11월에 출시된 최신 DALL-E 모델 - DALL-E yongeekd01.tistory.com 1.1 이미지 수정 1.1.1 API 설명 기능 : 원본 이미지와 마스크 이미지, 프롬프트가 주어지면 편집된 이미지 또는 확장된 이미지를 생성 사용법 : Request client.images.edit( image=ope.. 더보기
chatGPT, OpenAI API, DALLI-E 모델을 이용한 이미지 생성 기초 1.1 Image Models 1.1.1 DALL-E 모델 설명 DALL-E는 자연어로 된 설명을 바탕으로 사실적인 이미지와 예술 작품을 만들 수 있는 인공지능 시스템 - dall-e-3 DALL-E : 3 2023년 11월에 출시된 최신 DALL-E 모델 - DALL-E-2 2022년 11월에 출시된 이전 DALL-E 모델 - 텍스트 프롬프트를 기반으로 처음부터 이미지 생성(DALL-E 3 및 DALL-E 2) - 새 텍스트 프롬프트에 따라 모델이 기존 이미지의 일부 영역을 대체하도록 하여 이미지의 편집된 버전 생성(DALL-E 2만 해당) - 기존 이미지의 변형 만들기(DALL-E 2만 해당) - dall-e-2의 경우 256x256, 512x512, 1024x1024 지원, dall-e-3는 102.. 더보기
OpenAI Audio API를 이용한 STT 구현 기초(whisper-1, transcription, English translation) 1.1 Audio Models 1.1.2 whisper-1 모델 설명 Whisper는 범용 음성 인식 모델 (Speech to Text) - 다양한 오디오로 구성된 대규모 데이터셋을 학습하고 다국어 음성 인식은 물론 음성 번역과 언어 식별까지 수행할 수 있는 멀티태스크 모델 - Open source 버전도 있음 (https://github.com/openai/whisper) 모델명 whisper-1 Whisper v2-large 모델도 동일한 이름으로 access 하면 됨 2.1 음성을 문자열로 생성(STT, Speech to Text, transcription) 2.1.1 API 설명 개요 : 오디오를 지정한 언어 텍스트로 변환 사용법 : Request audio_file = open("speech.m.. 더보기
OpenAI Audio API를 이용한 TTS 구현 기초(tts-1, tts-1-hd) 1.1 Audio Models 1.1.1 tts-1, tts-1-hd 모델 설명 https://platform.openai.com/docs/models/tts 텍스트를 음성으로 변환하는 AI 모델 - tts-1 : 스피드에 최적화 - tts-1-hd : 품질에 최적화 MODEL DESCRIPTION tts-1 Text-to-speech 1 The latest text to speech model, optimized for speed. tts-1-hd Text-to-speech 1 HD The latest text to speech model, optimized for quality. 6개의 빌트인 음성 제공 alloy, echo, fable, onyx, nova, and shimmer - 작성된 블로그 .. 더보기
OpenAI API 이용 개발 기초(소개, API 사용준비, 기본모델들, ChatGTP) 1. Open AI API 소개 OpenAI API는 거의 모든 작업에 적용 가능 . 다양한 기능과 가격대의 다양한 모델을 제공할 뿐만 아니라 맞춤형 모델을 미세 조정할 수 있는 기능도 제공함 OpenAI에서는 현재 API를 이용하여 개발 가능한 다양한 응용을 제시한다 참고 : Introduction - OpenAI API 2. 사용가능한 Open AI 모델들 MODEL DESCRIPTION GPT-4 and GPT-4 Turbo GPT-4 및 GPT-4 터보 GPT-3.5를 개선하여 자연어 또는 코드를 이해하고 생성할 수 있는 모델 세트 GPT-3.5 GPT-4 및 GPT-4 터보 GPT-3.5를 개선하여 자연어 또는 코드를 이해하고 생성할 수 있는 모델 세트 DALL·E DALL-E 자연어 프롬프트가.. 더보기
오디오 raw PCM 데이터에 wav header 생성 하기(파이썬) 미디어를 다루다보면 raw pcm data를 처리하는 경우가 많이 있습니다. pcm 자체는 헤더 정보가 없기 때문에 재생을 하기 위해서는 sample rate와 sample 당 byte 수 channel 정보등을 알아야 합니다. 따라서 raw pcm을 플레이어에서 바로 재생하기 위해 wav header를 추가하여 wav 파일로 만들어 주어야 합니다. 이때 wav header는 단순히 오디오의 재생정보를 포함하고 있습니다. 기본적으로 44 byte이고 이외 확장형태들도 있습니다. https://www.mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/WAVE.html Wave File Specifications Audio File Format Specifications F.. 더보기
ICMP, Ping을 구현하여 RTT 검사하기(C code) ICMP (Internet Control Message Protocol)은 프로토콜 중 하나로 네트워크 상황을 모니터링하는 기본적인 프로토콜입니다. ICMP는 주로 네트워크 장치 간 통신 문제를 해결하고 네트워크 상태 정보를 전송하는 데 사용됩니다. ICMP 메시지의 몇 가지 일반적인 용도는 다음과 같습니다: 에코 요청 및 응답 (Ping): ICMP를 사용하여 호스트 간 연결성을 테스트하고 대상 호스트로 데이터 패킷을 보내고 응답을 확인합니다. 목적지 불능 알림: ICMP 메시지를 사용하여 목적지 호스트 또는 네트워크가 도달 불능 상태인 것을 확인 할 수 있습니다. TTL 초과: ICMP를 사용하여 IP 패킷이 목적지에 도달하지 못하고 TTL (Time To Live) 값이 0으로 감소할 때 TTL 초.. 더보기
LLM 학습에 사용되는 공개 데이터 (말뭉치, ChatGPT, PaLM, LLaMA 등) 학습에 사용되는 공개 말뭉치 데이터 실제로는 일반적으로 하나의 말뭉치 대신 다양한 데이터 소스를 혼합하여 LLM을 사전 훈련하는 방식 - GPT-3 (175B)는 CommonCrawl, WebText2, Books1, Books2, Wikipedia를 포함한 300B 토큰의 혼합 데이터셋으로 훈련 - PaLM(540B)은 소셜 미디어 대화, 필터링된 웹페이지, 책, Github, 다국어 위키백과, 뉴스에서 가져온 780억 개의 토큰으로 구성된 사전 학습 데이터 세트로 훈련 - LLaMA는 CommonCrawl, C4, 깃허브, 위키피디아, 서적, 아카이브, 스택익스체인지 등 다양한 소스에서 트레이닝 데이터를 추출함. LLaMA(6B) 및 LLaMA(13B)의 훈련 데이터 크기는 1.0T 토큰이며, LLa.. 더보기

반응형