IT 썸네일형 리스트형 Rocky linux 8 VLC 플레이어 설치하기(+ 기본 프로그램 변경) 리눅스 GUI에서 제공하는 gstreamer 기반 플레이어는 불친절하기 그지 없습니다. 코덱문제도 많고 뭐 되는게 없음 Rocky Linux 8에 VLC를 설치해 보겠습니다. 1. 환경 설정 기본 Repo에는 vlc가 없습니다. 다음을 수행합니다. > dnf install epel-release rpmfusion-free-release 여기저기서 dnf update를 하라고 되어 있는데 해보니 굳이 안해도 관계없이 설치되는 것 같습니다. 2. vlc 설치 > dnf install vlc GPG키 0x2F86D6A1 가져오는 중: 사용자 ID : "Fedora EPEL (8) " 지문: 94E2 79EB 8D8F 25B2 1810 ADF1 21EA 45AB 2F86 D6A1 출처 : /etc/pki/rpm.. 더보기 chatGPT-4를 이용한 이미지 해석(Image Description, gpt-4-vision) 1. chatGPT-4를 이용한 이미지 해석 이미지를 이해하고 설명할 수 있는 기능 1.1 개요 지금까지 언어 모델 시스템은 단일 입력 양식인 텍스트로만 입력할 수 있다는 한계 이미지 해석 모델 : 비전 기능이 있는 GPT-4에서 지원(GPT-4V, gpt-4-vision-preview) 비전 기능이 있는 GPT-4 이미지 입력을 지원하도록 업데이트된 gpt-4-vision-preview 모델 + Chat completion API를 통해 사용가능 특징 - 이 모델은 이미지에 무엇이 있는지에 대한 일반적인 질문에 가장 잘 응답함 - 이미지 속 사물 간의 관계는 이해 - 이미지 속 특정 사물의 위치, 세부적인 질문에는 부족 - 시각적 이해를 적용할 때 모델의 한계를 염두에 둘 것 1.2 이미지 해석 사용해.. 더보기 DALLI-E 모델을 이용한 이미지 수정 및 유사이미지 만들기(chatGPT, OpenAI API) DALLI-E 모델 설명 참조 https://yongeekd01.tistory.com/144 chatGPT, OpenAI API, DALLI-E 모델을 이용한 이미지 생성 기초 1.1 Image Models 1.1.1 DALL-E 모델 설명 DALL-E는 자연어로 된 설명을 바탕으로 사실적인 이미지와 예술 작품을 만들 수 있는 인공지능 시스템 - dall-e-3 DALL-E : 3 2023년 11월에 출시된 최신 DALL-E 모델 - DALL-E yongeekd01.tistory.com 1.1 이미지 수정 1.1.1 API 설명 기능 : 원본 이미지와 마스크 이미지, 프롬프트가 주어지면 편집된 이미지 또는 확장된 이미지를 생성 사용법 : Request client.images.edit( image=ope.. 더보기 chatGPT, OpenAI API, DALLI-E 모델을 이용한 이미지 생성 기초 1.1 Image Models 1.1.1 DALL-E 모델 설명 DALL-E는 자연어로 된 설명을 바탕으로 사실적인 이미지와 예술 작품을 만들 수 있는 인공지능 시스템 - dall-e-3 DALL-E : 3 2023년 11월에 출시된 최신 DALL-E 모델 - DALL-E-2 2022년 11월에 출시된 이전 DALL-E 모델 - 텍스트 프롬프트를 기반으로 처음부터 이미지 생성(DALL-E 3 및 DALL-E 2) - 새 텍스트 프롬프트에 따라 모델이 기존 이미지의 일부 영역을 대체하도록 하여 이미지의 편집된 버전 생성(DALL-E 2만 해당) - 기존 이미지의 변형 만들기(DALL-E 2만 해당) - dall-e-2의 경우 256x256, 512x512, 1024x1024 지원, dall-e-3는 102.. 더보기 OpenAI Audio API를 이용한 STT 구현 기초(whisper-1, transcription, English translation) 1.1 Audio Models 1.1.2 whisper-1 모델 설명 Whisper는 범용 음성 인식 모델 (Speech to Text) - 다양한 오디오로 구성된 대규모 데이터셋을 학습하고 다국어 음성 인식은 물론 음성 번역과 언어 식별까지 수행할 수 있는 멀티태스크 모델 - Open source 버전도 있음 (https://github.com/openai/whisper) 모델명 whisper-1 Whisper v2-large 모델도 동일한 이름으로 access 하면 됨 2.1 음성을 문자열로 생성(STT, Speech to Text, transcription) 2.1.1 API 설명 개요 : 오디오를 지정한 언어 텍스트로 변환 사용법 : Request audio_file = open("speech.m.. 더보기 OpenAI Audio API를 이용한 TTS 구현 기초(tts-1, tts-1-hd) 1.1 Audio Models 1.1.1 tts-1, tts-1-hd 모델 설명 https://platform.openai.com/docs/models/tts 텍스트를 음성으로 변환하는 AI 모델 - tts-1 : 스피드에 최적화 - tts-1-hd : 품질에 최적화 MODEL DESCRIPTION tts-1 Text-to-speech 1 The latest text to speech model, optimized for speed. tts-1-hd Text-to-speech 1 HD The latest text to speech model, optimized for quality. 6개의 빌트인 음성 제공 alloy, echo, fable, onyx, nova, and shimmer - 작성된 블로그 .. 더보기 OpenAI API 이용 개발 기초(소개, API 사용준비, 기본모델들, ChatGTP) 1. Open AI API 소개 OpenAI API는 거의 모든 작업에 적용 가능 . 다양한 기능과 가격대의 다양한 모델을 제공할 뿐만 아니라 맞춤형 모델을 미세 조정할 수 있는 기능도 제공함 OpenAI에서는 현재 API를 이용하여 개발 가능한 다양한 응용을 제시한다 참고 : Introduction - OpenAI API 2. 사용가능한 Open AI 모델들 24/05/21 updateMODELDESCRIPTIONGPT-4o 가장 빠르고 경제적인 플래그십 모델 GPT-4 and GPT-4 TurboGPT-4 및 GPT-4 터보 GPT-3.5를 개선하여 자연어 또는 코드를 이해하고 생성할 수 있는 모델 세트GPT-3.5 Turbo간단한 작업을 위한 빠르고 저렴한 모DALL·EDALL-E 자연어 프롬프트.. 더보기 오디오 raw PCM 데이터에 wav header 생성 하기(파이썬) 미디어를 다루다보면 raw pcm data를 처리하는 경우가 많이 있습니다. pcm 자체는 헤더 정보가 없기 때문에 재생을 하기 위해서는 sample rate와 sample 당 byte 수 channel 정보등을 알아야 합니다. 따라서 raw pcm을 플레이어에서 바로 재생하기 위해 wav header를 추가하여 wav 파일로 만들어 주어야 합니다. 이때 wav header는 단순히 오디오의 재생정보를 포함하고 있습니다. 기본적으로 44 byte이고 이외 확장형태들도 있습니다. https://www.mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/WAVE.html Wave File Specifications Audio File Format Specifications F.. 더보기 이전 1 ··· 4 5 6 7 8 9 10 ··· 17 다음