'IT/개발' 카테고리의 글 목록 (4 Page)

youtube 컨텐츠 다운로드 하여 일부분만 저장하기(python, pytube, moviepy)

딥러닝으로 영상을 학습하려고 하다보면 영상 데이터를 유투브에서 수집하는 경우가 많습니다. 이럴때 대부분 영상의 이름과 저장할 시간 정보를 annotation 파일로 만들어 놓고 처리하는 경우가 일반적인데요. 영상 데이터 수집을 위해 간단히 구현해보겠습니다. 1. pytube pytube는 YouTube 동영상을 다운로드하기 위한 Python 라이브러리입니다. YouTube 동영상의 URL을 이용해서 다양한 컨텐츠를 다운로드 할 수 있습니다. YouTube 동영상은 한가지로 구성된 것이 아니고 다양한 스트림(예: 오디오만, 비디오만, 비디오 해상도별 등등)으로 구성되어 있습니다. pytube에서는 포함된 스트림을 조회하고 선택적으로 다운로드할 수 있는 기능을 제공합니다. https://pypi.org/pr..

IT/개발 2024.03.20

파이썬으로 날자별로 생성되는 로그 파일 만들기(logging 모듈)

파이썬에서 print 출력을 날짜별로 분리된 파일로 로깅하기 위해서는 로깅(logging) 모듈을 사용하면 됩니다. 로깅 모듈을 사용하면 메시지를 다양한 수준(level)에서 기록할 수 있습니다. 1. 날짜별로 로그 파일을 분리하여 저장하는 방법 TimedRotatingFileHandler를 이용하여 로깅하는 방법도 있지만 여기서는 간단하게 파일명에 날자를 포함하여 저장하는 방법을 사용해서 만들어 보겠습니다. 예를 들어, 2024년 3월 14일에 실행하면 app_2024-03-14.log 파일에 로그가 기록됩니다. 또 다음 날 실행하면 새로운 날짜로 명명된 파일에 로그가 기록되고 기존 파일은 그대로 유지됩니다. 이 방법은 로그 파일이 날짜별로 무한정 생성되기 때문에 주기적인 관리가 필요합니다. impor..

IT/개발 2024.03.14

파이썬에서 ffmpeg 사용하기(ffmpeg-python, 각종 예제)

ffmpeg-python은 FFmpeg을 Python에서 사용할 수 있게 하는 파이썬 래퍼(Wrapper) 라이브러리입니다. FFmpeg은 다양한 멀티미디어 작업을 수행할 수 있는 강력한 오픈 소스 멀티미디어 프레임워크로, 오디오 및 비디오 파일의 변환, 편집, 스트리밍 등 다양한 작업을 지원합니다. ffmpeg-python은 FFmpeg의 기능을 파이썬 코드로 쉽게 사용할 수 있도록 도와줍니다. 이 라이브러리를 사용하면 명령 줄 인터페이스를 직접 사용하지 않고도 Python 코드를 통해 간단하게 멀티미디어 작업을 자동화할 수 있습니다. https://github.com/kkroening/ffmpeg-python GitHub - kkroening/ffmpeg-python: Python bindings f..

IT/개발 2024.02.21

chatGPT-4를 이용한 이미지 해석(Image Description, gpt-4-vision)

1. chatGPT-4를 이용한 이미지 해석 이미지를 이해하고 설명할 수 있는 기능 1.1 개요 지금까지 언어 모델 시스템은 단일 입력 양식인 텍스트로만 입력할 수 있다는 한계 이미지 해석 모델 : 비전 기능이 있는 GPT-4에서 지원(GPT-4V, gpt-4-vision-preview) 비전 기능이 있는 GPT-4 이미지 입력을 지원하도록 업데이트된 gpt-4-vision-preview 모델 + Chat completion API를 통해 사용가능 특징 - 이 모델은 이미지에 무엇이 있는지에 대한 일반적인 질문에 가장 잘 응답함 - 이미지 속 사물 간의 관계는 이해 - 이미지 속 특정 사물의 위치, 세부적인 질문에는 부족 - 시각적 이해를 적용할 때 모델의 한계를 염두에 둘 것 1.2 이미지 해석 사용해..

IT/개발 2023.11.28

DALLI-E 모델을 이용한 이미지 수정 및 유사이미지 만들기(chatGPT, OpenAI API)

DALLI-E 모델 설명 참조 https://yongeekd01.tistory.com/144 chatGPT, OpenAI API, DALLI-E 모델을 이용한 이미지 생성 기초 1.1 Image Models 1.1.1 DALL-E 모델 설명 DALL-E는 자연어로 된 설명을 바탕으로 사실적인 이미지와 예술 작품을 만들 수 있는 인공지능 시스템 - dall-e-3 DALL-E : 3 2023년 11월에 출시된 최신 DALL-E 모델 - DALL-E yongeekd01.tistory.com 1.1 이미지 수정 1.1.1 API 설명 기능 : 원본 이미지와 마스크 이미지, 프롬프트가 주어지면 편집된 이미지 또는 확장된 이미지를 생성 사용법 : Request client.images.edit( image=ope..

IT/개발 2023.11.28

chatGPT, OpenAI API, DALLI-E 모델을 이용한 이미지 생성 기초

1.1 Image Models 1.1.1 DALL-E 모델 설명 DALL-E는 자연어로 된 설명을 바탕으로 사실적인 이미지와 예술 작품을 만들 수 있는 인공지능 시스템 - dall-e-3 DALL-E : 3 2023년 11월에 출시된 최신 DALL-E 모델 - DALL-E-2 2022년 11월에 출시된 이전 DALL-E 모델 - 텍스트 프롬프트를 기반으로 처음부터 이미지 생성(DALL-E 3 및 DALL-E 2) - 새 텍스트 프롬프트에 따라 모델이 기존 이미지의 일부 영역을 대체하도록 하여 이미지의 편집된 버전 생성(DALL-E 2만 해당) - 기존 이미지의 변형 만들기(DALL-E 2만 해당) - dall-e-2의 경우 256x256, 512x512, 1024x1024 지원, dall-e-3는 102..

IT/개발 2023.11.28

OpenAI Audio API를 이용한 STT 구현 기초(whisper-1, transcription, English translation)

1.1 Audio Models 1.1.2 whisper-1 모델 설명 Whisper는 범용 음성 인식 모델 (Speech to Text) - 다양한 오디오로 구성된 대규모 데이터셋을 학습하고 다국어 음성 인식은 물론 음성 번역과 언어 식별까지 수행할 수 있는 멀티태스크 모델 - Open source 버전도 있음 (https://github.com/openai/whisper) 모델명 whisper-1 Whisper v2-large 모델도 동일한 이름으로 access 하면 됨 2.1 음성을 문자열로 생성(STT, Speech to Text, transcription) 2.1.1 API 설명 개요 : 오디오를 지정한 언어 텍스트로 변환 사용법 : Request audio_file = open("speech.m..

IT/개발 2023.11.28

OpenAI Audio API를 이용한 TTS 구현 기초(tts-1, tts-1-hd)

1.1 Audio Models 1.1.1 tts-1, tts-1-hd 모델 설명 https://platform.openai.com/docs/models/tts 텍스트를 음성으로 변환하는 AI 모델 - tts-1 : 스피드에 최적화 - tts-1-hd : 품질에 최적화 MODEL DESCRIPTION tts-1 Text-to-speech 1 The latest text to speech model, optimized for speed. tts-1-hd Text-to-speech 1 HD The latest text to speech model, optimized for quality. 6개의 빌트인 음성 제공 alloy, echo, fable, onyx, nova, and shimmer - 작성된 블로그 ..

IT/개발 2023.11.28

OpenAI API 이용 개발 기초(소개, API 사용준비, 기본모델들, ChatGTP)

1. Open AI API 소개 OpenAI API는 거의 모든 작업에 적용 가능 . 다양한 기능과 가격대의 다양한 모델을 제공할 뿐만 아니라 맞춤형 모델을 미세 조정할 수 있는 기능도 제공함 OpenAI에서는 현재 API를 이용하여 개발 가능한 다양한 응용을 제시한다 참고 : Introduction - OpenAI API 2. 사용가능한 Open AI 모델들 24/05/21 updateMODELDESCRIPTIONGPT-4o 가장 빠르고 경제적인 플래그십 모델 GPT-4 and GPT-4 TurboGPT-4 및 GPT-4 터보 GPT-3.5를 개선하여 자연어 또는 코드를 이해하고 생성할 수 있는 모델 세트GPT-3.5 Turbo간단한 작업을 위한 빠르고 저렴한 모DALL·EDALL-E 자연어 프롬프트..

IT/개발 2023.11.28

오디오 raw PCM 데이터에 wav header 생성 하기(파이썬)

미디어를 다루다보면 raw pcm data를 처리하는 경우가 많이 있습니다. pcm 자체는 헤더 정보가 없기 때문에 재생을 하기 위해서는 sample rate와 sample 당 byte 수 channel 정보등을 알아야 합니다. 따라서 raw pcm을 플레이어에서 바로 재생하기 위해 wav header를 추가하여 wav 파일로 만들어 주어야 합니다. 이때 wav header는 단순히 오디오의 재생정보를 포함하고 있습니다. 기본적으로 44 byte이고 이외 확장형태들도 있습니다. https://www.mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/WAVE.html Wave File Specifications Audio File Format Specifications F..

IT/개발 2023.11.22

빗자루검 블로그

IT/개발 57

티스토리툴바