반응형

IT 138

파이썬에서 ffmpeg 사용하기(ffmpeg-python, 각종 예제)

ffmpeg-python은 FFmpeg을 Python에서 사용할 수 있게 하는 파이썬 래퍼(Wrapper) 라이브러리입니다. FFmpeg은 다양한 멀티미디어 작업을 수행할 수 있는 강력한 오픈 소스 멀티미디어 프레임워크로, 오디오 및 비디오 파일의 변환, 편집, 스트리밍 등 다양한 작업을 지원합니다. ffmpeg-python은 FFmpeg의 기능을 파이썬 코드로 쉽게 사용할 수 있도록 도와줍니다. 이 라이브러리를 사용하면 명령 줄 인터페이스를 직접 사용하지 않고도 Python 코드를 통해 간단하게 멀티미디어 작업을 자동화할 수 있습니다. https://github.com/kkroening/ffmpeg-python GitHub - kkroening/ffmpeg-python: Python bindings f..

IT/개발 2024.02.21

리눅스 파일의 상세정보 확인하기(file, stat 생성, 변경, 수정, 엑세스 정보)

아주 간단한 것 같지만 의외로 잘 모르는 파일 정보 확인 1. file 명령어 file 명령어는 리눅스 및 유닉스 시스템에서 파일의 형식을 식별하는 데 사용되는 유틸리티입니다. 주로 파일이 어떤 종류의 데이터를 포함하고 있는지 확인하거나, 특정 파일이 실행 가능한지 여부를 확인하는 데에 활용됩니다. > file .bashrc .bashrc: UTF-8 Unicode text > file ip ip: ELF 64-bit LSB shared object, x86-64, version 1 (SYSV), dynamically linked, interpreter /lib64/ld-linux-x86-64.so.2, BuildID[sha1]=e3f69be4be359c22ae70df66dea7073ab0af26cf, ..

IT/리눅스 2024.02.15

쉘스크립트로 특정 python 실행 프로세스 죽이기(killall, kill, pgrep)

ps로 프로세스를 확인했을때 아래와 같이 표시되는 프로세스를 어떻게 제거할 수 있을까 ? root 239033 1 99 13:58 pts/5 00:00:04 python3 audio_data.py 위같은 경우는 프로세스이름이 python3 이기 때문에 killall python3 명령어로 죽일수 있으나... 동작중인 다른 python3 프로세스도 다 죽여버리는 결과가 생깁니다. 특정 스크립트나 경로를 가진 프로세스만 종료하고 싶은 경우 killall은 그런 세밀한 제어를 제공하지 않기 때문에 이 경우, 프로세스의 PID(프로세스 ID)를 사용하여 개별 프로세스를 종료할 수 있습니다. 예를 들어, 위에서 보여준 프로세스의 PID는 239033입니다. 이 프로세스를 종료하려면 다음과 같이 kill 명령어를 ..

IT/리눅스 2024.02.07

PCM 파형의 음량크기 측정하기(rms dB, dBFS, 파이썬)

1. 정의 PCM(펄스 코드 변조)은 디지털 오디오 시스템에서 사용되는 일반적인 오디오 샘플링 형식입니다. PCM 음량을 표현하는 데는 RMS dB와 dBFS 두 가지를 많이 이용합니다. (1) RMS dB (루트 평균 제곱 데시벨): RMS dB는 오디오 신호의 진폭(음량)을 측정하는 방법 중 하나로, 소리의 강도를 나타내는데 사용됩니다. 이것은 특정 시간 동안 오디오 신호의 평균 제곱값의 루트에 로그를 적용하여 얻어진 값입니다. RMS dB는 오디오 신호의 상대적인 강도를 표현하며, 보통 음악 및 소리 엔지니어링 분야에서 사용되고 일반적으로 음악의 다이나믹 레인지를 조절하는 데 도움을 줄 수 있습니다. 값의 범위는 -∞ dB에서 0 dB까지이며, 더 큰 값을 가지면 더 높은 음량을 나타냅니다. (하지..

IT/리눅스 2024.01.26

Rocky linux 8 VLC 플레이어 설치하기(+ 기본 프로그램 변경)

리눅스 GUI에서 제공하는 gstreamer 기반 플레이어는 불친절하기 그지 없습니다. 코덱문제도 많고 뭐 되는게 없음 Rocky Linux 8에 VLC를 설치해 보겠습니다. 1. 환경 설정 기본 Repo에는 vlc가 없습니다. 다음을 수행합니다. > dnf install epel-release rpmfusion-free-release 여기저기서 dnf update를 하라고 되어 있는데 해보니 굳이 안해도 관계없이 설치되는 것 같습니다. 2. vlc 설치 > dnf install vlc GPG키 0x2F86D6A1 가져오는 중: 사용자 ID : "Fedora EPEL (8) " 지문: 94E2 79EB 8D8F 25B2 1810 ADF1 21EA 45AB 2F86 D6A1 출처 : /etc/pki/rpm..

IT/리눅스 2023.12.21

chatGPT-4를 이용한 이미지 해석(Image Description, gpt-4-vision)

1. chatGPT-4를 이용한 이미지 해석 이미지를 이해하고 설명할 수 있는 기능 1.1 개요 지금까지 언어 모델 시스템은 단일 입력 양식인 텍스트로만 입력할 수 있다는 한계 이미지 해석 모델 : 비전 기능이 있는 GPT-4에서 지원(GPT-4V, gpt-4-vision-preview) 비전 기능이 있는 GPT-4 이미지 입력을 지원하도록 업데이트된 gpt-4-vision-preview 모델 + Chat completion API를 통해 사용가능 특징 - 이 모델은 이미지에 무엇이 있는지에 대한 일반적인 질문에 가장 잘 응답함 - 이미지 속 사물 간의 관계는 이해 - 이미지 속 특정 사물의 위치, 세부적인 질문에는 부족 - 시각적 이해를 적용할 때 모델의 한계를 염두에 둘 것 1.2 이미지 해석 사용해..

IT/개발 2023.11.28

DALLI-E 모델을 이용한 이미지 수정 및 유사이미지 만들기(chatGPT, OpenAI API)

DALLI-E 모델 설명 참조 https://yongeekd01.tistory.com/144 chatGPT, OpenAI API, DALLI-E 모델을 이용한 이미지 생성 기초 1.1 Image Models 1.1.1 DALL-E 모델 설명 DALL-E는 자연어로 된 설명을 바탕으로 사실적인 이미지와 예술 작품을 만들 수 있는 인공지능 시스템 - dall-e-3 DALL-E : 3 2023년 11월에 출시된 최신 DALL-E 모델 - DALL-E yongeekd01.tistory.com 1.1 이미지 수정 1.1.1 API 설명 기능 : 원본 이미지와 마스크 이미지, 프롬프트가 주어지면 편집된 이미지 또는 확장된 이미지를 생성 사용법 : Request client.images.edit( image=ope..

IT/개발 2023.11.28

chatGPT, OpenAI API, DALLI-E 모델을 이용한 이미지 생성 기초

1.1 Image Models 1.1.1 DALL-E 모델 설명 DALL-E는 자연어로 된 설명을 바탕으로 사실적인 이미지와 예술 작품을 만들 수 있는 인공지능 시스템 - dall-e-3 DALL-E : 3 2023년 11월에 출시된 최신 DALL-E 모델 - DALL-E-2 2022년 11월에 출시된 이전 DALL-E 모델 - 텍스트 프롬프트를 기반으로 처음부터 이미지 생성(DALL-E 3 및 DALL-E 2) - 새 텍스트 프롬프트에 따라 모델이 기존 이미지의 일부 영역을 대체하도록 하여 이미지의 편집된 버전 생성(DALL-E 2만 해당) - 기존 이미지의 변형 만들기(DALL-E 2만 해당) - dall-e-2의 경우 256x256, 512x512, 1024x1024 지원, dall-e-3는 102..

IT/개발 2023.11.28

OpenAI Audio API를 이용한 STT 구현 기초(whisper-1, transcription, English translation)

1.1 Audio Models 1.1.2 whisper-1 모델 설명 Whisper는 범용 음성 인식 모델 (Speech to Text) - 다양한 오디오로 구성된 대규모 데이터셋을 학습하고 다국어 음성 인식은 물론 음성 번역과 언어 식별까지 수행할 수 있는 멀티태스크 모델 - Open source 버전도 있음 (https://github.com/openai/whisper) 모델명 whisper-1 Whisper v2-large 모델도 동일한 이름으로 access 하면 됨 2.1 음성을 문자열로 생성(STT, Speech to Text, transcription) 2.1.1 API 설명 개요 : 오디오를 지정한 언어 텍스트로 변환 사용법 : Request audio_file = open("speech.m..

IT/개발 2023.11.28
반응형