반응형

IT 138

OpenAI Audio API를 이용한 TTS 구현 기초(tts-1, tts-1-hd)

1.1 Audio Models 1.1.1 tts-1, tts-1-hd 모델 설명 https://platform.openai.com/docs/models/tts 텍스트를 음성으로 변환하는 AI 모델 - tts-1 : 스피드에 최적화 - tts-1-hd : 품질에 최적화 MODEL DESCRIPTION tts-1 Text-to-speech 1 The latest text to speech model, optimized for speed. tts-1-hd Text-to-speech 1 HD The latest text to speech model, optimized for quality. 6개의 빌트인 음성 제공 alloy, echo, fable, onyx, nova, and shimmer - 작성된 블로그 ..

IT/개발 2023.11.28

OpenAI API 이용 개발 기초(소개, API 사용준비, 기본모델들, ChatGTP)

1. Open AI API 소개 OpenAI API는 거의 모든 작업에 적용 가능 . 다양한 기능과 가격대의 다양한 모델을 제공할 뿐만 아니라 맞춤형 모델을 미세 조정할 수 있는 기능도 제공함 OpenAI에서는 현재 API를 이용하여 개발 가능한 다양한 응용을 제시한다  참고 : Introduction - OpenAI API 2. 사용가능한 Open AI 모델들 24/05/21 updateMODELDESCRIPTIONGPT-4o 가장 빠르고 경제적인 플래그십 모델 GPT-4 and GPT-4 TurboGPT-4 및 GPT-4 터보 GPT-3.5를 개선하여 자연어 또는 코드를 이해하고 생성할 수 있는 모델 세트GPT-3.5 Turbo간단한 작업을 위한 빠르고 저렴한 모DALL·EDALL-E 자연어 프롬프트..

IT/개발 2023.11.28

오디오 raw PCM 데이터에 wav header 생성 하기(파이썬)

미디어를 다루다보면 raw pcm data를 처리하는 경우가 많이 있습니다. pcm 자체는 헤더 정보가 없기 때문에 재생을 하기 위해서는 sample rate와 sample 당 byte 수 channel 정보등을 알아야 합니다. 따라서 raw pcm을 플레이어에서 바로 재생하기 위해 wav header를 추가하여 wav 파일로 만들어 주어야 합니다. 이때 wav header는 단순히 오디오의 재생정보를 포함하고 있습니다. 기본적으로 44 byte이고 이외 확장형태들도 있습니다. https://www.mmsp.ece.mcgill.ca/Documents/AudioFormats/WAVE/WAVE.html Wave File Specifications Audio File Format Specifications F..

IT/개발 2023.11.22

ICMP, Ping을 구현하여 RTT 검사하기(C code)

ICMP (Internet Control Message Protocol)은 프로토콜 중 하나로 네트워크 상황을 모니터링하는 기본적인 프로토콜입니다. ICMP는 주로 네트워크 장치 간 통신 문제를 해결하고 네트워크 상태 정보를 전송하는 데 사용됩니다. ICMP 메시지의 몇 가지 일반적인 용도는 다음과 같습니다: 에코 요청 및 응답 (Ping): ICMP를 사용하여 호스트 간 연결성을 테스트하고 대상 호스트로 데이터 패킷을 보내고 응답을 확인합니다. 목적지 불능 알림: ICMP 메시지를 사용하여 목적지 호스트 또는 네트워크가 도달 불능 상태인 것을 확인 할 수 있습니다. TTL 초과: ICMP를 사용하여 IP 패킷이 목적지에 도달하지 못하고 TTL (Time To Live) 값이 0으로 감소할 때 TTL 초..

IT/개발 2023.11.08

LLM 학습에 사용되는 공개 데이터 (말뭉치, ChatGPT, PaLM, LLaMA 등)

학습에 사용되는 공개 말뭉치 데이터 실제로는 일반적으로 하나의 말뭉치 대신 다양한 데이터 소스를 혼합하여 LLM을 사전 훈련하는 방식 - GPT-3 (175B)는 CommonCrawl, WebText2, Books1, Books2, Wikipedia를 포함한 300B 토큰의 혼합 데이터셋으로 훈련 - PaLM(540B)은 소셜 미디어 대화, 필터링된 웹페이지, 책, Github, 다국어 위키백과, 뉴스에서 가져온 780억 개의 토큰으로 구성된 사전 학습 데이터 세트로 훈련 - LLaMA는 CommonCrawl, C4, 깃허브, 위키피디아, 서적, 아카이브, 스택익스체인지 등 다양한 소스에서 트레이닝 데이터를 추출함. LLaMA(6B) 및 LLaMA(13B)의 훈련 데이터 크기는 1.0T 토큰이며, LLa..

IT/개발 2023.10.17

docker 컨테이너에서 host web cam 디바이스 사용하기(host video access, video device)

audio device와 마찬가지로 docker host에 연결된 HW를 직접 access 하기 위해서는 device 사용 권한을 docker container로 함께 넘겨 줘야 합니다. 여기서는 비디오 디바이스의 사용 가능 여부를 확인하기 위해서 V4L2를 사용하도록 하겠습니다. Video4Linux2 (V4L2)는 리눅스 커널에서 비디오 캡처 및 비디오 출력 장치와 상호 작용하기 위한 API 및 드라이버 프레임워크입니다. V4L2는 비디오 카메라, 웹캠, TV 튜너, 디지털 비디오 카드 등 다양한 비디오 관련 하드웨어 장치를 제어하는데 사용됩니다. v4l 관련 패키지 설치 apt-get install v4l-utils 1. host에 연결된 usb cam 디바이스 확인 먼저 호스트에서 제대로 인식 되..

IT/리눅스 2023.09.20

리눅스 USB Camera 연결 상태 확인하기(lsusb, v4l2)

이런 저런 이유로 usb 장치가 제대로 인식되고 있는지를 확인해야 할 필요가 있습니다. 여기서는 web cam(usb)을 통한 입력 제어를 할때 현재 cam이 제대로 인식 되고 있는지를 확인하는 방법에 대해서 알아보겠습니다. 1. lsusb를 이용한 방법 usb 관련 패키지 설치 apt-get install usbutils > lsusb 카메라가 인식되고 있음을 확인할 수 있습니다. 2. v4l2 를 이용한 방법 Video4Linux2 (V4L2)는 리눅스 커널에서 비디오 캡처 및 비디오 출력 장치와 상호 작용하기 위한 API 및 드라이버 프레임워크입니다. V4L2는 비디오 카메라, 웹캠, TV 튜너, 디지털 비디오 카드 등 다양한 비디오 관련 하드웨어 장치를 제어하는데 사용됩니다. v4l 관련 패키지 ..

IT/리눅스 2023.09.19

(3) docker 컨테이너에서 host 오디오 디바이스 사용하기(host alsa access, host audio device)

Docker 컨테이너 내에서 호스트의 ALSA(Advanced Linux Sound Architecture)를 직접 제어하려면 몇 가지 설정 및 권한 조정이 필요합니다. ALSA는 호스트 및 컨테이너 간에 공유할 수 있는 특정 디바이스 파일에 의존하기 때문에 권한 문제와 디바이스 파일의 마운트가 필요합니다. 혹시 명령어가 없다면 다음을 설치(우분투) apt-get install alsa-utils (참고) https://yongeekd01.tistory.com/110 (2) 리눅스 오디오 장치 확인 및 소리 재생 하기 (console, alsa, speaker-test, aplay, amixer) 1. 현재 시스템에서 인식되고 있는 오디오 출력 장치 확인 하기 > aplay -l 이 명령어는 현재 연결된..

IT/리눅스 2023.09.15

(2) 리눅스 오디오 장치 확인 및 소리 재생 하기 (console, alsa, speaker-test, aplay, amixer)

1. 현재 시스템에서 인식되고 있는 오디오 출력 장치 확인 하기 > aplay -l 이 명령어는 현재 연결된 오디오 출력 장치 목록을 보여줍니다. 혹시 명령어가 없다면 다음을 설치해주세요. (우분투) apt-get install alsa-utils 제 시스템에서는 HDMI 츨력을 제외하고 스피커 연결이 가능한 기본 장치가 다음 처럼 보이네요. 나머지는 GPU카드에서 지원하는 HDMI 포트틀이 나열됩니다. 0 카드: PCH [HDA Intel PCH], 0 장치: ALC897 Analog [ALC897 Analog] * 디바이스 번호 hw:0,0 2. 기본 장치로의 스피커 출력 시험 > speaker-test -c 2 -c 2는 출력 채널 수 입니다. 이렇게 하면 스피커를 통해 치치치직 하는 노이즈가 출력..

IT/리눅스 2023.09.15

(1) 리눅스에서 오디오 제어를 위한 기초(Alsa, PulseAudio 등 개념)

오늘은 리눅스에서의 사운드와 관련된 주제로 알아볼만한 ALSA와 그 외에도 리눅스에서 사용되는 다른 사운드 시스템들에 대해 이야기해 보려고 합니다. 리눅스를 사용하면서 음악을 듣거나, 동영상을 시청하면서 사운드에 대한 궁금증이 생기신 적 있으신가요? 그러한 궁금증을 해결해 줄 ALSA에 대해 먼저 알아보겠습니다. 1. ALSA 란? ALSA는 'Advanced Linux Sound Architecture'의 줄임말로, 리눅스에서 사운드를 다루는데 필요한 핵심적인 부분입니다. 흔히 우리가 사용하는 다양한 사운드 카드와 잘 호환되게 만들어진 도구들을 모아놓은 패키지라고 생각하시면 됩니다. ALSA는 리눅스 커널의 일부로 채택되어 오디오 하드웨어와 상호 작용하며, 응용 프로그램이 오디오 장치와 통신하도록 해줍..

IT/리눅스 2023.09.15
반응형