본문 바로가기

반응형

IT

chatGPT를 discord bot으로 만들어보자(초간단, 대화기억, chatGPT-4o) 1. discord 서버 생성하기  우선 discord bot이 일을 하기 위한 서버환경을 만들어 줘야 합니다. 하나 생성해볼까요? discord를 실행하고  좌측의 + 버튼을 눌러서 서버를 생성합니다.   서버의 이름을 지정하고 서버 이미지도 간단하게 넣어줍니다.이후 만들기 버튼을 누르면 왼쪽 서버목록에 추가된 것을 볼 수 있습니다.   초대한 사람만 사용할 수 있도록 채널권한을 비공개로 변경해 줍니다.   2. Bot 생성하기  다음 url로 접속해서 application을 생성합니다. https://discord.com/developers/applications   Discord Developer Portal — API Docs for Bots and DevelopersIntegrate your s.. 더보기
pytorch openpose를 사용해보자(초간단, yolov9 연동 결과) OpenPose는 사람의 자세 인식을 위한 오픈 소스 딥러닝 모델 입니다.  이 라이브러리는 단일 이미지나 비디오에서 사람의 뼈대구조에 대한 키포인트를 실시간으로 감지할 수 있습니다.  주로 다음과 같은 기능을 제공합니다.  (1) 다수의 사람 객체 인식   이미지나 비디오에서 여러 사람을 동시에 감지하고 각 사람의 자세를 추출 (2) 다중 키포인트 인식  사람의 신체 부위(어깨, 팔꿈치, 손목, 무릎, 발목 등)와 얼굴, 손의 키포인트를 인식 (3) 실시간 처리  GPU를 활용하여 실시간으로 이미지나 영상에서 사람의 자세를 분석 Body Pose Estimation: 신체의 18개 주요 부위를 감지합니다. Hand Keypoint Detection: 각 손의 21개 키포인트를 감지합니다. 그외에 잘 사.. 더보기
paddle OCR을 이용해서 문자 인식 해보기(easy OCR과 결과 비교) PaddleOCR은 중국어, 한글 등 여러 언어를 지원하는 PaddlePaddle 기반의 OCR 라이브러리입니다. 관련된 작업을 할 일이 있어서 Tesseract OCR, Easy OCR, Paddle OCR 을비교해보고 있는데 결과적으로 paddle OCR이 성능이 상당이 좋네요.  확인해보겠습니다.  1     필요한 패키지 설치 pip install paddlepaddle pip install paddleocr *gpu 사용시 pip install paddlepaddle-gpu  2. 기본 코드 작성  이미지 읽어서 박스치고 아래에 인식된 문자열 출력 하는 코드  from paddleocr import PaddleOCRfrom PIL import Image, ImageDraw, ImageFontim.. 더보기
Ubuntu에서 방화벽 설정하기(우분투 ufw, IP범위, 포트범위) Ubuntu의 방화벽 설정은 ufw와 iptables라는 두 가지 주요 도구를 사용하여 관리할 수 있습니다. ufw는 "Uncomplicated Firewall"의 약자로, 사용이 매우 간단하고 직관적인 반면 iptables는 더 세밀한 제어와 고급 기능을 제공하는 방화벽 도구입니다. * UFW 사용이 간편하고 직관적 간단한 방화벽 설정에 적합 명령어가 쉽고 빠르게 규칙을 추가/삭제 가능 * IPTables 더 세밀한 제어와 고급 기능 제공 복잡한 네트워크 환경에서 유리 다양한 체인과 규칙을 사용하여 복잡한 필터링 가능 두 도구 모두 시스템 보안을 강화하기 위해 매우 유용하지만, 각각의 특성과 장단점을 이해하고 필요에 맞게 선택하는 것이 중요합니다. UFW는 간단한 설정에, IPTables는 고급 설정에.. 더보기
객체 탐지 모델 YOLO의 버전별 라이센스 비교 (MIT, Apache 2.0, GPL-3.0, AGPL-3.0 차이, license) 1.  YOLO 개요 YOLO (You Only Look Once)는 객체 탐지(Object Detection) 분야에서 널리 사용되는 딥러닝 모델입니다. 객체 탐지 모델은 이미지나 비디오 프레임에서 객체의 위치와 종류를 식별하는 데 사용됩니다. YOLO는 그 이름에서 알 수 있듯이 이미지를 한 번에 처리하여 객체를 탐지하는 방식을 사용합니다. 이는 다른 모델들이 사용하는 슬라이딩 윈도우나 영역 제안(region proposal) 방식을 사용하는 것과 대조적입니다 버전별 특성 비교를 보면 다음과 같습니다.  출처 : https://github.com/WongKinYiu/yolov9   2. YOLO의 주요 특징 요약 *속도와 효율성 YOLO는 전체 이미지를 단 한 번의 전진 패스(forward pass).. 더보기
chatGPT-4o를 이용하여 이미지 분석하기(gpt-4-turbo, gpt-4o, Image Description, 이미지 해석 예제코드) 이번에 새로 chatGPT-4o가 발표되었습니다. 이미지를 분석하는 비전기능은 예전에 gpt-4-vision-preview 모델을 통해서 할 수 있었는데 이제는 통합 모델로 나오고 있습니다.  2024.05 현재 OpenAI 에서 Vision 기능을 사용할 수 있는 모델은 다음과 같습니다.  1. GPT Vision 모델     상세한 내용은 다음을 참고 하세요 https://platform.openai.com/docs/models 2. API를 이용하여 이미지 해석 해보기  (1) URL 이미지  온라인 이미지를 url 로 접근해서 해석해보겠습니다.  from openai import OpenAIclient = OpenAI()#URL을 이용하여 이미지 전달 하기 response = client.chat.. 더보기
ChatGPT-4o, GPT-4 Turbo 특성 및 가격 비교(OpenAI API 사용예제) 또 난리가 났네요.  이번에 OpenAI에서 최신 모델을 또 발표 했습니다. 어디까지 발전할까요? 모델을 발표할때마다 API  비용은 계속해서 낮추고 있어 진입 장벽은 점점 낮아지고 있습니다.시장을 다 먹어버리고 올리는건 아닐지.... 의심 일단 GPT-4o 에 대해서 간단히 살펴 보면  "GPT-4o("옴니"의 "o"는 "옴니"를 의미)는 훨씬 더 자연스러운 인간과 컴퓨터 간의 상호작용을 위한 단계로, 텍스트, 오디오, 이미지 및 비디오의 모든 조합을 입력으로 받아들이고 텍스트, 오디오 및 이미지의 모든 조합을 출력으로 생성합니다. 최소 232밀리초, 평균 320밀리초 만에 오디오 입력에 응답할 수 있으며, 이는 대화에서 사람의 응답 시간(새 창에서 열기)과 비슷한 수준입니다. 영어 텍스트 및 코드에 .. 더보기
tesseract OCR을 이용하여 이미지에서 문자 인식해보기(초간단) Tesseract OCR (Optical Character Recognition)은 이미지에서 텍스트를 추출하는 데 사용되는 강력하고 오픈 소스 소프트웨어로 다양한 운영 체제에서 널리 사용되고 있습니다.  Tesseract는 Hewlett-Packard (HP)에서 1985년에 개발이 시작되었으며, 2005년부터는 Google이 개발을 주도하고 있습니다.  1. tesseract 특징  - Tesseract는 100개 이상의 언어를 지원하며, 각 언어에 대한 트레이닝 데이터를 통해 인식 능력을 강화할 수 있습니다. 사용자는 특정 언어를 위한 트레이닝 데이터 파일을 다운로드하여 사용할 수 있습니다. - 사용자는 자신만의 트레이닝 데이터를 생성하여 Tesseract의 인식 능력을 특정 언어나 글꼴에 맞게 조.. 더보기

반응형