transformers

Elasticsearch - Transformers 임베딩 입력 저장 (Local Mode)

개요 엘라스틱서치에서 밀집 벡터 위한 매핑 구성 방법 살펴보기 밀집 벡터가 저장될 embedding 이라는 필드 정의 Python 코드로 엘라스틱서치 코드 구현 코드 전체 시나리오 Elasticsearch에 연결 및 인덱스 초기화 dense_vector 타입으로 매핑 정의 문서 배열 정의 BERT 모델을 이용해 각 문서를 벡터 임베딩 벡터 포함 문서를 Elasticsearch에 색인 Elasticsearch 클라이언트 연결 로컬에서 실행 중인 Elasticsearch 서버에 접속 basic_auth: 로그인 자격 (ID: elastic, PW: 123456) verify_certs=False: 인증서 검증 생략 (로컬에서 SSL 없이 사용 시 편의용) es_admin = Elasticsearch("http://localhost:9200", basic_auth=("elastic", "123456"), verify_certs=False) Mapping 정의 및 인덱스 생성 dense_vector: 벡터 검색용 필드 (벡터 유사도 기반 검색 가능) dims: BERT의 출력 벡터는 기본적으로 768차원이므로 그에 맞춤 mapping = { "properties": { "embedding": { "type": "dense_vector", "dims": 768 # BERT의 출력 벡터 차원 수 } } } 기존 인덱스 삭제 후 새로 생성 기존에 있던 chapter-2 인덱스를 삭제 (중복 방지) 새로운 인덱스를 위에서 정의한 벡터 매핑으로 생성 try: es_admin.

엘라스틱 클라우드에 데이터 추가하기 - 예제 (2025, 06)

CH03 - 데이터 추가 개요 Cloud에 데이터 추가 이전 예제 확인 링크 : https://dschloe.github.io/de/2025/06/elk_install_sample_01/ 파이썬 코드 # 필요한 라이브러리들을 가져옵니다 import time # 시간 지연을 위한 라이브러리 import requests # HTTP 요청을 위한 라이브러리 from bs4 import BeautifulSoup # HTML 파싱을 위한 라이브러리 from elasticsearch import Elasticsearch # Elasticsearch 클라이언트 # ✅ Elastic Cloud 연결 (API 키 인증 방식) # Elastic Cloud의 클러스터에 API 키를 사용하여 연결합니다 # API 키는 사용자명/비밀번호 대신 더 안전한 인증 방식입니다 es = Elasticsearch( "your_cloud_url", # Elastic Cloud 클러스터 URL api_key="your_api_key" # API 키 ) # 저장할 인덱스 이름을 상수로 정의합니다 INDEX_NAME = "evan-elk-search" # ✅ 인덱스 생성 (존재하지 않으면 새로 생성) # Elasticsearch에서 데이터를 저장할 인덱스가 있는지 확인하고, 없으면 새로 생성합니다 if not es.