transformers

개요 엘라스틱서치에서 밀집 벡터 위한 매핑 구성 방법 살펴보기 밀집 벡터가 저장될 embedding 이라는 필드 정의 Python 코드로 엘라스틱서치 코드 구현 코드 전체 시나리오 Elasticsearch에 연결 및 인덱스 초기화 dense_vector 타입으로 매핑 정의 문서 배열 정의 BERT 모델을 이용해 각 문서를 벡터 임베딩 벡터 포함 문서를 Elasticsearch에 색인 Elasticsearch 클라이언트 연결 로컬에서 실행 중인 Elasticsearch 서버에 접속 basic_auth: 로그인 자격 (ID: elastic, PW: 123456) verify_certs=False: 인증서 ��증 생략 (로컬에서 SSL 없이 사용 시 편의용) es_admin = Elasticsearch("http://localhost:9200", basic_auth=("elastic", "123456"), verify_certs=False) Mapping 정의 및 인덱스 생성 dense_vector: 벡터 검색용 필드 (벡터 유사도 기반 검색 가능) dims: BERT의 출력 벡터는 기본적으로 768차원이므로 그에 맞춤 mapping = { "properties": { "embedding": { "type": "dense_vector", "dims": 768 # BERT의 출력 벡터 차원 수 } } } 기존 인덱스 삭제 후 새로 생성 기존에 있던 chapter-2 인덱스를 삭제 (중복 방지) 새로운 인덱스를 위에서 정의한 벡터 매핑으로 생성 try: es_admin.

CH03 - 데이터 추가 개요 Cloud에 데이터 추가 이전 예제 확인 링크 : https://dschloe.github.io/de/2025/06/elk_install_sample_01/ 파이썬 코드 # 필요한 라이브러리들을 가져옵니다 import time # 시간 지연을 위한 라이브러리 import requests # HTTP 요청을 위한 라이브러리 from bs4 import BeautifulSoup # HTML 파싱을 위한 라이브러리 from elasticsearch import Elasticsearch # Elasticsearch 클라이언트 # ✅ Elastic Cloud 연결 (API 키 인증 방식) # Elastic Cloud의 클러스터에 API 키를 사용하여 연결합니다 # API 키는 사용자명/비밀번호 대신 더 안전한 인증 방식입니다 es = Elasticsearch( "your_cloud_url", # Elastic Cloud 클러스터 URL api_key="your_api_key" # API 키 ) # 저장할 인덱스 이름을 상수로 정의합니다 INDEX_NAME = "evan-elk-search" # ✅ 인덱스 생성 (존재하지 않으면 새로 생성) # Elasticsearch에서 데이터를 저장할 인덱스가 있는지 확인하고, 없으면 새로 생성합니다 if not es.

Elasticsearch - Transformers 임베딩 입력 저장 (Local Mode)

엘라스틱 클라우드에 데이터 추가하기 - 예제 (2025, 06)