ייצוא תוצאות של שאילתות ל-Amazon S3
במאמר הזה מוסבר איך לייצא את התוצאה של שאילתה שמופעלת על טבלת BigLake לקטגוריה של Amazon Simple Storage Service (Amazon S3).
מידע על זרימת הנתונים בין BigQuery ל-Amazon S3 זמין במאמר זרימת נתונים כשמייצאים נתונים.
מגבלות
רשימה מלאה של המגבלות שחלות על טבלאות BigLake שמבוססות על Amazon S3 ו-Blob Storage מופיעה במאמר בנושא מגבלות.
לפני שמתחילים
ודאו שיש לכם את מקורות המידע הבאים:
- חיבור לגישה לקטגוריית Amazon S3.
- טבלת Amazon S3 BigLake.
- המדיניות הנכונה של ניהול זהויות והרשאות גישה (IAM) ב-Amazon Web Services (AWS):
- צריכה להיות לכם הרשאה
PutObjectלכתוב נתונים בקטגוריית Amazon S3. מידע נוסף זמין במאמר יצירת מדיניות AWS IAM ל-BigQuery.
- צריכה להיות לכם הרשאה
- אם אתם משתמשים במודל התמחור לפי נפח, אתם צריכים לוודא שהפעלתם את BigQuery Reservation API בפרויקט. מידע על התמחור זמין במאמר בנושא תמחור BigQuery Omni.
ייצוא תוצאות של שאילתה
BigQuery Omni כותב למיקום שצוין ב-Amazon S3 ללא קשר לתוכן קיים. שאילתת הייצוא יכולה לדרוס נתונים קיימים או לערבב את תוצאת השאילתה עם נתונים קיימים. מומלץ לייצא את תוצאת השאילתה לקטגוריית Amazon S3 ריקה.
כדי להריץ שאילתה, בוחרים אחת מהאפשרויות הבאות:
SQL
בשדה Query editor (עורך השאילתות), מזינים שאילתת ייצוא ב-GoogleSQL. GoogleSQL היא התחביר שמוגדר כברירת מחדל במסוף Google Cloud .
במסוף Google Cloud , עוברים לדף BigQuery.
מזינים את ההצהרה הבאה בעורך השאילתות:
EXPORT DATA WITH CONNECTION `CONNECTION_REGION.CONNECTION_NAME` OPTIONS(uri="s3://BUCKET_NAME/PATH", format="FORMAT", ...) AS QUERY
מחליפים את מה שכתוב בשדות הבאים:
-
CONNECTION_REGION: האזור שבו נוצר החיבור. -
CONNECTION_NAME: שם החיבור שיצרתם עם ההרשאה הנדרשת לכתיבה לקטגוריה של Amazon S3. -
BUCKET_NAME: קטגוריית Amazon S3 שבה רוצים לכתוב את הנתונים. -
PATH: הנתיב שבו רוצים לכתוב את הקובץ המיוצא. היא חייבת להכיל בדיוק תו כללי אחד*בכל מקום בספריית העלים של מחרוזת הנתיב, למשל../aa/*,../aa/b*c,../aa/*bcו-../aa/bc*. BigQuery מחליף את*ב-0000..Nבהתאם למספר הקבצים שמיוצאים. מערכת BigQuery קובעת את מספר הקבצים והגדלים שלהם. אם מערכת BigQuery מחליטה לייצא שני קבצים, הערך*בשם הקובץ הראשון מוחלף ב-000000000000, והערך*בשם הקובץ השני מוחלף ב-000000000001. -
FORMAT: הפורמטים הנתמכים הםJSON,AVRO,CSVו-PARQUET. -
QUERY: השאילתה לניתוח הנתונים שמאוחסנים בטבלת BigLake. מערך הנתונים שמכיל את טבלת BigLake שמשמשת בשאילתה צריך להיות ממוקם באותו אזור Amazon S3 כמו קטגוריית היעד של Amazon S3. לוחצים על הפעלה.
-
מידע נוסף על הרצת שאילתות זמין במאמר הרצת שאילתה אינטראקטיבית.
Java
לפני שמנסים את הדוגמה הזו, צריך לפעול לפי Javaהוראות ההגדרה שבמדריך למתחילים של BigQuery באמצעות ספריות לקוח. מידע נוסף מופיע במאמרי העזרה של BigQuery Java API.
כדי לבצע אימות ב-BigQuery, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לספריות לקוח.
פתרון בעיות
אם מופיעה שגיאה שקשורה ל-quota failure, צריך לבדוק אם הזמנתם קיבולת לשאילתות שלכ��. ��ידע נוסף ��ל ה��מנת מ��בצות זמין בקטע לפני שמתחילים במאמר הזה.
המאמרים הבאים
- מידע נוסף על BigQuery Omni
- איך מייצאים נתונים מטבלה
- איך שולפים נתונים שמאוחסנים ב-Amazon S3
- איך מגדירים את VPC Service Controls ל-BigQuery Omni