במדריך הזה נסביר איך לבנות מודל של למידת מכונה (ML) באמצעות הנחיות בשפה טבעית עם Data Science Agent של Colab Enterprise.
במדריך הזה, תבנו מודל ML כדי לחזות מכירות של משקאות חריפים באמצעות מערך הנתונים הציבורי של מכירות קמעונאיות של משקאות חריפים באיווה. הסוכן מבוסס-AI מאפשר לכם להשתמש בהנחיות בשפה טבעית כדי לכתוב קוד, להסביר אותו ולפתור בעי��ת בקוד ישירות בתוך מחברת, וכך להאיץ את תהליכי העבודה שלכם בתחום מדעי הנתונים.
המדריך הזה מיועד לאנשים שעוסקים בנתונים.
מטרות
במדריך הזה תלמדו איך להשתמש בסוכן Data Science כדי לבצע את המשימות הבאות:
- לבצע ניתוח נתונים למטרת מחקר (EDA) של מערך הנתונים הציבורי של מכירות קמעונאיות של משקאות חריפים באיווה כדי להבין את התפלגות הנתונים, לבדוק אם יש ערכים חסרים ולאמת את איכות הנתונים הכוללת.
- כאן אפשר לראות את החנויות שמכרו הכי הרבה גלונים של אלכוהול מכל המוצרים.
- ליצור, לאמן ולהעריך מודל לחיזוי מכירות של משקאות חריפים באמצעות BigQuery ML.
- יצירה וסיכום של תובנות מרכזיות וביצועי המודל.
עלויות
במסמך הזה משתמשים ברכיבים הבאים של Google Cloud, והשימוש בהם כרוך בתשלום:
כדי להעריך את ההוצאות בהתאם לתחזית השימוש שלכם, אתם יכולים להיעזר במחשבון העלויות.
כשמסיימים את המשימות שמתוארות במסמך הזה אפשר למחוק את המשאבים שיצרתם כדי להימנע מחיובים נוספים. מידע נוסף זמין בקטע הסרת המשאבים.
לפני שמתחילים
- נכנסים לחשבון Google Cloud . אם אתם משתמשים חדשים ב- Google Cloud, צרו חשבון כדי שתוכלו להעריך את הביצועים של המוצרים שלנו בתרחישים מהעולם האמיתי. לקוחות חדשים מקבלים בחינם גם קרדיט בשווי 300$ להרצה, לבדיקה ולפריסה של עומסי העבודה.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
מפעילים את ממשקי ה-API של BigQuery, Gemini for Google Cloud, Dataform ו-Compute Engine.
תפקידים שנדרשים להפעלת ממשקי API
כדי להפעיל ממשקי API, צריך את תפקיד ה-IAM 'אדמין של Service Usage' (
roles/serviceusage.serviceUsageAdmin), שכולל את ההרשאהserviceusage.services.enable. איך מקצים תפקידיםבפרויקטים חדשים, BigQuery API מופעל באופן אוטומטי.
התפקידים הנדרשים
אם יצרתם פרויקט חדש, יש לכם את כל ההרשאות הנדרשות כדי להשלים את המדריך הזה. אם אתם משתמשים בפרויקט קיים, אתם צריכים לבקש מהאדמין להקצות לכם את התפקידים הבאים.
הרשאות ליצירה ולהרצה של מחברות
כדי לקבל את ההרשאות שנדרשות ליצירה ולהרצה של מחברות, צריך לבקש מהאדמין להקצות לכם את תפקיד ה-IAM BigQuery Studio User (roles/bigquery.studioUser) בפרויקט.
כדי לקרוא הסבר על מתן תפקידים, ראו איך מנהלים את הגישה ברמת הפרויקט, התיקייה והארגון.
יכול להיות שאפשר לקבל את ההרשאות הנדרשות גם באמצעות תפקידים בהתאמה אישית או תפקידים מוגדרים מראש.
כדי לראות את ההרשאות שנדרשות ליצירה ולהרצה של מחברות, אפשר לעיין בשלבי ההגדרה בדף יצירת מחברות.
מידע נוסף על ניהול זהויות והרשאות גישה (IAM) ב-BigQuery זמין במאמר בקרת גישה באמצעות IAM.
יצירת notebook של Colab Enterprise וחיבור לסביבת זמן ריצה
מחברות Colab Enterprise הן נכסי קוד של BigQuery Studio שמופעלים על ידי Dataform. אפשר להשתמש במחברות כדי להשלים ניתוחים ותהליכי עבודה של ML באמצעות SQL, Python וחבילות וממשקי API נפוצים אחרים.
כדי ליצור מחברת חדשה ולחבר אותה אל סביבת זמן הריצה שמוגדרת כברירת מחדל, פועלים לפי השלבים הבאים:
עוברים לדף BigQuery.
בחלונית הימנית, מרחיבים את הפרויקט ואז לוחצים על מחברות.
לוחצים על תיקיית Notebook חדשה > תיקיית Notebook ריקה.
לוחצים על Save.
כדי לראות את הנוטבוק החדש, לוחצים על הכרטיסייה Notebooks (נוטבוקים). יכול להיות שתצטרכו ללחוץ על רענון רענון .
במחברת ללא שם, לוחצים על more_vert Open actions (פתיחת פעולות) ואז בוחרים באפשרות Rename (שינוי שם).
בשדה שם המחברת, מזינים
predict_liquor_salesולוחצים על שינוי ��ש��.��וחצים על הכרטיסייה
predict_liquor_sales.בסרגל הכלים של ה-Notebook, לוחצים על Connect (התחברות) כדי לחבר את ה-Notebook לסביבת זמן הריצה שמוגדרת כברירת מחדל.
שימוש ב-Data Science Agent לניתוח הנתונים
ה-Data Science Agent הוא עוזר מבוסס-Gemini שיכול לכתוב, להסביר ולפתור בעיות בקוד ישירות בתוך המחברת. הוא יכול לעזור לכם במשימות שונות, החל מניתוח נתונים ראשוני ועד ליצירת תחזיות וחיזויים של למידת מכונה, כולל:
- יצירת תוכניות. יצירת תוכנית מפורטת לפתרון בעיה במדעי הנתונים.
- ניקוי נתונים וחיפוש תובנות בנתונים. לזהות ערכים חסרים, חריגים ולהציג את ההתפלגויות.
- הנדסת פיצ'רים (feature engineering). להמיר פיצ'רים קטגוריים וליצור פיצ'רים חדשים.
- אימון והערכה של מודלים. לאמן מודלים כמו רגרסיה לינארית או יער אקראי ולהשוות את הביצועים שלהם.
במדריך הזה משתמשים ב-Data Science Agent כדי לנתח נתונים במערך הנתונים הציבורי של מכירות קמעונאיות של משקאות חריפים באיווה, וכדי ליצור מודל לחיזוי מכירות של משקאות חריפים.
כדי להשתמש ב-Data Science Agent לניתוח הנתונים, פועלים לפי השלבים הבאים:
במחברת
predict_liquor_sales, אם חלון הצ'אט עם Gemini לא פתוח, לוחצים על spark החלפת המצב של Gemini ב-Colab כדי לפתוח את תיבת הדו-שיח של הצ'אט.בממשק הצ'אט, מזינים את ההנחיה הבאה:
Analyze the liquor sales data from bigquery-public-data.iowa_liquor_sales.sales by performing exploratory data analysis. Find the stores that sold the most gallons of alcohol across all products. Then, create a model that predicts liquor sales by store by using BigQuery ML. Visualize the results, evaluate the model, summarize the model's performance, and provide any key insights.מוודאים שהמודל שמוגדר הוא Gemini 3.0 Flash.
לוחצים על שליחה.
בודקים את התוכנית שנוצרה על ידי הסוכן. התוכנית נראית כך:
"ניסחתי תוכנית אסטרטגית אחרי שניתחתי את הבקשה לקבלת נתוני מכירות של משקאות חריפים באיווה. הנתונים מאוחסנים ב-BigQuery וציינתם שאתם רוצים להשתמש ב-BigQuery ML, לכן נתחיל בבדיקת הנתונים, נזהה את החנויות עם הביצועים הכי טובים ואז ניצור מודל רגרסיה כדי לחזות את המכירות. הנה תוכנית פעולה מפורטת:
- ניתוח נתונים ופרופילים: מבצעים ניתוח ראשוני של הטבלה bigquery-public-data.iowa_liquor_sales.sales כדי להבין את פיזור הנתונים, לבדוק אם יש ערכים חסרים ולאמת את איכות הנתונים בעמודות מרכזיות כמו פרטי החנות, נפח המכירות וערך המכירות בדולרים.
- זיהוי החנויות המובילות לפי נפח מכירות: צבירת הנתונים של נפח האלכוהול הכולל שנמכר בכל חנות בכל המוצרים, וזיהוי החנויות עם הביצועים הכי טובים.
- הכנת הנתונים: צריך לצבור את נתוני המכירות של משקאות חריפים לפי חנות ולבחור תכונות רלוונטיות למודל החיזוי.
- פיתוח מודל: אימון מודל רגרסיה באמצעות BigQuery ML כדי לחזות את מכירות המשקאות החריפים בכל חנות.
- הערכת המודל: הערכת הביצועים של המודל שאומן באמצעות מדדי רגרסיה סטנדרטיים.
- חיזוי באמצעות המודל: יצירת תחזיות לגבי מכירות משקאות חריפים באמצעות המודל שאומן.
- תצוגה חזותית: יוצרים תרשים פיזור להשוואה בין מכירות המשקאות החריפים החזויות לבין הערכים בפועל, כדי להעריך באופן חזותי את הדיוק של המודל.
- סיום המשימה: סכם את הביצועים של המודל, ספק תובנות חשובות לגבי מכירות בחנות הפיזית, וסכם את הניתוח.
אחרי שבודקים את התוכנית, לוחצים על אישור והפעלה. הסוכן יוצר את תת-המשימה הראשונה: בדיקה של הנתונים ויצירת פרופיל שלהם. הסוכן מושהה עד שתבדקו ותאשרו את הקוד. אם הסוכן מחכה לקלט של משתמשים, התאים שנוצרו מוצגים עם רקע ירוק.
בודקים את תא הקוד שנוצר ואת ההסבר שסיפק הסוכן.
לוחצים על אישור והרצה. אם הסוכן נתקל בבעיות בגישה שלו, הוא מספק נימוקים לגבי אופן תיקון הבעיה ומבקש ממך לאשר את הקוד ששונה.
בודקים את הפלט בתא הקוד.
מתחת לתוצאות, הסוכן יוצר תא חדש כדי להשלים את תת-המשימה הבאה: מציאת החנויות עם מכירות המשקאות החריפים הגבוהות ביותר.
בודקים את קוד ה-SQL שנוצר, שמבצע שאילתה על הנתונים כדי למצוא את החנויות המובילות לפי מספר גלוני האלכוהול שנמכרו. כדי לבדוק את ההיגיון של הסוכן, אפשר לעיין בתא הטקסט Reasoning שמעל הקוד. אם אתם בטוחים שהקוד נכון, לוחצים על אישור והפעלה.
בודקים את תוצאות השאילתה בפלט של התא. התוצאות אמורות להיראות כך:
בודקים את הקוד ואת ההסבר שנוצרו על ידי הסוכן למשימת המשנה הבאה: הכנת הנתונים לאימון המודל.
אחרי שמוודאים שקוד ה-SQL נכון, לוחצים על אישור והרצה.
בודקים את הפלט בתא הקוד. מופיעה הודעה דומה לזו:
JOB ID 123456 successfully executed.עוברים על הקוד וההסבר שנוצרו על ידי הסוכן למשימת המשנה הבאה: אימון מודל הרגרסיה.
אחרי שמעיינים בקוד ובהסבר, לוחצים על אישור והרצה.
בודקים את הפלט בתא הקוד. מופיעה הודעה דומה לזו:
JOB ID 123456 successfully executed.בודקים את הקוד ואת ההסבר שנוצרו על ידי הסוכן למשימת המשנה הבאה: הערכת המודל.
אחרי שמעיינים בקוד ובהסבר, לוחצים על אישור והרצה.
בודקים את הפלט בתא הקוד.
בודקים את הקוד ואת ההסבר שנוצרו על ידי הסוכן למשימת המשנה הבאה: יצירת תחזיות.
אחרי שמעיינים בקוד ובהסבר, לוחצים על אישור והרצה.
בודקים את הפלט בתא הקוד. מופיעה הודעה דומה לזו:
JOB ID 123456 successfully executed.אחרי שהשאילתה מופעלת, הסוכן יוצר תא קוד למשימת המשנה הבאה: הדמיה של הנתונים.
אחרי שמעיינים בקוד ובהסבר, לוחצים על אישור והרצה.
בודקים את הפלט בתא הקוד. יוצג תרשים שבו מוצגות מכירות בפועל של משקאות חריפים לעומת מכירות צפויות. התרשים אמור להיראות כך:
אחרי שהתרשים נוצר, הסוכן יוצר סיכום של התוצאות עם ממצאים ותובנות מרכזיים.
אחרי שמעיינים בסיכום, לוחצים על אישור כדי להשלים את התוכנית.
הסרת המשאבים
כדי להימנע מחיובים בחשבון Google Cloud בגלל השימוש במשאבים שנעשה במסגרת המדריך הזה, אפשר למחוק את הפרויקט שמכיל את המשאבים, או להשאיר את הפרויקט ולמחוק את המשאבים בנפרד.
כדי להימנע מחיובים בחשבון Google Cloud על המשאבים שבהם השתמשתם במדריך הזה, אתם יכולים למחוק את מחברת ה-notebook שיצרתם. כדי למחוק את המחברת:עוברים לדף BigQuery.
בחלונית הימנית, מרחיבים את הפרויקט ואז לוחצים על מחברות.
במחברת
predict_liquor_sales, לוחצים על more_vert Open actions (פתיחת פעולות) ואז בוחרים באפשרות Delete (מחיקה).לוחצים על מחיקה כדי להסיר את המחברת.
המאמרים הבאים
- מידע נוסף על היכולות של סוכן מדעי הנתונים
- מידע נוסף על מחברות Colab Enterprise ב-BigQuery
- אפשר לקרוא את המאמר בנושא Gemini ב-BigQuery.