פתיחת סוכני האינטרנט של AI: GPT-4V ו-Puppeteer מעצימים גלישה אוטונומית

שחרר סוכני אינטרנט AI חזקים עם GPT-4V ו-Puppeteer! חקור גלישה אוטונומית, מקלטי אינטרנט ומחקר אינטרנט מתוחכם מונע AI. גלה כיצד עוזרים אינטליגנטיים מתקדמים אלה יכולים לחולל מהפכה במשימות, מ-RPA ועד תמיכה בלקוחות.

17 בפברואר 2025

שחרר את כוחו של האוטומציה המונעת על ידי AI באינטרנט עם גישה חדשנית זו המשלבת את GPT-4V ו-Puppeteer. גלה כיצד אתה יכול לבנות סוכן AI שיכול לגלוש באינטרנט, לחלץ נתונים ולבצע משימות מורכבות בקלות, מהפכת את זרימת העבודה שלך ומשחרר אפשרויות חדשות.

שימוש במקרה ובהזדמנויות שוק עבור סוכני אינטרנט מבוססי בינה מלאכותית

אחד הדרכים להתבונן על שימושים פוטנציאליים ואפשרויות שוק עבור סוכני אינטרנט מבוססי בינה מלאכותית הוא לבחון ניסיונות קודמים לבניית מערכות דומות, מגבלותיהן, ואיך טכנולוגיות חדשות או שינויים יכולים לשנות את הדינמיקה.

קטגוריית שוק ישירה אחת היא אוטומציית תהליכים רובוטיים (RPA), שהיא קטגוריה של תוכנה המסייעת לארגונים לבנות בוטים אוטומטיים לטיפול במשימות חוזרות ומתוקננות כמו עיבוד חשבוניות או הזנת נתונים. עם זאת, המגבלות של פתרונות RPA ברורות למדי - הם מתמודדים עם תהליכים שאינם מתוקננים או משתנים בקביעות, ודורשים עלויות הקמה גבוהות עבור כל אוטומציה ספציפית.

לעומת זאת, סוכני אינטרנט מבוססי בינה מלאכותית שיכולים לשלוט ישירות במחשב ובדפדפן מרגשים מכיוון שהם יכולים לטפל בסיטואציות מורכבות הרבה יותר בעלות עלות הקמה נמוכה יותר. במקום לבנות אוטומציות ספציפיות, הסוכן יכול פשוט לנווט באתרים, לחלץ נתונים ולבצע משימות ללא קשר לשינויי פורמט, מכיוון שהסוכן יכול לקבל את ההחלטות הנדרשות.

מעבר לאוטומציה בלבד, סוכנים אלה יכולים גם לעבור מעבר לRPA המסורתי כדי להשלים משימות חכמות יותר כמו תמיכה בלקוחות, מכירות ושיווק. על ידי גישה למערכות נוספות וניצול יכולות קבלת ההחלטות שלהם, ניתן להפעיל את ה"עובדים" האלה של בינה מלאכותית למגוון רחב יותר של שימושים, כולל יישומים לצרכנים בעלי נפח נמוך יותר.

עם זאת, אתגר מרכזי בהספקת פתרונות עובדי בינה מלאכותית שימושיים אינו רק ההבנה הטכנית, אלא גם הידע על תהליכי העבודה מקצה לקצה עבור תפקידים ספציפיים. דוח מחקר מקיף שנערך על ידי Hotspot וסקר למעלה מ-1,400 מנהלי מכירות ברחבי העולם מספק תובנות חשובות על תהליך המכירות המודרני ושימושי בינה מלאכותית, שיכולים להיות מועילים מאוד לבניית סוכני בינה מלאכותית עבור פונקציות מכירות.

לסיכום, ההזדמנויות המרכזיות עבור סוכני אינטרנט מבוססי בינה מלאכותית כוללות:

טיפול במשימות מורכבות יותר ושאינן מתוקננות בהשוואה לRPA מסורתי
הפחתת עלויות הקמה עבור אוטומציות
הרחבה מעבר לאוטומציה בלבד לביצוע משימות חכמות יותר כמו תמיכה בלקוחות ומכירות
ניצול ידע מעמיק על תהליכי עבודה ספציפיים לתפקידים לבניית סוכני בינה מלאכותית יעילים יותר

שני גישות לבניית סוכני אינטרנט מבוססי בינה מלאכותית

גישה 1: סורק אינטרנט מבוסס GPT-4V

השתמש בספריית Node.js כמו Puppeteer כדי לצלם צילומי מסך של דפי אינטרנט ולשלוט בדפדפן האינטרנט.
צור סקריפט Python שקורא לקובץ JavaScript כדי לצלם צילומי מסך ואז משתמש ב-GPT-4V כדי לחלץ נתונים מהצילומים.
הסקריפט Python מגדיר פונקציות להמרת התמונה לבסיס64, לצלם צילומי מסך, ולהשתמש ב-GPT-4V כדי לחלץ מידע מהצילומים.
הסקריפט מחבר את הפונקציות האלה יחד כדי ליצור סורק אינטרנט חזק שיכול לגשת לאתרים שרגילים לחסום שירותי סריקה.

גישה 2: בניית סוכן אינטרנט מבוסס בינה מלאכותית

צור קובץ Node.js שמייבא ספריות שונות ומקים עותק של OpenAI ומשתמש בממשק שורת הפקודה.
יישם פונקציה highlightLinks שמזהה את כל האלמנטים האינטראקטיביים בדף האינטרנט ומוסיפה להם תכונה מיוחדת.
הגדר פונקציה ראשית שיוצרת דפדפן Puppeteer, מקימה הודעת מערכת עבור GPT-4V, ונכנסת למעגל שבו היא:
- מקבלת תגובה מ-GPT-4V בהתבסס על הפקודה של המשתמש ומצב הדף הנוכחי.
- אם התגובה מציינת שיש ללחוץ על קישור, היא מוצאת את האלמנט המתאים ולוחצת עליו.
- אם התגובה מציינת שיש לבקר בכתובת URL חדשה, היא ניווטת לאותה כתובת ומדגישה את הקישורים.
- אם התגובה היא הודעה רגילה, היא מציגה את התוצאה למשתמש.
סוכן האינטרנט המבוסס על בינה מלאכותית הזה יכול לנווט בין אתרים שונים, ללחוץ על קישורים ולבצע משימות מחקר מורכבות על ידי ניצול היכולות של GPT-4V.

שתי הגישות מדגימות כיצד ניתן לנצל מודלי שפה גדולים כמו GPT-4V כדי לבנות כלים חזקים לאוטומציה ומחקר באינטרנט. הגישה הראשונה מתמקדת בסריקת אינטרנט, בעוד שהגישה השנייה יוצרת סוכן אינטרנט אינטראקטיבי יותר שיכול לנווט ולבצע משימות באינטרנט.

בניית מקרצף אינטרנט מופעל GPT-4V

כדי לבנות סורק אינטרנט מבוסס GPT-4V, נשתמש בספריית Node.js בשם Puppeteer כדי לשלוט בדפדפן האינטרנט ולצלם צילומי מסך. להלן מדריך שלב אחר שלב:

צור קובץ חדש בשם screenshot.js וייבא את הספריות הנדרשות:

const puppeteer = require('puppeteer');
const puppeteerExtra = require('puppeteer-extra');

הגדר את כתובת ה-URL שאתה רוצה לסרוק ואת ערך ההמתנה:

const url = 'https://en.wikipedia.org/wiki/Main_Page';
const timeout = 60000; // 60 שניות

צור פונקציה אסינכרונית כדי להפעיל את הדפדפן, לנווט לכתובת ה-URL ולצלם צילום מסך:

async function takeScreenshot() {
  const browser = await puppeteerExtra.launch();
  const page = await browser.newPage();
  await page.setViewport({ width: 1920, height: 1080 });
  await page.goto(url, { waitUntil: 'networkidle0' });
  await page.screenshot({ path: 'screenshot.jpg', fullPage: true });
  await browser.close();
}

בדוגמה זו, אנו משתמשים בתוסף puppeteer-extra כדי להפוך את הדפדפן לפחות ניתן לזיהוי על ידי אתרים.
הפעל את הפונקציה takeScreenshot() כדי לצלם את הצילום:

takeScreenshot();

עכשיו, אתה יכול להריץ את הסקריפט עם node screenshot.js, והוא ישמור צילום מסך של דף הבית של ויקיפדיה לקובץ screenshot.jpg.

לאחר מכן, נייצר סקריפט Python שמשתמש בצילום המסך ו-GPT-4V כדי לחלץ נתונים מהאתר:

צור קובץ חדש בשם vision_scraper.py וייבא את הספריות הנדרשות:

import os
import subprocess
import base64
import openai
from dotenv import load_dotenv

load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")

הגדר פונקציות להמרת התמונה לבסיס64 ולצלם צילום מסך באמצעות הסקריפט screenshot.js:

def image_to_b64(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

def url_to_screenshot(url):
    if os.path.exists("screenshot.jpg"):
        os.remove("screenshot.jpg")
    try:
        subprocess.run(["node", "screenshot.js"], check=True)
        return "screenshot.jpg"
    except subprocess.CalledProcessError:
        return None

צור פונקציה להשתמש ב-GPT-4V כדי לחלץ מידע מהצילום:

def vision_extract(image_b64, prompt):
    response = openai.ChatCompletion.create(
        model="gpt-4",
        messages=[
            {"role": "system", "content": "אתה סורק אינטרנט. תפקידך הוא לחלץ מידע בהתבסס על צילום מסך של אתר אינטרנט והוראות משתמש."},
            {"role": "user", "content": prompt},
            {"role": "user", "content": image_b64}
        ],
        max_tokens=2048,
        n=1,
        stop=None,
        temperature=0.7,
    )
    return response.choices[0].message.content.strip()

קשור את הכל יחד בפונקציית vision_query():

def vision_query(url, prompt):
    screenshot_path = url_to_screenshot(url)
    if screenshot_path:
        image_b64 = image_to_b64(screenshot_path)
        return vision_extract(image_b64, prompt)
    else:
        return "שגיאה: לא ניתן היה לצלם צילום מסך."

כעת אתה יכול להשתמש בפונקציית vision_query() כדי לחלץ מידע מאתר:

result = vision_query("https://www.linkedin.com/in/your-profile-url", "חלץ את מקטע ניסיון העבודה מהפרופיל.")
print(result)

דוגמה זו תצלם צילום מסך של פרופיל LinkedIn הנתון ותשתמש ב-GPT-4V כדי לחלץ את מקטע ניסיון העבודה. אתה יכול להתאים את הפקודה כדי לחלץ סוגים שונים של מידע מהאתר.

שאלות נפוצות

מה המקרה השימושי והזדמנויות השוק עבור מסגרות מחשב עצמאיות שנותנות לGPT-4V שליטה ישירה במחשב?

כיצד ניתן לבנות סוכן AI לשליטה בדפדפן אינטרנט ולבצע משימות מחקר אינטרנט מתוחכמות?

מהם היתרונות של משתמש ב-GPT-4V לעומת שיטות איסוף נתונים מהאינטרנט מסורתיות?

צור את חברת AI שלך

בנה את בן לוויה האידיאלי שלך עם AI Girlfriend Builder שלנו