فتح قفل وكلاء الويب الذكاء الاصطناعي: GPT-4V و Puppeteer تمكن التصفح المستقل

قم بإلغاء قفل وكلاء الويب القوية بالذكاء الاصطناعي باستخدام GPT-4V و Puppeteer! استكشف التصفح المستقل والمكشطات الويب والبحث الويب المتطور بالذكاء الاصطناعي. اكتشف كيف يمكن لهذه المساعدات الذكية المتقدمة أن تحدث ثورة في المهام، من الأتمتة الآلية للمعالجة إلى دعم العملاء.

١٦ فبراير ٢٠٢٥

party-gif

افتح قوة التحكم الآلي بالويب بقيادة الذكاء الاصطناعي باستخدام هذا النهج المبتكر الذي يجمع بين GPT-4V و Puppeteer. اكتشف كيف يمكنك بناء وكيل ذكاء اصطناعي يمكنه تصفح الويب واستخراج البيانات وإنجاز المهام المعقدة بسهولة، مما يثور في طريقة عملك ويفتح آفاقًا جديدة.

حالات الاستخدام والفرص السوقية لوكلاء الويب الذكاء الاصطناعي

إن أحد الطرق لتحليل الاستخدامات المحتملة وفرص السوق لوكلاء الويب القائمين على الذكاء الاصطناعي هو دراسة المحاولات السابقة لبناء أنظمة مماثلة، وقيودها، وكيف يمكن أن تغير التقنيات الجديدة أو التغييرات ديناميكيات السوق.

إحدى فئات السوق المباشرة هي أتمتة العمليات الروبوتية (RPA)، وهي فئة من البرمجيات التي تساعد المؤسسات في بناء بوتات آلية لمعالجة المهام المتكررة والموحدة مثل معالجة الفواتير أو إدخال البيانات. ومع ذلك، فإن قيود حلول RPA واضحة جدًا - فهي تعاني من العمليات غير الموحدة أو المتغيرة باستمرار، وتتطلب تكاليف إعداد عالية لكل أتمتة محددة.

على النقيض من ذلك، فإن وكلاء الويب القائمين على الذكاء الاصطناعي الذين يمكنهم التحكم مباشرة في الكمبيوتر ومتصفح الويب مثيرون للاهتمام لأنهم نظريًا يمكنهم التعامل مع حالات أكثر تعقيدًا بتكلفة إعداد أقل بكثير. بدلاً من بناء أتمتة محددة، يمكن للوكيل ببساطة تصفح مواقع الويب، واستخراج البيانات، وإكمال المهام بغض النظر عن التغييرات في التنسيق، حيث يمكن للوكيل اتخاذ القرارات اللازمة.

وبالإضافة إلى مجرد الأتمتة، يمكن لهذه العوامل الذكية أيضًا أن تتجاوز RPA التقليدية لإكمال مهام أكثر ذكاءً مثل خدمة العملاء والمبيعات والتسويق. من خلال الوصول إلى المزيد من الأنظمة واستخدام قدراتها في اتخاذ القرارات، يمكن نشر هؤلاء "العمال" الذكاء الاصطناعي في مجموعة أوسع من حالات الاستخدام، بما في ذلك التطبيقات الاستهلاكية ذات الحجم الأقل.

ومع ذلك، فإن التحدي الرئيسي في تقديم حلول عمال الذكاء الاصطناعي المفيدة ليس فقط الفهم التقني، ولكن أيضًا معرفة سير العمل الشامل لوظائف محددة. توفر تقرير البحث الحديث الذي أجرته Hotspot والذي شمل أكثر من 1,400 من قادة المبيعات العالميين رؤى قيمة حول سير عمل المبيعات الحديث وحالات استخدام الذكاء الاصطناعي، والتي يمكن أن تكون مفيدة جدًا لبناء وكلاء الذكاء الاصطناعي لوظائف المبيعات.

وبالتلخيص، فإن الفرص الرئيسية لوكلاء الويب القائمين على الذكاء الاصطناعي تشمل:

  • التعامل مع مهام أكثر تعقيدًا وغير موحدة مقارنة بـ RPA التقليدية
  • تقليل تكاليف الإعداد للأتمتة
  • التوسع بعيدًا عن مجرد الأتمتة إلى مهام أكثر ذكاءً مثل خدمة العملاء والمبيعات
  • الاستفادة من المعرفة العميقة لسير العمل لوظائف محددة لبناء وكلاء ذكاء اصطناعي أكثر فعالية

نهجان لبناء وكلاء الويب الذكاء الاصطناعي

النهج 1: مُحلل الويب المُدعوم بـ GPT-4V

  1. استخدم مكتبة Node.js مثل Puppeteer لالتقاط لقطات شاشة لصفحات الويب والتحكم في متصفح الويب.
  2. قم بإنشاء سكريبت Python يدعو الملف JavaScript لالتقاط لقطات الشاشة ثم يستخدم GPT-4V لاستخراج البيانات من لقطات الشاشة.
  3. يُعرِّف السكريبت Python وظائف لتحويل الصورة إلى base64، والتقاط لقطات الشاشة، واستخدام GPT-4V لاستخراج المعلومات من لقطات الشاشة.
  4. يربط السكريبت هذه الوظائف معًا لإنشاء محلل ويب قوي يمكنه الوصول إلى مواقع الويب التي تحظر عادةً خدمات التحليل.

النهج 2: بناء وكيل ويب ذكي

  1. قم بإنشاء ملف Node.js يستورد مكتبات مختلفة ويقوم بإعداد مثيل OpenAI وواجهة سطر الأوامر.
  2. نفذ وظيفة highlightLinks التي تحدد جميع العناصر التفاعلية على صفحة الويب وتضيف سمة خاصة إليها.
  3. حدد وظيفة رئيسية تنشئ متصفح Puppeteer، وتقوم بإعداد رسالة نظام لـ GPT-4V، وتدخل في حلقة حيث:
    • تحصل على استجابة من GPT-4V بناءً على طلب المستخدم وحالة صفحة الويب الحالية.
    • إذا أشارت الاستجابة إلى أنه يجب النقر على رابط، فإنها تجد العنصر المقابل وتنقر عليه.
    • إذا أشارت الاستجابة إلى أنه يجب زيارة عنوان URL جديد، فإنها تنتقل إلى ذلك العنوان وتسلط الضوء على الروابط.
    • إذا كانت الاستجابة رسالة عادية، فإنها تعرض النتيجة للمستخدم.
  4. يمكن لهذا الوكيل الويب الذكي التنقل عبر العديد من مواقع الويب، والنقر على الروابط، وإكمال مهام البحث المعقدة من خلال الاستفادة من قدرات GPT-4V.

يُظهر كلا النهجين كيفية الاستفادة من نماذج اللغة الكبيرة مثل GPT-4V لبناء أدوات أتمتة الويب والبحث القوية. يركز النهج الأول على تحليل الويب، بينما يخلق النهج الثاني وكيلاً ويب تفاعليًا أكثر يمكنه التنقل وإكمال المهام على الويب.

بناء مُحلل ويب مُشغل بـ GPT-4V

لبناء محلل ويب مُدعوم بـ GPT-4V، سنستخدم مكتبة Node.js تُدعى Puppeteer للتحكم في متصفح الويب والتقاط لقطات الشاشة. إليك دليل خطوة بخطوة:

  1. قم بإنشاء ملف جديد يُدعى screenshot.js واستورد المكتبات اللازمة:
const puppeteer = require('puppeteer');
const puppeteerExtra = require('puppeteer-extra');
  1. حدد عنوان URL الذي تريد تحليله وقيمة مهلة:
const url = 'https://en.wikipedia.org/wiki/Main_Page';
const timeout = 60000; // 60 ثانية
  1. قم بإنشاء وظيفة غير متزامنة لتشغيل المتصفح، والانتقال إلى عنوان URL، والتقاط لقطة شاشة:
async function takeScreenshot() {
  const browser = await puppeteerExtra.launch();
  const page = await browser.newPage();
  await page.setViewport({ width: 1920, height: 1080 });
  await page.goto(url, { waitUntil: 'networkidle0' });
  await page.screenshot({ path: 'screenshot.jpg', fullPage: true });
  await browser.close();
}
  1. في هذا المثال، نستخدم إضافة puppeteer-extra لجعل المتصفح أقل قابلية للكشف من قبل مواقع الويب.

  2. قم بتشغيل وظيفة takeScreenshot() لالتقاط لقطة الشاشة:

takeScreenshot();

الآن، يمكنك تشغيل السكريبت باستخدام node screenshot.js، وسيتم حفظ لقطة شاشة لصفحة ويكيبيديا الرئيسية في ملف screenshot.jpg.

بعد ذلك، سنقوم بإنشاء سكريبت Python يستخدم لقطة الشاشة و GPT-4V لاستخراج البيانات من موقع الويب:

  1. قم بإنشاء ملف جديد يُدعى vision_scraper.py واستورد المكتبات اللازمة:
import os
import subprocess
import base64
import openai
from dotenv import load_dotenv

load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")
  1. حدد وظائف لتحويل الصورة إلى base64 وأخذ لقطة شاشة باستخدام سكريبت screenshot.js:
def image_to_b64(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

def url_to_screenshot(url):
    if os.path.exists("screenshot.jpg"):
        os.remove("screenshot.jpg")
    try:
        subprocess.run(["node", "screenshot.js"], check=True)
        return "screenshot.jpg"
    except subprocess.CalledProcessError:
        return None
  1. قم بإنشاء وظيفة لاستخدام GPT-4V لاستخراج المعلومات من لقطة الشاشة:
def vision_extract(image_b64, prompt):
    response = openai.ChatCompletion.create(
        model="gpt-4",
        messages=[
            {"role": "system", "content": "You are a web scraper. Your job is to extract information based on a screenshot of a website and user instructions."},
            {"role": "user", "content": prompt},
            {"role": "user", "content": image_b64}
        ],
        max_tokens=2048,
        n=1,
        stop=None,
        temperature=0.7,
    )
    return response.choices[0].message.content.strip()
  1. قم بربط كل شيء معًا في وظيفة vision_query():
def vision_query(url, prompt):
    screenshot_path = url_to_screenshot(url)
    if screenshot_path:
        image_b64 = image_to_b64(screenshot_path)
        return vision_extract(image_b64, prompt)
    else:
        return "Error: Unable to capture screenshot."
  1. الآن يمكنك استخدام وظيفة vision_query() لاستخراج المعلومات من موقع ويب:
result = vision_query("https://www.linkedin.com/in/your-profile-url", "Extract the work experience section from the profile.")
print(result)

هذا المثال سيأخذ لقطة شاشة للملف الشخصي LinkedIn المحدد واستخدام GPT-4V لاستخراج قسم الخبرة المهنية. يمكنك تخصيص الطلب لاستخراج أنواع مختلفة من المعلومات من موقع الويب.

التعليمات