Разблокировка веб-агентов на основе ИИ: GPT-4V и Puppeteer расширяют возможности автономного веб-серфинга

Откройте для себя мощных веб-агентов на основе ИИ с помощью GPT-4V и Puppeteer! Исследуйте автономный веб-серфинг, веб-скрейперы и сложные ИИ-ориентированные веб-исследования. Узнайте, как эти передовые ИИ-помощники могут революционизировать задачи, от RPA до поддержки клиентов.

14 февраля 2025 г.

Раскройте силу веб-автоматизации, управляемой ИИ, с помощью этого инновационного подхода, сочетающего GPT-4V и Puppeteer. Узнайте, как вы можете создать агента ИИ, который может просматривать веб-страницы, извлекать данные и выполнять сложные задачи с легкостью, революционизируя ваш рабочий процесс и открывая новые возможности.

Варианты использования и рыночные возможности для ИИ-агентов в Интернете
Два подхода к созданию ИИ-агентов в Интернете
Создание веб-скрапера, работающего на GPT-4V
Создание ИИ-агента в Интернете, который просматривает веб-страницы как человек

Варианты использования и рыночные возможности для ИИ-агентов в Интернете

Один из способов взглянуть на потенциальные варианты использования и рыночные возможности для веб-агентов на базе ИИ - это изучить предыдущие попытки создания подобных систем, их ограничения и то, как новые технологии или изменения могут потенциально изменить динамику.

Одна из прямых рыночных категорий - это Robotic Process Automation (RPA), которая представляет собой категорию программного обеспечения, помогающего предприятиям создавать автоматизированных ботов для выполнения повторяющихся и стандартизированных задач, таких как обработка счетов-фактур или ввод данных. Однако ограничения решений RPA довольно очевидны - они испытывают трудности с нестандартными или постоянно меняющимися процессами и требуют высоких затрат на настройку для каждой конкретной автоматизации.

В отличие от этого, веб-агенты на базе ИИ, которые могут напрямую управлять компьютером и браузером, являются захватывающими, потому что они теоретически могут справляться с гораздо более сложными ситуациями с гораздо меньшими затратами на настройку. Вместо создания конкретных автоматизаций агент может просто перемещаться по веб-сайтам, извлекать данные и выполнять задачи независимо от изменений формата, поскольку агент может принимать необходимые решения.

Помимо простой автоматизации, эти агенты ИИ также могут выходить за рамки традиционной RPA и выполнять более интеллектуальные задачи, такие как поддержка клиентов, продажи и маркетинг. Получая доступ к большему количеству систем и используя свои способности к принятию решений, эти "работники" ИИ могут быть развернуты для более широкого спектра вариантов использования, включая потребительские приложения с меньшим объемом.

Однако ключевой проблемой в предоставлении полезных решений на базе ИИ-работников является не только техническое понимание, но и знание конечного рабочего процесса для конкретных функций. Недавний исследовательский отчет Hotspot, в котором были опрошены более 1400 глобальных руководителей по продажам, предоставляет ценные insights в современный рабочий процесс продаж и варианты использования ИИ, которые могут быть очень полезны для создания агентов ИИ для функций продаж.

Резюмируя, ключевые возможности для веб-агентов на базе ИИ включают:

Обработка более сложных, нестандартных задач по сравнению с традиционной RPA
Снижение затрат на настройку автоматизации
Расширение за рамки простой автоматизации к более интеллектуальным задачам, таким как поддержка клиентов и продажи
Использование глубоких знаний о рабочих процессах для конкретных должностных функций для создания более эффективных агентов ИИ

Два подхода к созданию ИИ-агентов в Интернете

Подход 1: Веб-скрапер на базе GPT-4V

Используйте библиотеку Node.js, такую как Puppeteer, чтобы делать скриншоты веб-страниц и управлять веб-браузером.
Создайте скрипт на Python, который вызывает JavaScript-файл для создания скриншотов, а затем использует GPT-4V для извлечения данных из скриншотов.
Скрипт на Python определяет функции для преобразования изображения в base64, создания скриншотов и использования GPT-4V для извлечения информации из скриншотов.
Скрипт объединяет эти функции, чтобы создать мощный веб-скрапер, который может получать доступ к веб-сайтам, которые обычно блокируют службы скрапинга.

Подход 2: Создание веб-агента на базе ИИ

Создайте файл Node.js, который импортирует различные библиотеки и настраивает экземпляр OpenAI и интерфейс командной строки.
Реализуйте функцию highlightLinks, которая определяет все интерактивные элементы на веб-странице и добавляет к ним специальный атрибут.
Определите основную функцию, которая создает браузер Puppeteer, настраивает системное сообщение для GPT-4V и входит в цикл, в котором:
- Получает ответ от GPT-4V на основе запроса пользователя и текущего состояния веб-страницы.
- Если ответ указывает, что нужно нажать на ссылку, находит соответствующий элемент и нажимает на него.
- Если ответ указывает, что нужно посетить новый URL, переходит по этому URL и выделяет ссылки.
- Если ответ - обычное сообщение, отображает результат пользователю.
Этот веб-агент на базе ИИ может перемещаться по нескольким веб-сайтам, нажимать на ссылки и выполнять сложные исследовательские задачи, используя возможности GPT-4V.

Оба подхода демонстрируют, как можно использовать крупные языковые модели, такие как GPT-4V, для создания мощных инструментов автоматизации и исследования веб-сайтов. Первый подход сосредоточен на веб-скрапинге, а второй подход создает более интерактивного веб-агента, который может перемещаться и выполнять задачи в Интернете.

Создание веб-скрапера, работающего на GPT-4V

Чтобы создать веб-скрапер на базе GPT-4V, мы будем использовать библиотеку Node.js под названием Puppeteer для управления веб-браузером и создания скриншотов. Вот пошаговое руководство:

Создайте новый файл под названием screenshot.js и импортируйте необходимые библиотеки:

const puppeteer = require('puppeteer');
const puppeteerExtra = require('puppeteer-extra');

Определите URL, который вы хотите скрапировать, и значение тайм-аута:

const url = 'https://en.wikipedia.org/wiki/Main_Page';
const timeout = 60000; // 60 секунд

Создайте асинхронную функцию для запуска браузера, перехода по URL и создания скриншота:

async function takeScreenshot() {
  const browser = await puppeteerExtra.launch();
  const page = await browser.newPage();
  await page.setViewport({ width: 1920, height: 1080 });
  await page.goto(url, { waitUntil: 'networkidle0' });
  await page.screenshot({ path: 'screenshot.jpg', fullPage: true });
  await browser.close();
}

В этом примере мы используем плагин puppeteer-extra, чтобы сделать браузер менее заметным для веб-сайтов.
Запустите функцию takeScreenshot(), чтобы сделать скриншот:

takeScreenshot();

Теперь вы можете запустить скрипт с помощью node screenshot.js, и он сохранит скриншот главной страницы Wikipedia в файл screenshot.jpg.

Затем мы создадим скрипт на Python, который использует скриншот и GPT-4V для извлечения данных с веб-сайта:

Создайте новый файл под названием vision_scraper.py и импортируйте необходимые библиотеки:

import os
import subprocess
import base64
import openai
from dotenv import load_dotenv

load_dotenv()
openai.api_key = os.getenv("OPENAI_API_KEY")

Определите функции для преобразования изображения в base64 и создания скриншота с помощью скрипта screenshot.js:

def image_to_b64(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

def url_to_screenshot(url):
    if os.path.exists("screenshot.jpg"):
        os.remove("screenshot.jpg")
    try:
        subprocess.run(["node", "screenshot.js"], check=True)
        return "screenshot.jpg"
    except subprocess.CalledProcessError:
        return None

Создайте функцию для использования GPT-4V для извлечения информации из скриншота:

def vision_extract(image_b64, prompt):
    response = openai.ChatCompletion.create(
        model="gpt-4",
        messages=[
            {"role": "system", "content": "You are a web scraper. Your job is to extract information based on a screenshot of a website and user instructions."},
            {"role": "user", "content": prompt},
            {"role": "user", "content": image_b64}
        ],
        max_tokens=2048,
        n=1,
        stop=None,
        temperature=0.7,
    )
    return response.choices[0].message.content.strip()

Объедините все в функцию vision_query():

def vision_query(url, prompt):
    screenshot_path = url_to_screenshot(url)
    if screenshot_path:
        image_b64 = image_to_b64(screenshot_path)
        return vision_extract(image_b64, prompt)
    else:
        return "Error: Unable to capture screenshot."

Теперь вы можете использовать функцию vision_query() для извлечения информации с веб-сайта:

result = vision_query("https://www.linkedin.com/in/your-profile-url", "Extract the work experience section from the profile.")
print(result)

Этот пример сделает скриншот указанного профиля LinkedIn и использует GPT-4V для извлечения раздела "Опыт работы". Вы можете настроить запрос, чтобы извлекать различные типы информации с веб-сайта.

Часто задаваемые вопросы

Каково применение и рыночные возможности для самоуправляемых компьютерных систем, которые дают GPT-4V прямой контроль над компьютером?

Как можно построить агента ИИ для управления веб-браузером и выполнения сложных задач веб-исследований?

Какие преимущества использования веб-скрапера на основе GPT-4V по сравнению с традиционными методами веб-скрапинга?

Создайте свою девушку с искусственным интеллектом

Создайте своего идеального компаньона с помощью нашего AI Girlfriend Builder.