Ritas Einführung in das awaBerry Smart Automation Framework — Web Scraping für Angebote für rote Lippenstifte

Als ich letzte Woche das Smart Automation Framework einem befreundeten Produktmanager vorstellte, war ihre erste Reaktion: „Ich kann ihm also einfach sagen, was ich will, und es scrapt es tatsächlich?“ Ja. Genau das ist richtig. Und sobald das klickte, begannen die Ideen zu fließen.

Web Scraping war schon immer ein mächtiges Werkzeug – aber es war auch schon immer ein technisches. Sie mussten verstehen, wie Browser Seiten rendern, wie man CSS-Selektoren oder XPath-Ausdrücke identifiziert, wie man JavaScript-lastige Single-Page-Anwendungen handhabt, wie man Paginierung und Ratenbegrenzung verwaltet. Die Hürde war so hoch, dass die meisten Leute, die von automatisierter Webdatenerfassung profitieren würden, es einfach nicht taten.

Das Smart Automation Framework ändert diese Gleichung grundlegend. Lassen Sie mich Ihnen zeigen, was möglich wird.

Die Kernfähigkeit: Headless-Browser-Automatisierung anhand einer Beschreibung

Im Herzen der Web-Scraping-Fähigkeit des Frameworks steht seine Fähigkeit, Playwright- oder Puppeteer-Skripte aus einer Beschreibung in einfacher Sprache zu generieren, was Sie wollen. Dies sind vollständige Headless-Browser-Automatisierungsskripte – sie öffnen eine echte Browser-Engine, navigieren durch Seiten, warten auf das Rendern von JavaScript, interagieren mit UI-Elementen und extrahieren strukturierte Daten.

Das Gemini-Reasoning-Modell erledigt die schwierige Aufgabe: Es analysiert Ihre Beschreibung, ermittelt, wie die Seite wahrscheinlich aussieht, schreibt die entsprechenden Selektoren und Interaktionslogik und behandelt gängige Randfälle wie Cookie-Zustimmungsbanner, Lazy-Loading-Inhalte und Login-Mauern. Sie erhalten ein produktionsreifes Scraping-Skript, ohne eine einzige Zeile Code schreiben zu müssen.

Anwendungsfall: Preisüberwachung

Dies ist das, was ich in meinem letzten Video demonstriert habe. Sie beschreiben eine Produktkategorie und einen Händler. Das Framework generiert ein Skript, das zu den relevanten Seiten navigiert, Preise und Verfügbarkeit extrahiert und die Ergebnisse in einer strukturierten Datei protokolliert. Stellen Sie es auf einen Zeitplan ein – sagen wir, jeden Morgen um 7 Uhr – und Sie haben einen Live-Preis-Feed für jedes Produkt auf jeder Website.

Die praktischen Anwendungen gehen hier weit über den Einkauf von Lippenstiften hinaus. Ein kleines Unternehmen kann die Preise von Wettbewerbern für seine Produktkategorie automatisch überwachen. Ein Beschaffungsteam kann die Preise von Komponenten von mehreren Lieferanten verfolgen. Ein Einzelhändler kann seine eigenen Preise auf Drittanbieter-Marktplätzen beobachten. All dies läuft auf einem lokalen Gerät, das Sie bereits besitzen, zu nahezu null laufenden Kosten, sobald das Skript geschrieben ist.

Anwendungsfall: Extraktion strukturierter Daten von dynamischen Websites

Moderne Websites rendern ihre Inhalte mit JavaScript – was bedeutet, dass traditionelle Scraper, die rohes HTML abrufen, nur sehr wenige nützliche Daten erhalten. Headless-Browser-Skripte warten, bis die Seite vollständig gerendert ist, bevor sie etwas extrahieren, sodass sie sehen, was ein Benutzer sehen würde.

Ich habe dies verwendet für:

  • Aggregation von Stellenangeboten – Sammeln offener Positionen von Karriereseiten mehrerer Unternehmen in einer einzigen Tabelle, täglich aktualisiert
  • Überwachung akademischer Veröffentlichungen – Verfolgung neuer Arbeiten von bestimmten Forschungsgruppen auf Journal-Websites, die keine RSS-Feeds anbieten
  • Erfassung von Immobiliendaten – Extrahieren von Angebotspreisen, Standorten und Merkmalen von Immobilien-Websites in eine lokale Datenbank für Trendanalysen
  • Bestandsüberwachung – Beobachtung von Lagerbeständen auf Lieferanten-Websites und Auslösen einer Benachrichtigung, wenn ein Zielartikel verfügbar wird

Anwendungsfall: Mehrstufige Workflows mit Login

Eines der beeindruckendsten Dinge, die das Framework handhabt, ist das authentifizierte Scraping. Sie können einen Workflow beschreiben, der das Anmelden auf einer Website beinhaltet – „mit diesen Anmeldedaten anmelden, zum Berichtsabschnitt navigieren, die Daten der letzten 30 Tage als CSV herunterladen“ – und das generierte Skript übernimmt die vollständige Interaktion: Eingabe der Anmeldedaten, Absenden des Formulars, Navigation zur richtigen Seite und Herunterladen der Datei auf das lokale Gerät.

Dies ist besonders nützlich für interne Geschäftstools – Portale, die Daten für die Berichterstattung bereitstellen, aber keine API anbieten. Das Skript authentifiziert sich als Sie, navigiert zum richtigen Ort und ruft die Daten nach Ihrem festgelegten Zeitplan ab.

Anwendungsfall: Änderungsdetektion und Alarmierung

Nicht jede Scraping-Aufgabe dient dem Sammeln von Daten – manchmal möchten Sie einfach nur wissen, wann sich etwas ändert. Das Framework handhabt auch dies. Beschreiben Sie eine Seite, die Sie überwachen möchten, und welche Art von Änderung für Sie wichtig ist – ein Preisrückgang unter einem Schwellenwert, ein neues Element, das in einer Liste erscheint, spezifischer Text, der erscheint oder verschwindet – und das Skript prüft nach einem Zeitplan und schreibt einen Alarm-Eintrag, wenn die Bedingung erfüllt ist.

Kombinieren Sie dies mit einem lokalen Benachrichtigungssystem, und Sie haben ein vollautomatisches Überwachungssystem für alles im Web, was Ihnen wichtig ist.

Die Planungs-Schicht

Jedes Scraping-Projekt, das Sie im Smart Automation Framework erstellen, kann geplant werden. Täglich, stündlich, wöchentlich – Sie definieren das Intervall, und das Framework kümmert sich um den Rest. Das Skript läuft auf Ihrem lokalen Gerät (was bedeutet, dass die Daten Ihre Maschine niemals verlassen, es sei denn, Sie senden sie explizit irgendwohin), und die Ergebnisse sammeln sich in einer strukturierten Ausgabedatei oder Datenbank an, die Sie jederzeit abfragen können.

Dies ist der Teil, der die Leute immer noch überrascht: Die laufende Ausführung kostet nichts. Die KI hat das Skript einmal geschrieben. Jeder geplante Lauf ist nur ein lokales Skript, das auf Ihrer CPU läuft. Keine Tokens, keine Cloud-Compute-Gebühren, keine externen Abhängigkeiten.

Erste Schritte

Wenn Sie ein Webdatenproblem haben – oder auch nur eine Webdatenfrage, die Sie schon immer beantwortet haben wollten – ist das Smart Automation Framework der richtige Ausgangspunkt. Beschreiben Sie, was Sie wollen. Das Framework wird es bauen.

Erkunden Sie das Smart Automation Framework →