web-crawler

Der Webrobot web-crawler indexiert und analysiert Inhalte von Webseiten. Er zeigt sich meistens mit der IP Adresse 54.174.53.35 und unter Verwendung des User Agent Mozilla/5.0 (compatible; HubSpot Crawler; web-crawlers@hubspot.com). Mit 0% Marktanteil ist web-crawler auf Platz 374 der aktivsten Webrobots im Internet.

2Zugriffe
Mai 2019Erstmals gesehen
03.06.2019Zuletzt aktiv

Was ist web-crawler?

indexiert und analysiert Inhalte von Webseiten.

Der Webrobot web-crawler indexiert und analysiert Inhalte von Webseiten. Er zeigt sich meistens mit der IP Adresse 54.174.53.35 und unter Verwendung des User Agent Mozilla/5.0 (compatible; HubSpot Crawler; web-crawlers@hubspot.com). Mit 0% Marktanteil ist web-crawler auf Platz 374 der aktivsten Webrobots im Internet.

Gefahreneinschätzung und Bewertung

Sollte man web-crawler blockieren?

Prüfe zuerst Zugriffshäufigkeit, aufgerufene URLs und User-Agent. Danach kannst du entscheiden, ob eine Blockierung sinnvoll ist.

web-crawler im Log prüfen

Betreiber

? Risiko unbekannt

Auf einen Blick

Typ
Web-Crawler
Häufige IP
54.174.53.35
User-Agent-Varianten
1

robots.txt – web-crawler blockieren

Füge diese Zeilen in deine robots.txt ein, um web-crawler den Zugriff auf deine Website zu verwehren:

robots.txt
User-agent: web-crawler
Disallow: /

Du kannst den Zugriff auch gezielt einschränken, statt ihn komplett zu blockieren:

robots.txt (selektiv)
User-agent: web-crawler
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /

Häufige Fragen zu web-crawler

Ist web-crawler ein guter oder schlechter Bot?

Das hängt vom Einsatzzweck ab. web-crawler ist als Web-Crawler eingeordnet. Entscheidend sind Serverlast, Crawl-Verhalten, Nutzen für deine Website und ob der Bot deine Regeln respektiert.

Wie erkenne ich web-crawler in Server-Logs?

Suche nach dem User-Agent-Namen web-crawler. Ein beobachteter User-Agent ist Mozilla/5.0 (compatible; HubSpot Crawler; web-crawlers@hubspot.com). Vergleiche ausserdem IP-Adressen, Zugriffsmuster und aufgerufene URLs.

Reicht robots.txt zum Blockieren?

robots.txt ist ein Hinweis für regelkonforme Crawler. Unerwünschte oder aggressive Bots können diese Regeln ignorieren. In solchen Fällen helfen zusätzlich Firewall-Regeln, WAF-Regeln oder Blockierungen im Hosting/CDN.

IP-Adressen 2 bekannte IPs

Diese IP-Adressen wurden bisher von web-crawler verwendet:

US 54.174.53.35
US 54.174.54.158

User Agents

Mit diesen User-Agent-Strings identifiziert sich web-crawler:

  • Mozilla/5.0 (compatible; HubSpot Crawler; web-crawlers@hubspot.com)