Was ist webcrawler?
indexiert und analysiert Inhalte von Webseiten.
Der Webrobot webcrawler indexiert und analysiert Inhalte von Webseiten. Er zeigt sich meistens mit der IP Adresse 148.251.234.171 und unter Verwendung des User Agent Mozilla/5.0 (compatible; VelenPublicWebCrawler/1.0; https://velen.io). Mit 0.0171% Marktanteil ist webcrawler auf Platz 68 der aktivsten Webrobots im Internet.
Gefahreneinschätzung und Bewertung
Sollte man webcrawler blockieren?
Prüfe zuerst Zugriffshäufigkeit, aufgerufene URLs und User-Agent. Danach kannst du entscheiden, ob eine Blockierung sinnvoll ist.
robots.txt – webcrawler blockieren
Füge diese Zeilen in deine robots.txt ein, um webcrawler den Zugriff auf deine Website zu verwehren:
User-agent: webcrawler
Disallow: /
Du kannst den Zugriff auch gezielt einschränken, statt ihn komplett zu blockieren:
User-agent: webcrawler
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /
Häufige Fragen zu webcrawler
Ist webcrawler ein guter oder schlechter Bot?
Das hängt vom Einsatzzweck ab. webcrawler ist als Web-Crawler eingeordnet. Entscheidend sind Serverlast, Crawl-Verhalten, Nutzen für deine Website und ob der Bot deine Regeln respektiert.
Wie erkenne ich webcrawler in Server-Logs?
Suche nach dem User-Agent-Namen webcrawler. Ein beobachteter User-Agent ist Mozilla/5.0 (compatible; VelenPublicWebCrawler/1.0; https://velen.io). Vergleiche ausserdem IP-Adressen, Zugriffsmuster und aufgerufene URLs.
Reicht robots.txt zum Blockieren?
robots.txt ist ein Hinweis für regelkonforme Crawler. Unerwünschte oder aggressive Bots können diese Regeln ignorieren. In solchen Fällen helfen zusätzlich Firewall-Regeln, WAF-Regeln oder Blockierungen im Hosting/CDN.
IP-Adressen 62 bekannte IPs
Diese IP-Adressen wurden bisher von webcrawler verwendet:
148.251.234.171
159.203.67.240
174.138.63.96
184.73.41.118
188.40.120.19
51.68.79.181
51.75.13.156
51.75.14.187
51.75.5.39
54.145.71.183
54.160.202.146
54.161.165.128
54.162.241.8
54.163.166.146
54.174.52.24
54.174.53.146
54.174.53.146
54.174.53.230
54.174.53.45
54.174.53.5
54.174.53.5
54.174.53.9
54.174.54.0
54.174.54.156
54.174.54.215
54.174.54.74
54.174.55.116
54.174.55.136
54.174.55.154
54.174.55.46
54.174.56.168
54.174.56.222
54.174.56.23
54.174.56.238
54.174.56.62
54.174.57.136
54.174.57.241
54.174.57.241
54.174.57.7
54.174.57.70
54.174.57.93
54.174.58.211
54.174.58.92
54.174.59.201
54.174.59.99
54.174.60.148
54.174.60.155
54.174.60.178
54.174.60.193
54.174.61.122
54.174.61.191
54.174.61.68
54.174.62.169
54.174.62.175
54.174.62.193
54.174.62.253
54.234.142.40
54.38.252.149
54.38.253.233
54.38.255.116
54.80.211.94
54.90.248.109
User Agents
Mit diesen User-Agent-Strings identifiziert sich webcrawler:
Mozilla/5.0 (compatible; VelenPublicWebCrawler/1.0; https://velen.io)VelenPublicWebCrawler (velen.io)Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.116 Safari/537.36 HubSpot WebcrawlerMozilla/5.0 (Windows; U; Windows NT 5.0; en-US; rv:1.7.10) Gecko/20050716 Thunderbird/1.0.6 – WebCrawler http://cognitiveseo.com/bot.html