nutch-

Der Webrobot nutch- indexiert und analysiert Inhalte von Webseiten. Er zeigt sich meistens mit der IP Adresse 104.42.159.61 und unter Verwendung des User Agent MaxPointCrawler/Nutch-1.10 (maxpoint.crawler at maxpointinteractive dot com). Mit 0.0009% Marktanteil ist nutch- auf Platz 176 der aktivsten Webrobots im Internet.

94Zugriffe
0,001%Marktanteil
Feb. 2018Erstmals gesehen
03.09.2019Zuletzt aktiv

Was ist nutch-?

indexiert und analysiert Inhalte von Webseiten.

Der Webrobot nutch- indexiert und analysiert Inhalte von Webseiten. Er zeigt sich meistens mit der IP Adresse 104.42.159.61 und unter Verwendung des User Agent MaxPointCrawler/Nutch-1.10 (maxpoint.crawler at maxpointinteractive dot com). Mit 0.0009% Marktanteil ist nutch- auf Platz 176 der aktivsten Webrobots im Internet.

Basisanalyse

Technische Einordnung von nutch-

nutch- wurde in Webserver-Logs als Bot oder Crawler erkannt. Die wichtigsten technischen Hinweise findest du auf dieser Seite: bekannte User-Agents, beobachtete IP-Adressen, Aktivitätsdaten und passende robots.txt-Regeln.

Für eine konkrete Entscheidung solltest du zusätzlich prüfen, welche URLs nutch- abruft, wie häufig die Zugriffe sind und ob der Bot deine robots.txt-Regeln respektiert.

Tipp: Wenn der Bot viel Traffic erzeugt oder sensible Bereiche abruft, prüfe neben robots.txt auch Firewall- oder WAF-Regeln.

Gefahreneinschätzung und Bewertung

Sollte man nutch- blockieren?

Prüfe zuerst Zugriffshäufigkeit, aufgerufene URLs und User-Agent. Danach kannst du entscheiden, ob eine Blockierung sinnvoll ist.

Erst Logdaten prüfen

Betreiber

Organisation
Noch nicht geprüft

Auf einen Blick

Typ
Web-Crawler
Häufige IP
104.42.159.61
User-Agent-Varianten
6
Marktanteil
0,001%

robots.txt – nutch- blockieren

Füge diese Zeilen in deine robots.txt ein, um nutch- den Zugriff auf deine Website zu verwehren:

robots.txt
User-agent: nutch-
Disallow: /

Du kannst den Zugriff auch gezielt einschränken, statt ihn komplett zu blockieren:

robots.txt (selektiv)
User-agent: nutch-
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /

Häufige Fragen zu nutch-

Ist nutch- gut oder schlecht?

Das hängt vom Einsatzzweck ab. nutch- ist als Web-Crawler eingeordnet. Entscheidend sind Nutzen, Serverlast, Crawl-Verhalten und ob der Bot deine robots.txt-Regeln respektiert.

Wie erkenne ich nutch- in Server-Logs?

Suche nach dem User-Agent-Namen nutch-. Ein beobachteter User-Agent ist MaxPointCrawler/Nutch-1.10 (maxpoint.crawler at maxpointinteractive dot com). Vergleiche ausserdem IP-Adressen, Zugriffsmuster und aufgerufene URLs.

Reicht robots.txt zum Blockieren?

robots.txt ist ein Hinweis für regelkonforme Crawler. Unerwünschte oder aggressive Bots können diese Regeln ignorieren. In solchen Fällen helfen zusätzlich Firewall-Regeln, WAF-Regeln oder Blockierungen im Hosting/CDN.

Kann ein Bot seinen User-Agent fälschen?

Ja. Ein User-Agent ist leicht zu fälschen. Für wichtige Entscheidungen solltest du zusätzlich IP-Adresse, Reverse-DNS, Zugriffsmuster, Häufigkeit und aufgerufene URLs prüfen.

IP-Adressen 16 bekannte IPs

Diese IP-Adressen wurden bisher von nutch- verwendet:

US 104.42.159.61
CN 114.115.190.4
JP 13.230.38.41
JP 13.78.32.25
US 13.82.188.248
US 137.116.119.98
DE 141.41.35.178
JP 18.182.28.128
CA 192.99.2.195
PL 204.2.255.145
CN 27.38.250.89
IE 40.112.68.8
JP 52.199.186.107
KR 52.231.152.77
ZA 63.216.156.60
DE 94.130.162.92

User Agents

Mit diesen User-Agent-Strings identifiziert sich nutch-:

  • MaxPointCrawler/Nutch-1.10 (maxpoint.crawler at maxpointinteractive dot com)
  • Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36 QIHU 360SE/Nutch-1.13
  • Honeso Spider/Nutch-1.15
  • nutch-1.4/Nutch-1.4
  • Toshiba Digital Solution TDSL/Nutch-1.8
  • Naaraa/Nutch-1.14

Weitere nützliche Tools