Archivübersicht | Impressum

THEMA:   Meta name="robots" content="noindex"

 26 Antwort(en).

Karl begann die Diskussion am 31.08.02 (16:01) mit folgendem Beitrag:

Wer kennt sich hiermit aus?
Anlass der Überlegung Robots aus dem ST fernzuhalten, sind die durch die Internetautomaten verursachten Traffic-Kosten. Inzwischen fast 67%.

Würde dies aber auch dazu führen, dass wir keine neuen Besucher mehr erhalten würden? Auch die Indizierung durch Google wäre betroffen. Ist das ein erstrebenswertes Ziel?

Wer kann mir einen fachkundigen Rat geben?

Karl


Angelika antwortete am 31.08.02 (16:37):

Hallo Karl -

zu Deiner Frage - die Suchmaschine findet mit diesem Eintrag Deine Seite nur, sofern Du Sie dort eingetragen hat, kann aber keine Inhalte der Seite übernehmen. Es wird nur der Text angegeben, den Du bei Anmeldung in der Suchmaschine einträgst.

ich hab mir grad mal Deinen Quelltext angeschaut und würde vielleicht auch ein paar key-Worte herausnehmen, die Dir eventuell genau den Traffic bringen, der zu viel ist und den Du nicht unbedingt willst -
Statt Chat würde ich Seniorenchat benutzen, statt Secualität "Sex im Alter" zwischen zwei Kommas (dann reagiert die Suchmaschine nicht nur auf das Wort "Sexualität" . Auch "Grufti" würde ich löschen, da es Dir eventuell die ganzen Gothikleute zieht.


Mit <meta name="robots" content="noindex"> verbietest Du dem Search-Program, Inhalte aus der HTML-Datei an seine Suchdatenbank zu übermitteln. Das gleiche veranlasst "none".

Daneben gibt es noch folgende Möglichkeiten:

<meta name="robots" content="nofollow">.
Damit erlaubst Du der Sucmaschine, Inhalte aus der aktuellen HTML-Datei an seine Suchdatenbank zu übermitteln. Sie verbieten dem Suchprogramm jedoch, untergeordnete Dateien Deiner Page, zu denen Verweise führen, zu besuchen.

Das heisst, die Seite wird nur auf Grund der METATAGS und Einträge auf der Hauptseite gefunden - zu dieser Variante würde ich neigen, an Deiner Stelle.

Im Gegensatz dazu gibt es:
<meta name="robots" content="follow">
Damit erlaubt man einem Suchprogramm ausdrücklich, Inhalte aus der aktuellen HTML-Datei und aus untergeordneten Dateien der Page, zu denen Verweise führen, zu besuchen und an seine Suchdatenbank zu übermitteln.


Konnte ich Dir ein wenig helfen?

Angelika


Karl antwortete am 31.08.02 (17:27):

Hallo Angelika,

danke!

Dass "Grufti" Gothikleute anzieht, daran hatte ich nicht gedacht. Habe gar nicht gewusst, was Gothikleute sind (aber Google lehrt einem so manches, habe gerade mal nach "Gothik Szene" gesucht und bin schon etwas erschrocken. Grufti ist weg aus den "Keywords" ;-)).

<meta name="robots" content="nofollow"> probiere ich mal testweise aus und beobachte den Effekt auf den Traffic.

Mit freundlichen Grüßen

Karl


Wolfgang antwortete am 31.08.02 (17:29):

Die Frage ist, Karl, wie viele dauerhafte BesucherInnen über Suchmaschinen den Weg zum ST finden... Wenn das nicht allzuviele sind, könntest Du vielleicht doch die Robots aussperren, ohne dass irgendein nennenswerter Verlust eintritt.

Oder, Du lässt die Robots nur auf die Startseite des ST und versperrst ihnen den Weg zu allen untergeordneten Seiten.

Webtipp...

Tipps für Autoren von Webseiten
Verwendung von HTML Tags zur Optimierung des Auffindens von Dokumenten durch Suchmaschinen
https://www.kreativland.de/tipps/tag_info/index.htm

Internet-Tipp: https://www.kreativland.de/tipps/tag_info/index.htm


Johannes Michalowsky antwortete am 31.08.02 (17:35):

@Karl

Ich gehe doch sicher richtig in der Annahme, daß Du Dich in Google schlau gemacht hast. Ich habe mich auf Deine Frage hin mal umgesehen und u.a. die hier angegebene URL gefunden.

Ich habe Robots in der Form

User-agent: *
Disallow: /

in meiner HP, nachdem ich per Bildsuche bei Google eines meiner Photos dort gefunden hatte (zufällig). Da steht zwar eine Copyright-Warnung drin, aber das ist für Google, meine ich, eher ein Alibi, denn wer eigentlich erlaubt schon einmal Google, einfach Bilder zu übernehmen? Eine Veröffentlichung und Copyright-Verletzung ist das doch auch schon, oder nicht?

In dem Disallow-Tag kann man die Indizierung auf bestimmte Formate und Pfade beziehen, vielleicht würde das ja auch schon etwas bringen.

@Angelika

Deine Erläuterung ist vorzüglich, ich würde Dir gerne eine Mail deswegen schicken, aber da Du Dich so bedeckt hältst, geht das leider nicht. Ich gebe übrigens meine Mail-Adresse auch kaum noch hier an, weil ich die damit automatisch bestellte Benachrichtigung als sehr lästig empfinde.

Internet-Tipp: https://www.robotstxt.org/wc/norobots.html


Steini antwortete am 31.08.02 (17:48):

Hallo!

Ich würde auch den Weg über die robots.txt vorschlagen...

Da du sicherlich Zugriff auf deine Verzeichnisstruktur hast, ist es ratsam, eine Text-Datei mit dem Namen robots.txt ins Hauptverzeichnis zu legen.

Um Robots aus unerwünschten Bereichen einer Website fernzuhalten, wurde vor geraumer Zeit der "Robots Exclusion Standard" vereinbart, an den sich die meisten Robots auch halten. Im übrigen wird er auch von vielen der "selbstgemachten" Robots beachtet, da die Perl-Libraries, mit denen Robots sehr einfach zu schreiben sind, diesen Standard von sich aus berücksichtigen.

Entsprechend dem RES liest ein Robot als erstes die robots.txt im Root-Verzeichnis deines Webservers aus.

In diese Datei schreibst du zum Beispiel folgendes hinein (wichtig ist hierbei die Groß- und Kleinschreibung):

User-agent: *
Disallow: /

Damit verbietest du jeder Suchmaschine, deine Seiten zu indexieren. Um Roboter von bestimmten Verzeichnissen fernzuhalten, nutzt du die folgenden Zeilen:

User-agent: *
Disallow: /hauptverzeichnis/
Disallow: /cgi-bin/
Disallow: /log/

Dies muss natürlich auf deine Ordner-Struktur angepasst werden. Du kannst den DISALLOW beliebig erweitern. Wichtig ist der Slash am Anfang und am Ende. Vergisst du ihn am Ende zu setzen, dann werden am Beispiel der /log/ /log.htm, /log.html, /log.php als Dateien, aber auch das Verzeichnis /log für Crawler gesperrt.

Wenn du alle Roboter einladen willst, dass deine Seiten indexiert werden sollen, dann schreibst du folgendes in die robots.txt (eine leere robots.txt hat übrigens den gleichen Effekt):

User-agent: *
Disallow:

Natürlich kannst du das auch alles kombinieren:

User-agent: webcrawler
Disallow:

User-agent: lycra
User-agent: omega
Disallow: /

User-agent: *
Disallow: /tmp/
Disallow: /logs/

Im obigen Beispiel ist für den Robot WebCrawler nichts verboten, also kann er die ganze Website indexieren. Für die Robots Lycra und Omega hingegen sind alle Bereiche gesperrt, die mit dem Slash beginnen - also die komplette Website mit Unterordnern und Dateien. Der User-Agent mit dem * spricht alle bisher noch nicht genannten Robots an und verbietet diesen die Ordner /tmp/ und /logs/ mit allen Unterordnern und darin befindlichen Dateien zu indexieren.

Eine Aufzählung über die Namen der einzelnen Suchmaschinen würde hier den Rahmen sprengen, aber Seiten wie searchcode.de helfen dir sicherlich weiter.

@Jo:
Übrigens, Google kannst du von deinen Verzeichnissen abhalten, in dem du die Maschine direkt ansprichst über die Metatags:

<meta name=googlebot content=nosnippet>
<meta name=googlebot content=noarchive>

Somit verhinderst du, dass a) Google die Seiten archiviert und b), dass Google keine Bilder aufnimmt.

Gruß,
Steini

[steini@jung-senioren.de]

Internet-Tipp: https://www.searchcode.de/


Johannes Michalowsky antwortete am 31.08.02 (18:17):

@steini

Danke für den Hinweis - müsste man das nun in alle Programme schreiben, die man ins Internet stellt?

Und die andere Frage - gehört nicht ganz hier -:

Wie kommt Google dazu, Bilder zu veröffentlichen, ohne gefragt zu haben? Wie wäre es mit einer kleinen Sammelklage in den USA?


Angelika antwortete am 31.08.02 (18:50):

@ Johannes - wenn Du mir an tiramisusi@lycos.es schreibst, antworte ich Dir :-)

Das ist die Emailadresse, die ich in Foren benütze, um nicht jeden Müll auf meinen PC zu bekommen. LYCOS hat ausserdem den kostenlosen FAX-Sercive und so habe ich mir in Ländern, in die ich schon mal ein Fax schicken muss, eine lycosadresse eingerichtet und kann so von Deutschland aus gratis faxen.


Angelika


Karl antwortete am 31.08.02 (18:53):

Hallo zusammen,


soviel Hilfsbereitschaft, prima! Bisher war es meine Strategie, inhaltliche Seiten indizieren zu lassen, denn es ist ja wünschenswert, wenn Inhalte gefunden werden.

Die letzte Analyse der Statistik, die 67% des Traffics den seelenlosen Robots zuschreibt, hat mich aber doch geschockt. Diese Gigabytes würde ich gern sparen.

Ich danke allen für die Hinweise und werde die Varianten austesten.

@ Jo, zu Deiner "anderen" Frage. Nicht ganz ernstgemeint - oder?

Mit freundlichen Grüßen

Karl


Rainer (Klr) antwortete am 31.08.02 (21:38):

Hallo zusammen,

lach, Jo, das würde den ST finanziell für 1000 Jahre unabhängig machen.

Angelika und Steini:
Super Tipps, wieder was dazugelernt, merci


Hans-JŸrgen antwortete am 31.08.02 (22:00):

Das ist alles sehr interessant, und ich muß es erst langsam verdauen und zum Teil auch ausprobieren.

Deshalb hier nur rasch ein Tip zu Johannes' Bemerkung: "Ich gebe übrigens meine Mail-Adresse auch kaum noch hier an, weil ich die damit automatisch bestellte Benachrichtigung als sehr lästig empfinde.":

Ich mache es so wie im folgenden: Mail-Adresse mit in den Text. Der Schreibaufwand ist derselbe wie beim üblichen Verfahren, und ich bekomme keine unerwünschten automatischen Forum-E-Mails mehr.

Freundliche Grüße an alle und Dank für die anregenden Vorschläge,

Hans-Jürgen
capsi.hu@t-online.de


DorisW (immer neugierig) antwortete am 31.08.02 (23:02):

Ob ihr für Nicht-Fachleute in zwei oder drei Sätzen erklären könntet, was diese Robots sind, wieso sie Traffic-Kosten verursachen und was das mit Suchmaschinen zu tun hat?


Dirgni antwortete am 31.08.02 (23:07):

War richtig interessant, mal aus der Schlüssellochperspektive ein wenig Webmasterarbeit zu sehen. Ist ja eigentlich auch für das Surfen gut zu wissen, wie robots und Suchmaschinen arbeiten. Eure Diskussion hat mich dazu angeregt, da ein wenig hinter die Kulissen zu gucken.

Hab da noch ne Frage hinsichtlich der der Kosten, damit ich mich vernünftig verhalten kann. Wodurch werden die Kosten verursacht, durch das Schreiben von Beiträgen, durch das Öffnen der Seiten, durch die Verweildauer? Soll man den ST schließen, wenn man dazwischen was anderes macht?

Ich hab keine Ahnung, ob diese Dinge eine Rolle spielen, wenn ja könnte uns Karl vielleicht ein paar "Verhaltensregeln" mitteilen.


Wolfgang antwortete am 01.09.02 (09:23):

@DorisW... Hier gibt es gute und nicht sehr umfangreiche Erläuterungen dazu:

Tipps für Autoren von Webseiten
Verwendung von HTML Tags zur Optimierung des Auffindens von Dokumenten durch Suchmaschinen
https://www.kreativland.de/tipps/tag_info/index.htm

Internet-Tipp: https://www.kreativland.de/tipps/tag_info/index.htm


DorisW antwortete am 01.09.02 (09:49):

Danke, Wolfgang!


Karl antwortete am 01.09.02 (09:55):

@ Dirgni


das Letzte, was ich möchte, ist, dass eine Kostendiskussion von der unbefangenen Nutzung des Seniorentreffs abhält. Ich bemühe mich dann lieber um andere Einsparmassnahmen (s.o.) und um Werbung (auf die Ihr allerdings schon mal klicken dürft).

Mit freundlichen Grüßen

Karl


Angelika antwortete am 01.09.02 (11:09):

Lieber Karl - genau das ist aber ein Punkt: Du musst das irgendwo unterbringen auf Deiner Seite - so, dass die USer es auch sehen:

zB
"Liebe Besucher dieser Web-Site! Diese Seite ist kostenfrei und soll es auch bleiben! Sie finanziert sich über das Einblenden von Werbebannern verschiedener Unternehmen. Damit wir unseren Seniorentreff auch weiterhin kostenlos anbieten können, bitten wir Euch, bei jedem Besuch wenigstens auf einen dieser Banner zu klicken - Vielen Dank!"

So habe ichs bei einigen Non-Profit-Seiten auch gemacht ...


Johannes Michalowsky antwortete am 01.09.02 (12:14):

@Hans-Jürgen

Nein, der Schreibaufwand für das Eintippen der Email-Adr. ist nicht derselbe, die Email-Adresse ist nämlich vorgespeichert und kann in das Kästchen "Ihre Email-Adresse" mit einem Mausclick übernommen werden.


Karl antwortete am 01.09.02 (12:40):

@ Angelika,


danke, ich habe das gleich umgesetzt (s. Startseite).

Mit freundlichen Grüßen

Karl


Steini antwortete am 01.09.02 (13:28):

@Jo:

Entweder arbeitest du mit Templates, so dass du nicht in jede Seite die Tags einfügen musst, oder du musst den beschwerlichen Weg gehen und tatsächlich die Metatags in jede Seite schreiben, die von dir online gestellt wird.

Nur so kannst du auch wirklich sicher gehen, dass die meisten Robots sich auch daran halten. Der RES ist eine Empfehlung; deswegen sind die Robots auch nicht verpflichtet sich daran zu halten.

Wenn du also Metatags nutzt und darüberhinaus noch eine robots.txt und dich trotzdem wunderst, warum du indexiert wurdest, dann liegt es entweder daran, dass du bereits vor Einfügen der MT und robots.txt von Robots, Crawlers, Spiders und Co. erfasst wurdest (in den seltensten Fällen wirst du nämlich auch wieder aus Such-Indizes ausgetragen) oder aber, dass deine Seite trotz RES trotzdem erfasst wurde, weil sich irgendein Bot nicht darum kümmert.

@Karl:
Wie können denn Robots tatsächlich 67 Prozent Traffic auf deiner Seite auslösen? Das würde ja bedeuten, dass du mehr Roboter als Menschen auf deiner Seite hast... *grins*

Nein, im Ernst: Warum wird bei dir nach Traffic abgerechnet? Darf ich mal erfahren, bei welchem Provider du deine Seiten hosten lässt (musst es ja nicht hier schreiben, darfst mir auch gerne an meine eMail-Addi antworten)? Das wären ja dann ganz schöne Summen, die da zusammenkommen...

Einen schönen Sonntag wünscht
Steini

[steini@jung-senioren.de]


pilli antwortete am 01.09.02 (13:52):

@ Karl

bitte berichtige mich gleich, falls meine recherche falsch ist.

irgendwann und irgendwo habe ich gelesen, daß du auch hauptgeschäftsführer von "1&1" bist oder warst?

ich meine mich zu erinnern, dies dem impressum einiger webseiten entnommen zu haben. auch 1. einträge in gästebücher verbunden mit dem glückwunsch zu eröffnung der seite ließen mich dies vermuten. (science-festival in freiburg).

bisher nahm ich an, daß der "Seniorentreff" ein aus deiner hauptamtlichen tätigkeit geborenes "lieblingskind" ist; dem du viel engagement widmest.

internette grüsse


Johannes Michalowsky antwortete am 01.09.02 (14:08):

@Steini

Ich verwende Phase 5 von Ulli Meybohm und gehe so vor, daß ich jedes neue Programm durch Kopieren eines bereits vorhandenen mit anschließender Umarbeitung erstelle.

Metatags werden dabei also mitgenommen. Wenn allerdings eines in allen oder vielen Seiten nachzutragen ist, kann die Sache lästig werden. Dabei kann wahrscheinlich die im genannten Editor projekt-übergreifend einsetzbare suchen/ersetzen-Funktion behilflich sein.


Karl antwortete am 01.09.02 (14:41):

@ pilli,


nein, da muss ich Dich (und mich) leider enttäuschen, mit 1&1 habe ich nichts zu tun. Schade.

Ich habe einmal eine Studentenfirma "Aktivnetz" durchgefüttert, aber dies ist jetzt auch vorbei.

Hauptberuflich bin ich mit Engagement an der Uni. Der ST ist und bleibt mein Hobby.


Mit freundlichen Grüßen

Karl


Karl antwortete am 01.09.02 (14:46):

Lieber Jo,


achte bitte darauf die robots.txt klein zu schreiben. Grossgeschrieben wird die datei nicht erkannt.

Mit freundlichen Grüßen

Karl


Karl antwortete am 01.09.02 (14:56):

@ Steini,


die 67% Datentransfer (9878830 Bytes) kommen nicht dadurch zustande, dass 67% aller Visits von Robots stammen, sondern dass jeder einzelne Robot 100% aller Seiten des ST abgrast und das sind soviele, wie ein menschlicher Benutzer in 1 Woche kaum vollständigen lesen könnte:

1. Autorenteil mit vollständigen Romanen
2. Diskussionsforen mit den Archiven
3. Die Grusskarten mit Bildern
4. das ST-Bilderarchiv

Das sind tausende von HTML-Seiten und Hunderte von Bildern. Ich habe deshalb jetzt erstmalig die entsprechenden Ordner für Robots verschlossen und werde beobachten, wie sich das auf die Statistik auswirkt. Wenn es Euch interessiert, werde ich das Ergebnis hier posten.

Mit freundlichen Grüßen

Karl


Johannes Michalowsky antwortete am 01.09.02 (18:02):

@Karl

Danke, hatte ich so gemacht gehabt, aber, wie Steini vermutet, vor noch nicht sehr langer Zeit (etwa einem halben Jahr).


Karl antwortete am 07.09.02 (16:57):

Zwischenbericht

Seit dem 1. September ist die robots.txt Datei aktiviert. Der Effekt auf den Traffic ist leider völlig unsichtbar. Im Gegenteil, der Traffic für die HTML-Seiten (ohne Chats) ist weiter angestiegen und erreichte für den 5. September 408956 KiloByte. Damit erwarte ich im September etwa 12 Gigabyte (ohne Chats), d.h. zumindest bisher hat der Ausschluss der Robots nichts gebracht. Die Anzahl der Visits ist mit etwa 3000 pro Tag stabil geblieben.

Fazit:
1. Der Ausschluss der Robots zeigt nicht die erhoffte Wirkung auf den Traffic und ich werde zumindest Google wieder zulassen.
2. Ich werde wesentliche Teile des ST auf die Billigdomäne seniorenstadt.de umziehen, aber so, dass der Benutzer davon keinen Nachteil hat (d.h., er wird es nur bemerken, wenn er auf die Adresszeile achtet).

Internet-Tipp: https://senorenstadt.de