. .
pragmaMx Support Forum 19 Mai 2013, 22:59:03 *
Willkommen Gast. Bitte einloggen oder registrieren.


Einloggen mit Benutzername und Passwort
News:
Brauchen Sie Hilfe? Bitte nutzen Sie unsere Suchfunktion bevor Sie Beiträge oder Fragen ins Board schreiben! Viele Fragen wurden bereits gestellt und beantwortet. Danke!
 
Übersicht Hilfe Forenregeln / Boardrules
 
Suche
Seiten: [1] 2  Alle   Nach unten
Drucken
Autor Thema: krasser Fehler in robots.txt?  (Gelesen 8858 mal)
0 Mitglieder und 1 Gast betrachten dieses Thema.
startforum
Gast
« am: 10 Februar 2007, 20:14:49 »

Hallo,
habe festgestellt, dass viele der Seiten meines Pragmmx nicht von Google indiziert werden, ein Blick in Google Sitemaps verriet mir, ALLE Urls mit modules.php=... sind durch die Robots.txt eingeschränkt und wurden nicht indiziert.
Das ist ein krasser Fehler!
In der robots.txt sind alle eingeschränkten Verzeichnisse mit
/Verzeichnis
angegeben.
Ich habe das bei mir mal geändert zu
/Verzeichnis/
und hoffe, dass es etwas hilft.
Hat jemand konkrete Infos dazu (ist bisher eher eine Vermutung das es daran liegt)?

----
Ich hatte schonmal einen Account hier, habe mir ein neues Passwort zusenden lassen, konnte mich aber damit nicht einloggen ("dieser Account existiert nicht") ?


Viele liebe Grüße
Gespeichert
Marodeur
weiss was
***
Offline Offline

Beiträge: 144


WWW
« Antworten #1 am: 10 Februar 2007, 20:49:00 »

Jepp,

hab's vergessen zu melden. Ist mir schon vor reichlich Zeit aufgefallen.

Aussehen muss die robots.txt so:

Code: [Select]  
User-agent: *
Disallow: /admin/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /modules/
Disallow: /themes/
Disallow: /install/
index, follow

erst dann legen msnsearch, yahoo und google so richtig los.

Und nu weiss ich auch wieder, wieso seit der 0.1.9 google sich nicht mehr traut.  mad2
Gespeichert

cu, Ralf
(Korrigiert mich, wenn ich Blödsinn schreibe)
startforum
Gast
« Antworten #2 am: 10 Februar 2007, 20:57:25 »

Ok, Danke!
...modules.php=... sind doch recht viele Seiten, fast alle.
Ich hoffe mal das die Änderung nun funktioniert und der Googlebot schnell kommt  Wink

Danke auch für Pragmamx, gutes CMS  Smiley

Viele liebe Grüße

Gespeichert
Andi
Administrator
******
Offline Offline

Geschlecht: Männlich
Beiträge: 18.602

Andi


WWW
« Antworten #3 am: 10 Februar 2007, 22:11:36 »

Moin Smiley

leider muss/kann ich den Fehler bestätigen.
Ich dachte, diese uralte robots.txt wäre schon lange ersetzt, aber sie ist immer wieder in die Downloadpakete eingeflossen...  mad2
Ich denke, das wurde bisher nicht bemerkt, weil die meisten die auf SEO achten, sowieso mod_rewrite aktiviert haben. Dafür wäre das ok, weil dann keine URL's mit 'modules' beginnen. Bzw. wegen DC sogar erwünscht...

Anbei die aktuelle robots.txt, so wie sie sich im CVS befindet.

Und nu weiss ich auch wieder, wieso seit der 0.1.9 google sich nicht mehr traut.
Das ist nicht erst seit 0.1.9 so, sondern von beginn an, von pragmaMx Wink

[gelöscht durch Administrator]
Gespeichert

schön´s Grüssle, Andi
Kein Support über PN, Mail oder ICQ!
Bitte die Fragen im Forum stellen, nur so helfen die Antworten auch den anderen Usern.
Bitte auch die Boardsuche nicht vergessen, oft ist genau dein Problem schon an anderer Stelle gelöst worden!
Marodeur
weiss was
***
Offline Offline

Beiträge: 144


WWW
« Antworten #4 am: 10 Februar 2007, 22:16:12 »

Und nu weiss ich auch wieder, wieso seit der 0.1.9 google sich nicht mehr traut.
Das ist nicht erst seit 0.1.9 so, sondern von beginn an, von pragmaMx Wink

Ich hatte die robots.txt in der 1.8er bereits korrigiert, das war vor fast einem Jahr :-)
Gespeichert

cu, Ralf
(Korrigiert mich, wenn ich Blödsinn schreibe)
EgalUndSo
Gast
« Antworten #5 am: 11 Februar 2007, 00:08:29 »

Bei der " robots.txt -Analyse" steht bei mir immer noch das:
index, follow    =   Syntax wurde nicht verstanden

Ist das egal, oder muß da noch was geändert werden ?
(Hab seit Version 0.1.9 keine "Google-Leute" mehr bei HTTP Referer gehabt)
Gespeichert
startforum
Gast
« Antworten #6 am: 11 Februar 2007, 01:03:15 »

Zitat
Ich denke, das wurde bisher nicht bemerkt, weil die meisten die auf SEO achten, sowieso mod_rewrite aktiviert haben.
Eh,...  das ist ein Märchen  Wink

Pragmamx rules, wenn Fehler (die können immer mal pasieren) gefixt werden  thumbup

Zitat
Bei der " robots.txt -Analyse" steht bei mir immer noch das:
index, follow    =   Syntax wurde nicht verstanden

Ist das egal, oder muß da noch was geändert werden ?
(Hab seit Version 0.1.9 keine "Google-Leute" mehr bei HTTP Referer gehabt)
Das muß irgenwas anderes sein, bei meinem Problem kam zwar der Googlebot, hat aber die Seiten aufgrund der fehlerhaften robots.tx nicht indiziert.
Wenn er die Syntax nicht versteht, liegt möglichereise ein anderes Problem vor.

Poste dazu dochmal Deine Robots.txt

mfg
Gespeichert
EgalUndSo
Gast
« Antworten #7 am: 11 Februar 2007, 01:17:45 »

User-agent: *
Disallow: /admin/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /language/
Disallow: /modules/
Disallow: /themes/
Disallow: /install/
index, follow

(Wenn ich: 'index, follow' weg mach, werden keine Fehler angezeigt)
Aber ich weiß nicht wozu das gut ist, und ob das weg darf. gruebel
Gespeichert
startforum
Gast
« Antworten #8 am: 11 Februar 2007, 01:41:11 »

Mh  gruebel
Ich jedenfalls sehe keinen Fehler auf schnell... ?
index, follow kann weg, muß aber nicht.
Heutzutage wird das für jede Seite (im SMF beispielsweise) individuell festgelegt, um bspw. doppelten Content zu vermeiden. Index - weist den Roboter an die Seite zu indexieren (in Suchergebnissen aufzunehmen), follow - weist ihn an Links auf Deiner Seite zu folgen.
Die Äquievalante sind noindex / nofollow, sinnvoll, wenn sicher ist, dass der Content schon per anderer URL erreichbar ist (im SMF bereits berücksichtigt, im Pragmamx k.A., bestimmt später  Wink ).

Also, ich zumindest sehe auf schnell keinen Fehler, versuche mal die Datei im ACII-Format hochzuladen, oft entstehen Fehler, wenn man Dateien im Binär-Format uploadet

mfg
Gespeichert
Marodeur
weiss was
***
Offline Offline

Beiträge: 144


WWW
« Antworten #9 am: 11 Februar 2007, 12:39:41 »

so, ich hab mal ein wenig rumgelesen.

index, follow oder die varianten noindex und nofollow gibt es nicht in der robots.txt. Die Zeile gehört da überhaupt nicht rein. Irgendwer hat damit mal angefangen und alle haben den Fehler nachgemacht :-)
(www.robotstxt.org)

index und follow -Angaben gehören in die Meta-Zeilen der HTML-Seite.

z.B. <META NAME="ROBOTS" CONTENT="INDEX">

Gespeichert

cu, Ralf
(Korrigiert mich, wenn ich Blödsinn schreibe)
EgalUndSo
Gast
« Antworten #10 am: 11 Februar 2007, 14:10:16 »

Alles klar, dann mach ich das wieder raus.
Danke für die Hilfe... thumbup
Gespeichert
Breaker
weiss was
***
Offline Offline

Geschlecht: Männlich
Beiträge: 166


WWW
« Antworten #11 am: 12 Februar 2007, 17:10:07 »

Ich war gerade bei Google (Webmaster-Tools), dort wurde mir "gesagt", das dieses "index, follow" in der Robots.txt eine "Unbekannte Syntax" wäre, ein "ALLOW FROM ALL" schafft da abhilfe..., ich bekam diesen Key :-)


Ist da was dran, oder war das ein weiterer Fehler in der Robots.txt ?
Gespeichert

Linux ist wie guter Sex, man kann es beschreiben oder drüber reden,
man weiß erst was es bedeutet, wenn man es erlebt hat.
Andi
Administrator
******
Offline Offline

Geschlecht: Männlich
Beiträge: 18.602

Andi


WWW
« Antworten #12 am: 12 Februar 2007, 17:30:38 »

@ all

habt ihr meinen post nicht gelesen?
Dort ist eine korrigierte, syntax-korrekte und an 0.1.9 angepasste, robots.txt angehängt....
Gespeichert

schön´s Grüssle, Andi
Kein Support über PN, Mail oder ICQ!
Bitte die Fragen im Forum stellen, nur so helfen die Antworten auch den anderen Usern.
Bitte auch die Boardsuche nicht vergessen, oft ist genau dein Problem schon an anderer Stelle gelöst worden!
Marodeur
weiss was
***
Offline Offline

Beiträge: 144


WWW
« Antworten #13 am: 12 Februar 2007, 18:26:36 »

@ all

habt ihr meinen post nicht gelesen?

Wir lesen doch keine korrekte Hilfe eines Pragma-Programmierers  biggrin biggrin

*scnr*
Gespeichert

cu, Ralf
(Korrigiert mich, wenn ich Blödsinn schreibe)
Manuel
weiss was
***
Offline Offline

Geschlecht: Männlich
Beiträge: 223


WWW
« Antworten #14 am: 19 Februar 2007, 17:36:35 »

Hab das bei mir jetzt auch mal ein paar Tage beobachtet, weil ich mich schon gewundert hatte warum meine Artikel nicht im Google Index drin sind.

Hab dann mal die neue robots.txt hochgeladen und das selbe Problem wie vorher.

Die Tage war der Spider wieder auf meiner Seite und hat auch paar neue Seiten aufgenommen,
nur nicht meine Artikel, was mir aber am wichtigsten wäre!

Mit Google Webmaster Tools hab ich dann das hier gefunden:
http://www.berufswahl-online.de/stuff/screen.jpg

Demnach scheint das mit der robots.txt ja auch nicht hinzuhauen und die Spider können nicht auf meine Artikel zugreifen.

Deshalb werd ich dort jetzt nicht mehr das Verzeichnis /modules/ sperren, sondern alle Unterverzeichnisse manuell sperren und z.b. /Stories_Archive/ zulassen.

Ich würde fast ne Wette eingehen, dass die Artikel dann auch im Index erscheinen  gruebel
« Letzte Änderung: 19 Februar 2007, 17:43:34 von DonManu » Gespeichert

Mein pragmaMx -> Berufswahl-Online.de
Andi
Administrator
******
Offline Offline

Geschlecht: Männlich
Beiträge: 18.602

Andi


WWW
« Antworten #15 am: 19 Februar 2007, 18:32:15 »

Moin Smiley

ich weiss ja nicht, wie google die letzte "leere" Zeile deiner robots.txt interpretiert; aber evtl. hängt es auch nur da dran....

Code: [Select]  
User-agent: *
Disallow: /admin
Disallow: /albums/
Disallow: /blocks/
Disallow: /images/
Disallow: /includes/
Disallow: /install/
Disallow: /language/
Disallow: /modules/
Disallow: /spaw/
Disallow: /themes/
Disallow: /upgrade/
Disallow:
Gespeichert

schön´s Grüssle, Andi
Kein Support über PN, Mail oder ICQ!
Bitte die Fragen im Forum stellen, nur so helfen die Antworten auch den anderen Usern.
Bitte auch die Boardsuche nicht vergessen, oft ist genau dein Problem schon an anderer Stelle gelöst worden!
jubilee
Gast
« Antworten #16 am: 19 Februar 2007, 19:44:50 »

Zitat
manuell sperren und z.b. /Stories_Archive/ zulassen.

Ich würde fast ne Wette eingehen, dass die Artikel dann auch im Index erscheinen
Die Wette wirst Du wohl verlieren.
Der Spider holt sich die Artikel NICHT aus dem Unterverzeichnis modules/Stories_Archive/ wie Du vermutest.
Ausschlaggebend ist hier nur der Aufruf. Der geschieht über das Portalroot über die Datei modules.php.
Ein Direktaufruf der modules/Stories_archive/index.php ist zudem sowoeso nicht möglich.
Die Dateien die in dem Unterverzeichnis /modules/Stories_Archive/ brauchen nicht indiziert werden. Wen interessiert es schon, das Du in dem vVerzeichnis eine index.php liegen hast ...


Gespeichert
Manuel
weiss was
***
Offline Offline

Geschlecht: Männlich
Beiträge: 223


WWW
« Antworten #17 am: 19 Februar 2007, 20:14:39 »

Hmm dann lassen wir das erstmal mit der Wette  Wink

Aber testen werd ich das trotzdem nochmal.

Ich kann ja auch mal die letzte Zeile aus der robots rausnehmen, vllt liegts ja wirklich daran.

Irgendwann werd ich die Artikel schon in den Index bekommen Smiley

Gespeichert

Mein pragmaMx -> Berufswahl-Online.de
maverik
Gast
« Antworten #18 am: 19 Februar 2007, 23:21:44 »

moin moin

@DonManu

Zitat
Irgendwann werd ich die Artikel schon in den Index bekommen

das zauberwort heißt hier gedult und nicht oder nicht nur robots.txt.

du hast deine domain am 06.11.2006 gereggt. am 12.02.2007 hast du sie bei ranking-hits angemeldet und derzeit sind so um die 20-30 user täglich auf deiner seite, laut statistik ranking hits.

so schnell ist mutter google da nicht unterwegs. cool.gif

optimiere deine meta keywords und schaue das du gute backlinks bekommst.
maybe suchst du dir einen guten rss feed der zu deinem thema passt und pflanzt ihn auf die startseite, man glaubt es kaum wieviel spass google an dem feed von unserer tageszeitung bei mir auf der startseite hat.
dann melde deine seite per hand bei den wichtigen guten suchmaschinen an und hol dir eine tasse kaffee oder zwei und lehne dich entspannt zurück.

den rest bringt die zeit....


so long maverik
Gespeichert
Manuel
weiss was
***
Offline Offline

Geschlecht: Männlich
Beiträge: 223


WWW
« Antworten #19 am: 26 Februar 2007, 02:26:48 »

Ich hab meine Wette wohl doch verloren...aber ich bin ein guter Verlierer  biggrin

Ihr habt recht gehabt, also mit der robots.txt werden die Artikel doch in den Index mit aufgenommen,
hat wohl doch einfach nur nen bisschen länger gedauert als ich vermutet habe.

Hab nämlich grad die Artikel im Index bei Google gefunden.

Also danke nochmal  thumbup

Gruß, Manu
Gespeichert

Mein pragmaMx -> Berufswahl-Online.de
Seiten: [1] 2  Alle   Nach oben
Drucken
 
Gehe zu:  

Powered by SMF 1.1.18 | SMF © 2011, Simple Machines
design by hENNE, layout based on YAML