Websuche.Eintrag.Jugendschutz.Technik.AGN.Media.Impressum

Die Technik "hinter" cligoo


cligoo-News

30.09.2011: Viele kleine Detailverbesserungen... u.a. werden die Suchbegriffe jetzt besser in den Suchergebnissen und in den News hervorgehoben.

29.09.2011: Ab Sofort werden alternative Suchvorschläge, basierend auf den bisherigen Suchanfragen und sofern vorhanden, angezeigt.

01.08.2011: Am Ende der jeweiligen Suchergebnisseite haben wir nun auch Navigationsbuttons eingefügt.

05.05.2011: Auf Grund weitreichender Neu- und Weiterentwicklungen haben wir uns entschlossen, cligoo in eine "alpha"-Version zurückzustufen.

28.04.2011: Optimierung der Seitendarstellung insbesondere bei kleineren Bildschirmauflösungen.

09.03.2011: Wir haben die Geschwindigkeit des Suchalgorithmus erheblich gesteigert.

22.02.2011: Bei aktivem Kinder- oder Jugendschutzfilter erfolgen keine News- und Werbeeinblendungen mehr.

03.02.2011: Probleme der Robots im Zusammenhang mit relativen Links auf Internetseiten welche den <base>-Tag einsetzen und 404-Fehler zur Folge hatten, wurden behoben.

03.02.2011: Sitemap.xml: Es gibt Probleme mit Sitemap-Indexdateien. Daher werten die Robots solche Sitemaps derzeit nicht aus.

02.02.2011: Entfernung von "Contao Open Source CMS" aus dem Seitentitel für eine übersichtlichere Anzeige innerhalb der Suchergebnisse

28.01.2011: Aus patentrechtlichen Gründen haben wir unsere Suchergebnisvorschau neu entwickelt. Die Vorschau erfolgt nun nicht während der Eingabe der Suchbegriffe, sondern wird statisch über komplette, bereits beantwortete Suchanfragen generiert.

24.01.2011: Neuer Suchalgorithmus online! Zum einen haben wir die Geschwindigkeit der Suchabfragen deutlich gesteigert und zum anderen die Relevanz der Suchergebnisse weiter erhöht.

24.01.2011: Suchvorschläge werden nun auch auf der Startseite während der Eingabe angezeigt.

20.01.2011: Unsere Robots beachten ab Sofort auch den Parameter "Crawl-delay" in der robots.txt

20.01.2011: Nicht personalisierte Description-Tags von Joomla!-basierenden Internetseiten werden gefiltert.

19.01.2011: Unsere Robots laufen nun in Version 2.0, viele Verbesserungen u.a. noch bessere Auswertung von Seiten mit Framesets.

18.01.2011: Neue Funktion "Direktvorschau auf die Suchergebnisse" freigeschalten: Cache-basierend werden die zu erwartenden Suchergebnisse während der Eingabe in das Suchfeld dargestellt.

17.01.2011: Bekannte Internetseiten mit Abo-Fallen werden nicht mehr in den Suchergebnissen angezeigt.

14.01.2011: Ab Sofort zeigen wir aktuelle News auch aus den großen News-Portalen pressebox.de und lifepr.de an.

Allgemeines

Cligoo ist eine neue Suchmaschine welche derzeit als Alpha-Version zur Verfügung steht. Sie hat im Moment einen unabhängigen Datenbestand von ca. 3,1 Millionen deutschsprachigen Internetseiten auf TLD-Ebene, wobei ca. 76% de-, ca. 16% com- und ca. 3% net-Domains sind. Wir pflegen den Datenbestand grundsätzlich selbst. Eine Anbindung an andere Suchmaschinen und Datenbanken ist nicht vorhanden. Derzeit werden Internetseiten als "Ganzes" behandelt, d.h. der komplette Internetauftritt wird ausgewertet und als ein Datensatz gespeichert. Dieser Datensatz besteht ausschließlich aus Daten, die zum Betreiben der Suchmaschine notwendig sind.

Für das Sammeln und Auswerten der Daten sind rund um die Uhr zwischen 2 und 5 Robots im Einsatz.

Unsere Robots

Unsere Robots besuchen (crawlen) alle Seiten in regelmäßigen Abständen. Dabei wird der "revisit-Tag" der Startseite ausgelesen und beachtet. Als minimaler Wert werden derzeit 14 Tage, als maximaler Wert 60 Tage angesetzt um z.B. verwaiste Seiten zeitnah in unserem Datenbestand zu sperren.

Die Robots prüfen und werten, sofern vorhanden, die "robots.txt" sowie die "sitemap.xml", welche sich im Hauptverzeichnis der Internetseiten befinden sollten, aus. Die "sitemap.xml" wird abweichend davon, sofern in der "robots.txt" angegeben, auch von anderen Speicherorten eingelesen.

Wir versuchen Spam- und Brückenseiten sowie Seiten, die ausschließlich zum Zwecke der Generierung hoher Besucherzahlen geschaffen wurden und keinen wirklich relevanten Seiteninhalt aufweisen, auszufiltern.

Unsere Robots weisen sich wie folgt aus:

Mozilla/5.0 (compatible; CligooRobot/2.0; +http://www.cligoo.de/wk/technik.php)

robots.txt

Folgende Parameter werden von unseren Robots berücksichtigt:

  • User-Agent: *
  • User-Agent: CligooRobot
  • Disallow: /
  • Disallow: /Verzeichnis/.../Verzeichnis
  • Crawl-delay:
  • Sitemap:
  • Für weitere Information empfehlen wir den Wikipedia-Artikel "Robots Exclusion Standard".

    sitemap.xml

    Eine "sitemap.xml" (XML-Sitemap) kann den Traffic, welchen unsere Robots verursachen, deutlich senken. Sollte eine XML-Sitemap vorhanden sein, ignorieren unsere Robots die internen Links auf den Seiten und crawlen nur die in der XML-Sitemap aufgeführten Seiten nach Ihrer Wichtigkeit ("<priority>"-Parameter).

    Für weitere Information empfehlen wir den Wikipedia-Artikel "Sitemaps".

    Welche Seiten werden ausgewertet?

    Grundsätzlich werden nur deutschsprachige Seiten ausgewertet.

    Was unsere Robots nicht machen:

  • Sie suchen nicht nach Email-Adressen
  • Sie suchen nicht nach Bildern
  • Sie suchen nicht nach persönlichen Daten



  • Ein paar Informationen zum Thema SEO
    (Suchmachinenoptimierung)

    Die Positionierung Ihrer Internetseite in den Suchergebnissen erfolgt auf Grundlage der Suchanfrage im Verhältnis zum Content Ihrer Seite. Sollte Ihre Seite also schlecht in den Suchergebnissen abschneiden, finden Sie im Folgenden ein paar Tips, die sicher nicht nur für unsere Suchmaschine Gültigkeit haben:

    Meta-Tags

  • Prüfen Sie Ihre Meta-Tags, insbesondere <description>.
  • Prüfen Sie, ob Ihre Seiten (auch Unterseiten) einen Seitentitel besitzen.
  • Prüfen Sie, ob Ihre Seiten (auch Unterseiten) wirklich relevanten Inhalt besitzen.
  • Füllen Sie <alt>-Tags mit relevanten Informationen, ebenfalls die <title>-Tags.
  • Title-Tag (Seitentitel)

    Einer der wichtigsten Tags überhaupt - der Seitentitel - symbolisiert das "Aushängeschild" einer Internetseite. Der Seitentitel wird von fast allen Suchmaschinen in den Suchergebnissen angezeigt. Jedem Seitenbesucher wird in der Regel der Seitentitel in der Titelleiste des Browser-Fensters angezeigt.

    In diesem Zusammenhang haben wir festgestellt, dass:

  • 1,0 % der Seiten das Wort „Startseite“ als Seitentitel haben,
  • 2,0 % der Seiten die eigene Internetadresse (URL) als Seitentitel haben,
  • 9,0% der Seiten keinen Seitentitel besitzen,
  • 8,0% der Seiten nur einen unzureichenden Seitentitel (z.B. nur ein Wort) haben.
  • Zusammenfassend ergibt sich hier, dass ca. 19% aller Seiten keinen aussagekräftigen Seitentitel besitzen.

    Description-Tag (Seitenbeschreibung)

    Neben dem Title-Tag wird meist auch der Description-Tag in den Suchergebnissen mit angezeigt. Die Seitenbeschreibung ist für die Besucher nicht ohne Weiteres sichtbar, wird aber in den Suchmaschinen meist direkt unter dem Seitentitel angezeigt. Schreiben Sie hier einen Text, der den Seiteninhalt gut beschreibt, schließlich soll gerade der Beschreibungstext den Suchenden animieren, Ihre Seite zu besuchen.

    In diesem Zusammenhang haben wir festgestellt, dass:

  • 30% der Seiten keine Seitenbeschreibung besitzen und
  • 12% der Seiten nur einen unzureichenden Beschreibungstext (z.B. nur ein Wort) beinhalten.
  • Zusammenfassend ergibt sich hier, dass ca. 42% aller Seiten keinen aussagekräftigen Beschreibungstext besitzen.

    Noch eine Bemerkung: Gerade für Flash-Seiten ist nicht zuletzt der Beschreibungstext ausschlaggebend dafür, ob die Seite in Suchmaschinen gelistet wird.

    Geo-Tags

    Die Anzeige Ihrer Internetseite in den Suchergebnissen hängt in vielen Fällen auch von einer geografischen Zuordnung ab. Sollte Ihre Seite bei einer Suche nach einem Ortsnamen nicht gelistet werden, sollten sie die Geo-Tags <geo.location> und <geo.placename> mit Daten füllen. Dies erleichtert den Robots, Ihre Seite korrekt einzuordnen.

    Für weitere Information empfehlen wir den Wikipedia-Artikel "Geo-Tag".