48 / 48 credits απομένουν Επαναφορά σε 12 ώρες

Robots & LLMs Checker

48/ημέρα

Ανάλυση robots.txt και llms.txt ενός domain — κανόνες crawling, sitemaps και AI indexing.

Τι είναι το robots.txt;

Το robots.txt είναι ένα αρχείο κειμένου στη ρίζα ενός domain που δίνει οδηγίες στους web crawlers (Googlebot, Bingbot κ.ά.) για το ποιες σελίδες επιτρέπεται να ευρετηριάζουν. Ακολουθεί το πρωτόκολλο Robots Exclusion Standard και είναι ο κύριος τρόπος ελέγχου της πρόσβασης crawler στο site σου.

Βασικές οδηγίες robots.txt

User-agent

Καθορίζει σε ποιον crawler αναφέρεται η ομάδα κανόνων. Το * σημαίνει «όλοι οι crawlers». Μπορείς να έχεις ξεχωριστές ομάδες για κάθε bot (π.χ. Googlebot, GPTBot).

Disallow / Allow

Disallow: /admin/ αποκλείει το path από indexing. Allow: / δίνει ρητή πρόσβαση. Ένα κενό Disallow: σημαίνει «επιτρέπεται όλο το site». Το Disallow: / αποκλείει ολόκληρο το site.

Sitemap

Η οδηγία Sitemap: δείχνει στους crawlers πού βρίσκεται το XML sitemap του site, διευκολύνοντας την ανακάλυψη σελίδων.

Crawl-delay

Ζητά από τον crawler να περιμένει N δευτερόλεπτα μεταξύ αιτημάτων. Δεν υποστηρίζεται από το Googlebot, αλλά το σέβονται πολλοί άλλοι crawlers.

Τι είναι το llms.txt;

Το llms.txt είναι ένα νέο πρότυπο (llmstxt.org) που επιτρέπει στους ιδιοκτήτες sites να παρέχουν δομημένες πληροφορίες για το περιεχόμενό τους προς τα Large Language Models (LLMs) και AI agents. Ακολουθεί Markdown format και περιγράφει τι κάνει το site, ποιες σελίδες είναι σημαντικές και τι πρέπει να γνωρίζει ένα AI μοντέλο.

llms-full.txt

Η εκτενής έκδοση του llms.txt με πλήρες περιεχόμενο των σελίδων — χρησιμοποιείται από AI εργαλεία που θέλουν βαθύτερη κατανόηση του site.

Συχνές Ερωτήσεις

Είναι υποχρεωτικό το robots.txt;

Όχι, αλλά η απουσία του σημαίνει ότι όλοι οι crawlers έχουν πλήρη πρόσβαση. Αν δεν υπάρχει, ο Googlebot ευρετηριάζει όλο το site.

Αποκλείει το robots.txt την πρόσβαση χρηστών στις σελίδες;

Όχι. Το robots.txt αφορά μόνο crawlers — δεν εμποδίζει κανέναν χρήστη να επισκεφτεί μια σελίδα. Για πραγματική προστασία χρειάζεσαι authentication.

Τι σημαίνει Disallow: / για το Googlebot;

Ο Googlebot δεν θα ευρετηριάσει καμία σελίδα του site. Αυτό δεν σημαίνει ότι οι σελίδες εξαφανίζονται αμέσως από τα αποτελέσματα — pages που είναι ήδη indexed παραμένουν μέχρι να ανανεωθούν.

Πρέπει να φτιάξω llms.txt για το site μου;

Δεν είναι υποχρεωτικό, αλλά βοηθά τα AI εργαλεία να κατανοήσουν καλύτερα το περιεχόμενό σου. Είναι ιδιαίτερα χρήσιμο για SaaS, documentation sites και APIs.