У нещодавньому оновленні документації зазнала змін політика Google по Robots.txt. Зокрема компанія уточнила свою позицію щодо непідтримуваних полів у цих файлах.
Google заявив, що їх веб-сканери не підтримують поля, не перелічені в корпоративній документації по robots.txt. Це роз’яснення є частиною зусиль Google, направлених на надання однозначних вказівок власникам і розробникам веб-сайтів.
Іноді ми отримуємо запитання щодо полів, які явно не вказані як підтримувані, і ми хочемо пояснити, що вони не підтримувані
Офіційна заява Google
Це має усунути плутанину та не дозволить власникам веб-сайтів покладатися на непідтримувані директиви.
Що це означає:
- Використовуйте лише підтримувані поля, тобто лише ті, які прямо згадані в документації Google.
- Перегляньте наявні файли robots.txt та перевірте їх, щоб переконатися, що вони не містять непідтримуваних директив.
- Враховуйте обмеження: веб-сканери Google можуть не розпізнавати певні сторонні або спеціальні директиви.
Згідно з оновленою документацією, Google офіційно підтримує такі поля у файлах robots.txt:
- user-agent
- allow
- disallow
- sitemap
Хоча це явно не сказано, але цей перелік означає, що Google не підтримує такі загальновживані директиви, як «crawl-delay», хоча інші пошукові системи можуть їх розпізнавати. Крім того, варто зазначити, що Google поступово припиняє підтримку директиви «noarchive».
Нова політика Google по Robots.txt – це нагадування про те, що варто тримати руку на пульсі та стежити за офіційними оновленнями інструкцій та передових практик Google.
Докладнішу інформацію про впровадження robots.txt і передові практики Google Search Center можна отримати в їх офіційній документації.