file robots.txt là nơi khai báo, cho phép các công cụ tìm kiếm kiếm trên trang web của mình để lập chỉ mục(index) ví dụ như google-bot, bing-bot, google-image-bot ....
cú pháp như sau:
User-agent: *
Allow: /
Disallow: /include/
Ý nghĩa có nó như sau:
- User-agent: là cấm không cho một số bot tìm kiếm trên site mình
* là cho phép tất cả.
ví dụ ta khái báo:
User-agent: SpamBot
có nghĩa là cấm spamBot không được tìm kiếm.
- Allow: là cho phép tìm kiếm ở thư mục nào.
- Disallow: là cấm không cho phép tìm kiếm ở thư mục đó
- Lưu ý file robots.txt này phân biệt chữ hoa chữa thường, kí tự khoản trắng, khi khai báo nên chú ý