Tại sao cần phải tạo file robot.txt ?
- Khi các robot của bộ máy tìm kiếm ghé thăm một website nào
đó thì nó sẽ ghẽ thăm file robots.txt đâu tiên vì đây chính là bảng chỉ dẫn cho
các robot tìm kiếm thông tin
firl robot.txt là gì? Công dụng của file robot.txt?
File robot.txt là một dạng file text có đươi .txt chứa các
câu lệnh để hướng dẫn cho các robot tìm kiếm của google nên đọc những file nào
và index file nào khi vào website.
- File robot.txt là một tập tin văn bản đơn giản (không chứa
các mã HTML) được đặt trong thư mục gốc của website(ngăng cấp với file
index.*(index.htm, index.php, default.aspx,….)
file robot tet
Ví dụ
www. nhoadvertising.blogspot.com/robot.txt
HƯỚNG DẪN TẠO FILE ROBOT.TXT
để tạo tập tin robots.txt bạn mở chương trình Notepad và gõ
các lệnh, sau đó lưu lại với tên robots.txt và chép vào thư mục gốc của
website.
Để tạo file robot.txt bản mở chương trình notepad và gõ các
câu lênh, Sau đó lưu lại với tên file là robot.txt và upload lên thư mục gốc của
web
Các lênh cơ bản như sau
User-agent: *
Allow: /duocdocfilenay/
Disallow: /khongdocfilenay/
• User-agent:
dùng để xác định bot của công cụ tìm kiếm.
• Allow:
Cho phép bot vào thư mục nào đó.
• Disallow:
Không cho bot đọc file nào đó.
-> Ở ví dụ trên hướng dẫn cho phép bot đọc file
duocdocfilenay, và không cho phép bot đọc file khongdocfilenay.
Một số ứng dụng của file robot.txt
1. Chặn không cho bot google vào web
User-agent: *
Disallow: /
- Với những câu lệnh trên trì không có công cụ tìm kiếm nào
lập chỉ mục (index) bất kỳ trang nào trong website của ban, nghĩa là các bài viết
hay sản phẩm trong website của bạn sẽ không xuất hiện trong kết quả tìm kiếm của
google
2. Không cho bot đọc một thư mục hay một trang nào đó
User-agent: *
Disallow: /khongxem.html/
Disallow: /test.html/
- Với những câu lệnh ở trên có nghĩa là cho phép bot đọc tất
cả các file trong web trừ 2 file khongxem.html và test.html.
3. Chặn một bót nào đó
User-agent: Spambot
Disallow: /
User-agent: *
Disallow: /wp-includes/
- Spambot bị cấm truy cập tất cả các thư mục web còn các web
khác được truy cập tất cả các thư mục trừ file wp-includes
4. Chỉ cho phép bot đọc một thư mục hoặc một trang nào đó
User-agent: *
Allow: /bai-viet/
Allow: /demo.html
Disallow: /wp-includes/
- Cho phép tất cả các bot truy cập vào thư mục bai-viet và
trang demo.html nhưng không được đọc thư mục wp-includes
cach tao file robot txt
5. Chặn bot vào nhiều bài có cấu trúc đường dẫn giống nhau
VD Chúng ta có hai đường dẫn như sau
• www. nhoadvertising.blogspot.com/geolat10=1235345
• www. nhoadvertising.blogspot.com/geolat12=1345
• ..
Chúng ta muốn chặn bot truy cập vào tất cả các đường dẫn dạng
này thì làm thế nào? Các bạn nhìn kỹ sẽ thấy trong 2 URL trên có phần chung là
/geolat là cấu trúc giống nhau của 2 hoặc nhiều URL. Chúng ta sẽ chăn bot bằng
lệnh sau
Disallow: /geolat*