Thứ Sáu, 29 tháng 3, 2013

Hướng dẫn tạo file robots.txt


Tạo file robots.txt là một trong những công việc cần làm khi  seo onpage .  Đầu tiên chúng ta cần hiểu file robots.txt là gì ? Khi search engine crawl một website nào đó thì tập tin đầu tiên nó để ý đến là robots.txt. Vậy robots.txt là một file dạng txt có chứa các câu lệnh để [...]

Hướng dẫn tạo file robots.txt SeoTạo file robots.txt là một trong những công việc cần làm khi  seo onpage .  Đầu tiên chúng ta cần hiểu file robots.txt là gì ? Khi search engine crawl một website nào đó thì tập tin đầu tiên nó để ý đến là robots.txt. Vậy robots.txt là một file dạng txt có chứa các câu lệnh để định ra các thành phần với quyền hạn riêng biệt cho từng bọ tìm kiếm.
Thực chất, file robots.txt là một tập tin văn bản đơn giản (không chứa mã HTML) được đặt trong thư mục gốc của website
ví dụ :   http://seotopvn.com/robots.txt
Để tạo một file robots.txt rất đơn giản. Việc đầu tiên các bạn mở file notepad và lưu file với tên robots.txt rồi sau đó ghi các dòng lệnh với cấu trúc như sau :
Nếu bạn muốn tất cả các search engine có thể index website của bạn, nhưng không được index các trang trong thư mục “cgi-bin” thì sử dụng lệnh sau:
User-agent: *
Disallow: /cgi-bin/

Những điều nên tránh:

  • Không sử dụng các chú thích trong file robots.txt, nó có thể làm cho các spider của search engine bị lầm lẫn.
Ví dụ:
“Disallow: support # Don’t index the support directory”
  • Không được để khoảng trắng ở đầu dòng lệnh
Ví dụ:
User-agent: *
Disallow: /cgi-bin/

  • Không thay đổi trật tự của các dòng lệnh.
Ví dụ:
Disallow: /support
User-agent: *

  • Không sử dụng quá một thư mục trong dòng lệnh Disallow.
Ví dụ:
User-agent: *
Disallow: /support /cgi-bin/ images/

  • Các search engine không hiểu định dạng trên. bạn nên viết thế này:
User-agent: *
Disallow: /support
Disallow: /cgi-bin/
Disallow: /images/

  • Phải chắc chắn các mệnh đề, từ sử dụng trong lệnh là đúng.
Ví dụ:
Thư mục của bạn là “cgi-bin” (viết thường, không viết hoa), nhưng khí vào lệnh, bạn lại viết là “Cgi-Bin” thì các search engine không hiểu được.
  • Không nên dùng lệnh Allow trong file robots.txt
Bởi vì trong website của bạn chắc chắn sẽ có một số trang hoặc một số thành phần bạn không muốn bị người khác “nhòm ngó”. nếu bạn sử dụng lệnh Allow, tất cả mọi ngóc ngách trong website của bạn sẽ bị index.
Bạn có thể kiểm tra file robots.txt của site bằng cách vào Webmaster Tools của Google (phải đăng nhập tài khoản) vào Site configuration->Crawler access.
Copy nội dung file robots.txt dán vào ô đâu tiên. Nhấn vào nút Test. Kết quả sẽ hiển thị ở dưới cùng.

0 nhận xét:

Đăng nhận xét

Twitter Delicious Facebook Digg Stumbleupon Favorites More