Robots.txt Là Gì?

Robot.txt là gì

Robot.txt là gì?

Robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác. Nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm ( SE ) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.

Robots.txt Là Gì?

Khi dùng file robots.txt, bạn cần cẩn trọng. Vì nếu điều chỉnh sai, mọi thành quả SEO sẽ đổ sông đổ bể.

Nếu dự án của bạn nhỏ và bạn không biết chắc chắn mình đang làm gì, tốt nhất, bạn không nên dùng file robots.txt. Cứ để mọi thứ tự nhiên như thế. Blog của Quang cũng không dùng file robots.txt.

Tuy nhiên, với những dự án lớn, đặc biệt là e – comerce, việc sử dụng file robot.txt gần như là bắt buộc. File robots.txt giúp bọ Google index trang web của bạn hiệu quả hơn, chống đối thủ dò quét backlink, cũng như hạn chế nội dung trùng lặp rất thường gặp khi SEO cho lĩnh vực e-comerce.

Ưu điểm khi sử dụng Robot.txt

Chặn bọ trong quá trình setup hệ thống

Trong quá trình thiết kế website (thiết kế giao diện, cài đặt plugin, xây dựng cấu trúc trang web), mọi thứ còn rất bừa bộn. Bạn nên chặn bọ Google, để nó không index những nội dung chưa hoàn thiện mà bạn không mong muốn.

Chèn Sitemap

Sitemap giống như một tấm bản đồ để bọ Google khám phá trang web của bạn. Nếu số lượng index của trang web quá lớn mà trang web không có sitemap, bọ Google có thể sẽ không đủ tài nguyên (crawl budget) để quét hết trang web của bạn. Từ đó, Google có thể sẽ không index được một số nội dung quan trọng.

Một trang web có thể có nhiều hơn một sitemap (ví dụ như sitemap bài viết, sitemap hình ảnh, sitemap tin tức…). Bạn nên dùng một phần mềm để tạo sitemap cho trang web, rồi sau đó khai báo các đường dẫn sitemap đó vào trong file robots.txt.

Robots.txt Là Gì?

Chặn bọ check backlink

Hiện tại ở Việt Nam, ba công cụ check backlink phổ biến nhất là Ahrefs, Majestic và Moz. Bọ của chúng có tên tương ứng là AhrefsBot (Ahrefs), mj12bot (Majestic) và rogerbot(Moz).

Để không cho đối thủ dùng công cụ để phân tích backlink của bạn, bạn có thể chặn bọ của chúng trong file robots.txt.

Chặn bọ độc hại

Ngoài bọ check backlink, còn một số loại bọ độc hại khác.

Ví dụ như, Amazon, gã khổng lồ của ngành e-commerce thế giới, phải chặn một con bọ có tên là EtaoSpider.

Chặn thư mục nhạy cảm

Mã nguồn trang web, thông thường có thư mục nhạy cảm, chẳng hạn như wp-admin, wp-includes, phpinfo.php, cgi-bin, memcache….

Bạn không nên cho bọ tìm kiếm index những nội dung này, vì khi đó, nội dung của chúng sẽ bị public trên internet. Hacker có thể moi được thông tin từ chúng, để tấn công hệ thống của bạn.

Chặn bọ trong thương mại điện tử

Robots.txt Là Gì?

Trong thương mại điện tử, có một số tính năng đặc thù cho người dùng như:

  • Đăng ký tài khoản
  • Đăng nhập tài khoản
  • Giỏ hàng
  • Lịch sử giao dịch
  • Sở thích người dùng (wishlist)
  • Thanh tìm kiếm nội bộ
  • So sánh giá (price)
  • Sắp xếp thuộc tính (giá từ cao tới thấp, hàng bán chạy, kí tự A&B….)
  • Lọc thuộc tính (nhà sản xuất, màu sắc, giá tiền, dung lượng…)
  • Các sản phẩm không còn bán nữa (đi kèm với 301 redirect)

Những chức năng đó không thể thiếu với người dùng, nhưng thường tạo ra nội dung trùng lặp trong SEO, và không có bất kỳ nội dung liên quan gì để hỗ trợ cho việc SEO từ khóa. Do đó, bạn có thể chặn index các đường dẫn này file robots.txt.

Trong file robot.txt, bạn dùng thêm dấu * (thay thế một chuỗi ký tự bất kỳ) và $ (định dạng file, ví dụ như .doc, .pdt, .ppt, .swf…, dùng ở cuối câu) để chặn các file tương ứng.

Nhược điểm khi sử dụng

Khi dùng file robots.txt, bạn cần cẩn trọng. Vì nếu điều chỉnh sai, mọi thành quả SEO sẽ đổ sông đổ bể.

Hoạt động như thế nào

Crawl-Delay: thông số này xác định thời gian (tính bằng giây) bots phải đợi trước khi chuyển sang phần tiếp theo. Điều này sẽ có ích để ngăn chặn các search engine load server tùy tiện.

Dấu #: được sử dụng trước các dòng cần comment.

robots.txt hoạt động bằng cách xác định một user-agent và một lệnh cho user-agent này.

Các tham số có trong file robots.txt

Disallow: là khu vực mà bạn muốn khoanh vùng không cho phép search engine truy cập.

User-agent: khai báo tên search engine mà bạn muốn điều khiển, ví dụ: Googlebot, Yahoo! Slurp

Lưu ý khi sử dụng robot.txt

  • Để được các con bot tìm thấy thì các tệp robots.txt phải được đặt trong các thư mục cấp cao nhất của trang web.
  • txt có thể phân biệt chữ hoa và chữ thường. Vì thế tệp phải được đặt tên là robots.txt. (không phải Robots.txt hay robots.TXT, …)
  • Không nên đặt /wp-content/themes/ hay /wp-content/plugins/ vào mục Disallow. Điều đó sẽ cản trở các công cụ tìm kiếm nhìn nhận chính xác về giao diện blog hay website của bạn.
  • Một số user-agent có thể chọn cách bỏ qua các file robots.txt chuẩn của bạn. Điều này khá phổ biến với các user-agent bất chính như:
  • Malware robots (bot của các đoạn mã độc hại)
  • Các trình scraping (quá trình tự thu thập thông tin) địa chỉ email
  • Các tệp robots.txt thường có sẵn và được công khai trên web. Bạn chỉ cần thêm /robots.txt vào cuối bất kì root domain để xem các chỉ thị của trang web đó.

Điều này có nghĩa là bất kì ai cũng có thể thấy các trang bạn muốn hoặc không muốn crawl. Vì vậy đừng sử dụng các tệp này để ẩn thông tin cá nhân của người dùng.

Mỗi subdomain trên một một root domain sẽ sử dụng các file txt wordpress riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com nên có các tệp robots.txt riêng. (blog.example.com/robots.txt và example.com/robots.txt). Tóm lại, đây được xem là cách tốt nhất để chỉ ra vị trí của bất kì sitemaps nào được liên kết với domain ở cuối tệp robots.txt.

➡ Marketing Là Gì? Có Ảnh Hưởng Đến Xây Dựng Thương Hiệu Không?

TOP từ khóa được khách hàng tìm kiếm nhiều nhất

robots txt tester

how to read robots txt

robots txt google

sample robots txt file download

google robots

is robots txt necessary

robots txt no index

robots txt adalah

Click to rate this post!
[Total: 0 Average: 0]
0937.135.907