Hiểu sâu về cách thức Google thu thập dữ liệu và lập chỉ mục website 01/05/2020

Nếu bạn không hiểu rõ quy trình thu thập dữ liệu/lập chỉ mục/phân phát, thì sẽ rất khó để khắc phục các vấn đề hoặc dự đoán hành vi của trang web của bạn trong Tìm kiếm.



Bộ máy tìm kiếm Google có cách thức hoạt động cơ bản như sau: Google tìm kiếm website của bạn thông qua các đường dẫn (URL) và các liên kết (Link) trên mạng internet. Đồng thời, họ đánh giá website dựa trên rất nhiều tiêu chí trong đó quan trọng nhất là tính hữu ích mà nội dung trên trang web cung cấp. 

Bắt đầu

Nếu bạn không hiểu rõ quy trình thu thập dữ liệu/lập chỉ mục/phân phát, thì sẽ rất khó để khắc phục các vấn đề hoặc dự đoán hành vi của trang web của bạn trong Tìm kiếm.

Hãy đảm bảo bạn hiểu website chuẩn seo là gì và có ảnh hưởng như thế nào đến việc thu thập dữ liệu và lập chỉ mục trang web của bạn. Ngoài ra, bạn cũng nên tìm hiểu cách xóa hoặc xử lý nội dung trùng lặp trên trang web của mình khi cần.

Hãy đảm bảo rằng Google có thể truy cập mọi tài nguyên (hình ảnh, tệp CSS, v.v.) hoặc các trang mà bạn cho phép Google thu thập dữ liệu; nghĩa là bạn không chặn các tài nguyên hay trang đó bằng bất kỳ quy tắc robots.txt nào và người dùng ẩn danh cũng có thể truy cập được. Các trang mà Google không thể truy cập sẽ không xuất hiện trong báo cáo Phạm vi lập chỉ mục và sẽ hiển thị kèm theo trạng thái "chưa thu thập dữ liệu" trong công cụ Kiểm tra URL. Các tài nguyên bị chặn chỉ hiển thị ở cấp URL riêng lẻ trong công cụ Kiểm tra URL. Nếu bạn chặn các tài nguyên quan trọng trên một trang, Google có thể không thu thập được dữ liệu chính xác về trang của bạn. Hãy sử dụng công cụ Kiểm tra URL để hiển thị trang đang hoạt động nhằm xác minh xem phiên bản mà Google nhìn thấy có đúng như bạn mong muốn không.

Bạn có thể sử dụng quy tắc robots.txt để chặn việc thu thập dữ liệu và dùng sơ đồ trang web để tạo điều kiện cho Google thu thập dữ liệu. Hãy chặn Google thu thập dữ liệu về nội dung trùng lặp trên trang web của bạn hoặc các tài nguyên không quan trọng (ví dụ: các hình ảnh đồ họa nhỏ thường dùng như biểu tượng hoặc biểu trưng). Nếu bạn cho phép thu thập dữ liệu những nội dung đó, Google có thể gửi quá nhiều yêu cầu khiến máy chủ của bạn quá tải. Không sử dụng robots.txt làm cơ chế ngăn lập chỉ mục, mà thay vào đó hãy dùng lệnh noindex hoặc yêu cầu đăng nhập. Đọc thêm về cách chặn truy cập vào nội dung của bạn.

Sơ đồ trang web

Sơ đồ trang web là một cách rất hữu ích để cho Google biết những trang quan trọng trên trang web của bạn và đồng thời cung cấp thông tin bổ sung (như tần suất cập nhật). Sơ đồ trang web đóng vai trò rất quan trọng trong quy trình thu thập dữ liệu đối với nội dung không phải văn bản (như hình ảnh hoặc video). Tuy rằng không chỉ thu thập dữ liệu các trang có trong sơ đồ trang web, nhưng Google sẽ ưu tiên thu thập dữ liệu các trang này. Điều này đặc biệt quan trọng đối với các trang web có nội dung thay đổi nhanh chóng hoặc với các trang có thể không phát hiện được thông qua các đường dẫn liên kết. Khi bạn sử dụng sơ đồ trang web, Google sẽ có thể khám phá và sắp xếp mức độ ưu tiên khi thu thập dữ liệu các trang trên trang web của bạn. Đọc toàn bộ thông tin về sơ đồ trang web ở đây.

Các trang web quốc tế hoặc nhiều ngôn ngữ

Nếu trang web của bạn có nhiều ngôn ngữ hoặc dành cho người dùng ở các khu vực cụ thể:

Đọc tài liệu về các trang web nhiều khu vực và nhiều ngôn ngữ để biết lời khuyên nâng cao về cách quản lý các trang web có nội dung đã bản địa hóa cho các ngôn ngữ hoặc khu vực khác nhau.

Sử dụng thẻ hreflang để thông báo cho Google về các phiên bản ngôn ngữ khác nhau của các trang trên trang web của bạn.
Nếu trang web của bạn điều chỉnh nội dung các trang dựa trên ngôn ngữ của yêu cầu, hãy đọc ảnh hưởng của hành vi này đến quy trình Google thu thập dữ liệu trang web của bạn.
Nếu trang web của bạn có miền cấp cao nhất chung (.com, .org) thay vì miền cấp cao nhất dành riêng cho từng khu vực (.ch, .in), bạn có thể cho Google biết nên hiển thị kết quả tìm kiếm về trang web của bạn cho người dùng tại khu vực nào.

Di chuyển một trang hoặc trang web

Trong trường hợp bạn cần phải di chuyển một URL hoặc thậm chí toàn bộ trang web, hãy làm theo các nguyên tắc sau:

Di chuyển một URL

Nếu bạn di chuyển vĩnh viễn một trang đến vị trí khác, đừng quên triển khai lệnh chuyển hướng 301 cho trang đó. Nếu bạn chỉ tạm thời di chuyển trang vì một lý do nào đó, hãy trả lại phản hồi 302 để yêu cầu Google tiếp tục thu thập dữ liệu trang của bạn.

Khi người dùng yêu cầu một trang đã xóa, bạn có thể tạo trang 404 tùy chỉnh để cung cấp trải nghiệm tốt hơn. Bạn chỉ cần đảm bảo rằng khi người dùng yêu cầu một trang không còn tồn tại, bạn sẽ trả về lỗi 404 thực sự thay vì lỗi 404 mềm.

Di chuyển một trang web

Nếu bạn đang di chuyển toàn bộ trang web, hãy triển khai lệnh 301 và thực hiện các thay đổi cần thiết với sơ đồ trang web, sau đó cho Google biết về việc di chuyển để chúng tôi có thể bắt đầu thu thập dữ liệu trang web mới và chuyển tiếp tín hiệu của bạn đến trang mới. Tìm hiểu cách di chuyển trang web của bạn.

Các phương pháp hay nhất
Giúp Google thu thập dữ liệu các đường liên kết của bạn. Google chỉ có thể truy cập các đường liên kết nếu liên kết đó là thẻ <a> có thuộc tính href. Trình thu thập dữ liệu của G


Bài viết yêu thích