Cách Google bots hoạt động tìm kiếm như thế nào? 26/07/2020

Tìm hiểu cách Google phát hiện, thu thập dữ liệu và phân phát các trang web

Google hoạt động như thế nào? Sau đây là phần mô tả ngắn và phần mô tả chi tiết về cách hoạt động của Google.

Google lấy thông tin từ nhiều nguồn khác nhau, bao gồm:

Trang web,
Nội dung do người dùng gửi, chẳng hạn như nội dung người dùng gửi trong Google Doanh nghiệp của tôi và Maps,
Quy trình quét nội dung sách,
Cơ sở dữ liệu công khai trên Internet,
và nhiều nguồn khác.

Tuy nhiên, trang này sẽ tập trung vào các trang web.

Mô tả ngắn

Google thực hiện ba bước cơ bản để tạo kết quả từ các trang web:

Thu thập dữ liệu

Bước đầu tiên trong quy trình này là tìm những trang tồn tại trên web. Google không lưu giữ một danh mục trung tâm về tất cả các trang web, do đó, chúng tôi phải liên tục tìm kiếm các trang mới và thêm chúng vào danh sách các trang đã biết. Google biết đến một số trang vì chúng tôi đã truy cập các trang đó từ trước. Google tìm thấy các trang khác khi truy cập đường liên kết từ một trang đã biết đến một trang mới. Ngoài ra, chúng tôi cũng phát hiện một số trang khác khi chủ sở hữu trang web gửi danh sách các trang (sơ đồ trang web) để Google thu thập dữ liệu. Nếu bạn đang sử dụng một nhà cung cấp dịch vụ lưu trữ web được quản lý (chẳng hạn như Wix hoặc Blogger), thì họ có thể yêu cầu Google thu thập dữ liệu mọi trang bạn mới tạo hoặc cập nhật.

Khi phát hiện ra URL của một trang, Google sẽ truy cập hoặc thu thập dữ liệu trang đó để tìm hiểu nội dung trên trang. Google hiển thị trang và phân tích cả nội dung văn bản lẫn không phải văn bản cũng như bố cục hình ảnh tổng thể để quyết định vị trí của trang trong kết quả Tìm kiếm. Càng hiểu rõ về trang web của bạn bao nhiêu thì Google càng có thể hiển thị trang cho những người đang tìm kiếm nội dung của bạn một cách phù hợp bấy nhiêu.

Để cải thiện kết quả thu thập dữ liệu trang web của bạn, hãy làm như sau:

Xác minh rằng Google có thể truy cập các trang trên trang web của bạn và những trang đó hiển thị đúng cách. Google truy cập các trang web dưới dạng người dùng ẩn danh (người dùng không có mật khẩu hoặc thông tin). Google cũng cần xem được tất cả hình ảnh và các phần tử khác của trang để có thể hiểu đúng nội dung trên trang. Bạn có thể kiểm tra nhanh bằng cách nhập URL trang vào Công cụ kiểm tra tính thân thiện với thiết bị di động.
Nếu đã tạo hoặc cập nhật một trang, bạn có thể gửi một URL riêng lẻ cho Google. Để cho Google biết về nhiều trang mới hoặc cập nhật cùng một lúc, hãy sử dụng sơ đồ trang web.
Nếu bạn yêu cầu Google chỉ thu thập dữ liệu một trang, hãy chỉ định trang đó làm trang chủ của bạn. Đối với Google, trang chủ là trang quan trọng nhất trên trang web của bạn. Để giúp Google thu thập dữ liệu toàn bộ trang web, hãy đảm bảo rằng trang chủ (và tất cả các trang) đều chứa một trình đơn rõ ràng liên kết đến tất cả các phần và trang quan trọng trên trang web của bạn. Trình đơn này giúp người dùng (và Google) dễ dàng di chuyển trong trang web của bạn. Đối với các trang web nhỏ (dưới 1.000 trang), bạn chỉ cần cho Google biết về trang chủ của mình, miễn là Google có thể truy cập tất cả các trang khác bằng cách đi theo đường dẫn liên kết bắt đầu từ trang chủ.
Liên kết một trang mà Google đã biết đến trang của bạn. Tuy nhiên, xin lưu ý rằng Google sẽ không truy cập các đường liên kết trong quảng cáo, đường liên kết mà bạn trả tiền trong các trang web khác, đường liên kết trong phần nhận xét hoặc các đường liên kết khác không tuân theo Nguyên tắc quản trị trang web của Google.

Google không nhận tiền để thu thập dữ liệu thường xuyên hơn hoặc xếp hạng cao hơn cho một trang web. Nếu ai đó nói vậy với bạn thì điều đó là không đúng sự thật.

Lập chỉ mục

Sau khi tìm thấy một trang, Google sẽ cố gắng tìm hiểu nội dung của trang đó. Quá trình này gọi là lập chỉ mục. Google phân tích nội dung của trang, lưu hình ảnh và tệp video nhúng trên trang vào một thư viện và cố gắng tìm hiểu trang theo cách khác. Thông tin này được lưu trữ trong chỉ mục của Google – một cơ sở dữ liệu khổng lồ được lưu trữ trong rất nhiều máy tính.

Để cải thiện kết quả lập chỉ mục trang của bạn, hãy làm như sau:

Tạo tiêu đề trang ngắn gọn, ý nghĩa.
Sử dụng tiêu đề trang để truyền đạt chủ đề của trang.
Sử dụng văn bản thay vì hình ảnh để truyền tải nội dung. (Google có thể hiểu một số hình ảnh và video, nhưng không hiểu rõ như đối với văn bản. Ở mức tối thiểu, hãy chú thích video và hình ảnh của bạn bằng văn bản thay thế và các thuộc tính thích hợp khác.)

Phân phát (và xếp hạng)

Khi người dùng nhập cụm từ tìm kiếm, Google sẽ cố gắng tìm câu trả lời phù hợp nhất từ chỉ mục của chúng tôi dựa trên nhiều yếu tố. Google cố gắng xác định các câu trả lời có chất lượng cao nhất và xem xét các yếu tố sẽ cung cấp trải nghiệm người dùng tốt nhất và câu trả lời phù hợp nhất, như vị trí, ngôn ngữ và thiết bị của người dùng (máy tính hoặc điện thoại).

Ví dụ: nội dung tìm kiếm "cửa hàng sửa xe đạp" sẽ hiển thị các câu trả lời khác nhau cho người dùng ở Paris và người dùng ở Hồng Kông. Google không nhận tiền để xếp hạng các trang cao hơn và quy trình xếp hạng được thực hiện theo chương trình.

Để cải thiện việc phân phát và xếp hạng trang của bạn, hãy làm như sau:

Thiết kế để trang của bạn tải nhanh và thân thiện với thiết bị di động.
Đưa nội dung hữu ích vào trang của bạn và cập nhật nội dung đó thường xuyên.
Tuân theo Nguyên tắc quản trị trang web của Google để đảm bảo bạn cung cấp trải nghiệm tốt cho người dùng.
Đọc thêm các mẹo và phương pháp hay nhất trong Cẩm nang SEO của chúng tôi.
Bạn có thể tìm thêm thông tin tại đây, trong đó có các nguyên tắc mà chúng tôi cung cấp cho người đánh giá chất lượng để đảm bảo rằng chúng tôi đang cung cấp kết quả chất lượng cao

Mô tả chi tiết

Bạn muốn biết thêm thông tin? Sau đây là:

Thu thập dữ liệu

Thu thập dữ liệu là quá trình Googlebot truy cập những trang mới và cập nhật để thêm vào chỉ mục của Google.

Chúng tôi sử dụng một số lượng lớn máy tính để tìm nạp (hay "thu thập dữ liệu") hàng tỷ trang trên web. Chương trình thực hiện việc tìm nạp được gọi là Googlebot (còn gọi là robot, bot hay trình thu thập dữ liệu). Googlebot sử dụng một quy trình dựa trên thuật toán để xác định những trang web cần thu thập dữ liệu, tần suất thu thập và số trang cần tìm nạp trên từng trang web.

Google bắt đầu quá trình thu thập dữ liệu bằng cách xem danh sách các URL trang web được tạo trong các lần thu thập dữ liệu trước đó và được bổ sung với dữ liệu Sơ đồ trang web do quản trị viên các trang web cung cấp. Khi truy cập vào một trang, Googlebot sẽ tìm các đường liên kết trên trang và thêm chúng vào danh sách các trang cần thu thập dữ liệu. Googlebot sẽ lưu ý và sử dụng các trang web mới, các thay đổi đối với các trang web hiện tại và các đường liên kết bị hỏng để cập nhật chỉ mục của Google.

Trong quá trình thu thập dữ liệu, Google hiển thị trang bằng cách sử dụng một phiên bản gần đây của Chrome. Trong quá trình hiển thị, Googlebot chạy mọi tập lệnh tìm thấy trên trang. Nếu trang web của bạn sử dụng nội dung được tạo động, hãy chắc chắn rằng bạn tuân theo các quy tắc cơ bản về SEO.

Hoạt động thu thập dữ liệu chính / Hoạt động thu thập dữ liệu phụ

Google sử dụng hai trình thu thập dữ liệu khác nhau để thu thập dữ liệu các trang web: trình thu thập dữ liệu cho thiết bị di động và trình thu thập dữ liệu cho máy tính. Mỗi loại trình thu thập dữ liệu mô phỏng một người dùng truy cập vào trang của bạn bằng một thiết bị thuộc loại đó.

Google sử dụng một loại trình thu thập dữ liệu (thiết bị di động hoặc máy tính) làm trình thu thập dữ liệu chính cho trang web của bạn. Google sử dụng trình thu thập dữ liệu chính để thu thập dữ liệu tất cả các trang trên trang web của bạn. Đối với tất cả các trang web mới, trình thu thập dữ liệu chính sẽ là trình thu thập dữ liệu cho thiết bị di động.

Ngoài ra, Google thu thập lại dữ liệu đối với một số trang trên trang web của bạn bằng trình thu thập dữ liệu thuộc loại khác (thiết bị di động hoặc máy tính). Quá trình này gọi là thu thập dữ liệu phụ và được thực hiện để xem trang web của bạn hoạt động tốt như thế nào trên loại thiết bị khác.

Làm thế nào để Google biết những trang không nên thu thập dữ liệu?

Chúng tôi sẽ không thu thập dữ liệu các trang bị chặn trong robots.txt, nhưng vẫn có thể lập chỉ mục các trang đó nếu chúng được liên kết với một trang khác. (Google có thể phỏng đoán nội dung của trang thông qua liên kết trỏ đến trang đó và lập chỉ mục trang mà không cần phân tích cú pháp nội dung của trang.)
Google không thể thu thập dữ liệu bất kỳ trang nào không cho người dùng ẩn danh truy cập. Do đó, mọi biện pháp bảo vệ bằng cách yêu cầu đăng nhập hoặc hình thức ủy quyền khác sẽ ngăn Google thu thập dữ liệu một trang.
Đối với các trang đã thu thập dữ liệu và được coi là trang trùng lặp của một trang khác, Google sẽ thu thập dữ liệu các trang này ít thường xuyên hơn.

Cải thiện kết quả thu thập dữ liệu

Bạn có thể sử dụng các kỹ thuật này để giúp Google tìm thấy các trang phù hợp trên trang web của mình:

Gửi sơ đồ trang web
Gửi yêu cầu thu thập dữ liệu cho các trang riêng lẻ
Sử dụng đường dẫn URL đơn giản, dễ đọc và hợp lý cho các trang của bạn cũng như cung cấp các đường liên kết nội bộ rõ ràng và trực tiếp trong trang web.
Nếu bạn sử dụng tham số URL trên trang web của mình cho mục đích chuyển hướng, chẳng hạn như bạn cho biết quốc gia của người dùng trong một trang web mua sắm toàn cầu, hãy sử dụng công cụ Tham số URL để cho Google biết về các tham số quan trọng.
Sử dụng robots.txt một cách hợp lý: Sử dụng robots.txt để cho Google biết những trang bạn muốn Google tìm thấy hoặc thu thập dữ liệu đầu tiên nhằm bảo vệ tải máy chủ của bạn, chứ không phải để chặn nội dung xuất hiện trong chỉ mục của Google.
Sử dụng hreflang để trỏ đến các phiên bản khác của trang bằng các ngôn ngữ khác.
Xác định rõ ràng trang chuẩn và các trang thay thế.
Xem trạng thái thu thập dữ liệu và lập chỉ mục của trang web của bạn trong báo cáo Phạm vi lập chỉ mục
Đảm bảo rằng Google có thể truy cập các trang chính và cả các tài nguyên quan trọng (hình ảnh, tệp CSS, tập lệnh) mà Google cần sử dụng để hiển thị trang đúng cách.
Xác nhận rằng Google có thể truy cập và hiển thị trang của bạn đúng cách bằng cách chạy Công cụ kiểm tra URL trên trang đang hoạt động.

Lập chỉ mục

Googlebot xử lý từng trang mà công cụ này thu thập dữ liệu để hiểu nội dung của trang. Cụ thể là Googlebot sẽ xử lý nội dung văn bản, thẻ nội dung chính và các thuộc tính, chẳng hạn như thẻ <title> và thuộc tính alt, hình ảnh, video và các nội dung khác. Googlebot có thể xử lý nhiều (nhưng không phải tất cả) loại nội dung. Ví dụ: chúng tôi không thể xử lý nội dung của một số tệp đa phương tiện.

Trong quá trình thu thập dữ liệu và lập chỉ mục, Google sẽ xác định xem một trang có phải là trang trùng lặp hay trang chuẩn của trang khác không. Nếu trang được coi là trùng lặp, Google sẽ thu thập dữ liệu trang đó ít thường xuyên hơn. Các trang tương tự được nhóm lại với nhau thành một tài liệu, là một nhóm gồm một hoặc nhiều trang bao gồm trang chuẩn (trang thích hợp nhất để đại diện cho nhóm) và mọi trang trùng lặp mà Google đã tìm thấy (có thể là các URL thay thế cho một trang, hoặc phiên bản dành cho thiết bị di động hoặc máy tính của một trang.)

Xin lưu ý rằng Google không lập chỉ mục các trang có lệnh noindex (tiêu đề hoặc thẻ). Tuy nhiên, Google phải có thể nhìn thấy lệnh này; nếu bạn dùng tệp robots.txt, trang đăng nhập hoặc thiết bị khác để chặn trang, thì có thể trang đó sẽ được lập chỉ mục ngay cả khi Google không truy cập vào trang!

Cải thiện kết quả lập chỉ mục

Có nhiều kỹ thuật để cải thiện khả năng của Google trong việc hiểu nội dung trang của bạn:

Ngăn Google thu thập dữ liệu hoặc tìm các trang mà bạn muốn ẩn bằng noindex. Không dùng lệnh "noindex" với một trang bị tệp robots.txt chặn. Nếu bạn làm như vậy, Google sẽ không thấy lệnh noindex và vẫn có thể lập chỉ mục trang.
Sử dụng dữ liệu có cấu trúc.
Tuân theo Nguyên tắc quản trị trang web của Google.
Đọc Hướng dẫn cơ bản về SEO và hướng dẫn sử dụng nâng cao của chúng tôi để biết thêm mẹo.

"Tài liệu" là gì?

Trong nội bộ, Google sử dụng một số lượng tài liệu rất lớn để đại diện cho các trang web. Mỗi tài liệu đại diện cho một hoặc nhiều trang web. Những trang này có thể giống hệt nhau hoặc tương tự nhau, nhưng chứa nội dung giống nhau về cơ bản và có thể truy cập qua các URL khác nhau (ví dụ: example.com/dresses/summer/1234 và example.com?product=1234 có thể dẫn đến cùng một trang). Những trang này cũng có thể là các phiên bản khác nhau của một trang dành cho người dùng sử dụng các thiết bị khác nhau (ví dụ: example.com/mypage cho người dùng máy tính và m.example.com/mypage cho người dùng thiết bị di động).

Google chọn một trong các URL trong một tài liệu và xác định trang đó là URL chính tắc của tài liệu. URL chính tắc của tài liệu là URL mà Google thu thập dữ liệu và lập chỉ mục thường xuyên nhất. Các URL khác được xem là trang trùng lặp hoặc thay thế, và thỉnh thoảng có thể được thu thập dữ liệu hoặc được phân phát theo yêu cầu của người dùng. Ví dụ: nếu URL chính tắc của tài liệu là URL dành cho thiết bị di động, thì Google có thể vẫn sẽ phân phát URL dành cho máy tính (thay thế) cho những người dùng tìm kiếm trên máy tính.

Hầu hết các báo cáo trong Search Console đều gán dữ liệu cho URL chính tắc của tài liệu. Một số công cụ (chẳng hạn như Công cụ kiểm tra URL) hỗ trợ việc kiểm tra các URL thay thế, nhưng bạn cũng sẽ thu được thông tin về các URL thay thế khi kiểm tra URL chính tắc.

Bạn có thể cho Google biết URL mà bạn muốn đặt làm URL chính tắc, nhưng Google có thể chọn một URL chính tắc khác vì nhiều lý do.

Dưới đây là phần tóm tắt các thuật ngữ và cách chúng được sử dụng trong Search Console:

Tài liệu: Tập hợp các trang tương tự nhau. Tài liệu có một URL chính tắc và có thể có cả các URL thay thế, nếu trang web của bạn có các trang trùng lặp. Các URL trong tài liệu có thể là từ một hoặc nhiều tổ chức (miền gốc, ví dụ: "google" trong www.google.com) khác nhau. Google chọn URL thích hợp nhất để hiển thị trong kết quả Tìm kiếm theo nền tảng (thiết bị di động/máy tính), ngôn ngữ người dùng ‡ hoặc vị trí, và nhiều yếu tố khác. Google khám phá các trang có liên quan với nhau trên trang web của bạn bằng phương thức thu thập dữ liệu không phải trả tiền, hoặc thông qua các tính năng do trang web triển khai, chẳng hạn như lệnh chuyển hướng hoặc thẻ <link rel=alternate/canonical>. Google chỉ có thể đánh dấu các trang liên quan trên tổ chức khác là trang thay thế nếu những trang đó được chỉ định rõ ràng là trang thay thế (thông qua lệnh chuyển hướng hoặc thẻ liên kết) trên trang web của bạn.

URL: URL dùng để truy cập một phần nội dung nhất định trên trang web. Trang web có thể phân giải các URL khác nhau để dẫn đến cùng một trang.

Trang: Một trang web nhất định, có thể truy cập được qua một hoặc nhiều URL. Một trang có thể có các phiên bản khác nhau tùy thuộc vào nền tảng của người dùng (thiết bị di động, máy tính, v.v.).

Phiên bản: Một phiên bản của trang, thường được phân loại là "thiết bị di động", "máy tính" và "AMP" (mặc dù bản thân trang AMP có thể có phiên bản dành cho thiết bị di động và máy tính). Mỗi phiên bản có thể có URL riêng (example.com và m.example.com) hoặc URL chung (nếu trang web của bạn sử dụng tính năng phân phát động hoặc thiết kế web thích ứng, thì một URL có thể dẫn đến các phiên bản khác nhau của cùng một trang) tùy thuộc vào cấu hình trang web của bạn. Các phiên bản sử dụng ngôn ngữ khác nhau không được coi là các phiên bản khác nhau, mà là các tài liệu khác nhau.

Trang hoặc URL chính tắc: URL mà Google coi là trang thích hợp nhất để đại diện cho tài liệu. Google luôn thu thập dữ liệu URL này; và đôi khi cũng thu thập dữ liệu các URL trùng lặp trong tài liệu.

URL hoặc trang thay thế/trùng lặp: URL tài liệu mà thỉnh thoảng Google có thể thu thập dữ liệu. Google cũng phân phát các URL này nếu chúng phù hợp với người dùng và yêu cầu (ví dụ: URL thay thế cho người dùng máy tính sẽ được phân phát cho các yêu cầu trên máy tính thay vì URL chính tắc dành cho thiết bị di động).

Trang web: Thường chỉ một trang web (tập hợp các trang có liên quan đến nhau về mặt khái niệm), nhưng đôi khi cũng được dùng để chỉ một sản phẩm trên Search Console, mặc dù một sản phẩm có thể chỉ là một phần của một trang web. Trang web có thể chứa các miền con (và thậm chí cả các tổ chức, nếu có các trang AMP được liên kết đúng cách).

‡Các trang có cùng nội dung nhưng được trình bày bằng các ngôn ngữ khác nhau thì được lưu trữ trong các tài liệu khác nhau, tham chiếu lẫn nhau bằng thẻ hreflang. Đó là lý do bạn cần sử dụng thẻ hreflang cho nội dung đã dịch sang ngôn ngữ khác.

Kết quả phân phát

Khi người dùng nhập một cụm từ tìm kiếm, công cụ tìm kiếm của chúng tôi sẽ tìm kiếm các trang thích hợp trong chỉ mục và trả lại kết quả mà chúng tôi cho là phù hợp nhất cho người dùng. Mức độ phù hợp được xác định theo hàng trăm yếu tố, và chúng tôi luôn nỗ lực cải thiện thuật toán của mình. Google chú trọng đến trải nghiệm người dùng thông qua việc chọn và xếp hạng kết quả, vì vậy hãy đảm bảo rằng trang của bạn tải nhanh và thân thiện với thiết bị di động.

Cải thiện kết quả phân phát

Nếu kết quả của bạn nhắm đến người dùng ở các địa điểm hoặc nói các ngôn ngữ cụ thể, bạn có thể cho Google biết tùy chọn của mình.
Đảm bảo rằng trang của bạn tải nhanh và thân thiện với thiết bị di động.
Tuân theo Nguyên tắc quản trị trang web để tránh những lỗi phổ biến và cải thiện thứ hạng cho trang web của bạn.
Cân nhắc việc triển khai các tính năng trong kết quả tìm kiếm cho trang web của bạn, chẳng hạn như thẻ công thức hoặc thẻ bài viết.
Triển khai AMP để trang tải nhanh hơn trên thiết bị di động. Một số trang AMP cũng đủ điều kiện cho các tính năng tìm kiếm bổ sung, chẳng hạn như băng chuyền tin bài hàng đầu.
Chúng tôi đang liên tục cải thiện thuật toán của Google. Thay vì cố gắng đoán thuật toán và thiết kế trang của bạn theo đó, hãy tạo ra nội dung hữu ích, mới mẻ mà người dùng muốn và thực hiện theo các nguyên tắc của chúng tôi.