12/12/2014

Khám phá thuật toán tìm kiếm 2014 của Google



(Kết Huỳnh) – Ông lớn Google công bố 1 bài kết quả nghiên cứu về đánh giá hiệu quả của Sitemaps trong qui trình tìm kiếm “Research study of sitemap”, trong đó họ đã hé lộ phần nào quy trình tìm kiếm như sau:

Discovery :
Đây là quá trình khai phá các trang web mới. Quá trình này luôn được thực hiện thường xuyên. Tuy nhiên các con bọ không phải chạy theo các liên kết 1 cách lung tung hết từ trang web này nhảy qua trang web khác mà đi theo 1 thứ tự ưu tiên: Thuật toán Google trước hết sẽ ‘mò’ ra 1 bộ các trang web ‘nổi tiếng’ (cái này chắc nghĩa là PR cao), xong sẽ róc toàn bộ các liên kết ngoài từ các trang web nổi tiếng đó, cho vào 1 sọt riêng cấp 1. Các trang web cấp 1 này được róc tiếp toàn bộ liên kết ngoài cho sọt cấp 2. Đám url cấp trên hết sẽ được ưu tiên quăng sang quá trình tiếp theo là Spam Filter.

Sitemaps:
Song song quá trình Discovery, Google cũng phát hiện web mới bằng cách xem xét các url được submit lên từ các quy trình submit Sitemaps, ví dụ như bằng robots.txt files, HTTP request hay Google Webmaster Tool.

Spam Filter :
Kết quả từ 2 quá trình trên đều được đưa vào bộ lọc spam, có nhiệm vụ phát hiện và loại bỏ các liên kết spam từ các bộ liên kết nhận được rồi mới chuyển sang quá trình kế tiếp.

Web Crawler :
Các con bọ của google sẽ nhận được bộ url sạch từ spam filter chuyển qua, tạo ra các HTTP request theo yêu cầu ping Google của các website rồi bắt đầu thực hiện quá trình thu (retrieve) dữ liệu trên các trang đó. Lúc này các links lại tiếp tục được róc ra cho vào các sọt thứ cấp chuyển lại bước Discovery. Tại đây con bọ web cũng bảo đảm sẽ quay trở lại update trang web đã crawl theo yêu cầu về mặt tần suất.

Indexer/Server :
Tại đây, bộ phận Google index sẽ chịu trách nhiệm phân các trang được đưa sang thành từng nhóm khác nhau dựa trên các thông số chất lượng và xây dựng nên dữ liệu index cho các trang này.

Server:
Các dữ liệu index sẽ được lưu trữ tại đây để phục vụ cho yêu cầu của người dùng khi họ truy cập và tìm kiếm một từ khóa. Ta rút ra được gì từ bài viết này của Google nhỉ? Theo tôi thì rất rất nhiều! Đây chỉ mới là một đoạn ngắn trong báo cáo kết quả nghiên cứu “Sitemaps : above and beyond the crawl duty” – một bài thật hấp dẫn!

Theo Hồng Cát – Quảng cáo Online

=> Xem thêm Dịch vụ Quảng cáo Google Adwords

Liên hệ

Tên

Email *

Thông báo *

Về tác giả

Kết Huỳnh

Kết Huỳnh - Chuyên gia SEO, Marketing Online và Bán hàng trực tuyến.

- Tôi là ai?

- Tôi làm gì?

- Gặp tôi!