Cách hoạt động của thuật toán Tìm kiếm Google như thế nào?

Cách hoạt động của thuật toán Tìm kiếm Google như thế nào.

Với số lượng lớn thông tin trên web, bạn dường như không thể tìm thấy nội dung cần tìm nếu như không có sự trợ giúp sắp xếp thông tin. Hệ thống xếp hạng của Google được thiết kế để thực hiện điều này: sắp xếp hàng trăm tỷ trang web trong chỉ mục Tìm kiếm của Google để cung cấp cho bạn kết quả hữu ích và phù hợp chỉ trong một phần nhỏ của giây, và trình bày kết quả theo cách giúp bạn tìm thấy những gì bạn cần.

Những hệ thống xếp hạng này được tạo thành từ không chỉ một, mà là hàng loạt các thuật toán. Để cung cấp cho bạn những thông tin hữu ích nhất, thuật toán Tìm kiếm Google xem xét nhiều yếu tố, bao gồm cả những từ trong cụm từ tìm kiếm, mức độ liên quan và khả năng sử dụng của trang web, chuyên môn của các nguồn, vị trí và các tùy chọn cài đặt. Trọng số của từng yếu tố phụ thuộc vào bản chất của cụm từ tìm kiếm – ví dụ: độ mới của nội dung đóng vai trò quan trọng hơn trong việc việc trả lời các yêu cầu tìm kiếm về chủ đề tin tức hiện tại so với các định nghĩa trong từ điển.

Để đảm bảo các thuật toán Tìm kiếm Google  đáp ứng các tiêu chuẩn cao về mức độ liên quan và chất lượng, Google có một quy trình nghiêm ngặt bao gồm nhiều đợt thử nghiệm trực tiếp và hàng ngàn Chuyên gia đánh giá chất lượng Tìm kiếm bên ngoài đã qua đào tạo từ khắp nơi trên thế giới. Những Chuyên gia đánh giá chất lượng này tuân thủ các nguyên tắc chặt chẽ trong việc xác định mục tiêu cho thuật toán Tìm kiếm. Những nguyên tắc này hiển thị công khai cho tất cả mọi người.

Phân tích các từ của bạn

Việc hiểu được nghĩa của tìm kiếm của bạn là điều quan trọng để trả về câu trả lời thích hợp. Vì thế để tìm các trang có thông tin liên quan, bước đầu tiên của Google là phân tích các từ trong truy vấn của bạn có nghĩa gì. Google xây dựng các mô hình ngôn ngữ để cố giải mã trong chỉ mục.

Điều này bao gồm các bước trông có vẻ đơn giản như phân tích các lỗi chính tả, và mở rộng đến cả việc cố gắng hiểu loại truy vấn bạn đã nhập bằng cách áp dụng một số nghiên cứu mới nhất về hiểu ngôn ngữ tự nhiên. Ví dụ: hệ thống từ đồng nghĩa của Google giúp Tìm kiếm biết được bạn có ý gì, ngay cả khi một từ có nhiều định nghĩa. Hệ thống này mất 5 năm để phát triển và đã cải thiện đáng kể kết quả trong hơn 30% lượt tìm kiếm bằng các ngôn ngữ khác nhau.

Google cũng cố hiểu bạn đang tìm kiếm loại thông tin nào. Đó là một tìm kiếm rất cụ thể hay một truy vấn rộng? Có những từ như “đánh giá”, “ảnh” hay “giờ mở cửa” cho biết bạn cần thông tin cụ thể từ tìm kiếm hay không? Bạn có đang tìm kiếm các từ khóa thịnh hành cho thấy rằng bạn muốn nội dung được xuất bản vào ngày đó hay không? Hay bạn đang tìm kiếm một doanh nghiệp lân cận và muốn thông tin về địa phương?

Một khía cạnh đặc biệt quan trọng của việc phân loại cụm từ tìm kiếm này đó là Google sẽ phân tích xem bạn có đang tìm kiếm nội dung mới hay không. Nếu bạn đang tìm kiếm bằng những từ khóa thịnh hành, thì thuật toán về độ cập nhật của Google sẽ diễn giải cụm từ tìm kiếm của bạn như một tín hiệu cho biết các thông tin mới có thể sẽ có ích hơn những trang thông tin cũ.

Đối sánh tìm kiếm của bạn

Tiếp theo, Google tìm các trang web có thông tin khớp với truy vấn của bạn. Khi bạn tìm kiếm, ở mức độ cơ bản nhất, các thuật toán của Google sẽ tra cụm từ tìm kiếm của bạn trong chỉ mục để tìm các trang thích hợp. Các thuật toán này phân tích tần suất và vị trí các từ khóa đó xuất hiện trên một trang, liệu chúng xuất hiện trong tựa đề, tiêu đề hay nội dung.

Tín hiệu cơ bản nhất cho thấy thông tin có liên quan là khi một trang web chứa những từ khóa tương tự với cụm từ tìm kiếm của bạn. Nếu những từ khóa đó xuất hiện trên trang, hoặc nếu những từ đó xuất hiện ở tiêu đề hoặc nội dung văn bản, thông tin đó có nhiều khả năng có liên quan. Ngoài việc đối sánh từ khóa đơn giản, Google sử dụng dữ liệu tương tác tổng hợp và ẩn danh để đánh giá xem các kết quả tìm kiếm có liên quan tới cụm từ tìm kiếm hay không. Google biến đổi dữ liệu đó thành các tín hiệu giúp hệ thống máy học của Google ước tính mức độ liên quan tốt hơn.

Cũng như việc đối sánh từ khóa, các thuật toán tìm các gợi ý để đo mức độ phù hợp giữa kết quả tìm kiếm tiềm năng và nội dung người dùng đang tìm kiếm. Các thuật toán Tìm kiếm phân tích liệu trang có nội dung thích hợp hay không — chẳng hạn như ảnh, video. Cuối cùng, Google kiểm tra xem trang có được viết bằng ngôn ngữ giống như câu hỏi của bạn hay không để ưu tiên các trang bằng ngôn ngữ tùy chọn của bạn.

Cần lưu ý rằng trong khi hệ thống của Google tìm kiếm những loại tín hiệu có thể định lượng để đánh giá mức độ liên quan, hệ thống không được thiết kế để phân tích những khái niệm chủ quan như quan điểm hoặc thiên hướng chính trị thể hiện trong nội dung của trang.

Xếp hạng các trang hữu ích

Đối với một truy vấn thông thường, có hàng nghìn, thậm chí là hàng triệu trang web có thể cung cấp thông tin liên quan. Vì thế, để giúp xếp hạng các trang tốt nhất đầu tiên, Google cũng viết các thuật toán để đánh giá mức độ hữu ích của các trang web này.

Các thuật toán này phân tích hàng trăm yếu tố khác nhau để cố hiển thị thông tin tốt nhất có sẵn trên web, từ độ mới mẻ của nội dung cho đến số lần xuất hiện của cụm từ tìm kiếm của bạn và liệu trang có cung cấp trải nghiệm người dùng tốt hay không. Để đánh giá độ đáng tin cậy và nguồn có căn cứ về chủ đề, Google tìm các trang web có vẻ được nhiều người dùng đánh giá cao đối với cùng truy vấn. Nếu các trang web nổi bật khác về chủ đề này có liên kết đến trang, đó là một dấu hiệu tốt cho thấy thông tin có chất lượng cao.

Có nhiều trang web spam trên web cố tìm cách vươn lên đầu kết quả tìm kiếm bằng các kỹ thuật như lặp lại từ khóa hay mua các liên kết vượt qua được PageRank. Các trang web này cung cấp trải nghiệm người dùng rất kém và thậm chí có thể gây hại hay nhầm lẫn cho người dùng của Google. Vì thế, Google viết các thuật toán để xác định spam và xóa các trang web vi phạm nguyên tắc quản trị trang web của Google khỏi kết quả của Google.

Nội dung trên web và hệ sinh thái thông tin rộng lớn luôn thay đổi. Do đó, Google liên tục đo lường và đánh giá chất lượng của các hệ thống của Google để đảm bảo sự cân bằng giữa mức độ phù hợp với tính xác thực của thông tin để tăng độ tin cậy của kết quả mà bạn nhìn thấy.

Trả về kết quả tốt nhất

Trước khi cung cấp cho bạn kết quả, Google đánh giá xem tất cả các thông tin liên quan đến nhau như thế nào: liệu chỉ có một chủ đề duy nhất trong kết quả tìm kiếm hay có nhiều chủ đề? Có phải có quá nhiều trang tập trung vào một cách diễn giải hời hợt? Google cố gắng cung cấp thông tin đa dạng bằng các định dạng hữu ích nhất cho loại tìm kiếm của bạn. Và khi web phát triển, Google cũng phát triển hệ thống xếp hạng của mình để cung cấp kết quả tốt hơn cho nhiều truy vấn hơn.

Những thuật toán này phân tích các tín hiệu cho biết liệu tất cả người dùng của Google có thể xem được kết quả hay không, ví dụ như trang web có hiển thị chính xác trong các trình duyệt khác nhau hay không; liệu trang web có được thiết kế cho tất cả các loại thiết bị và kích cỡ, bao gồm máy tính để bàn, máy tính bảng và điện thoại thông minh hay không; và liệu thời gian tải trang có phù hợp với người dùng có kết nối Internet chậm hay không.

Xem xét bối cảnh

Các thông tin chẳng hạn như vị trí của bạn, lịch sử tìm kiếm và cài đặt Tìm kiếm đều giúp Google tùy chỉnh kết quả cho phù hợp và hữu ích với bạn nhất trong khoảnh khắc đó.

Google sử dụng quốc gia và vị trí của bạn để cung cấp nội dung thích hợp với khu vực của bạn. Cài đặt Tìm kiếm cũng là một chỉ báo quan trọng về việc bạn có khả năng thấy kết quả nào hữu ích, chẳng hạn như liệu bạn có thiết lập một ngôn ngữ ưu tiên hay chọn tham gia Tìm kiếm an toàn (một công cụ giúp lọc các kết quả không phù hợp) hay không.

Trong một số trường hợp, Google cũng có thể cá nhân hóa kết quả cho bạn dựa trên thông tin về hoạt động Tìm kiếm gần đây của bạn. Bạn có thể kiểm soát hoạt động tìm kiếm nào được sử dụng để cải thiện trải nghiệm Tìm kiếm, bao gồm điều chỉnh việc dữ liệu nào được lưu vào tài khoản Google của mình, tại myaccount.google.com. Tìm kiếm cũng bao gồm một số tính năng có thể cá nhân hóa kết quả dựa trên hoạt động trong tài khoản Google. Ví dụ: nếu bạn tìm kiếm “các sự kiện gần tôi”, thì Google có thể điều chỉnh một số đề xuất cho các danh mục sự kiện mà Google nghĩ bạn có thể thích. Những hệ thống này được thiết kế để khớp với sở thích của bạn, nhưng hệ thống không được thiết kể để suy ra các đặc điểm nhạy cảm như chủng tộc, tôn giáo hoặc đảng phái chính trị của bạn.