Trung Tâm Đào Tạo Seo - Mối tương quan đáng chú ý giữa Phân phối Dirichlet ẩn (LDA) và xếp hạng của Google
Tại mozinar hàng năm thường có cuộc trao đổi về phương pháp độc đáo để cái thiện SEO của Ben Hendrickson. Cuộc nói chuyện này đã nhận được phản hồi rất tốt. Trước đây tôi chưa bao giờ tham gia sự kiện chuyên nghiệp như thế này bao giờ. Sự kiện này là nơi có những tiếng vỗ tay như sấm nổ không chỉ một lần mà là nhiều lần trong khi người phát biểu đang nói.
Ben Hendrickson của SEOmoz phát biểu tại Distilled / Đào tạo SEOmoz PRO Luân Đôn
(anh ấy sẽ sớm trở lại trong năm nay)
(anh ấy sẽ sớm trở lại trong năm nay)
Tôi không tin tôi có thể tái tạo được năng lượng và sự hứng thú cho căn phòng đầy ắp với 320 người ngày hôm đó. Mục đích trong bài viết này là tôi sẽ giải thích về khái niệm mô hình chủ đề, mô hình không gian vector liên quan đến truy vấn thông tin và công việc chúng tôi đã thực hiện trên LDA (phân bổ Dirichlet ẩn). Tôi cũng sẽ cố gắng để giải thích mối quan hệ và các ứng dụng tiềm năng để thực hành SEO.
Trước khi đăng bài này và nghiên cứu của chúng tôi được công bố công khai, đã có một số nhận xét tiêu cực và phê bình từ một số người ở cộng đồng tìm kiếm cho thấy LDA (hoặc mô hình chủ đề nói chung) là cách dứt điểm không được sử dụng bởi các công cụ tìm kiếm. Chúng tôi nghĩ rằng có rất nhiều bằng chứng cho thấy các công cụ này có sử dụng chúng nhưng chúng tôi vẫn muốn xem những bằng chứng trái ngược được thể hiện như thế nào
Biểu đồ hình tròn cho xếp hạng tìm kiếm
Nhiều người trong số chúng ta có thể sẽ quen với các yếu tố xếp hạng được khảo sát của SEOmoz tiến hành hai năm một lần (chúng ta sẽ gặp nhau trong năm tới và tôi hy vọng sẽ có một số điều khác biệt hấp dẫn thú vị). Tất nhiên, chúng ta biết rằng tổng hợp của dư luận này có thể bỏ lỡ nhiều yếu tố mà nó phải được hiển thị
Dưới đây là minh họa tôi tạo ra cho một bài thuyết trình gần đây để minh họa cho chuyên mục chính trong kết quả tổng thể:
Điều này cho thấy nhiều SEO không coi trọng việc tối ưu onpage
Bản thân tôi có cảm giác tất cả các số liệu, kiểm tra và quan sát kết quả xếp hạng của Google, tầm quan trọng của các yếu tố onpage như sử dụng từ khoá hoặc TF * IDF (giải thích dưới đây) là khá nhỏ. Chắc chắn, tôi đã không quan sát nhiều kết quả, thậm chí trong môi trường cạnh tranh thấp, người ta có thể thêm vào một vài lần lặp lại từ khóa, có thể quăng một vài từ đồng nghĩa hoặc "tìm kiếm liên quan" và cải thiện thứ hạng. Nhiều lần tôi đã trò chuyện chia sẻ về kinh nghiệm SEO khiến tôi tin rằng liên kết đã chiếm đại đa số về thứ tự kết quả công cụ tìm kiếm như thế nào
Một số công việc chúng tôi đã làm xoay quanh mô hình chủ đề, đặc biệt là sử dụng quá trình gọi là LDA (phân bổ Dirichlet ẩn), đã cho thấy một số kết quả đáng ngạc nhiên.
Tại sao Công cụ Tìm kiếm cần mô hình chủ đề
Một số truy vấn rất đơn giản - tìm kiếm cho "wikipedia" không rõ ràng, đơn giản và có thể được trả lại một cách hiệu quả dù chỉ là một công cụ tìm kiếm web rất cơ bản. Tìm kiếm khác gần như không đơn giản chút nào. Chúng ta hãy xem làm thế nào các công cụ có thể ra lệnh cho hai kết quả - một vấn đề đơn giản nhất mà thời gian có thể xử lý được tùy thuộc sự phức tạp của tình hình.
Đối với các truy vấn phức tạp hoặc khi có liên quan với số lượng lớn các kết quả với rất nhiều tín hiệu nội dung liên quan đến công cụ tìm kiếm cần có cách để xác định mục đích của một trang cụ thể. Đơn giản chỉ vì nó đề cập đến từ khóa 4 hoặc 5 lần ở những vị trí quan trọng hoặc thậm chí đề cập đến cụm từ / từ đồng nghĩa tương tự sẽ không nhất thiết. Có nghĩa là nó thực sự có liên quan đến truy vấn của người tìm kiếm.
Đối với các truy vấn phức tạp hoặc khi có liên quan với số lượng lớn các kết quả với rất nhiều tín hiệu nội dung liên quan đến công cụ tìm kiếm cần có cách để xác định mục đích của một trang cụ thể. Đơn giản chỉ vì nó đề cập đến từ khóa 4 hoặc 5 lần ở những vị trí quan trọng hoặc thậm chí đề cập đến cụm từ / từ đồng nghĩa tương tự sẽ không nhất thiết. Có nghĩa là nó thực sự có liên quan đến truy vấn của người tìm kiếm.
Trong lịch sử, rất nhiều SEOer đã nỗ lực vào quá trình này, vì vậy những gì chúng tôi đang làm ở đây không phải là cách mạng, và các mô hình chủ đề gồm LDA đã tồn tại được khoảng một thời gian dài. Tuy nhiên, không ai trong lĩnh vực này biết chúng tôi đã có một hệ thống mô hình chủ đề chung hoặc so sánh đầu ra của nó với bảng xếp hạng của Google (để giúp xem khả năng ảnh hưởng những tín hiệu này như thế nào). Công việc Ben trình bày, và các bit thực sự thú vị (IMO) là những con số.
Giới hạn vị trí Vector và mô hình chủ đề
Giới hạn vị trí Vector, mô hình chủ đề và cosin có vẻ là khái niệm chi tiết. Và khi Ben đầu tiên đề cập trên sân khấu lúc đó có rất nhiều người tham dự cảm thấy 1 chút tổn thất. Tuy nhiên Ben (cùng với nhà toán học Will Critchlow) giúp giải thích với tôi và tôi sẽ làm hết sức mình chia sẻ nhân rộng để mọi người cùng tham khảo ở đây:
Trong ví dụ ảo này, mỗi từ trong tiếng Anh có liên quan đến một trong hai từ "con mèo" hay "con chó", các chủ đề đã được đưa vào sử dụng. Để đánh giá liệu một từ có liên quan nhiều hơn đến "con chó", chúng tôi sử dụng một mô hình vector không gian tạo ra những mối quan hệ toán học. Minh họa trên làm một công việc hợp lý cho thấy sự đơn giản của chúng tôi. Những từ như "Bàn chân to" nằm ở giữa không nghiêng về mô tả “mèo” hay “chó”. Nhưng những từ như "nanh" ắt hẳn sẽ mô tả về chó và "dáng vẻ yểu điệu" chúng ta hiểu là mô tả về mèo và trong hình minh họa cho thấy mức độ được thể hiện ở các góc trong mô hình vector
BTW - trong một mô hình vector không gian LDA, chủ đề sẽ không phân bổ chính xác cho “chó” và “mèo” mà thay vào đó sẽ là những thứ như "vector xung quanh chủ đề của con chó."
Đáng tiếc, tôi thực sự không thể hình dung xa hơn bước này, vì nó phụ thuộc vào việc mô hình đơn giản trên và nhân rộng nó đến hàng ngàn hoặc hàng triệu chủ đề, mỗi trong số đó sẽ có kích thước riêng của mình (và ai cũng biết rằng cố gắng vẽ thêm 3 khía cạnh trong một bài đăng blog là khá khó khăn). Sử dụng cấu trúc này, mô hình có thể tính toán sự giống nhau giữa bất kỳ các từ hoặc cụm từ và các chủ đề mà nó tạo ra.
Đáng tiếc, tôi thực sự không thể hình dung xa hơn bước này, vì nó phụ thuộc vào việc mô hình đơn giản trên và nhân rộng nó đến hàng ngàn hoặc hàng triệu chủ đề, mỗi trong số đó sẽ có kích thước riêng của mình (và ai cũng biết rằng cố gắng vẽ thêm 3 khía cạnh trong một bài đăng blog là khá khó khăn). Sử dụng cấu trúc này, mô hình có thể tính toán sự giống nhau giữa bất kỳ các từ hoặc cụm từ và các chủ đề mà nó tạo ra.
Mối tương quan giữa xếp hạng google.com và kết quả LDA của chúng tôi
Thời gian qua, Ben (với sự giúp đỡ từ các thành viên nhóm SEOmoz) đã cùng đặt một chủ đề mô hình hệ thống dựa trên hệ thống xử lý tương đối đơn giản của LDA. Mặc dù để làm công việc này là rất khó khăn chúng tôi tự hỏi có phải mình là trung tâm-SEO đầu tiên làm như vậy không. Mặc dù hiện tại chúng tôi có thể là người đầu tiên công bố rộng rãi mô hình hệ thống này
Khi bắt đầu nghiên cứu này, chúng tôi không biết tính chất đầu vào của mô hình chủ đề LDA là gì để có thể có nó trên công cụ tìm kiếm. Do đó, khi hoàn thành, chúng tôi đã khá phấn khích (thậm chí có thể ngây ngất) để xem kết quả như sau:

Mối tương quan giữa xếp hạng Google.com và số liệu đơn khác nhau
(Các thanh màu xanh thẳng đứng cho thấy sai số chuẩn trong các sơ đồ, đó là nhờ tương đối thấp để tập mẫu lớn)
Sử dụng quá trình tương tự, chúng tôi đã phát hành dữ liệu về mối tương quan/bảng xếp hạng tại SMX của Google và Bing. Chúng tôi đã tập hợp được các sooe liệu quen thuộc của Seo bao gồm:
TF * IDF - công thức cổ điển giới hạn trọng lượng, TF * IDF biện pháp sử dụng từ khóa một cách chính xác là thước đo gốc giống như mật độ từ khóa. Trong trường hợp này chúng ta cần lấy số điểm TF*IDF của nội dung trang đã xuất hiện trong bảng xếp hạng của Google
Theo sau là IPs - đây là mối tương quan cao nhất dựa trên liên kết số liệu của chúng tôi, và cho thấy số lượng địa chỉ IP duy nhất lưu trữ một trang web có chứa một liên kết sau vào URL.
Theo sau là IPs - đây là mối tương quan cao nhất dựa trên liên kết số liệu của chúng tôi, và cho thấy số lượng địa chỉ IP duy nhất lưu trữ một trang web có chứa một liên kết sau vào URL.
LDA cosine - đây là số điểm được tạo ra từ LDA labs tool mới. Các biện pháp Cosine tương tự các chủ đề từ một trang nhất định hoặc khối nội dung và các chủ đề được tạo ra bởi các truy vấn.
Mối tương quan với bảng xếp hạng của các điểm LDA rất kì lạ. Chắc chắn đó không phải là sự so sánh hoàn hảo nhưng chúng ta không nên mong đợi điều đó do sự phức tạp của thuật toán xếp hạng Google và nhiều yếu tố khác trong đó nữa. Nhưng khi nhìn thấy kết quả hiển thị LDA ấn tường này chúng tôi nghiêm túc đặt câu hỏi rằng liệu có phải nguyên nhân việc đó nằm ở đây không (chúng tôi hy vọng thực hiện nghiên cứu bổ sung thông qua mô hình xếp hạng để cho thấy tác động đó). Có lẽ, liên kết tốt có nhiều khả năng để trỏ đến trang mà có nhiều "liên quan" thông qua một mô hình chủ đề hoặc một số khía cạnh khác của thuật toán của Google
Mối tương quan với bảng xếp hạng của các điểm LDA rất kì lạ. Chắc chắn đó không phải là sự so sánh hoàn hảo nhưng chúng ta không nên mong đợi điều đó do sự phức tạp của thuật toán xếp hạng Google và nhiều yếu tố khác trong đó nữa. Nhưng khi nhìn thấy kết quả hiển thị LDA ấn tường này chúng tôi nghiêm túc đặt câu hỏi rằng liệu có phải nguyên nhân việc đó nằm ở đây không (chúng tôi hy vọng thực hiện nghiên cứu bổ sung thông qua mô hình xếp hạng để cho thấy tác động đó). Có lẽ, liên kết tốt có nhiều khả năng để trỏ đến trang mà có nhiều "liên quan" thông qua một mô hình chủ đề hoặc một số khía cạnh khác của thuật toán của Google
Tuy nhiên, do nhiều người SEO thực hành tốt (ví dụ như từ khóa có trong thẻ tiêu đề, URL tĩnh ) có mối tương quan thấp hơn đáng kể và những khó khăn tương tự chứng minh kết quả họ đạt được, chúng tôi nghĩ rằng trong thời gian rất nhiều chuyên gia SEO sẽ quan tâm và thử tiếp cận phương pháp này.
LDA abs Tool – một vài gợi ý cho sử dụng và test
LDA Labs Tool vừa mới được chúng tôi đưa vào sử dụng. Bạn có thể dùng công cụ này để nhập vào một từ, một cụm từ, một đoạn văn bản hoặc thậm chí toàn bộ nội dung của trang (thông qua ô nhập URL) cùng với một truy vấn mong muốn (cụm từ/từ khóa mà bạn muốn xếp hạng), công cụ này sẽ trả lại cho bạn một điểm ở dạng % với 100%= hoàn hảo, 0% = ko có mối quan hệ nào

Cần chú ý một số điểm sau khi sử dụng công cụ này:
Điểm có thay đổi chút ít với mỗi lần chạy
Bởi vì, giống như một người dăm dò ý kiến, phỏng vấn 100 cử tri trong một thành phố để có được kết quả của toàn bộ cử tri địa phương. Chúng tôi kiểm tra một mẫu các chủ đề, nội dung và kết quả truy vấn có thể phù hợp(kiểm tra từng khả năng sẽ mất rất nhiều thời gian). Do đó bạn có thể hy
Sử dụng đồng nghĩa, “các tìm kiếm liên quan” hoặc các đề xuất Wonder Wheel có thể ko giúp ích
Mô hình vector là sự thể hiện phức tạp của “nội dung” và “chủ đề”, bởi vậy trong khi nhiều SEOs đã từ lâu khuyên nên sử dụng các từ đồng nghĩa và thêm “tìm kiếm liên quan” như là các keyword trên các trang của họ, một số khác lại cho thấy tầm quan trọng của “nội dung liên quan ”. Chưa có một cách nào tốt nhất để có thể so sánh được những ý kiến trên hoặc thể hiện được tương quan với các xếp hạng. Những điểm số mà bạn nhìn thấy từ công cụ này được dựa trên sự giải thích của các kết nối giữa các từ và những phương pháp cổ điển này.
Điểm số là tương đối (20% có thể ko tồi)
Đừng cho rằng đạt được 15% hoặc 20% luôn là một kết quả tuyệt vời. Nếu xếp hạng nằm trong top 10, tất cả các điểm số LDA trong khoảng 10-20%, có vẻ bạn đang làm một công việc hợp lý. Một số truy vấn đơn giản sẽ không cho ra các kết quả phù hợp với các chủ đề được đưa ra(đây có thể là một điểm hạn chế trong mô hình của chúng tôi hoặc đó là một tính chất khác thường của chính truy vấn).
Hiện tại các mô hình chủ đề của chúng tôi không sử dụng các cụm từ
Ở thời điểm hiện tại, các chủ đề chúng tôi dựng lên là những khái niệm từ duy nhất. Chúng ta hãy tưởng tượng các cỗ máy tìm kiếm có thể thực hiện tìm kiếm trên và thậm chí còn vượt ra ngoài chủ đề, tận dụng các cụm từ, và chúng tôi hy vọng một ngày nào đó sẽ đạt được điều này.
Gửi thư rác từ khóa có thể tăng điểm số LDA của bạn, nhưng lại ko phải xếp hạng.
Trong thế giới SEO, khôn khéo áp dụng tiến trình này có thể là một ý tưởng rất có ích. Cho dù công cụ này hoạt động hoàn hảo để phân tích sự liên quan từ khóa và chủ đề trong Google, nó sẽ rất thông minh khi đơn giản chỉ đẩy lên 50 từ qua lại trên trang của bạn để nhận được điểm số LDA cao nhất có thể. Mục tiêu của SEO nên là chất lượng nội dung mà con người thực sự muốn tìm kiếm và Google chắc chắn sẽ đủ thông minh để quyết định sự khác nhau giữa nội dung rác và nội dung thực mà người dùng sẽ thích (ngay cả khi điểm số của công cụ không thể làm điều đó).
Nếu bạn đang cố gắng phân tích và phát triển SEO, tôi khuyên bạn nên dựng nên một biểu đồ giống như thế này:

Ngay bây giờ, bạn có thể sử dụng chức năng xuất của Keyword Difficult (độ khó từ khóa) và sau đó thêm vào một vài số liệu bằng tay (trong tương lai, chúng ta sẽ làm việc hướng tới phân tích ngay trên ứng dụng web)
Khi bạn đã có một biểu đồ như thế này, bạn có thể hình dung rõ hơn đối thủ của bạn đang sử dụng những gì để yểm trợ cho thứ hạng của họ: anchor text, domain, authority hoặc có thể là thứ gì đó liên quan tới chủ đề (LDA có thể giúp điều này).
Không nghi ngờ gì nữa, Google tinh vi hơn là ta nghĩ
Trong khi các mối tương quan cao, sự thích thú sử dụng công cụ này của cả SEOmoz và từ rất nhiều các thành viên, cộng đồng của chúng tôi cũng cao không kém. Đây không phải là “đảo ngược thuật toán ” của chúng tôi. Chúng tôi có thể đã tạo nên một công cụ tuyệt vời để phát triển sự tương quan giữa các trang của bạn và giúp đánh giá xem liệu mô hình chủ đề có phải là một yếu tố khác trong xếp hạng hay không, tuy nhiên, nếu chúng ta đơn giản tăng điểm số trên các trang và sẽ thấy kết quả tăng lên thế nào.
Điều gây hứng thú cho chúng tôi đó là chúng tôi không phải là tìm ra một công thức bí mật (LDA đã được viết khoảng 4 năm và mô hình vector cũng được phát triển trong nhiều thập kỉ) mà chúng tôi đang tạo ra một sự bổ sung rất tiềm năng cho các phần của SEO –theo truyền thống chúng ta có rất ít hệ thống đo.
BTW- nhờ Michael Cottam, người đã gợi các tài liệu tham khảo của công việc nghiên cứutừ một số nhân viên Google trong pLDA. Có hàng trăm tài liệu xung quanh các chủ đề liên quan tới LDA từ các nhà nghiên cứu Google và Microsoft cho những ai quan tâm. Đọc chúng, bạn có thể thấy các máy tìm kiếm chính chắc chắn xây dựng nên các mô hình tiên tiến để giải quyết vấn đề. Tương quan và kiểm tra về sự hữu ích của công cụ sẽ cho thấy sự thực thi đơn giản vẫn có thể cung cấp dữ liệu cho việc tối ưu trang.
Đối với những ai muốn đầu tư hơn, chúng tôi cung cấp tất cả các dữ liệu thô của chúng tôi tại đây (định dạng XLS, dù vậy bạn sẽ cần một mô hình tinh vi hơn để làm LDA). Nếu bạn quan tâm, hãy gửi email cho Ben tại SEOmoz dot org.
Giải thích cho chủ/ khách
Phương pháp đơn giản nhất mà tôi tìm được đó là:
Nếu chúng ta muốn xếp hạng tốt cho “những hòn đá lăn” có thể là một ý tưởng thực sự hay khi sử dụng từ như "Mick Jagger," "Keith Richards," and "những ngày du lịch." Cũng có thể không phải là siêu thông minh sử dụng những từ như "hồng ngọc", "ngọc lục bảo", "đá quý," hoặc cụm từ "tập hợp không có rêu," vì những từ này có thể gây nhầm lẫn cho các bộ máy tìm kiếm (và khách) như chủ đề mà chúng tôi đang đề cập đến.
Công cụ này cố gắng đưa ra một số đoán tốt nhất về cách chúng ta đang làm với những người khác trên web (hoặc là các khối mẫu từ hoặc nội dung chúng tôi muốn thử.). Hy vọng, nó có thể giúp chúng tôi tìm ra được câu trả lời khi chúng tôi hoàn thành một số thứ như viết về những hòn đá nhưng lại quên đề cập đến Keith Richards.
Như mọi khi, chúng tôi mong mốn nhận được kết quả và phản hồi từ phía bạn. Chúng tôi đã có một số người gửi thư cho chúng tôi nói rằng họ đã sử dụng công cụ này để tối ưu hóa nội dung của một vài trang và thấy rằng xếp hạng tăng lên đáng kể. Theo như chúng tôi biết, đó có thể không phải về công cụ hay tiến trình, nhưng chắc chắn nó giúp chúng tôi hy vọng vào những điều lớn hơn.
Ps. Bước kế tiếp, chắc chắn, là tạo ra một công cụ có thể đưa ra các gợi ý trên từ để thêm và xóa, giúp tăng điểm số này. Đó chính là điều mà chúng tôi đang mong chờ.
Chúng tôi để Labs LDA miễn phí cho bất kỳ ai đều có thể sử dụng trong một thời gian, bởi chúng tôi rất muốn nghe những gì cộng đồng nghĩ về tiến trình này và muốn nhận được các phản hồi nhiều nhất có thể.