- Katılım
- 10 Nisan 2025
- Mesajlar
- 728
- Reaksiyon puanı
- 81
- Konu Yazar
- #1
1. SpamBrain: Google’ın AI Destekli Spam Tespiti Sistemi
Google, Black Hat SEO ile mücadelede 2022 yılında duyurduğu SpamBrain adlı yapay zekâ sistemini kullanıyor. Bu sistemin temelinde graph-based semi-supervised learning (yarı denetimli grafik tabanlı öğrenme) yapısı yer alır.
Nasıl çalışır?
SpamBrain, web sayfalarını ve bağlantıları (backlink’leri) bir bağlantı grafiği (link graph) içinde düğümler (nodes) ve kenarlar (edges) olarak temsil eder.
Her düğüm bir domain, alt sayfa veya hatta bir yazar profili olabilir.
AI, anormal bağlantı örüntülerini öğrenir (örneğin: blog ağları, PBN'ler, link satın alım izleri).
Embedding katmanları üzerinden spam içerik ve bağlantılar çok boyutlu bir vektör uzayına gömülür.
Bu uzayda outlier (aykırı) noktalar tespit edilerek düşük kaliteli link ağları ortaya çıkarılır.
Az bilinen bilgi:
SpamBrain, sadece backlink’i değil, mention (bahsetme) ve anchor text co-occurrence oranlarını da değerlendirerek semantik manipülasyonları saptar. Yani bir sitenin sürekli olarak aynı keyword ile link alması bir spam sinyalidir.
2. Natural Language Processing (NLP) ile Üretilmiş İçerik Tespiti
Google, BERT ve MUM gibi modellerden sonra, spam içerik tespitinde özel olarak eğitilmiş bir Transformer mimarisi kullanmaya başladı.
Teknik Yöntemler:
Perplexity skoru kullanılarak bir metnin ne kadar "tahmin edilebilir" olduğu ölçülür. Çok düşük veya çok yüksek perplexity, otomatik içerik üretimini gösterir.
TF-IDF sapmaları incelenerek keyword stuffing yapılan içerikler tespit edilir.
Semantic Cohesion Check: Google, metin içindeki cümleler arası anlamsal bağlılığı ölçer. AI ile yazılmış ama insan gibi görünmeye çalışan içeriklerde genellikle bu bağlar zayıftır.
Synthetic Text Detectors: Gelişmiş dil modelleri (RoBERTa tabanlı) ile LLM ile üretilmiş içerikler (örneğin ChatGPT ile yazılmış yazılar) saptanır.
Az bilinen bilgi:
Google, "Document-level topic drift" tespiti yapar. Eğer bir makale başlığı "En iyi kahve makineleri" iken içerikte gizli link çıkışı veya keyword kayması varsa bu drift olarak işaretlenir.
3. Structured Data Abuse & Schema Cloaking Tespiti
Structured data (örneğin schema.org) işaretlemeleri manipüle edildiğinde, Google bunu tespit etmek için:
DOM-Diffing tekniği uygular: Sayfanın kullanıcıya gösterilen HTML'i ile Googlebot’un gördüğü versiyonu karşılaştırılır.
Entropi analizi ile schema verilerinin ne kadar doğal olduğu hesaplanır. Aşırı yoğunluk, sahte yapılandırma sinyalidir.
Özellikle Product, Review ve FAQ schema etiketlerinde template abuse kontrol edilir. Spam siteler genellikle otomatik olarak kopyalanmış yapılar kullanır.
Az bilinen bilgi:
Google, sameAs özelliği ile başka kaynaklara bağlanan içeriklerin güvenilirliğini değerlendirirken, linked entity disambiguation (bağlı varlık ayrımı) algoritmalarıyla içeriğin gerçekten bahsettiği kişiye mi yoksa başka birine mi ait olduğunu saptar.
4. Adversarial Crawling & Honeypot Algılama
Googlebot, Black Hat SEO yapan siteleri yakalamak için "cloaking honeypots" adı verilen özel teknikler kullanır:
Googlebot, sahte bir referer, IP veya kullanıcı ajanı ile siteye erişerek içerik farklılığı olup olmadığını test eder.
Behavioral Fingerprinting: Sitenin kullanıcıya ve bota farklı içerik sunup sunmadığı, JS yüklemeleri, viewport davranışları ve DOM event'leri ile ölçülür.
Time-based content variation: Bazı spam siteler, botlara günün belirli saatlerinde farklı içerik sunar. Google bunu tespit etmek için zaman bazlı rastgele crawling yapar.
5. Negative SEO & Link Disavow Sisteminin Evrimi
Google, kötü niyetli olarak bir siteye yönlendirilmiş zararlı backlink’leri anlamak için:
TrustRank propagation algoritması uygular. Zararlı bağlantı kaynaklarının etkisinin hedef siteye ulaşmasını engellemek için graph üzerinde "damping" uygulanır.
Latent Link Neighborhood Analysis: Sitenin bağlantı aldığı kaynakların semantic & link neighborhood’ları analiz edilir. Eğer bu neighborhood toksikse, etki azaltılır.
Az bilinen bilgi:
Disavow dosyası sunulsa bile Google, bu veriyi tek başına değil, tarihsel link davranışı + kullanıcı etkileşimleri ile birlikte değerlendirir.
6. CTR Manipülasyonu & Bot Trafik Tespiti
Google, kullanıcı davranışlarıyla (tıklama oranları, dwell time) oynanarak yapılan manipülasyonları şu yöntemlerle tespit eder:
Click Pattern Fingerprinting: İnsan tıklamaları ile bot tıklamaları arasındaki mikrofarklılıklar (örneğin: hover time, scroll jitter, mouse path entropy) analiz edilir.
Device Fingerprint Consistency: Bot’lar genellikle sahte user-agent kullanır. Google bu ajanlarla yapılan etkileşimleri canvas fingerprinting, WebGL, ve AudioContext gibi sinyallerle doğrular.
Google, Black Hat SEO ile mücadelede 2022 yılında duyurduğu SpamBrain adlı yapay zekâ sistemini kullanıyor. Bu sistemin temelinde graph-based semi-supervised learning (yarı denetimli grafik tabanlı öğrenme) yapısı yer alır.
Nasıl çalışır?
SpamBrain, web sayfalarını ve bağlantıları (backlink’leri) bir bağlantı grafiği (link graph) içinde düğümler (nodes) ve kenarlar (edges) olarak temsil eder.
Her düğüm bir domain, alt sayfa veya hatta bir yazar profili olabilir.
AI, anormal bağlantı örüntülerini öğrenir (örneğin: blog ağları, PBN'ler, link satın alım izleri).
Embedding katmanları üzerinden spam içerik ve bağlantılar çok boyutlu bir vektör uzayına gömülür.
Bu uzayda outlier (aykırı) noktalar tespit edilerek düşük kaliteli link ağları ortaya çıkarılır.
Az bilinen bilgi:
SpamBrain, sadece backlink’i değil, mention (bahsetme) ve anchor text co-occurrence oranlarını da değerlendirerek semantik manipülasyonları saptar. Yani bir sitenin sürekli olarak aynı keyword ile link alması bir spam sinyalidir.
2. Natural Language Processing (NLP) ile Üretilmiş İçerik Tespiti
Google, BERT ve MUM gibi modellerden sonra, spam içerik tespitinde özel olarak eğitilmiş bir Transformer mimarisi kullanmaya başladı.
Teknik Yöntemler:
Perplexity skoru kullanılarak bir metnin ne kadar "tahmin edilebilir" olduğu ölçülür. Çok düşük veya çok yüksek perplexity, otomatik içerik üretimini gösterir.
TF-IDF sapmaları incelenerek keyword stuffing yapılan içerikler tespit edilir.
Semantic Cohesion Check: Google, metin içindeki cümleler arası anlamsal bağlılığı ölçer. AI ile yazılmış ama insan gibi görünmeye çalışan içeriklerde genellikle bu bağlar zayıftır.
Synthetic Text Detectors: Gelişmiş dil modelleri (RoBERTa tabanlı) ile LLM ile üretilmiş içerikler (örneğin ChatGPT ile yazılmış yazılar) saptanır.
Az bilinen bilgi:
Google, "Document-level topic drift" tespiti yapar. Eğer bir makale başlığı "En iyi kahve makineleri" iken içerikte gizli link çıkışı veya keyword kayması varsa bu drift olarak işaretlenir.
3. Structured Data Abuse & Schema Cloaking Tespiti
Structured data (örneğin schema.org) işaretlemeleri manipüle edildiğinde, Google bunu tespit etmek için:
DOM-Diffing tekniği uygular: Sayfanın kullanıcıya gösterilen HTML'i ile Googlebot’un gördüğü versiyonu karşılaştırılır.
Entropi analizi ile schema verilerinin ne kadar doğal olduğu hesaplanır. Aşırı yoğunluk, sahte yapılandırma sinyalidir.
Özellikle Product, Review ve FAQ schema etiketlerinde template abuse kontrol edilir. Spam siteler genellikle otomatik olarak kopyalanmış yapılar kullanır.
Az bilinen bilgi:
Google, sameAs özelliği ile başka kaynaklara bağlanan içeriklerin güvenilirliğini değerlendirirken, linked entity disambiguation (bağlı varlık ayrımı) algoritmalarıyla içeriğin gerçekten bahsettiği kişiye mi yoksa başka birine mi ait olduğunu saptar.
4. Adversarial Crawling & Honeypot Algılama
Googlebot, Black Hat SEO yapan siteleri yakalamak için "cloaking honeypots" adı verilen özel teknikler kullanır:
Googlebot, sahte bir referer, IP veya kullanıcı ajanı ile siteye erişerek içerik farklılığı olup olmadığını test eder.
Behavioral Fingerprinting: Sitenin kullanıcıya ve bota farklı içerik sunup sunmadığı, JS yüklemeleri, viewport davranışları ve DOM event'leri ile ölçülür.
Time-based content variation: Bazı spam siteler, botlara günün belirli saatlerinde farklı içerik sunar. Google bunu tespit etmek için zaman bazlı rastgele crawling yapar.
5. Negative SEO & Link Disavow Sisteminin Evrimi
Google, kötü niyetli olarak bir siteye yönlendirilmiş zararlı backlink’leri anlamak için:
TrustRank propagation algoritması uygular. Zararlı bağlantı kaynaklarının etkisinin hedef siteye ulaşmasını engellemek için graph üzerinde "damping" uygulanır.
Latent Link Neighborhood Analysis: Sitenin bağlantı aldığı kaynakların semantic & link neighborhood’ları analiz edilir. Eğer bu neighborhood toksikse, etki azaltılır.
Az bilinen bilgi:
Disavow dosyası sunulsa bile Google, bu veriyi tek başına değil, tarihsel link davranışı + kullanıcı etkileşimleri ile birlikte değerlendirir.
6. CTR Manipülasyonu & Bot Trafik Tespiti
Google, kullanıcı davranışlarıyla (tıklama oranları, dwell time) oynanarak yapılan manipülasyonları şu yöntemlerle tespit eder:
Click Pattern Fingerprinting: İnsan tıklamaları ile bot tıklamaları arasındaki mikrofarklılıklar (örneğin: hover time, scroll jitter, mouse path entropy) analiz edilir.
Device Fingerprint Consistency: Bot’lar genellikle sahte user-agent kullanır. Google bu ajanlarla yapılan etkileşimleri canvas fingerprinting, WebGL, ve AudioContext gibi sinyallerle doğrular.