استمرت زحفات Perplexity في الوصول إلى محتوى من عشرات الآلاف من مواقع الويب حتى بعد أن منعتها هذه المواقع بشكل صريح ، وفقًا لمزود البنية التحتية للإنترنت CloudFlare. قالت الشركة يوم الاثنين إنها قد شطقت الحيرة من برنامج BOT الذي تم التحقق منه ونفذت كتل ضد ما وصفته بمثابة ممارسات تجريف خادعة.
تأسست Perplexity ومقرها سان فرانسيسكو في عام 2022 من قبل Aravind Srinivas (الرئيس التنفيذي ، باحث سابق في Openai) ، ودينيس يارات (Facebook AI) ، وجوني هو ، وآندي كونوينسكي (المشاركين في مراكز البيانات). تلقت الشركة تمويلًا من المستثمرين بما في ذلك Elad Gil و Nat Friedman (الرئيس التنفيذي السابق لـ GitHub) و Nvidia ، من بين آخرين ، بلغت قيمته 18 مليار دولار بعد جمع 100 مليون دولار الشهر الماضي.
اندلع الصراع الأخير بعد أن اشتكى عملاء Cloudflare من أن الحيرة كانت لا تزال تجسد مواقعهم على الرغم من تنفيذ كل من توجيهات Robots.txt وقواعد جدار الحماية المحددة لمنع زحف شركة AI المعلنة. أكد مهندسو CloudFlare Gabriel Corral و Vaibhav Singhal و Brian Mitchell و Reid Tatoris في الاختبارات أن “زحف البيربيتي تم حظرهم في الواقع على الصفحات المحددة المعنية”.
لاختبار سلوك Perplexity ، أنشأ CloudFlare العديد من المجالات التي تم شراؤها حديثًا مع ملفات Robots.Txt تقييدية التي تحظر جميع الوصول الآلي. “لقد أجرينا تجربة من خلال الاستعلام عن الحيرة من الذكاء الاصطناعي مع أسئلة حول هذه المجالات ، واكتشفنا أن الحيرة كانت لا تزال تقدم معلومات مفصلة فيما يتعلق بالمحتوى الدقيق الذي تم استضافته في كل من هذه المجالات المقيدة.”
ما حدث بعد ذلك فاجأهم. بدلاً من احترام الكتل ، بدا أن الحيرة تبديل التكتيكات. وكتب المهندسون: “لاحظنا أن الحيرة لا تستخدم فقط وكيل المستخدم المعلن ، ولكن أيضًا متصفحًا عامًا يهدف إلى انتحال شخصية Google Chrome على MacOS عندما تم حظر الزاحف المعلن”.
المصدر: CloudFlare
استخدم زحف الشبح تقنيات التهرب المتطورة. “لقد استخدم هذا الزاحف غير المعلن عدة برامج IPs غير مدرجة في نطاق IP الرسمي في Perplexity ، وسيتم تدويرها من خلال هذه العناصر المبرمج استجابةً لسياسة Robots.txt التقييدية والكتلة من CloudFlare. بالإضافة إلى IPS التناوب ، لاحظنا الطلبات القادمة من ASNS مختلفة في محاولات لمزيد من تكافؤ مواقع الويب.”
وفقًا لـ Cloudflare ، فإن زحف “المعلن” الذي يمكن التعرف عليه-الذين يمكن التعرف عليهم بسهولة-يتجهون إلى ما بين 20 إلى 25 مليون طلب يوميًا ، في حين أن زحف الشبح غير المعلن-الذين يعتمدون على التكتيكات المظللة لإخفاء غرضهم-3-6 ملايين طلبات أخرى في اليوم. “لوحظ هذا النشاط عبر عشرات الآلاف من المجالات وملايين الطلبات يوميًا.”
لم تستجب الشركة فك تشفيرطلب التعليق. ورفض متحدث مزاعم TechCrunch ليس أكثر من مجرد “ملعب المبيعات” CloudFlare.
كان الرئيس التنفيذي لشركة CloudFlare Matthew Prince صوتيًا بشأن ما يراه كاستخراج غير مستدام لشركات AI لمحتوى الويب. “لقد انخفضت إحالات حركة البحث عن حركة مرور حيث يعتمد الناس بشكل متزايد على ملخصات الذكاء الاصطناعي.” في يوليو ، كشف عن نسب مدمرة: في حين ترسل Google زائرًا واحدًا لكل 18 صفحة تزحفها ، فإن شركات الذكاء الاصطناعى أسوأ بكثير. تدهورت نسبة Openai من 250 إلى 1 منذ ستة أشهر إلى 1500 إلى 1 اليوم. أعداد الأنثروبور أكثر تطرفًا ، حيث تقفز من 6000 إلى 1 إلى 60000 إلى 1 في نفس الفترة.
المصدر: CloudFlare
وقد دفع هذا CloudFlare إلى إطلاق ما تسميه “يوم استقلال المحتوى” ، وهو ما يتخلف عن حظر زحف الذكاء الاصطناعي لجميع المجالات الجديدة ، وتصبح حاسة الحاسة الحديدية التي تحمي المبدعين المحتوى من تهديدات الزواحف المزعجة من الذكاء الاصطناعي.
مثل فك تشفير تم الإبلاغ سابقًا ، أن أكثر من مليون موقع ويب قد اختار بالفعل الحظر منذ الخريف الماضي ، مع الناشرين الرئيسيين بما في ذلك أسوشيتد برسو وقتو المحيط الأطلسيو Buzzfeed، و Reddit ، و Quora ، و Universal Music Group تنضم إلى الحركة.
“هناك تفضيلات واضحة مفادها أن الزحف يجب أن تكون شفافة ، وتخدم غرضًا واضحًا ، وأداء نشاط محدد ، والأهم من ذلك ، اتباع توجيهات وتفضيلات الموقع” ، صرحت CloudFlare. تباينت الشركة سلوك الحيرة مع Openai ، والتي قالت بشكل صحيح يحترم ملفات Robots.txt وتتوقف عن الزحف عند حظرها.
تتضمن استجابة CloudFlare كل من التدابير الفنية الفورية والمبادرات طويلة الأجل. قامت الشركة بنشر مباريات توقيع لزاحف الشبح في قواعدها المدارة ، وهي متاحة لجميع العملاء بما في ذلك المستخدمين الأحرار. كما أنه يطور أدوات مثل “AI Labyrinth” ، والتي تقوم بفصل الروبوتات غير المتوافقة في متاهات من المحتوى المزيف ، وسوق “الدفع لكل شاحن” من شأنه أن يتيح للناشرين فرض شركات الذكاء الاصطناعي للوصول إلى محتواها.

