איך לחסום / לאפשר לזחלנים של Chat-GPT לסרוק את האתר?

בחודש אוקטובר 2024 יצא פיצ'ר חדש ב-Chat-GPT שמאפשר לצ'אט לחפש באינטרנט. בקצרה, ניתן לבחור באפשרות של חיפוש באינטרנט ע"י לחיצה על האייקון או שהצ'אט יכול להחליט לחפש בעצמו באינטרנט בהתבסס על השאילתה ומה שהוא מבין.

צילום מסך - Chat-GPT חיפוש באינטרנט

 

איך עובד המנוע?

בדומה למנוע החיפוש של גוגל, גם ל-Chat-GPT אנחנו צריכים לתת "אישור" להיכנס לאתר שלנו, לסרוק אותו וללמוד אותו. כשאנחנו רוצים לעשות את זה עבור גוגל אנחנו עושים את זה דרך קובץ robots.txt, שם אנחנו מגדירים לאן הזחלנים יכולים להיכנס באתר שלנו ולאן לא.

 

אילו רשומות יש?

OpenAi מספקים לנו 3 רשומות (זחלנים) עיקריות שנוכל להוסיף לקובץ robots שלנו:

 

OAI-SearchBot

הזחלן הזה הוא מנוע החיפוש הקלאסי. אנחנו נותנים ל-Chat להיכנס אלינו לאתר, לעבור על המידע שיש בו ולשמור את התוכן באינדקס של הצ'אט. ככה, כשמישהו שואל שאלה, הצ'אט יכול לשאוב את המידע מתוך הנתונים שכבר קיימים אצלו באינדקס.

במידה ורוצים לאפשר את הזחלן, יש להכניס ל-robots.txt את הטקסט הבא:

User-agent: OAI-SearchBot
Allow: /

במידה ורוצים לחסום את הזחלן, יש להכניס ל-robots.txt את הטקסט הבא:

User-agent: OAI-SearchBot
Disallow: /

 

ChatGPT-User

הזחלן הזה הוא עבור חיפוש "לייב". כשמשתמש בצ'אט שואל שאלה וצריך לקבל תשובה תוך כדי השיחה, תשובה שאין לצ'אט בתוך האינדקס, זה מצריך בדיקה מהירה באינטרנט וכניסה לאתרים שהוא מוצא. אם נחסום את הזחלן הזה, האתר שלנו לא יוכל להופיע בתוצאות זמן אמת בצ'אט.

במידה ורוצים לאפשר את הזחלן, יש להכניס ל-robots.txt את הטקסט הבא:

User-agent: ChatGPT-User
Allow: /

במידה ורוצים לחסום את הזחלן, יש להכניס ל-robots.txt את הטקסט הבא:

User-agent: ChatGPT-User

Disallow: /

 

GPTBot

הזחלן הזה הוא עבור אימון המודלים של OpenAi. בקצרה ובצורה מופשטת, כדי שבינה מלאכותית תהיה איכותית, צריך לתת לה המון מידע שהיא מתאמנת עליו, כדי שאם תפגוש משהו דומה בעתיד, תוכל לתת את המענה הטוב ביותר. זה מה שהזחלן הזה עושה. הוא שואב מידע מהאתר ומשתמש בו כדי לשפר את המודלים כל הזמן. OpenAi מצהירים שחסימה של הזחלן הזה לא תפגע בתוצאות החיפוש עבור אותו אתר. דעתי האישית היא ששווה לאפשר לזחלן להיכנס לאתר, במקרה הגרוע זה לא ישפיע.

במידה ורוצים לאפשר את הזחלן, יש להכניס ל-robots.txt את הטקסט הבא:

User-agent: GPTBot
Allow: /

במידה ורוצים לחסום את הזחלן, יש להכניס ל-robots.txt את הטקסט הבא:

User-agent: GPTBot
Disallow: /

 

*שימו לב! אם יש תיקיות או urls שלא תרצו לאפשר לזחלנים להגיע אליהם, כדאי להפוך את הרובוטס ליותר מפורט. דוגמה לאיך זה נראה אצלנו אחרי שהכנסנו את הכל:

robots txt אתר של עשהאל

 

ועכשיו כטקסט:

User-agent: OAI-SearchBot
Allow: /
Disallow: /wp-admin
Disallow: /wp-content/plugins/ #block access to plugins
Disallow: /wp-login.php #block access to management
Disallow: /feed #block feeds
Disallow: /search/ #block internal search results
Disallow: /?s= #block access to internal search result pages
Disallow: /?p= #block access to pages for which permalinks fails
Disallow: /&p= #block access to pages for which permalinks fails
Disallow: /&preview= #block preview
Disallow: /tag/ #block tags
Disallow: /author/ #blocking author pages

User-agent: ChatGPT-User
Allow: /
Disallow: /wp-admin
Disallow: /wp-content/plugins/ #block access to plugins
Disallow: /wp-login.php #block access to management
Disallow: /feed #block feeds
Disallow: /search/ #block internal search results
Disallow: /?s= #block access to internal search result pages
Disallow: /?p= #block access to pages for which permalinks fails
Disallow: /&p= #block access to pages for which permalinks fails
Disallow: /&preview= #block preview
Disallow: /tag/ #block tags
Disallow: /author/ #blocking author pages

User-agent: GPTBot
Allow: /
Disallow: /wp-admin
Disallow: /wp-content/plugins/ #block access to plugins
Disallow: /wp-login.php #block access to management
Disallow: /feed #block feeds
Disallow: /search/ #block internal search results
Disallow: /?s= #block access to internal search result pages
Disallow: /?p= #block access to pages for which permalinks fails
Disallow: /&p= #block access to pages for which permalinks fails
Disallow: /&preview= #block preview
Disallow: /tag/ #block tags
Disallow: /author/ #blocking author pages

User-agent: *
Allow: /
Disallow: /wp-admin
Disallow: /wp-content/plugins/ #block access to plugins
Disallow: /wp-login.php #block access to management
Disallow: /feed #block feeds
Disallow: /search/ #block internal search results
Disallow: /?s= #block access to internal search result pages
Disallow: /?p= #block access to pages for which permalinks fails
Disallow: /&p= #block access to pages for which permalinks fails
Disallow: /&preview= #block preview
Disallow: /tag/ #block tags
Disallow: /author/ #blocking author pages

Sitemap: https://www.w3c.org.il/sitemap_index.xml

 

לסיכום

מהפכת ה-AI בקידום האורגני קורמת עור וגידים ואנחנו רואים את השינויים קורים מול העיניים. אני אישית ממליץ לעלות על הרכבת הזו כמה שיותר מהר. מי שיזרע את הזרעים עכשיו, יקצור את הפירות בהמשך.

שלחו לחבר קישור למאמר, הוא חייב לקרוא אותו!
שלחו לחבר קישור למאמר
הוא חייב לקרוא אותו!
תמונה של עשהאל דרייר
עשהאל דרייר

מנכ"ל חברת עשהאל קידום אתרים, מייסד דיגיפארם - חנות אונליין להזמנת תכנים וקישורים עבור אנשי SEO, מוביל את קבוצת אנשי ה-SEO הגדולה בישראל בפייסבוק ובווטסאפ.

מאמרים נוספים מומלצים לקריאה עבורך:

בדיקת מהירות אחסון אתרים קלאודוויז
עשהאל דרייר
היי כאן עשהאל ואני רוצה להמליץ לך באופן אישי לפתוח שרת בקלאודוויז ולהנות מאתרים מהירים, תמיכה 24/7 וממשק נוח. אני מאחסן למעלה מ-400 אתרים בעצמי וממליץ בחום ובלב שלם, לאחר מספר שנות ניסיון