Ahrefs는 자사 도구와 서비스를 지원하기 위해 두 가지 주요 웹 크롤러인 AhrefsBot과 AhrefsSiteAudit을 운영하고 있습니다. 저희의 크롤링 목적은 사이트 소유자가 온라인 가시성을 향상할 수 있도록 돕는 동시에 서버에 과도한 부하를 주지 않고 안전하고 투명한 방식으로 크롤링을 수행하는 것입니다.
robots.txt 준수 여부: 기본적으로 네 (웹사이트 소유자는 자신의 사이트에서 robots.txt를 준수하지 않도록 요청할 수 있음)
크롤링 딜레이 준수 여부: 기본적으로 네 (웹사이트 소유자는 자신의 사이트에서 크롤링 딜레를 준수하지 않도록 요청할 수 있음)
AhrefsBot과 AhrefsSiteAudit은 모두 웹 보안 및 성능 분야의 선도 기업인 Cloudflare로부터 검증된 "우수" 봇으로 인정받았습니다.
AhrefsBot은 웹사이트와 그 콘텐츠, 그리고 사이트 간의 링크 구조에 대한 최신의 정확한 정보를 인덱싱합니다. 이 데이터는 매우 유용하며, 다양한 방식으로 활용될 수 있습니다:
두 봇 모두 disallow 및 allow 규칙은 물론, crawl-delay 지시문까지 포함하여 robots.txt를 철저히 준수합니다. 단, 사이트 소유권을 인증한 사용자에 한해, 크롤링이 일반적으로 허용되지 않는 섹션의 문제를 점검할 수 있도록 AhrefsSiteAudit 크롤러가 해당 사이트에서 robots.txt 규칙을 무시하도록 허용할 수 있습니다.
HTML 페이지를 요청할 때는 지정된 크롤링 속도 제한을 엄격히 준수합니다. 그러나 JavaScript 렌더링 시에는 해당 제한을 적용할 수 없습니다. 저희 봇이 페이지를 렌더링할 때는 이미지, 스크립트, 스타일시트 등 여러 리소스를 동시에 요청할 수 있으며, 그 결과 서버 로그에는 크롤링 속도 제한 설정보다 더 빈번한 요청이 발생하는 것처럼 보일 수 있습니다. 이러한 동작은 실제 사용자의 브라우징 경험을 모방한 것으로, 현대 웹페이지는 적절한 렌더링과 기능을 위해 여러 리소스를 동시에 로드해야 하는 경우가 많기 때문입니다.
크롤링 중에는 자주 요청되는 파일(이미지, CSS, JS 등)을 캐시하여 반복적인 요청을 최소화합니다. 이를 통해 대역폭 사용량과 서버 부하를 줄이는 효과를 얻을 수 있습니다.
저희는 200 이외의 상태 코드, 특히 4xx 또는 5xx 오류를 감지하면 해당 사이트에 대한 크롤링 속도를 자동으로 줄입니다. 이는 일시적인 장애나 높은 서버 부하를 겪고 있는 사이트에 최소한의 부담만 주기 위해서입니다.
호스팅 제공업체, CDN 및 CMS 플랫폼이 자사 고객의 사이트와 봇 간의 상호작용 방식을 관리하고자 할 수 있다는 점을 저희는 잘 이해하고 있습니다. 저희는 공개된 IP 주소와 사용자 에이전트 문자열을 통해 귀하 또는 서비스 제공자가 Ahrefs의 정식 트래픽을 쉽게 확인할 수 있도록 지원합니다. 저희는 크롤링 활동에 대해 투명성을 유지하며 신뢰와 협력을 구축하는 데 전념하고 있습니다. 우려 사항이 있으시다면 언제든지 [email protected](으)로 문의해 주세요. 최선을 다해 도와드리겠습니다.
저희는 봇을 제어할 수 있도록 명확하면서도 사용자 친화적인 옵션을 제공합니다:
AhrefsBot 또는 AhrefsSiteAudit가 사이트를 방문하는 빈도를 변경하려면 robots.txt 파일에 두 연속 요청 사이의 최소 허용 지연을 지정하세요.
(크롤-딜레이 값은 초 단위 시간입니다.)
AhrefsBot 또는 AhrefsSiteAudit이 귀하의 사이트 또는 특정 섹션에 접근하지 않도록 하려면, Disallow 지시문을 사용하세요:
AhrefsBot이 robots.txt 파일의 변경 사항을 반영하는 데에는 다소 시간이 걸릴 수 있습니다. 이 작업은 다음 예정된 크롤링 전에 수행됩니다. 인증된 사이트 소유자는 AhrefsSiteAudit 크롤러가 자신의 사이트에서 robots.txt 규칙을 무시하도록 허용할 수 있으며, 따라서 평소에는 크롤링이 제한된 섹션에서도 문제를 점검할 수 있습니다.
또한 robots.txt 파일에 오류가 있는 경우, 저희 봇은 귀하의 명령을 인식하지 못하고 기존과 동일한 방식으로 크롤링을 계속 진행하게 됩니다. robots.txt에 대한 자세한 내용은 www.robotstxt.org에서 확인하실 수 있습니다.
AhrefsBot의 크롤링 속도를 일시적으로 줄일 수 있습니다. 이러한 기능은 사이트에 부하를 줄여야 하는 장애 발생 시점이나 인프라 변경 작업 중에 유용하게 활용될 수 있습니다. 크롤링 속도를 일시적으로 줄이려면, 장애나 점검 기간 동안 4xx 또는 5xx HTTP 상태 코드를 반환하면 됩니다. 저희 봇은 이러한 오류를 자동으로 감지하고, 크롤링 속도를 줄이도록 설계되어 있습니다.
AhrefsSiteAudit 봇은 웹사이트 서버에 과도한 부하가 가지 않도록 분당 최대 30개의 URL만 크롤링합니다. 웹사이트 소유자라면 사이트의 문제를 더 빠르게 확인하기 위해 더 높은 속도로 크롤링하도록 설정할 수 있습니다. 이를 위해서는 사이트 감사 도구에서 사이트 소유권을 인증해야 합니다.
저희의 크롤링 빈도에 대해 우려가 있으시거나, 확인이 필요한 수상한 트래픽이 감지된 경우 [email protected](으)로 언제든지 문의해 주세요. 문제 해결과 정확한 안내를 도와드리겠습니다.