Semalt боттармен, өрмекшілермен және тырнақтармен қалай күресуге болатындығы туралы кеңестер береді

Іздеу жүйесінің түсінікті URL мекен-жайларын құрумен қатар .htaccess файлы веб-шеберлерге веб-сайтқа кіруге тыйым салатын белгілі бір боттарды бұғаттауға мүмкіндік береді. Бұл роботтарды бұғаттаудың бір жолы - robots.txt файлы. Алайда, Semalt клиентінің сәттілік менеджері Росс Барбер кейбір тексерушілердің бұл сұранысты елемегенін көргенін айтады. Ең жақсы әдістердің бірі - .htaccess файлын олардың мазмұнды индекстеуін тоқтату үшін пайдалану.
Бұл боттар қандай?
Бұл іздеу жүйелері индекстеу мақсатында интернеттен жаңа мазмұнды жою үшін қолданылатын бағдарламалық жасақтама түрі.

Олар келесі тапсырмаларды орындайды:
- Сіз байланыстырған веб-беттерге кіріңіз
- HTML кодын қателіктер үшін тексеріңіз
- Олар қандай веб-беттерді сақтап, мазмұнға сілтеме жасайтын веб-беттерді көреді
- Олар сіздің мазмұныңызды индекстейді
Алайда, кейбір боттар зиянды болып табылады және сіздің сайтыңызды әдетте сізге қажетсіз хабарламалар немесе спам жіберу үшін қолданылатын электрондық пошта мекенжайлары мен формаларын іздеңіз. Басқалары тіпті сіздің кодыңыздағы қауіпсіздік саңылауларын іздейді.
Веб-тексерушілерді бұғаттау үшін не қажет?
.Htaccess файлын пайдаланбас бұрын, төмендегілерді тексеру керек:
1. Сіздің сайтыңыз Apache серверінде жұмыс істеуі керек. Қазіргі уақытта, тіпті веб-хостингтік компаниялар өз жұмысына жартылай лайықты болса да, сізге қажетті файлға қол жеткізуге мүмкіндік береді.
2. Сіз өзіңіздің веб-сайтыңыздың серверлік журналына қол жеткізе алуыңыз керек, осылайша веб-парақтарға қандай боттар кіргенін таба аласыз.
Егер сіз зиянды боттардың барлығын, тіпті өзіңіз пайдалы деп санаса да, бұғаттай алмайынша, бұғаттауға ешқандай жол жоқ екенін ескеріңіз. Күн сайын жаңа боттар пайда болады, ал ескілері өзгертіледі. Ең тиімді әдіс - сіздің кодыңызды қорғау және боттар сізге спам жібермеу үшін.
Боттарды анықтау
Боттарды IP мекен-жайы бойынша немесе HTTP тақырыптарына жіберетін «Пайдаланушы агенті желісі» арқылы анықтауға болады. Мысалы, Google «Googlebot» қолданады.
Егер сізде .htaccess-тен аулақ болғыңыз келетін боттың атауы болса, сізге 302 бот қажет.
Тағы бір жолы - барлық журнал файлдарын серверден қотарып алып, оларды мәтіндік редактордың көмегімен ашу. Олардың сервердегі орны сіздің серверіңіздің конфигурациясына байланысты өзгеруі мүмкін. Егер сіз оларды таба алмасаңыз, веб-хостыңыздан көмек сұраңыз.

Егер сіз қандай бетке кіргеніңізді немесе кіру уақытын білсеңіз, қажетсіз ботпен келу оңайырақ болады. Осы параметрлермен журнал файлын іздей аласыз.
Бірде сіз қандай боттарды бұғаттауыңыз керек екенін байқадыңыз; содан кейін оларды .htaccess файлына қосуға болады. Ботты бұғаттау оны тоқтату үшін жеткіліксіз екенін ескеріңіз. Ол жаңа IP немесе атауымен оралуы мүмкін.
Оларды қалай бұғаттауға болады
.Htaccess файлының көшірмесін жүктеңіз. Қажет болса, сақтық көшірме жасаңыз.
1 әдіс: IP арқылы блоктау
Бұл код үзіндісі ботқа 197.0.0.1 IP мекенжайын қолданып бұғаттайды
Тапсырыс қабылдамау, рұқсат ету
197.0.0.1 бастап қабылдамау
Бірінші жол сервер сіз көрсеткен үлгілерге сәйкес келетін барлық сұрауларды блоктайды және басқаларға рұқсат береді дегенді білдіреді.
Екінші жол серверге 403: тыйым салынған бетті шығаруды айтады
2-әдіс: Пайдаланушы агенттері бұғаттау
Ең оңай әдіс - Apache-дің қайта жазу қозғалтқышын пайдалану
RewriteEngine қосулы
RewriteCond% {HTTP_USER_AGENT} BotUserAgent
RewriteRule. - [F, L]
Бірінші жол қайта жазу модулінің қосылуын қамтамасыз етеді. Екінші жол - ереже қолданылатын шарт. 4-жолдағы «F» серверге 403-ті қайтаруды айтады: «L» - бұл соңғы ереже дегенді білдіреді.
Содан кейін сіз өзіңіздің серверіңізге .htaccess файлын жүктеп, барын қайта жазасыз. Уақыт өте келе сіз боттың IP-ін жаңарта аласыз. Егер сіз қате тапсаңыз, өзіңіз жасаған сақтық көшірмені жүктеңіз.