2014年3月

第一种,查找访问非图片的最多的ip地址
采集或者蜘蛛在访问页面的时候不会同时访问css及图片资源,从而定位到此类ip地址

tail -n 10000 access.log | egrep -vi "GET .*\.gif|\.jpg|\.png|\.css" | awk '{print $1}' | sort | uniq -c | sort -rn | head -n 20

第二种,测试客户ip地址是否开启了80端口
部分采集程序嵌入在web应用之中,可以通过此类方法探测得知

[ -x /usr/bin/nmap ] || aptitude -y install nmap
for ip in `cat access.log | awk '{print $1}' | sort -n | uniq`; do
    echo testing ${ip}
    nmap -p 80 ${ip% *} | grep open
    [ ${?} -eq 0 ] && echo ${ip} >> ipret
done