准备工作
获取日志文件
- 从服务器(如Apache、Nginx)下载网站访问日志,通常位于
/var/log/nginx/access.log
或/var/log/httpd/access_log
。 - 确保日志格式为W3C标准格式(如:
0.0.1 [10/Oct/2023:12:00:00 +0800] "GET /index.html HTTP/1.1" 200 1024
)。
日志预处理
- 删除无关内容(如静态资源请求、内部IP访问)。
- 合并分段日志(若日志按日期分割存储)。
导入日志到光年日志
创建项目
- 登录光年日志,新建项目并选择“网站日志分析”场景。
- 上传日志文件或配置自动采集(支持FTP/SFTP、API推送)。
配置解析规则
- 日志格式识别:自动匹配常见格式(如Apache、Nginx),或手动指定正则表达式。
- 字段映射:提取关键字段(如IP、时间、URL、状态码、User-Agent)。
- 蜘蛛识别:标记搜索引擎爬虫(如Googlebot、Baiduspider)。
核心分析功能
流量统计
维度 | 说明 | 示例数据 |
访问量 | 总PV/UV、独立IP数 | PV: 10,000 UV: 8,000 |
来源分布 | 直接访问、搜索引擎、外链占比 | 搜索引擎: 60% 外链: 25% |
页面热度 | 访问TOP页面及入口页分析 | /home : 5,000次访问 |
用户行为分析
- 访问路径:生成用户行为流图(如:首页→产品页→详情页)。
- 停留时长:计算页面平均停留时间,识别高价值页面。
- 跳出率:统计未触发二次点击的访问比例(如:落地页跳出率70%)。
搜索引擎优化(SEO)
- 蜘蛛抓取分析:统计各搜索引擎抓取量、抓取频率(如:百度每日100次)。
- 关键词排名:通过User-Agent匹配搜索关键词(需开启日志中的
Referer
记录)。 - 死链检测:自动标记404状态码对应的URL。
错误监控
- 状态码分布:统计5xx服务器错误、4xx客户端错误占比。
- 异常IP预警:识别频繁访问的异常IP(如:单IP每日访问1万次)。
高级功能
自定义报表
- 组合多个分析模块(如:流量+SEO+错误),生成PDF/Excel报告。
- 设置定时任务(每日/每周自动发送报表)。
数据可视化
- 支持折线图(趋势分析)、饼图(来源分布)、桑基图(用户路径)。
- 筛选条件:按时间段、IP段、URL前缀等细化数据。
安全分析
- 检测暴力破解(如:同一IP多次尝试登录)。
- 识别扫描器(如:大量URL后缀测试
/admin/xxx
)。
常见问题与优化建议
问题 | 解决方案 |
日志过大导致卡顿 | 压缩日志(按小时/天分文件)、启用增量分析模式。 |
蜘蛛抓取异常 | 检查robots.txt规则,屏蔽无效爬虫IP。 |
404错误过多 | 修复死链,设置301重定向。 |
用户流失率高 | 优化落地页加载速度,增加相关内容推荐。 |
相关问题与解答
问题1:光年日志支持哪些非标准日志格式?
解答:
支持自定义日志格式解析,需提供日志样例并配置正则规则。
^(S+) S+ S+ [(.?)] "S+ (S+) S+" (d{3}) (d+|-)
可提取IP、时间、URL、状态码等字段。
问题2:如何排查日志中突然增加的流量?
解答:
- 过滤异常IP:在“来源分布”中查看非常规地区或新出现IP。
- 分析User-Agent:检查是否为真实浏览器或扫描器(如
HTTrack
)。 - 对比历史数据:查看相同时间段内的流量波动趋势。
- 关联事件:结合网站活动(如推广、破绽曝光)判断