首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    详解如何使用Spark和Scala分析Apache访问日志

    README.md") // 创建一个指向 README.md 引用 scala> textFile.count // 对这个文件内容行数进行计数 scala> textFile.first // 打印出第一行 Apache...访问日志分析器 首先我们需要使用Scala编写一个对Apache访问日志的分析器,所幸已经有人编写完成,下载Apache logfile parser code。...实例: import com.alvinalexander.accesslogparser._ val p = new AccessLogParser 现在就可以像之前读取readme.cmd一样读取apache...访问日志accesslog.small: scala> val log = sc.textFile("accesslog.small") 14/03/09 11:25:23 INFO MemoryStore...日志 我们可以分析Apache日志中404有多少个,创建方法如下: def getStatusCode(line: Option[AccessLogRecord]) = { line match

    70920

    apache日志分析简介

    apache日志分析做下简单的介绍,主要参考apache官网的Log Files,手册参照 http://httpd.apache.org/docs/2.2/logs.html 一.日志分析 如果...apache的安装时采用默认的配置,那么在/logs目录下就会生成两个文件,分别是access_log和error_log 1.access_log access_log为访问日志,记录所有对apache.../var/log/apache2/%Y_%m_%d_other_vhosts_access.log 86400 480" vhost_combined -rw-r--r-- 1 root root ...,同时也写了定时器将一周前的日志文件全部清除,这样可以显得更清晰,既可以分离每一天的日志又可以清除一定时间以前的日志通过制,LogFormat定义日志的记录格式 LogFormat "%h %l %u...了解日志的各种定义后,这里分享一下从网上淘来的一些对日志分析的脚本 1.查看apache的进程数 ps -aux | grep httpd | wc -l 2.分析日志查看当天的ip连接数 cat

    1.4K40

    Apache用户认证,域名跳转,Apache访问日志

    11.21 Apache访问日志日志文件所在位置: access_log 表示访问日志     error_log 表示错误日志 [root@aminglinux ~]# ls /usr/local...error_log 自定义日志格式 系统自带日志格式: vim /usr/local/apache2.4/conf/httpd.con LogFormat "%h %l %u %t \"%r\...time时间,r表示request(行为),s表示status状态码,b表示byte大小 #user-agent:用户代理 #referer:跳转到当前位置的上一个网址(即:提供当前IP的网站) 配置日志格式...ErrorLog "logs/111.com-error_log" CustomLog "logs/111.com-access_log" combined 说明: 将日志文件后面原有...local/apache2.4/bin/apachectl graceful 查看更改后的日志样式: [root@aminglinux ~]# cat /usr/local/apache2.4/logs

    2.6K50

    Apache优化——日志管理 原

    11.22 访问日志不记录静态文件 编辑虚拟主机配置文件“httpd-vhosts.conf”:   [root@adailinux ~]# vim /usr/local/apache2.4/conf...---- 扩展: apache日志记录客户端请求的域名   正常情况下,根本就没有必要记录这一项,毕竟咱们大都根据虚拟主机来设置相应的访问日志,但也有个别的情况,比如 ServerName *.abc.com...apache只记录指定URI的日志 需求: 把类似请求 www.aaa.com/aaa/... 这样的请求才记录日志。  ...apache日志中记录代理IP以及真实客户端IP   默认情况下log日志格式为:   LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{...说明: rotatelogs是Apache切割日志的工具;-l表示使用系统(CST=Chinese time)时间,如果加-l选项,将以默认的(UTC)时间为准;日志文件名“%Y%m%d”表示年月日;

    62530

    apache安装教程详解_Apache安装

    大家好,又见面了,我是你们的朋友全栈君 1.Apache 安装 1.下载apache 下载链接 2.将解压文件移动到目标目录 (整个文件目录最好用英文 不要有空格)...3.命令行注册apache 服务(不同于exe文件的安装) (以管理员身份打开cmd win10 ) (管理员身份和普通用户身份区别) (在命令行中找到目标 httpd.exe...文件目录 输入cd C:\wamp\Apache24\bin,这是我软件目录 , 输入 httpd.exe -k install) (不清楚命令行的伙伴请自行百度命令行知识) 安装成功后...,提示安装成功,并且可以在服务器中找到apache 2.修改apache安装目录 (找到文件C:\wamp\Apache24\conf\httpd.conf,修改如下 这是我的目录C:...\wamp\Apache24) 3.测试是否安装成功 (在浏览器中输入 localhost 出现下图则表示安装成功) 2.主机配置 找到 httpd.conf文件 如下配置

    4.3K20

    Apache Kafka 详解

    它最初由 LinkedIn 公司开发,之后成为 Apache 项目的一部分。Kafka 是一个分布式的,可分区的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。...4)日志收集 日志收集方面,其实开源产品有很多,包括 Scribe、Apache Flume 。很多人使用 Kafka 代替日志聚合(log aggregation)。...日志聚合一般来说是从服务器上收集日志文件,然后放到一个集中的位置(文件服务器或 HDFS)进行处理。 然而, Kafka 忽略掉文件的细节,将其更清晰地抽象成一个个日志或事件的消息流。...7)持久性日志(Commit Log) Kafka 可以为一种外部的持久性日志的分布式系统提供服务。这种日志可以在节点间备份数据,并为故障节点数据回复提供一种重新同步的机制。...Kafka 中日志压缩功能为这种用法提供了条件。在这种用法中,Kafka 类似于 Apache BookKeeper 项目。 Kafka 消息发送和消费的简化流程是什么?

    78720

    Apache ZooKeeper - 线上系统日志清理

    使用 PurgeTxnLog 则可以在编写清除脚本的时候调用 ZooKeeper 提供的工具类完成日志清理工作。...编写 PurgeTxnLog 类的调用程序,系统就会自动通过 PurgeTxnLog 工具类完成对应日志文件的清理工作。 #!.../bin/sh java -cp "$CLASSPATH" org.apache.zookeeper.server.PurgeTxnLog echo "清理完成" ---- crontab...设定 ZooKeeper 快照和数据日志的对应文件夹路径,并通过 shell 脚本和管道和 find 命令 查询对应的日志下的日志文件,这里我们保留最新的 10 条数据日志,其余的全部清理. #!...,比如仅希望定期清除 ZooKeeper 服务运行的日志,而不想清除数据快照的文件,则可以通过脚本设置,达到只对数据日志文件进行清理的目的。

    63530

    处理Apache日志的Bash脚本

    去年一年,我写了将近100篇网络日志。 现在这一年结束了,我要统计"访问量排名",看看哪些文章最受欢迎。(隆重预告:本文结尾处将揭晓前5名。) 以往,我用的是AWStats日志分析软件。...我的网络服务器软件是Apache,它会对每一个http请求留下记录,就像下面这一条:   203.218.148.99 - - [01/Feb/2011:00:02:09 +0800] "GET /blog...当天所有的访问记录,组成一个日志。过去一年,一共生成了365个日志文件。...在不压缩的情况下,365个日志文件加起来,要占掉10GB空间。...单个日志分析就完成了。 五、月度汇总排名 经过上一步之后,1月份的31个日志文件,生成了31个对应的分析结果文件。为了汇总整个月的情况,必须把这31个结果文件合并。

    1.2K50

    Apache自定义日志格式

    1.Apache日志参数说明: Apache日志格式字符串的含义 %% 百分号(Apache2.0.44或更高的版本) %a 远端IP地址 %A 本机IP地址 %B 除HTTP头以外传送的字节数...2.自定义Apache日志格式: 一些常见的格式串: 通用日志格式(CLF): “%h %l %u %t \”%r\” %>s %b” 带虚拟主机的通用日志格式: “%v %h %l %u %t...日志格式: “%{Referer}i -> %U” Agent(Browser)日志格式: “%{User-agent}i” 自定义Apache日志,则在http.conf中加入如下字段: LogFormat...“%h %l %u %t %T \”%r\” %>s %b \”%{Referer}i\” \”%{User-Agent}i\”” common 说明:一般Apache默认的格式为“LogFormat...后面“common”字段很重要,它代表是自己定义的,如果不加些字段,则添加的自定义日志不起作用。

    1.3K20

    Apache日志中的处理时间

    Apache日志有很多可以自己定义的项目,其中一个 %T 能够显示出服务器处理请求所用的时间。我就是对这个的定义发生了疑问,所以做了一些考证。...在Apache2的中文手册中,是这样定义 %T 这个变量的。 %T   处理完请求所花时间,以秒为单位。...我在服务器上做了一次测试,代码中嵌入了一个执行时间的检查判断,同时监视日志文件中产生的时间。...结果为:页面监测脚本执行时间为10009206毫秒,而日志中记录的是10009838,两者时间并不一样,日志中记录的时间稍微长一些,包含了DNS查询等一系列的过程。...参考资料: 1、Apache 2手册 2、Apache logs: how log does it take to server a request?

    1.4K10
    领券