开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Apache Pig Distinct和计数

Apache Pig是一个用于大数据分析的开源平台，它提供了一种高级的脚本语言Pig Latin，用于编写数据流转换和分析的程序。在Pig Latin中，Distinct和计数是两个常用的操作。

Distinct（去重）：Distinct操作用于从数据集中去除重复的记录，只保留唯一的记录。它可以应用于单个字段或多个字段，返回一个去重后的数据集。Distinct操作可以帮助我们快速识别和处理重复数据，提高数据分析的准确性和效率。

推荐的腾讯云相关产品：腾讯云数据仓库（Tencent Cloud Data Warehouse），是一种高性能、低成本、易扩展的数据仓库解决方案。它提供了强大的数据处理和分析能力，支持使用Pig进行数据清洗、转换和分析。

产品介绍链接地址：https://cloud.tencent.com/product/dw

计数：计数操作用于统计数据集中的记录数量。在Pig Latin中，可以使用COUNT函数来实现计数操作。COUNT函数可以应用于整个数据集，也可以应用于特定字段或分组后的数据。计数操作可以帮助我们了解数据集的规模和分布情况，为后续的数据分析和决策提供依据。

推荐的腾讯云相关产品：腾讯云数据仓库（Tencent Cloud Data Warehouse），提供了强大的数据处理和分析能力，支持使用Pig进行数据清洗、转换和分析。

产品介绍链接地址：https://cloud.tencent.com/product/dw

总结：Apache Pig的Distinct和计数是两个常用的操作，Distinct用于去除数据集中的重复记录，计数用于统计数据集的记录数量。腾讯云数据仓库是一个推荐的云计算产品，提供了强大的数据处理和分析能力，支持使用Pig进行数据清洗、转换和分析。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

Hadoop:pig 安装及入门示例

pig是hadoop的一个子项目，用于简化MapReduce的开发工作，可以用更人性化的脚本方式分析数据。一、安装 a) 下载从官网http://pig.apache.org下载最新版本(目前是0.14.0版本)，最新版本可以兼容hadop 0.x /1.x / 2.x版本，直接解压到某个目录即可。注：下面是几个国内的镜像站点 http://mirrors.cnnic.cn/apache/pig/ http://mirror.bit.edu.cn/apache/pig/ http://mirrors.

09

进击大数据系列（十四）Hadoop 数据分析引擎 Apache Pig

Pig 是一个基于 Apache Hadoop 的大规模数据分析平台，它提供的 SQL-LIKE 语言叫 Pig Latin，该语言的编译器会把类 SQL 的数据分析请求转换为一系列经过优化处理的 MapReduce 运算。Pig 为复杂的海量数据并行计算提供了一个简单的操作和编程接口，使用者可以透过 Python 或者 JavaScript 编写 Java，之后再重新转写。

02

Spark vs. Pig 时间缩短8倍，计算节约45%

Apache Pig是在HDFS和MapReduce之上的数据流处理语言，它将数据流处理自动转换为一个DAG（有向无环图）的MapReduce作业流去执行，为数据分析人员提供了更简单的海量数据操作接口。但是在DAG的作业流中，作业之间存在冗余的磁盘读写、网络开销以及多次资源申请，使得Pig任务存在严重的性能问题。大数据处理新贵Spark凭借其对DAG运算的支持、Cache机制和Task多线程池模型等优势，相比于MapReduce更适合用于DAG作业流的实现。腾讯TDW Spark平台基于社区最新Spark

06

使用 Apache PIG 统计积累型数据的差值

本文介绍了如何使用PIG和Jython实现统计某段时间内数据表中多个进程的指标变化量，并使用PIG的UDF功能实现自定义函数的扩展。通过PIG的5个步骤，即加载数据、过滤数据、分组数据、应用UDF函数、将结果输出到文件，可以完成数据计算和汇总。

02

玩转大数据系列之Apache Pig高级技能之函数编程（六）

已总结Pig系列的学习文档，点击末尾处，阅读原文即可查看所有，希望对大家有用，感谢关注！在Hadoop的生态系统中，如果我们要离线的分析海量的数据，大多数人都会选择Apache Hive或Apache Pig，在国内总体来说，Hive使用的人群占比比较高，而Pig使用的人相对来说，则少的多，这并不是因为Pig不成熟，不稳定，而是因为Hive提供了类数据库SQL的查询语句，使得大多人上手Hive非常容易，相反而Pig则提供了类Linux shell的脚本语法，这使得大多数人不喜欢使用。如果在编程界

03

Apache Pig

Apache Pig是MapReduce的一个抽象，它是一个工具/平台（所以说它并不完全是一门语言），用于分析较大数据集，并将其表示为数据流；

02

pig询问top k，每个返回hour和ad_network_id最大的两个记录（SUBSTRING，order，COUNT_STAR，limit）

–REGISTER piggybank.jar; REGISTER wizad-etl-udf-0.1.jar;

01

pig操作与注意事项

grunt> A = load 'hdfs://192.168.0.118:9000/user/hadoop/data.txt' as (name:chararray, id:int, age:int); grunt> B = group A by id; grunt> C = foreach B generate count A.age;（注意要带括号，并且count必须为大写） 2012-09-11 20:20:12,831 [main] ERROR org.apache.pig.tools.grunt

03

Pig、Hive、MapReduce 解决分组 Top K 问题

问题：有如下数据文件 city.txt （id， city， value） cat city.txt 1 wh 500 2 bj 600 3 wh 100 4 sh 400 5 wh 200 6 bj 100 7 sh 200 8 bj 300 9 sh 900 需要按 city 分组聚合，然后从每组数据中取出前两条value最大的记录。 1、这是实际业务中经常会遇到的 group TopK 问题，下面来看看 pig 如何解决： a = load '/data/city.txt'

07

细谈Hadoop生态圈

Hadoop在过去的几年里已经变得很成熟了。下面的图1-2显示了Hadoop生态系统堆栈。Apache Phoenix是HBase的SQL包装，它需要基本的HBase理解，在某种程度上，还需要理解它原生的调用行为。了解其他Hadoop生态系统组件以及HBase，将有助于更好地理解大数据领域，并利用Phoenix及其最佳可用特性。在本章中，我们将概述这些组件及其在生态系统中的位置。

03

Pig简单的代码实例：报表统计行业中的点击和曝光量

注意：pig中用run或者exec 运行脚本。除了cd和ls，其他命令不用。在本代码中用rm和mv命令做例子，容易出错。

01

让Pig在风暴中飞驰——Pig On Storm

1以PigOnStorm直面实时应用开发面的挑战在TRC（Tencent Realtime Computing）系统中TDProcess负责为各个应用提供实时计算的能力和服务，Storm是TDProcess的核心部件，虽然Storm已经成为开源流式计算领域的实际标准，但其生态系统远没有Hadoop完善，在Storm之上没有像Hive、Pig这类解放应用开发人员的效率提升工具，所以当你决定使用Storm来实现某个应用时，必须首先去熟悉Storm的原理以及API，然后才能基于API编写程序。熟悉Hadoop

EMR入门学习之MR、Tez、Spark之间的关系（六）

Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集。

02

Apache Pig学习笔记（二）

主要整理了一下，pig里面的一些关键词的含义和用法，pig虽然是一种以数据流处理为核心的框架，但数据库的大部分关键词和操作，在pig里面基本上都能找到对应的函数，非常灵活与简洁，春节前的最后一篇文章了，祝大家春节快乐！ 1，pig里所有的保留关键字： -- A assert, and, any, all, arrange, as, asc, AVG -- B bag, BinStorage, by, bytearray, BIGINTEGER, BIGDECIMAL -- C cache, CAS

09

Pig介绍和相对于Hive的优势

我们都知道pig和hive的作用是一致的都是为了简化mapReduce的编程而开发的，但是hive是过程化语言SQL,pig是数据流语言pig Latin.

01

「大数据系列」:Apache Hive 分布式数据仓库项目介绍

Apache Hive™数据仓库软件有助于读取，编写和管理驻留在分布式存储中的大型数据集并使用SQL语法进行查询

02

多个物种的肾脏部位巨噬细胞比较

然后我确实搜索了一下，这样的研究已经是很多了，比如多个物种的肾脏部位巨噬细胞比较，发表它的文章J Am Soc Nephrol. 2019 May;标题是：《Single-Cell RNA Sequencing Identifies Candidate Renal Resident Macrophage Gene Expression Signatures across Species》，测序数据是公开可以获取的，GSE128993. 这个研究跨越四个物种，如下所示：

05

Pig 0.12.1安装和使用

[linuxidc@jifeng02 ~]$ tar zxf pig-0.12.0.tar.gz [linuxidc@jifeng02 ~]$ vi .bash_profile # .bash_profile

02

干货|大数据主流工具，你知道几个？

业内有这样一种说法，SQL虽然在大数据分析领域久经考验，但是无奈长江后浪推前浪，和炙手可热的Hadoop相比，SQL已经过时了。这个说法有点言过其实，现在很多的项目都是将Hadoop作为数据存储，然后利用SQL进行前端查询。这说明Hadoop需要一种高级查询语言的支持。 Hadoop MapReduce虽然能够进行数据分析，但是太复杂了。于是，开发人员开发出了类似SQL的Pig和Hive。大数据时代，我们有很多的查询工具可以选择。虽然SQL占据着绝对优势，但是随着大数据的持续升温，也给了Apache P

06

大数据主流工具，你知道几个？

导读：大数据时代，我们有很多的查询工具可以选择。虽然SQL占据着绝对优势，但是随着大数据的持续升温，也给了Apache Pig和Hive很大的发挥空间。工欲善其事必先利其器，如果选择了合适的平台和语言，会让数据的提取，处理和分析达到事半功倍的效果。未来，处理速度快和操作简单必定成为大数据分析的主流趋势。来源：大数据观察业内有这样一种说法，SQL虽然在大数据分析领域久经考验，但是无奈长江后浪推前浪，和炙手可热的Hadoop相比，SQL已经过时了。这个说法有点言过其实，现在很多的项目都是将Hadoop作为

06

【Dr.Elephant中文文档-8】调优建议

你可以使用Dr. Elephant来分析你的作业（只需在搜索页贴入你的作业ID），就可以知道你的作业有哪些地方需要优化。

07

Hadoop Pig 安装

exportPIG_CLASSPATH=$HADOOP_INSTALL/conf/

01

大数据主流工具，你知道几个？

业内有这样一种说法，SQL虽然在大数据分析领域久经考验，但是无奈长江后浪推前浪，和炙手可热的Hadoop相比，SQL已经过时了。这个说法有点言过其实，现在很多的项目都是将Hadoop作为数据存储，然后利用SQL进行前端查询。这说明Hadoop需要一种高级查询语言的支持。 Hadoop MapReduce虽然能够进行数据分析，但是太复杂了。于是，开发人员开发出了类似SQL的Pig和Hive。　　大数据时代，我们有很多的查询工具可以选择。虽然SQL占据着绝对优势，但是随着大数据的持续升温，也给了Apache

07

如何给Apache Pig自定义UDF函数？

近日由于工作所需，需要使用到Pig来分析线上的搜索日志数据，本人本打算使用hive来分析的，但由于种种原因，没有用成，而Pig（pig0.12-cdh）本人一直没有接触过，所以只能临阵磨枪了，花了两天时间，大致看完了pig官网的文档，在看文档期间，也是边实战边学习，这样以来，对pig的学习，会更加容易，当然本篇不是介绍如何快速学好一门框架或语言的文章，正如标题所示，本人打算介绍下如何在Pig中，使用用户自定义的UDF函数，关于学习经验，本人会在后面的文章里介绍。

01

hadoop记录

RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

03

CDH-Hadoop2.6+ Apache Pig0.15安装记录

1，使用CDH的hadoop里面有对应的组件Pig，但版本较低，所以放弃使用了，直接下载 Apache Pig0.15最新的版本（支持Tez，比Hive更容易集成）下载地址：http://archive.apache.org/dist/pig/pig-0.15.0/pig-0.15.0.tar.gz 直接下载二进制包即可 2，配置Pig的环境变量如下： #Pig export PIG_HOME=/ROOT/server/pig export PIG_CLASSPATH=$HADOO

05

如何给Apache Pig自定义UDF函数？

近日由于工作所需，需要使用到Pig来分析线上的搜索日志数据，散仙本打算使用hive来分析的，但由于种种原因，没有用成，而Pig（pig0.12-cdh）散仙一直没有接触过，所以只能临阵磨枪了，花了两天时间，大致看完了pig官网的文档，在看文档期间，也是边实战边学习，这样以来，对pig的学习，会更加容易，当然本篇不是介绍如何快速学好一门框架或语言的文章，正如标题所示，散仙打算介绍下如何在Pig中，使用用户自定义的UDF函数，关于学习经验，散仙会在后面的文章里介绍。一旦你学会了UDF的使用，就意味着，

06

Apache Pig的前世今生

最近，散仙用了几周的Pig来处理分析我们网站搜索的日志数据，感觉用起来很不错，今天就写篇笔记介绍下Pig的由来，除了搞大数据的人，可能很少有人知道Pig是干啥的，包括一些是搞编程的，但不是搞大数据的，还包括一些既不是搞编程的，也不是搞大数据的，而是从事其他行业的朋友，所以很有可能望文生义，一看标题，就乐了，心里就开始默默的翻译了===》 Apache 猪的笔记，看起来Apache的猪，比较厉害啊，都能写笔记了。开个玩笑，下面进入正题，散仙，尽量写的通俗易懂，让大家看了之后都能够理解这头Pig到底是干

06

hadoop记录 - 乐享诚美

RDBMS Hadoop Data Types RDBMS relies on the structured data and the schema of the data is always known. Any kind of data can be stored into Hadoop i.e. Be it structured, unstructured or semi-structured. Processing RDBMS provides limited or no processing capabilities. Hadoop allows us to process the data which is distributed across the cluster in a parallel fashion. Schema on Read Vs. Write RDBMS is based on ‘schema on write’ where schema validation is done before loading the data. On the contrary, Hadoop follows the schema on read policy. Read/Write Speed In RDBMS, reads are fast because the schema of the data is already known. The writes are fast in HDFS because no schema validation happens during HDFS write. Cost Licensed software, therefore, I have to pay for the software. Hadoop is an open source framework. So, I don’t need to pay for the software. Best Fit Use Case RDBMS is used for OLTP (Online Trasanctional Processing) system. Hadoop is used for Data discovery, data analytics or OLAP system. RDBMS 与 Hadoop

03

【20】进大厂必须掌握的面试题-50个Hadoop面试

“大数据”是用于收集大型和复杂数据集的术语，这使得很难使用关系数据库管理工具或传统数据处理应用程序进行处理。很难捕获，整理，存储，搜索，共享，传输，分析和可视化大数据。大数据已成为公司的机遇。现在，他们可以成功地从数据中获取价值，并通过增强的业务决策能力在竞争者中拥有明显的优势。

01

对比Pig、Hive和SQL，浅看大数据工具之间的差异

【编者按】在笔者看来，语言和工具之争从来都没有太大的意义，所谓存在既有道理，如何在场景下做出最合适的选择才至关重要。本文，DeZyre公司专家Manisha Nandy Mazumder对比了Pig、Hive和SQL的区别，并为读者浅谈了一些选择标准。以下为译文有人说对于大数据分析来说Hadoop才是炙手可热的新技术，SQL虽然久经考验但已经有些过时了。这话说得不错，但有非常多的项目都用Hadoop作为数据存储，而以SQL构建前端查询，这说明Hadoop确实需要一种高级的查询语言。为了简化Hadoop的

08

Pig启动出现Unhandled internal error. jline.Terminal.getTerminal()Ljline/Terminal

根据命令行的提示,我们打开bug所记录的日志。 vim /etc/profile.d/pig_1582816803489.log

03

Apache Pig入门学习文档（一）

1，Pig的安装（一）软件要求（二）下载Pig （三）编译Pig 2，运行Pig （一）Pig的所有执行模式（二）pig的交互式模式（三）使用pig脚本执行模式 3，Pig Latin语句的声明（一）加载数据（二）使用和处理数据（三）存储中间数据（四）存储最终数据（五）调试Pig Latin语言 4，Pig的属性值管理 5，Pig一些注意事项 1，Pig的安装（一）软件安装必须配置：

05

如何使用Pig集成分词器来统计新闻词频？

散仙在上篇文章中，介绍过如何使用Pig来进行词频统计，整个流程呢，也是非常简单，只有短短5行代码搞定，这是由于Pig的内置函数TOKENIZE这个UDF封装了单词分割的核心流程，当然，我们的需求是各种各样的，Pig的内置函数，仅仅解决了80%我们常用的功能，如果稍微我有一些特殊的需求，就会发现内置函数解决不了，不过也无需担忧，Pig开放了各个UDF的接口和抽象类，从加载，转换，过滤，存储等等，都有对应的实现接口，只要我们实现或继承它，就非常方便扩展。本篇呢，散仙会使用Ansj分词器+Pig来统计中文的

05

Pig安装及简单使用(pig0.12.0 Hadoop2.2.0)

我们用MapReduce进行数据分析。当业务比较复杂的时候，使用MapReduce将会是一个很复杂的事情，比如你需要对数据进行很多预处理或转换，以便能够适应MapReduce的处理模式,另一方面，编写MapReduce程序，发布及运行作业都将是一个比较耗时的事情。

01

【数据工具】对比Pig、Hive和SQL，浅谈大数据工具差异

作者：Manisha Nandy Mazumder 有人说对于大数据分析来说Hadoop才是炙手可热的新技术，SQL虽然久经考验但已经有些过时了。这话说得不错，但有非常多的项目都用Hadoop作为数据存储，而以SQL构建前端查询，这说明Hadoop确实需要一种高级的查询语言。为了简化Hadoop的使用，开发人员创造出了类似于SQL的Pig和Hive。而用户在进行数据分析的时候使用这些工具可以避免Java编码，但在使用之前很重要的一点是了解工具之间的区别以便在不同的用例中使用最优化的工具。在现在的大数据

07

pig用法_animals

student = load ‘/pig/input/student.data’ using PigStorage(‘,’) as (id:long,name:chararray,class:int,state:int);

02

Hadoop家族学习路线图v

主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始，中国进入大数据风起云涌的时代，以Hadoop为代表的家族软件，占据了大数据处理的广阔地盘。开源界及厂商，所有数据软件，无一不向Hado

03

Hadoop专业解决方案-第13章 Hadoop的发展趋势

非常感谢Hadoop专业解决方案群：313702010，兄弟们的大力支持，在此说一声辛苦了，经过两周的努力，已经有啦初步的成果，目前第13章 Hadoop的发展趋势小组已经翻译完成，在此对：hbase-深圳-18361、旅人AQUARION表示感谢。

03

Hadoop阅读笔记（一）——强大的MapReduce

该文摘要总结：通过Hadoop命令行工具进行格式化读取文本文件并输出到控制台，同时通过Java代码实现MapReduce作业，将文本文件内容按行进行分割，对每一行进行统计，并输出到控制台。

09

Hadoop学习笔记系列文章导航

这是一个信息爆炸的时代。经过数十年的积累，很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一，怎样从累积的数据里寻找价值，变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据，如果求助于昂贵的专用主机甚至超级计算机，成本无疑很高，有时即使是保存数据，也需要面对高成本的问题，因为具有海量数据容量的存储设备，价格往往也是天文数字。成本和IT能力成为了海量数据分析的主要瓶颈。

02

大数据那些事(25):你还爱我吗之Stinger的努力

新年新气象，给大家拜年。更新一篇等大家的红包。上期我们讲了Impala，这个Hadoop批发商Cloudera推出来的有若干年头的，但却没有从Apache毕业的Hadoop上的数据查询分析系统。在这场战争里，当然不仅仅是Cloudera在战斗。今天我们来看看另外一个Hadoop批发商Hortonworks。 Hortonworks基本上就是Yahoo里的Hadoop团队减去被Cloudera挖走的Doug Cutting, Hadoop的创始人。这个团队的人做了不少东西，最初的HDFS和Hadoop Ma

07

Hadoop家族学习路线图

Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。从2011年开始，中国进入大数据风起云涌的时代，以Hadoop为代表的家族软件，占据了大数据处理的广阔地盘。开源界及厂商，所有

08

大数据开发的工具有哪些?

作为一个大数据开发人员，每天要与使用大量的大数据工具来完成日常的工作，那么目前主流的大数据开发工具有哪些呢？

02

【Java】大文本字符串滤重的简单方案

今天来说一个Java中处理大文本字符串虑重的两个解决方案。相信大家在实际工作中都遇到过数据重复的问题，当然也就存在虑重的工作。比如数据库中需要对同一个字段进行虑重，大多数情况下我们直接使用Set就能解决问题，今天我所说的这个大文本虑重是什么含义呢？一起来看看需求吧。需求: 公司SEO人员给了我一个文本文件，里面大概有三千多万行字符串，他们的要求是希望我用最短的时间把这个文本文件重复的给删除掉。起初我想的直接用excle去处理吧，当时因为这个文件都达到了几百兆，所以编辑修改起来都

07

zookeeper实现获取实例列表与动态感知服务上下线状态

ZK: 相当于是一个文件系统 + 通知机制（观察者模式） image.png # 过程创建持久化的根节点 /server-pig 客户端监听/server-pig节点下的子节点的上线/下线，当有节点

05

Apache Pig和Solr问题笔记（一）

记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题，总共有3个，如下：（1）问题一：如何在Pig中使用ASCII和十六进制（hexadecimal）的分隔符进行加载，和切分数据？注意关于这个问题，在Pig中，会反应到2个场景中，第一：在Pig加载（load）数据时候。第二：在Pig处理split，或则正则截取数据的时候。先稍微说下，为啥使用十六进制的字段分隔符，而不是我们常见的空格，逗号，冒号，分号，#号，等，这些字符，虽然也可以使用，但是

06

PySpark SQL 相关知识介绍

1 大数据简介大数据是这个时代最热门的话题之一。但是什么是大数据呢?它描述了一个庞大的数据集，并且正在以惊人的速度增长。大数据除了体积(Volume)和速度(velocity)外，数据的多样性(va

04

使用Hadoop分析大数据

大数据由于其庞大的规模而显得笨拙，并且大数据需要工具进行高效地处理并从中提取有意义的结果。Hadoop是一个用于存储，分析和处理数据的开源软件框架和平台。本文是Hadoop如何帮助分析大数据的初学者指南。

04

Notes: Hadoop-based open source projects

Here's my notes about introduction and some hints for Hadoop-based open source projects. Hope it's useful to you.

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭