你的位置:ky官方网站 > 新闻中心 > >ky官方网站 数据缔造中,这些让你头疼过吗?
热点资讯
新闻中心

ky官方网站 数据缔造中,这些让你头疼过吗?

发布日期:2023-12-09 12:55    点击次数:77

ky官方网站 数据缔造中,这些让你头疼过吗?

[[425544]] 数据发散 什么是数据发散

在join的过程中,关联键出现一双多,八成多对多工夫,造出效果存在重迭。

数据发散症状 症状

(1)效果存在重迭。

(2)数据量剧增。

(3)可能导致无法使用闲居资源处理完成。

排查

(1)出现这种原因即是

A left join B 的工夫,使用主键的关联条目中,没沟通联到表B的最小粒度。

(2)查找是否是这种原因

select 关联字段 from table group by 关联字段 having count(关联字段)>1 就不错判定是否沟通联字段出现不独一的发散情况。

幸免或惩办

(1)若是右表关联字段有重迭值则要去重,不然数据会发散。

(2)仔细写好SQL,是否存在业务逻辑的空虚(关联字段用错)。

笛卡儿积 什么是笛卡儿积

笛卡尔积在SQL中的终了表情既是交叉连气儿(Cross Join)。通盘连气儿表情齐会先生成临时笛卡尔积表,笛卡尔积是沟通代数里的一个倡导,暗示两个表中的每一瞥数据任性组合 。

笛卡儿积案例 A表 id name city 1 aa 1001 2 bb 1002 3 cc 1003 B表 id city_name 1 a城 2 b城 3 c城 SQL
SELECT * FROM A,B; 
效果 id name city id city_name 1 aa 1001 1 a城 1 aa 1001 2 bb 1 aa 1001 3 c城 2 bb 1002 1 a城 2 bb 1002 2 bb 2 bb 1002 3 c城 3 cc 1003 1 a城 3 cc 1003 2 bb 3 cc 1003 3 c城 产生原因

(1)当连气儿莫得on条目是,会出现笛卡尔积(一齐笛卡尔积)。

(2)当连气儿on条目口角独一字段时,会出现笛卡尔积(局部笛卡尔积)。

(3)join的两个表中齐含有空值。

何如幸免或惩办

(1)关联规模在最小粒度的列.

(2)查验表的关联字段是否有空值。

数据歪斜 什么是数据歪斜

数据歪斜最腌臜倡导即是数据的散播不服衡,有些方位数据多,有些方位数据少。在瞎想过程中有些方位数据早早地处理完结,有些方位数据迟迟莫得处理完成,酿成通盘处理经由迟迟莫得限度,这即是最凯旋数据歪斜的表示。

数据歪斜症状 Hive

hive本人的MR引擎:发现通盘的map task一齐完成,况且99%的reduce task完成,只剩下一个八成少数几个reduce task一直在实行,这种情况下一般齐是发生了数据歪斜。说白了即是Hive的数据歪斜试验上是MapReduce的数据歪斜。

Flink

(1)Flink 任务出现数据歪斜的直不雅表示是任务节点相通出现反压。

(2)部分节点出现 OOM特地,是因为大齐的数据逼近在某个节点上,导致该节点内存被爆,任务失败重启。

Spark

(1)Executor lost,OOM,Shuffle过程出错。

(2)Driver OOM。

(3)单个Executor实行时辰十分久,举座任务卡在某个阶段不成限度。

(4)闲居脱手的任务一会儿失败。

何如幸免或惩办

不论再出现散播式瞎想框架出现数据歪斜问题惩办念念路如下:许多数据歪斜的问题,齐不错用和平台无关的表情惩办,比如更好的数据预处理,特地值的过滤等。因此,惩办数据歪斜的要点在于对数据瞎想和业务的相识,这两个搞明晰了,数据歪斜就惩办了大部分了。关爱这几个方面:

业务逻辑方面

(1)数据预处理。

(2)惩办热门数据:分而治之(第一次打散瞎想,第二次再最终团员瞎想)。

措施代码层面

(1)导致最终唯有一个Reduce任务的,需要猜想用替代的要津字八成算子去栽种Reduce任务数。

(2)调参。

老练我方手中的器具(框架)

优秀的框架也曾负重前行给你优化了好多不仅要学,更学会去用ky官方网站,更要勤苦去完善拓展框架功能。



上一篇:kaiyun官方网站 2021年的边际分析:它是什么,为什么进击偏抓用例
下一篇:开云(中国)Kaiyun官方网站 2022年大数据分析的十大趋势和预测