如何在上游贡献代码（Github篇）？

Apr 27 2021

写给那些刚接触github和开源贡献的你们。

more >>

大文件在Github和Gitee上传的建议

Nov 24 2020

本文详细解释了在github及gitee上对大文件处理的限制以及解决方案。

Github和Gitee文件大小限制

托管类型	单文件限制	单仓库限制	LFS单文件限制	LFS单账户限制
Github	100MB	建议小于1GB，强烈建议小于5GB	2GB	1GB
Gitee	50MB	500MB	仅对企业付费用户开放	仅对企业付费用户开放

简单说，如果gitee通过非LFS方式，上传了100MB以上的文件，那么github无法镜像。gitee通过LFS方式，上传了100MB以上的文件，最大不能超过2GB，且总和不能超过1GB。否则会出现this exceeds GitHub's file size limit of 100.00 MB错误：

root@yikun-x86:~/yikun/bigfile# git push origin main
Enumerating objects: 8, done.
Counting objects: 100% (8/8), done.
Delta compression using up to 4 threads
Compressing objects: 100% (5/5), done.
Writing objects: 100% (6/6), 120.25 MiB | 191.00 KiB/s, done.
Total 6 (delta 1), reused 0 (delta 0)
remote: Resolving deltas: 100% (1/1), done.
remote: error: GH001: Large files detected. You may want to try Git Large File Storage - https://git-lfs.github.com.
remote: error: Trace: 58b4554c41925fcfb5dba5ec99aebb5ef9fab8d092461cb8ed321578a4fa178e
remote: error: See http://git.io/iEPt8g for more information.
remote: error: File boost_1_72_0.tar.gz is 120.72 MB; this exceeds GitHub's file size limit of 100.00 MB
To github.com:Yikun/bigfile.git
 ! [remote rejected] main -> main (pre-receive hook declined)
error: failed to push some refs to 'git@github.com:Yikun/bigfile.git'

1. 如何处理大文件（超过100MB的文件）

任何方案，都需要处理最近一次commit（通过删除或者LFS改造）和历史所有commits的提交（通过bfg）

第一步：处理当前大文件（最近一次commit）

找到大文件。通过git big-files和git blob-find找到所有出现问题的分支。
处理大文件：
[推荐] 方案一（删除大文件，并保留历史提交）：
通过自动化下载和脚本的方式，此步完成后，所有的大文件在lastest commit都被清除。
方案二（利用LFS改造大文件，并保留历史提交）：
lfs方式改造大文件。在每个分支通过git lfs方式进行改造，此步完成后，所有的大文件在lastest commit都改造为lfs方式。

第二步：处理历史大文件（历史所有commits）

清除历史大文件。利用bfg工具，清除所有历史大文件提交记录。（注意：此步会重新提交每个commits，大文件的commit会被替换为xxx.remove的flag文件）

more >>

展开全文 >>

从数据压缩切入看MapReduce的全流程

Aug 20 2020

最近要在Hadoop中做一些和压缩库相关的优化，也借此机会把Hadoop的MapReduce的全流程代码进行了梳理，本篇文章将端到端的梳理一下MapReduce的全流程，并重点关注其中和数据压缩/解压相关的流程。

1. 起点

为了使整个代码的阅读变得有趣，我们先提几个问题作为后续追寻蛛丝马迹的“导火索”：

算法支持情况。 Hadoop中，目前支持哪几种数据压缩算法？每个压缩算法有什么特点？性能如何？
压缩框架实现。 Hadoop中的压缩算法的框架是怎样的？如何增加一个压缩算法？
压缩与解压的时机。 在MapReduce的过程中，哪个过程会进行数据压缩和解压？耗时比例大概多少？会带来怎样的利弊？
压缩性能测试。 如何进行压缩性能测试？

2. MapReduce的基本流程

从上图我们可以看到MapReduce的核心流程如上所示，从用户的Input文件到最终的Output文件，主要经历以下几个阶段：

Map阶段。
Split：会将用户的输入文件，进行一些“分割“，在client端进行，逻辑上进行分割，只记录偏移信息。
Map：Split文件信息会在Map阶段进行处理，调用用户自己定义的Map函数。
环形缓冲区：Map的输出不会直接存在文件里，而是存在环形缓冲区中，攒够了以后再进行落盘。
Spill：从缓冲区落盘的过程叫做spill，也最终会生成多个Spill文件。
Map.out：Spill文件最终会被合并为最终的Map输出。
Shuffle阶段。
Shuffle阶段会将Map的输出下载到对应的Reduce的机器上。
Reduce阶段。
Merge：Reduce阶段最开始的时候，会将Map文件进行Merge，形成一个大文件，作为Reduce的输入。
Reduce：Reduce会执行用户自己定义的reduce函数，完成最终的输出。

更多详细的内容可以参考《Hadoop MapReduce Comprehensive Description》 [1] 这篇文章。

3. Hadoop中压缩算法的支持情况

目前Hadoop支持的压缩算法共有2大类，一种是可分割的压缩算法，一种是不可分割的压缩算法。而支持的压缩算法的类型有：

Lz4, 压缩速率很快，压缩比一般
Snappy, 由Google开源的压缩算法，压缩速率和压缩率均衡
ZSTD，由Facebook开源的压缩算法，压缩速率和压缩率均衡
Gzip/Zlib，GNU开源，压缩率不错，速度较慢
Passthrough，直通，仅保存压缩的文件名后缀，实际文件不压缩
Bzip2，压缩速率较慢，支持流式压缩，可分割

[1] Hadoop MapReduce Comprehensive Description: https://0x0fff.com/hadoop-mapreduce-comprehensive-description/

4.后续

在2020年9月26日，在Apache Hadoop Meetup上，我也分享了更多的技术细节，以及我们实际的性能测试结果：

视频：赋能Arm大数据开源生态，华为的探索之路：https://www.bilibili.com/video/av287309386/
总结：Meetup 回顾 | 初探Hadoop on Arm: https://mp.weixin.qq.com/s/JgbHEqENHuJPZTPtwLZqqQ

展开全文 >>

搭建Hadoop Yarn环境 (ARM)

Aug 15 2020

ARM上搭建Hadoop Yarn的指导。

more >>

展开全文 >>

让压缩库ZSTD在ARM上更顺滑

May 20 2020

Facebook的ZSTD压缩库从1.0版本发布的那天起，就引起了业界的关注，对比业界常用的压缩库lz4、zilib、xz，ZSTD更注重速度和压缩比的均衡，对比zlib来看，更是在保证压缩比的情况下，较zlib压缩性能提升6倍左右，解压性能提升2倍左右。

我们团队也在2020年年初时，对ZSTD压缩库进行了性能优化，最终优化已推入到Facebook的上游社区中，本文将详细的介绍我们进行的优化。

more >>

展开全文 >>

让Github Action在你自己的机器上跑起来

Apr 17 2020

Github在2019年8月，宣布推出了一项新的功能——Github Action，让成千上万的开源项目可以利用Github提供的计算资源完成构建、测试、部署等CI/CD，并且提供Self Hosted Runners功能，让开发者们可以将自己的机器接入到Github中来。

最近，我们利用这一功能，将搭载着openEuler 20.03 (LTS) 操作系统，跑在Kunpeng 920 处理器的ARM环境接入进来，在近期华为与阿里合作的MPAM项目，也将充分的利用这些资源利用Github Action的能力完成构建与测试。

本篇文章将接入方法分享给大家，希望能够帮助更多同学们把自己的ARM环境也在Github上用起来。

more >>

展开全文 >>

从Java Math底层实现看Arm与x86的差异

Apr 10 2020

1. 起初

最近在进行ARM切换的过程中发现了很多因为Java Math库在不同的平台上的精度不同导致用例失败，我们以Math.log为例，做一下简单的分析。下面是一个简单的计算log(3)的示例：

public class Hello {
    public static void main(String[] args) {
        System.out.println("Math.log(3): " + Math.log(3));
        System.out.println("StrictMath.log(3): " + StrictMath.log(3));
    }
}

more >>

展开全文 >>

Github Action入门指南

Feb 28 2020

这里记录一下Github Action的从入门到还没放弃的历程。：）

more >>

展开全文 >>

巧用Github Action同步代码到Gitee

Jan 17 2020

1. 背景

在开源贡献的代码托管的过程中，我们有时候有需要将Github的代码同步到其他远端仓库的需求。具体的，对于我们目前参与的项目来说核心诉求是：以Github社区作为主仓，并且定期自动同步到Gitee作为镜像仓库。

2. 调研

结论1: 由于会被Github屏蔽，Gitee的自动同步功能暂时无法支持。
这个问题在Gitee的官方反馈中，建议github导入的项目能设置定时同步提及过，官方的明确答复是不支持。最近又再次和官方渠道求证，由于会被Github屏蔽的关系，这个功能不会被支持。本着有轮子用轮子，没轮子造轮子的原则，我们只能选择自己实现。
结论2: 靠手动同步存在时效问题，可能会造成部分commit的丢失。
Gitee本身是提供了手动同步功能的，也算比较好用，但是想想看，如果一个组织下面，发展到有几百上千个项目后，这种机制显然无法解决问题了。因此，我们需要某种计算资源去自动的完成同步。
结论3: 目前我们开源的好几个项目（例如Mindspore, OpenGauss, Kunpeng）都有类似的需求。
作为一个合格的程序员，为了守住DRY(don’t repeat yourself，不造重复的轮子)的原则，所以，我们需要实现一个工具，同步简单的配置就可以完成多个项目的同步。

最终结论：我们需要自己实现一个工具，通过某种计算资源自动的去完成周期同步功能。

more >>

展开全文 >>

源于鲲鹏，回归社区：GNU Glibc的ARM优化小记

Dec 30 2019

从2019年10月初开始，我们团队开始着手Glibc在aarch64(64)架构下的优化工作，并且在2019年年底，将我们的全部优化贡献给上游开源社区。本文分享我们在Glibc的版本完成的优化以及性能测试结果，同时我们也尝试着将优化的思路进行总结，希望对其他项目的优化提供一些思路。

more >>

展开全文 >>