聚合国内IT技术精华文章,分享IT技术精华,帮助IT从业人士成长

  • 138 views阅读

    Redis分布式锁故障,我忍不住想爆粗...

    #redis 5 个 #分布式锁 2 个 #Zookeeper 1 个 #Etcd 1 个 #Redisson 1 个 文章来源:https://c1n.cn/OZvGN目录背景问题分析解决方案总结背景企微报警群里连续发出生产环境报错警告,报错核心信息如下:redis setNX error java.lang.NumberFormatException:&...

    分类:技术文章 时间:2022-06-29 09:36 我要评论(0个)

  • 490 views阅读

    PyTorch 分布式训练原来可以更高效 | Q推荐

    2017 年,Facebook 开源了针对深度学习的框架 PyTorch。PyTorch 可以帮助开发者和研究人员更加轻松的构建和训练模型。凭借其简单易用、功能强大、用途广泛等特点,PyTorch 广受欢迎,且至今仍是最火的深度学习框架之一。近年来,随着数据集和模型规模的日益庞大,出于效率考虑,开发者通常采用分布式训练的方式,提⾼训练速度以加快模型迭代。流行的深度学习框架 PyTorch...

    分类:技术文章 时间:2022-06-20 18:34 我要评论(0个)

  • 689 views阅读

    令人头疼的分布式事务,1次讲明白!

    发表于 收录于合集 以下文章来源于小姐姐味道 ,作者小姐姐养的狗 小姐姐味道 . 不羡鸳鸯不羡仙,一行代码调半天 文章来源:【公众号:小姐姐味道】目录前言一阶段提交(1PC)两阶段提交(2PC)三阶段提交(3PC)TCCSAGA本地消息表最大努力补偿总结前言分布式的 CAP 理论应该是人尽皆知了,它描述了一致性(C)、可用性(A)、分区容错性(P)的一系列权衡。很多时候,我们要在一致性和可...

    分类:技术文章 时间:2022-05-19 10:50 我要评论(0个)

  • 954 views阅读

    深度解读分布式应用提效框架 Apache EventMesh

    收录于合集 嘉宾 | 陈广胜编辑 | 李忠良在 2021 年 11 月 12 日落地的 ArchSummit 全球架构师峰会(深圳站)上,我们邀请了微众银行的资深技术专家陈广胜为大家带来了《分布式应用提效框架 Apache EventMesh》的分享,他从 EventMesh 的特征入手,为大家深入介绍了 EventMesh 在微众银行的探索与实践。本文为演讲整理文章~今天分享 Apac...

    分类:技术文章 时间:2022-05-12 18:33 我要评论(0个)

  • 1464 views阅读

    XXL-JOB分布式任务调度平台(真·保姆级教程)

    收录于合集 #XXL-JOB 1 个 #任务调度 1 个 #分布式 1 个 #SpringBoot 6 个 文章来源:https://c1n.cn/L01Io目录前言xxl-job-admin 搭建整合 SpringBoot 项目前言XXL-JOB 是一个轻量级分布式任务调度平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展。现已开放源代码并接入多家公司线上产品线,开箱即用。可以前...

    分类:技术文章 时间:2022-05-11 10:50 我要评论(0个)

  • 1336 views阅读

    深度解读:分布式系统韧性架构压舱石OpenChaos

    收录于合集 作者 | 思莹,嘉浩,马海Key Takeaways1. 本文首先以现今分布式系统的复杂性和稳定性的需求引出混沌工程概念,并阐述了 OpenChaos 在传统混沌工程之上所做的优化与创新。2. 第二部分介绍了 OpenChaos 的架构,详细讲解了它的可靠性模型和弹性模型的工作原理,并以两个实战案例展示了 OpenChaos 在实际应用场景中可以发挥的效果。3. 最后一部分展...

    分类:技术文章 时间:2022-05-09 06:07 我要评论(0个)

  • 1004 views阅读

    IEEE TPDS'22:基于对象级协调的分布式I/O干扰排除系统

    I/O干扰是造成分布式文件系统I/O性能下降的主要因素之一。纵观文件系统的架构,I/O干扰可以发生在应用层、中间件层、以及服务端等多个层级,最终表现为对底层存储设备的资源竞争。在去中心化的分布式对象文件系统中,我们发现对象请求调度之间的干扰是造成存储设备资源竞争的根本原因。因此,本工作针对分布式对象文件中各分布式OSD(Object Storage Device)对对象请求的独立调度造成...

    分类:技术文章 时间:2022-04-07 10:49 我要评论(0个)

  • 1855 views阅读

    国内首个开源架构治理平台 ArchGuard,专治分布式场景下各种不服 | QCon

    过去的 10 年间,软件的架构发生了巨大的变化,从早先流行的单体 MVC 架构,变成了所谓的 5:5 开,即分布式 vs 单体。只是呢,有大量的软件开发人员,无法看到系统的全貌,又或者是从单体的思维转变过来。于是,哪怕是在使用了微服务的情况下,但是实现的却又是一个一个的单体,只是它们变成了“分布式的单体”。架构治理变成一个急待解决的问题。我们所面临的挑战作为一个架构师或者是软件开发人员,...

    分类:技术文章 时间:2022-04-05 14:40 我要评论(0个)

  • 2147 views阅读

    开源分布式查询引擎Presto

    h2>Presto是什么? Presto是Facebook开源的MPP(Massive Parallel Processing)SQL引擎,其理念来源于一个叫Volcano的并行数据库,该数据库提出了一个并行执行SQL的模型,它被设计为用来专门进行高速、实时的数据分析。Presto是一个SQL计算引擎,分离计算层和存储层,其不存储数据,通过Connector SPI实现对各种数据源(Sto...

    分类:技术文章 时间:2022-03-30 00:44 我要评论(0个)

  • 1056 views阅读

    SC'21:分布式内存池数据远端持久化机制研究——内存计算系统系列成果之九

    近年来,持久性内存和远端直接内存访问(RDMA)技术在数据中心环境中得到了广泛的应用。然而,持久RDMA操作和RDMA更新的可见性在分布式持久内存系统中还没有得到充分的研究。由于RDMA网络接口卡中存在易失性缓存,持久性内存和RDMA的结合对保证远端数据持久性带来了重大挑战。为此,我们对现有的基于RDMA的RPC通信系统及其性能差异进行了比较和分析,在此基础上设计了几种硬件支持的RDMA...

    分类:技术文章 时间:2022-03-29 18:31 我要评论(0个)

  • 1998 views阅读

    阿里开源支持10万亿模型的自研分布式训练框架EPL(EasyParallelLibrary)

    #开源 10个 一  导读最近阿里云机器学习PAI平台和达摩院智能计算实验室一起发布“低碳版”巨模型M6-10T,模型参数已经从万亿跃迁到10万亿,规模远超业界此前发布的万亿级模型,成为当前全球最大的AI预训练模型。同时,做到了业内极致的低碳高效,使用512 GPU在10天内即训练出具有可用水平的10万亿模型。相比之前发布的大模型GPT-3,M6实现同等参数规模,能耗仅为其1%...

    分类:技术文章 时间:2022-03-09 14:40 我要评论(0个)

  • 2099 views阅读

    并发-分布式锁质量保障总结

    #分布式锁 1个 一  背景并发问题是电商系统最常见的问题之一,例如库存超卖、抽奖多发、券多发放、积分多发少发等场景;之所以会出现上述问题,是因为存在多机器多请求同时对同一个共享资源进行修改,如果不加以限制,将导致数据错乱和数据不一致性;解决并发问题的方式有很多,例如:队列、异步、响应式、锁都可以;由于当前互联网都是分布式系统,因此本文只针对使用较为广泛的分布式锁的方式来进行叙...

    分类:技术文章 时间:2022-03-07 10:48 我要评论(0个)