2020年3月13—14日,以“促进工业界和学术界的对话”为主题的BenchCouncil国际大数据与人工智能线上峰会正式拉开帷幕。星云Clustar 作为代表之一,与来自阿里巴巴、Facebook、亚马逊、京东、中国移动等教育、金融、医学等领域的百余名大数据和AI专家共同探讨学术前沿。
星云Clustar 打造联邦学习的新算力
星云Clustar ,科学家胡水海博士受邀于会上发表了《GPU在联邦机器学习中的探索》的主题演讲,全面展示了星云Clustar 在联邦学习领域的布局与全新研究成果。
应对联邦学习难题,星云Clustar 的破局之道
在人工智能领域,目前存在比较严重的数据孤岛问题。虽然每个公司和机构都有数据,但大部分是小数据,难以成势;加之行业竞争、安全问题等因素,企业之间不愿意分享数据;另外,随着多国着手出台一系列数据隐私与安全的法律法规,纵使行业间愿意交换数据也变得难以合规。这都造成了数据以一个个孤岛的形式存在,相互之间不能连接,数据失去流通性。
“联邦学习”就是同时可以满足隐私保护和数据安全的解决方案。联邦学习采用同态加密技术,对数据进行加密,保证数据不泄漏。然而同态加密的代价是加密后的数据量庞大导致计算耗时和通信传输延时。联邦学习中的部分同态计算量是明文计算量上千倍,且数据传输总量也比传统机器学习大100到1000倍。
面对这些挑战,星云Clustar 在联邦学习中做了革命性的算力突破:
1.优化单点计算:
GPU的并行计算为深度学习开拓了前进的道路。然而联邦学习计算需进一步处理2048-bit的大整数运算、大量的模幂运算以及缓存大量中间计算结果,此时GPU表现就不尽人意。
针对这些技术挑战,胡水海表示:星云Clustar 首先使用分治思想做元素级并行,通过将大整数乘法分解成可并行计算的小整数乘法,优化了运算本身;其次,利用平方乘算法和蒙哥马利算法降低复杂度并避免取模运算;,,使用中国剩余定理,减小中间值计算结果,避免了更大的显存缓存中间结果。
胡水海同时展示了星云Clustar 基于GPU初步优化方案,测试结果显示:相对于传统服务器,星云Clustar 在联邦学习复杂的同态加密和解密计算上带来了约6倍的加速比;密态乘法和加法效率上分别提高了30倍和400倍以上。
2.突破通信传输瓶颈
联邦学习通信的两大场景:一是数据,内部不同机构间通信,二是不同机构的数据,跨区域通信。在这两大场景下,都需要加速联邦学习通信,以带来模型训练效率的提升。胡水海表示:星云Clustar 利用GDR(GPU Direct RDMA)技术,GPU的数据不再经过内存的多次拷贝,而是直接从GPU移动到RDMA网卡,然后通过RDMA网卡直接发送到网络,接受侧也同样,从而实现零拷贝的数据流目标。同时GDR还可以控制内存分配机制,直接把数据分配在允许RDMA操作的内存上,就能减少数据拷贝,进一步提升性能。相对于TCP模式,GDR能提高75%整体训练效率。
星云Clustar :助力联邦学习,打造“新”算力矿机
联邦学习作为同时保障安全和隐私的新一代人工智能算法框架,对于同态加密后的庞大数据量的处理上则需要更强劲的算力作为支撑。星云Clustar 推出PAI密态计算硬件加速卡,能让数据在加密状态下进行AI模型训练与推理,解决数据安全和用户隐私的合规挑战。星云Clustar 以,的联邦学习、同态加密等创新性技术,加速有密态需求的AI场景,致力于打造“AI+隐私”新算力,提供更加高效、更加安全的AI解决方案,为企业之间数据快速流通、互惠共赢的合作方式保驾护航。未来,星云Clustar 将打造新算力时代,者,助力联邦学习在多行业多应用场景下发挥无限潜能。
关于星云Clustar
星云Clustar 成立于2018年1月,是全球,的AI算力解决方案提供商,支持通用、密态AI计算,致力于将高性能网络、联邦学习等创新性技术应用到人工智能及大数据领域。星云Clustar 核心团队来自香港科技大学Sing Lab,其,的学术成果为星云Clustar 研发提供支撑,获得红杉资本等,机构投资,在北京、深圳和香港都设有产品和研发,,目前团队规模100余人,80%以上为产品研发团队。
星云Clustar 从通用AI市场着手,首先完成AIOS高性能算力平台,加速分布式AI训练;于2019年进一步打造全新产品线 PAI (Privacy Preserving AI),这是软硬件一体的高性能AI算力解决方案,包括星云Clustar AIOS高性能通用算力平台以及星云Clustar 深度安全AI处理器,支持密态AI场景下从数据准备、模型训练到模型推理的完整解决方案。