属于CYY自己的世界 – Page 4 – https://blog.cyyself.name

July 11, 2023June 8, 2024

尝试Xilinx FPGA上的BUFGCE

最近在学习 Firesim ，其中对我自己科研很重要的一个功能便是 FASED 提供了 Memory Timing Model 的模拟。因为之前和别人合作论文曾被审稿人提出过 100MHz FPGA 使用 1600MHz 的内存，使得内存的延迟非常低，其性能表现像是一个大的 LLC Cache 而不是真实的内存，导致访存性能与真实 ASIC…

June 12, 2023June 13, 2023

背景最近遇到了一些灵车硬件损坏问题，包括自己的台式机 13900K CPU 突然死机后重启就出现 CPU soft lockup，再重启直接无法点亮；自己的旧台式机出现 Correctable ECC 报错（感谢AMD消费级CPU也部分支持ECC）；以及一台别人的服务器上解压tar.gz包出现了CRC错误。一周内的这些经历使我开始思考云计算场景如何Tolerance这些奇怪的硬件损坏问题，于是看到了一篇VMWare vSphere 4（2010）年代的论文——The Design of a Practical System…

April 29, 2023June 8, 2024

第一次给Kernel邮件列表交Patch遇到的小坑

第一次交 PATCH ，交成了这样：而我交 patch 的方式只不过是： git format-patch 457391b0380335d5e9a5babdec90ac53928b23b4 –cover-letter # edit cover letter git send-email \ –from…

April 9, 2023June 8, 2024

DDR4与HBM在UltraScale+ HBM上的IOPS测试

最近一个科研 idea 需要 measure 一些内存器件的 latency 数据，因此用 FPGA 对主流的内存器件的访问 Latency 进行了一个调研，诚然这样的结果和 FPGA 上具体 Memory Controller 的 IP 实现有关，但也可以作为一个参考，相信…

March 27, 2023April 17, 2023

让Thunderbolt可以使用更大的BAR

问题描述在Xilinx 7-Series FPGA上用AXI Memory Mapped to PCI Express IP核设置了一个256M的BAR，这个BAR直接连接到主板的PCIe上可以正常进行MMIO，但将FPGA通过Thunderbolt硬盘盒+M.2转PCIe连接到Thunderbolt上却无法使用。通过查阅dmesg可观测到如下报错信息： [ 246.677146] pci 0000:0c:00.0: BAR 0: no…

March 23, 2023June 8, 2024

Augury: Using Data Memory-Dependent Prefetchers to Leak Data at Rest 阅读笔记

概述这是一篇发表在 Oakland’22 ( aka IEEE S&P ) 的文章，讲的是在 Apple M1 上发现了前所未有的 Data Memory-Dependent Prefetcher （下称 DMP ），该预取器也带来了前所未有的侧信道攻击。作者对…

March 10, 2023June 8, 2024

sPIN: High-performance streaming Processing in the Network 阅读笔记

这是一篇来自 SCPL@ETHZ 组在 SC’17 上的一篇文章。主要想法是在 RDMA 网卡上加入一个处理器用来 Offloading 一部分数据移动任务，并在 LogGOPSim 与 gem5 上进行了实验。原文链接 Motivation 当前高能效处理器组成的高度可扩展的系统发展带来了总线互联的压力。例如在 400Gbps 的网络中，一个…

December 28, 2022December 29, 2022

Draco(MICRO’20) Architectural and Operating System Support for System Call Security 阅读笔记

要解决的问题 Linux内核提供了seccomp来对syscall权限进行检查，被广泛应用在容器、沙盒等多种场景，例如Docker和Android。但原版seccomp的实现是通过BPF对定义的规则一条条进行检查，如下图所示，十分低效：同时，作者也进行了一系列的benchmark发现这样的检查带来了较大的开销：其中，左边的docker-default指的是Docker默认使用的seccomp-profile，syscall-noargs指的是使application-specific profile但只检查syscall id而不检查参数，而syscall-complete就在noargs的基础上加上参数检查，最后加上-2x的后缀表示的是这些检查复制2次，来建模更复杂的安全检查场景。可以看出，seccomp检查带来的开销即使是对于像nginx这样的macro-benchmarks也是比较大的，但现有的seccomp使用BPF，规则十分灵活，因此需要针对这种灵活的规则设计一种加速的方法。 Observation 检查系统调用ID会给Docker容器中的应用带来明显(noticeable)的性能开销。检查系统调用参数比只检查系统调用ID的开销大得多(significantly more expensive)。规则加倍，开销加倍。 syscall with 相同id和参数存在局部性（下图指明了实验中的距离）解决方法为了解决这个问题，作者引入了一个Fast…

September 24, 2022September 26, 2022

聊聊内存序

最近读完了 A Primer on Memory Consistency and Cache Coherence这本书，写一篇文章结合我个人了解的其他知识总结一下内存序。文章假定读者学习了基本的体系结构。概念 Cache Coherence 相信大家对Cache有一个基本的理解。但这里需要引出一个新的概念，共享内存中的Private Cache。即使是简单的单核处理器，往往L1 I-Cache与D-Cache也是Private的。因为IFU（取指单元）与LSU（访存单元）通常分布在处理器流水线的不同阶段，它们可能需要同时访问。既然是Private，这个时候如果我们通过访存指令写入了一些指令（通过D-Cache）到某个内存地址，而这个地址已经在I-Cache中，结果就在取指时有可能取到旧值，如何解决这一问题？也许L1…