[kernel]增加一种新的查找字节最低非0位的算法 #5063

Eureka1024 · 2021-09-14T16:14:20Z

拉取/合并请求描述：(PR description)

[
这份PR的目的是增加一种新的查找字节最低非0位的算法，该算法比一般的位图算法更省空间，同时对于 32bit以及更长的字节，该算法查找字节最低非0位的实现路径也更加高效。

该算法的原理为：假设 X 为 uint32_t 类型的变量，则 X & (X - 1) ^ X 的算式可以得到仅含字节最低非0位的结果，也就是将所有的可能转变为仅有的32种可能，也就是32个 “1在不同bit位” 的数，接着将这32个数对 37 取余，能够得到互不相同的结果，利用这些结果建立一个位图表，就能实现在O(1)的时间复杂度上查找到目标结果。

该算法已经经过测试程序对比，输入所有可能的输入，得到的结果与之前的位图算法相同。

当前拉取/合并请求的状态 Intent for your PR

必须选择一项 Choose one (Mandatory):

本拉取/合并请求是一个草稿版本 This PR is for a code-review and is intended to get feedback
本拉取/合并请求是一个成熟版本 This PR is mature, and ready to be integrated into the repo

代码质量 Code Quality：

我在这个拉取/合并请求中已经考虑了 As part of this pull request, I've considered the following:

已经仔细查看过代码改动的对比 Already check the difference between PR and old code
代码风格正确，包括缩进空格，命名及其他风格 Style guide is adhered to, including spacing, naming and other styles
没有垃圾代码，代码尽量精简，不包含#if 0代码，不包含已经被注释了的代码 All redundant code is removed and cleaned up
所有变更均有原因及合理的，并且不会影响到其他软件组件代码或BSP All modifications are justified and not affect other components or BSP
对难懂代码均提供对应的注释 I've commented appropriately where code is tricky
本拉取/合并请求代码是高质量的 Code in this PR is of high quality
本拉取/合并使用formatting等源码格式化工具确保格式符合RT-Thread代码规范 This PR complies with RT-Thread code specification

Eureka1024 · 2021-09-14T16:15:42Z

增加一种新的查找字节最低非0位的算法

enkiller · 2021-09-27T06:12:42Z

运行效率上有没有啥差距

Eureka1024 · 2021-09-27T13:10:16Z

运行效率上有没有啥差距

首先该方式能够省下很多空间，原来的算法需要256个字节，而现在只需要37个字节的空间。
然后，该操作方式没有使用判断之类的语句，只需要常规的运算符实现即可，肯定比原来的效率高一点，具体高多少，我目前不知道有哪些测试能够有效的得出结论，希望有人能指点一下。

我觉得更重要的是，当该系统使用64位的MPU或者CPU的时候，这种方法绝对效果显著，无论时间还是空间效率，都将大大提高。

Guozhanxin · 2021-10-25T02:35:02Z

运行效率上有没有啥差距

首先该方式能够省下很多空间，原来的算法需要256个字节，而现在只需要37个字节的空间。然后，该操作方式没有使用判断之类的语句，只需要常规的运算符实现即可，肯定比原来的效率高一点，具体高多少，我目前不知道有哪些测试能够有效的得出结论，希望有人能指点一下。

我觉得更重要的是，当该系统使用64位的MPU或者CPU的时候，这种方法绝对效果显著，无论时间还是空间效率，都将大大提高。

写个循环调用的函数试试吧。两个函数都运行个多少万次之后，看看执行时间。

我是感觉之前的方式，只有移位和位运算对于计算机处理会方便不少。新加的算法有指数运算和取模运算，感觉时间上可能会慢一点。

Eureka1024 · 2021-10-28T16:02:31Z

运行效率上有没有啥差距

首先该方式能够省下很多空间，原来的算法需要256个字节，而现在只需要37个字节的空间。然后，该操作方式没有使用判断之类的语句，只需要常规的运算符实现即可，肯定比原来的效率高一点，具体高多少，我目前不知道有哪些测试能够有效的得出结论，希望有人能指点一下。
我觉得更重要的是，当该系统使用64位的MPU或者CPU的时候，这种方法绝对效果显著，无论时间还是空间效率，都将大大提高。

写个循环调用的函数试试吧。两个函数都运行个多少万次之后，看看执行时间。

我是感觉之前的方式，只有移位和位运算对于计算机处理会方便不少。新加的算法有指数运算和取模运算，感觉时间上可能会慢一点。

首先，新加的算法没有指数运算，那是异或操作。
取模操作在一些支持乘除法指令的单片机中，可以很方便的实现。
下面是该算法在 cortex-M3 的汇编实现：

127: int __rt_ffs(int value) 
128: { 
0x0800122C 4601      MOV      r1,r0 ;将r0的值（函数参数值）放入r1中
   130:   return __lowest_bit_bitmap_new[(uint32_t)( value & (value - 1) ^ value ) % 37]; 
0x0800122E 1E48      SUBS     r0,r1,#1 ; (value-1)结果放入r0
0x08001230 4008      ANDS     r0,r0,r1 ;(value & (value-1) 结果放入r0
0x08001232 4048      EORS     r0,r0,r1 ; (value & (value-1) ^ value))实现异或的结果放入r0
0x08001234 2225      MOVS     r2,#0x25 ; 将37放入r2
0x08001236 FBB0F3F2  UDIV     r3,r0,r2 ;r3为商
0x0800123A FB020013  MLS      r0,r2,r3,r0; 乘加，r0 = r0 - r2*r3
0x0800123E 4A01      LDR      r2,[pc,#4] ; @0x08001244 ;找到查找表的位置
0x08001240 5C10      LDRB     r0,[r2,r0] ;得到查找表中的值
   131: } 
0x08001242 4770      BX       lr ;函数返回

而原先的代码则需要比较多的代码实现，由于代码较多，请看这篇文章：https://blog.csdn.net/m0_37697335/article/details/121026018
但是整体而言，从运行时两者的汇编指令数来看，两者的运行效率应该差不多，之后具体跑跑验证。

enkiller · 2021-11-06T09:28:43Z

执行效率

主线版本：最少 9 条，最多 13 条。如果优先级均匀分布在 0 - 31，平均就是 11 指令。（其中一个判定条件 2 条指令，一次计算 4 条指令。）
精简版本：10 条汇编指令，其中有一次除法运算（2-12）时钟周期，平均约为 17 个指令

理论上精简版本性能会差一点

资源占用

主线版本：表格 256 字节，代码 72 字节，总共 328 字节
精简版本：表格 37 字节，代码 24 字节，总共 61 字节

优化 267 字节

CM3 指令周期

[CM3 指令时钟周期] https://developer.arm.com/documentation/ddi0337/h/programmers-model/instruction-set-summary/cortex-m3-instructions

Eureka1024 · 2021-11-07T09:52:34Z

执行效率

主线版本：最少 9 条，最多 13 条。如果优先级均匀分布在 0 - 31，平均就是 11 指令。（其中一个判定条件 2 条指令，一次计算 4 条指令。）

精简版本：10 条汇编指令，其中有一次除法运算（2-12）时钟周期，平均约为 17 个指令

理论上精简版本性能会差一点

我使用 STM32F103 来实际测试，就是对所有可能的输入测试（0x00 - 0xFFFFFFFF)，测得运行时间为
主线版本耗时：2510470ms，精简版本耗时：2272475ms。发现精简版本的运行效率更高。
分析了下主线版本的汇编代码，发现部分与运算的实现并不能简单实现，应该是造成效率比较慢的原因。如下所示：

1293:     if (value & 0xff00) 
0x08006F8E F401407F  AND      r0,r1,#0xFF00 //与操作
0x08006F92 B128      CBZ      r0,0x08006FA0

写了一篇验证文章，如有错误或者不严谨的地方，麻烦指教。
验证：为RT-Thread内核增加一种新的查找字节最低非0位的算法

Eureka1024 · 2021-11-07T09:53:48Z

写了一篇验证文章，主要是验证的一些过程、数据和方法。
如有错误或者不严谨的地方，麻烦指教。
验证：为RT-Thread内核增加一种新的查找字节最低非0位的算法

enkiller · 2021-11-08T02:44:39Z

写了一篇验证文章，主要是验证的一些过程、数据和方法。如有错误或者不严谨的地方，麻烦指教。验证：为RT-Thread内核增加一种新的查找字节最低非0位的算法

跳转指令确实不能在一个机器周期内完成，当有多次跳转时，耗时可能比除法还要久。从目前的分析情况来看，这种算法，确实很优秀。

Guozhanxin · 2021-11-08T02:51:46Z

写了一篇验证文章，主要是验证的一些过程、数据和方法。如有错误或者不严谨的地方，麻烦指教。验证：为RT-Thread内核增加一种新的查找字节最低非0位的算法

跳转指令确实不能在一个机器周期内完成，当有多次跳转时，耗时可能比除法还要久。从目前的分析情况来看，这种算法，确实很优秀。

如果感觉没问题的话，请+1

src/Kconfig

BernardXiong · 2021-11-11T02:18:24Z

执行效率

主线版本：最少 9 条，最多 13 条。如果优先级均匀分布在 0 - 31，平均就是 11 指令。（其中一个判定条件 2 条指令，一次计算 4 条指令。）

精简版本：10 条汇编指令，其中有一次除法运算（2-12）时钟周期，平均约为 17 个指令

理论上精简版本性能会差一点

我使用 STM32F103 来实际测试，就是对所有可能的输入测试（0x00 - 0xFFFFFFFF)，测得运行时间为主线版本耗时：2510470ms，精简版本耗时：2272475ms。发现精简版本的运行效率更高。分析了下主线版本的汇编代码，发现部分与运算的实现并不能简单实现，应该是造成效率比较慢的原因。如下所示：
1293:     if (value & 0xff00) 
0x08006F8E F401407F  AND      r0,r1,#0xFF00 //与操作
0x08006F92 B128      CBZ      r0,0x08006FA0
写了一篇验证文章，如有错误或者不严谨的地方，麻烦指教。验证：为RT-Thread内核增加一种新的查找字节最低非0位的算法

欢迎提供更优秀的算法、代码 👍

pegasusplus · 2024-11-30T19:39:22Z

在微信文章上看到了，很棒！留了言似乎还能改进，不用额外空间来折半查找计算最低位bit，我这两天来试试看。

pegasusplus · 2024-11-30T19:50:26Z

#9729 我写的查找32bit最低非0bit位置的算法如下：

int __rt_ffs(uint32_t value) {
    if (value == 0)
        return 0; // 0 means no bit 1

    int position = 1; // position start from 1

    // search half range
    if ((value & 0xFFFF) == 0) { // is lower 16bit 0
        position += 16;
        value >>= 16;
    }
    if ((value & 0xFF) == 0) { // is lower 8bit 0
        position += 8;
        value >>= 8;
    }
    if ((value & 0xF) == 0) { // is lower 4bit 0
        position += 4;
        value >>= 4;
    }
    if ((value & 0x3) == 0) { // is lower 2bit 0
        position += 2;
        value >>= 2;
    }
    if ((value & 0x1) == 0) { // is lower 1bit 0
        position += 1;
    }

    return position;
}

Eureka1024 added 2 commits September 15, 2021 00:07

增加一种新的查找字节最低非0位的算法

9d8afc8

[src][Kconfig] 增加隐性RT_KSERVICE_USING_TINY_FFS定义

1ef3144

mysterywolf added the v4.0.5 label Sep 17, 2021

Update kservice.c

e6e9062

Eureka1024 changed the title ~~增加一种新的查找字节最低非0位的算法~~ [kernel]增加一种新的查找字节最低非0位的算法 Nov 7, 2021

精简简化版的__rt_ffs()函数

46fe85e

Guozhanxin added the +1 Agree +1 label Nov 8, 2021

enkiller reviewed Nov 9, 2021

View reviewed changes

src/Kconfig Outdated Show resolved Hide resolved

Eureka1024 added 2 commits November 9, 2021 23:30

Update Kconfig

e509b9f

Update kservice.c

216cd30

BernardXiong merged commit 301856a into RT-Thread:master Nov 11, 2021

thewon86 mentioned this pull request Nov 25, 2021

__rt_ffs 返回值为 0 的疑问 #5304

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[kernel]增加一种新的查找字节最低非0位的算法 #5063

[kernel]增加一种新的查找字节最低非0位的算法 #5063

Uh oh!

Eureka1024 commented Sep 14, 2021

Uh oh!

Eureka1024 commented Sep 14, 2021

Uh oh!

enkiller commented Sep 27, 2021

Uh oh!

Eureka1024 commented Sep 27, 2021 •

edited

Loading

Uh oh!

Guozhanxin commented Oct 25, 2021

Uh oh!

Eureka1024 commented Oct 28, 2021 •

edited

Loading

Uh oh!

enkiller commented Nov 6, 2021 •

edited

Loading

Uh oh!

Eureka1024 commented Nov 7, 2021 •

edited

Loading

执行效率

Uh oh!

Eureka1024 commented Nov 7, 2021

Uh oh!

enkiller commented Nov 8, 2021 •

edited

Loading

Uh oh!

Guozhanxin commented Nov 8, 2021

Uh oh!

Uh oh!

BernardXiong commented Nov 11, 2021

执行效率

Uh oh!

pegasusplus commented Nov 30, 2024

Uh oh!

pegasusplus commented Nov 30, 2024 •

edited by aozima

Loading

Uh oh!

Uh oh!

[kernel]增加一种新的查找字节最低非0位的算法 #5063

[kernel]增加一种新的查找字节最低非0位的算法 #5063

Uh oh!

Conversation

Eureka1024 commented Sep 14, 2021

拉取/合并请求描述：(PR description)

当前拉取/合并请求的状态 Intent for your PR

代码质量 Code Quality：

Uh oh!

Eureka1024 commented Sep 14, 2021

Uh oh!

enkiller commented Sep 27, 2021

Uh oh!

Eureka1024 commented Sep 27, 2021 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Guozhanxin commented Oct 25, 2021

Uh oh!

Eureka1024 commented Oct 28, 2021 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

enkiller commented Nov 6, 2021 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

执行效率

资源占用

CM3 指令周期

Uh oh!

Eureka1024 commented Nov 7, 2021 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

执行效率

Uh oh!

Eureka1024 commented Nov 7, 2021

Uh oh!

enkiller commented Nov 8, 2021 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Guozhanxin commented Nov 8, 2021

Uh oh!

Uh oh!

BernardXiong commented Nov 11, 2021

执行效率

Uh oh!

pegasusplus commented Nov 30, 2024

Uh oh!

pegasusplus commented Nov 30, 2024 • edited by aozima Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

Uh oh!

Eureka1024 commented Sep 27, 2021 •

edited

Loading

Eureka1024 commented Oct 28, 2021 •

edited

Loading

enkiller commented Nov 6, 2021 •

edited

Loading

Eureka1024 commented Nov 7, 2021 •

edited

Loading

enkiller commented Nov 8, 2021 •

edited

Loading

pegasusplus commented Nov 30, 2024 •

edited by aozima

Loading