[deb_ffmpeg.git] / ffmpeg / libavcodec / aarch64 / fft_neon.S

/*
 * ARM NEON optimised FFT
 *
 * Copyright (c) 2009 Mans Rullgard <mans@mansr.com>
 * Copyright (c) 2009 Naotoshi Nojiri
 * Copyright (c) 2014 Janne Grunau <janne-libav@jannau.net>
 *
 * This algorithm (though not any of the implementation details) is
 * based on libdjbfft by D. J. Bernstein.
 *
 * This file is part of FFmpeg.
 *
 * FFmpeg is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * FFmpeg is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with FFmpeg; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 */

#include "libavutil/aarch64/asm.S"

#define M_SQRT1_2 0.70710678118654752440

.macro transpose d0, d1, s0, s1
        trn1            \d0, \s0, \s1
        trn2            \d1, \s0, \s1
.endm


function fft4_neon
        ld1             {v0.2s,v1.2s,v2.2s,v3.2s}, [x0]

        fadd            v4.2s,  v0.2s,  v1.2s   // r0+r1,i0+i1
        fsub            v6.2s,  v0.2s,  v1.2s   // r0-r1,i0-i1

        ext             v16.8b, v2.8b,  v3.8b,  #4
        ext             v17.8b, v3.8b,  v2.8b,  #4

        fadd            v5.2s,  v2.2s,  v3.2s   // i2+i3,r2+r3
        fsub            v7.2s,  v16.2s, v17.2s  // r3-r2,i2-i3

        fadd            v0.2s,  v4.2s,  v5.2s
        fsub            v2.2s,  v4.2s,  v5.2s
        fadd            v1.2s,  v6.2s,  v7.2s
        fsub            v3.2s,  v6.2s,  v7.2s

        st1             {v0.2s,v1.2s,v2.2s,v3.2s}, [x0]

        ret
endfunc

function fft8_neon
        mov             x1,  x0
        ld1             {v0.2s, v1.2s, v2.2s, v3.2s},  [x0], #32
        ld1             {v16.2s,v17.2s,v18.2s,v19.2s}, [x0]
        ext             v22.8b, v2.8b,  v3.8b,  #4
        ext             v23.8b, v3.8b,  v2.8b,  #4
        fadd            v4.2s,  v16.2s, v17.2s           // r4+r5,i4+i5
        fadd            v5.2s,  v18.2s, v19.2s           // r6+r7,i6+i7
        fsub            v17.2s, v16.2s, v17.2s           // r4-r5,i4-i5
        fsub            v19.2s, v18.2s, v19.2s           // r6-r7,i6-i7
        rev64           v27.2s, v28.2s  // ???
        fadd            v20.2s, v0.2s,  v1.2s            // r0+r1,i0+i1
        fadd            v21.2s, v2.2s,  v3.2s            // r2+r3,i2+i3
        fmul            v26.2s, v17.2s, v28.2s           // -a2r*w,a2i*w
        ext             v6.8b,  v4.8b,  v5.8b,  #4
        ext             v7.8b,  v5.8b,  v4.8b,  #4
        fmul            v27.2s, v19.2s, v27.2s           // a3r*w,-a3i*w
        fsub            v23.2s, v22.2s, v23.2s           // i2-i3,r3-r2
        fsub            v22.2s, v0.2s,  v1.2s            // r0-r1,i0-i1
        fmul            v24.2s, v17.2s, v28.s[1]         // a2r*w,a2i*w
        fmul            v25.2s, v19.2s, v28.s[1]         // a3r*w,a3i*w
        fadd            v0.2s,  v20.2s, v21.2s
        fsub            v2.2s,  v20.2s, v21.2s
        fadd            v1.2s,  v22.2s, v23.2s
        rev64           v26.2s, v26.2s
        rev64           v27.2s, v27.2s
        fsub            v3.2s,  v22.2s, v23.2s
        fsub            v6.2s,  v6.2s,  v7.2s
        fadd            v24.2s, v24.2s, v26.2s  // a2r+a2i,a2i-a2r   t1,t2
        fadd            v25.2s, v25.2s, v27.2s  // a3r-a3i,a3i+a3r   t5,t6
        fadd            v7.2s,  v4.2s,  v5.2s
        fsub            v18.2s, v2.2s,  v6.2s
        ext             v26.8b, v24.8b, v25.8b, #4
        ext             v27.8b, v25.8b, v24.8b, #4
        fadd            v2.2s,  v2.2s,  v6.2s
        fsub            v16.2s, v0.2s,  v7.2s
        fadd            v5.2s,  v25.2s, v24.2s
        fsub            v4.2s,  v26.2s, v27.2s
        fadd            v0.2s,  v0.2s,  v7.2s
        fsub            v17.2s, v1.2s,  v5.2s
        fsub            v19.2s, v3.2s,  v4.2s
        fadd            v3.2s,  v3.2s,  v4.2s
        fadd            v1.2s,  v1.2s,  v5.2s

        st1             {v16.2s,v17.2s,v18.2s,v19.2s}, [x0]
        st1             {v0.2s, v1.2s, v2.2s, v3.2s},  [x1]

        ret
endfunc

function fft16_neon
        mov             x1,  x0
        ld1             {v0.2s, v1.2s, v2.2s, v3.2s},  [x0], #32
        ld1             {v16.2s,v17.2s,v18.2s,v19.2s}, [x0], #32
        ext             v22.8b, v2.8b,  v3.8b,  #4
        ext             v23.8b, v3.8b,  v2.8b,  #4
        fadd            v4.2s,  v16.2s, v17.2s           // r4+r5,i4+i5
        fadd            v5.2s,  v18.2s, v19.2s           // r6+r7,i6+i7
        fsub            v17.2s, v16.2s, v17.2s           // r4-r5,i4-i5
        fsub            v19.2s, v18.2s, v19.2s           // r6-r7,i6-i7
        rev64           v27.2s, v28.2s  // ???
        fadd            v20.2s, v0.2s,  v1.2s            // r0+r1,i0+i1
        fadd            v21.2s, v2.2s,  v3.2s            // r2+r3,i2+i3
        fmul            v26.2s, v17.2s, v28.2s           // -a2r*w,a2i*w
        ext             v6.8b,  v4.8b,  v5.8b,  #4
        ext             v7.8b,  v5.8b,  v4.8b,  #4
        fmul            v27.2s, v19.2s, v27.2s           // a3r*w,-a3i*w
        fsub            v23.2s, v22.2s, v23.2s           // i2-i3,r3-r2
        fsub            v22.2s, v0.2s,  v1.2s            // r0-r1,i0-i1
        fmul            v24.2s, v17.2s, v28.s[1]         // a2r*w,a2i*w
        fmul            v25.2s, v19.2s, v28.s[1]         // a3r*w,a3i*w
        fadd            v0.2s,  v20.2s, v21.2s
        fsub            v2.2s,  v20.2s, v21.2s
        fadd            v1.2s,  v22.2s, v23.2s
        rev64           v26.2s, v26.2s
        rev64           v27.2s, v27.2s
        fsub            v3.2s,  v22.2s, v23.2s
        fsub            v6.2s,  v6.2s,  v7.2s
        fadd            v24.2s, v24.2s, v26.2s  // a2r+a2i,a2i-a2r   t1,t2
        fadd            v25.2s, v25.2s, v27.2s  // a3r-a3i,a3i+a3r   t5,t6
        fadd            v7.2s,  v4.2s,  v5.2s
        fsub            v18.2s, v2.2s,  v6.2s
        ld1             {v20.4s,v21.4s}, [x0], #32
        ld1             {v22.4s,v23.4s}, [x0], #32
        ext             v26.8b, v24.8b, v25.8b, #4
        ext             v27.8b, v25.8b, v24.8b, #4
        fadd            v2.2s,  v2.2s,  v6.2s
        fsub            v16.2s, v0.2s,  v7.2s
        fadd            v5.2s,  v25.2s, v24.2s
        fsub            v4.2s,  v26.2s, v27.2s
        transpose       v24.2d, v25.2d, v20.2d, v22.2d
        transpose       v26.2d, v27.2d, v21.2d, v23.2d
        fadd            v0.2s,  v0.2s,  v7.2s
        fsub            v17.2s, v1.2s,  v5.2s
        fsub            v19.2s, v3.2s,  v4.2s
        fadd            v3.2s,  v3.2s,  v4.2s
        fadd            v1.2s,  v1.2s,  v5.2s
        ext             v20.16b, v21.16b, v21.16b,  #4
        ext             v21.16b, v23.16b, v23.16b,  #4

        zip1            v0.2d,  v0.2d,  v1.2d   // {z[0],   z[1]}
        zip1            v1.2d,  v2.2d,  v3.2d   // {z[2],   z[3]}
        zip1            v2.2d,  v16.2d, v17.2d  // {z[o1],  z[o1+1]}
        zip1            v3.2d,  v18.2d, v19.2d  // {z[o1+2],z[o1+3]}

        // 2 x fft4
        transpose       v22.2d, v23.2d, v20.2d, v21.2d

        fadd            v4.4s,  v24.4s, v25.4s
        fadd            v5.4s,  v26.4s, v27.4s
        fsub            v6.4s,  v24.4s, v25.4s
        fsub            v7.4s,  v22.4s, v23.4s

        ld1             {v23.4s},  [x14]

        fadd            v24.4s, v4.4s,  v5.4s   // {z[o2+0],z[o2+1]}
        fsub            v26.4s, v4.4s,  v5.4s   // {z[o2+2],z[o2+3]}
        fadd            v25.4s, v6.4s,  v7.4s   // {z[o3+0],z[o3+1]}
        fsub            v27.4s, v6.4s,  v7.4s   // {z[o3+2],z[o3+3]}

        //fft_pass_neon_16
        rev64           v7.4s,  v25.4s
        fmul            v25.4s, v25.4s, v23.s[1]
        fmul            v7.4s,  v7.4s,  v29.4s
        fmla            v25.4s, v7.4s,  v23.s[3] // {t1a,t2a,t5a,t6a}

        zip1            v20.4s, v24.4s, v25.4s
        zip2            v21.4s, v24.4s, v25.4s
        fneg            v22.4s, v20.4s
        fadd            v4.4s,  v21.4s, v20.4s
        fsub            v6.4s,  v20.4s, v21.4s  // just the second half
        fadd            v5.4s,  v21.4s, v22.4s  // just the first half

        tbl             v4.16b, {v4.16b},        v30.16b // trans4_float
        tbl             v5.16b, {v5.16b,v6.16b}, v31.16b // trans8_float

        fsub            v20.4s, v0.4s,  v4.4s   // {z[o2],z[o2+1]}
        fadd            v16.4s, v0.4s,  v4.4s   // {z[0], z[1]}
        fsub            v22.4s, v2.4s,  v5.4s   // {z[o3],z[o3+1]}
        fadd            v18.4s, v2.4s,  v5.4s   // {z[o1],z[o1+1]}

//second half
        rev64           v6.4s,  v26.4s
        fmul            v26.4s, v26.4s, v23.s[2]
        rev64           v7.4s,  v27.4s
        fmul            v27.4s, v27.4s, v23.s[3]
        fmul            v6.4s,  v6.4s,  v29.4s
        fmul            v7.4s,  v7.4s,  v29.4s
        fmla            v26.4s, v6.4s,  v23.s[2] // {t1,t2,t5,t6}
        fmla            v27.4s, v7.4s,  v23.s[1] // {t1a,t2a,t5a,t6a}

        zip1            v24.4s, v26.4s, v27.4s
        zip2            v25.4s, v26.4s, v27.4s
        fneg            v26.4s, v24.4s
        fadd            v4.4s,  v25.4s, v24.4s
        fsub            v6.4s,  v24.4s, v25.4s  // just the second half
        fadd            v5.4s,  v25.4s, v26.4s  // just the first half

        tbl             v4.16b, {v4.16b},        v30.16b // trans4_float
        tbl             v5.16b, {v5.16b,v6.16b}, v31.16b // trans8_float

        fadd            v17.4s, v1.4s, v4.4s    // {z[2], z[3]}
        fsub            v21.4s, v1.4s, v4.4s    // {z[o2+2],z[o2+3]}
        fadd            v19.4s, v3.4s, v5.4s    // {z[o1+2],z[o1+3]}
        fsub            v23.4s, v3.4s, v5.4s    // {z[o3+2],z[o3+3]}

        st1             {v16.4s,v17.4s}, [x1], #32
        st1             {v18.4s,v19.4s}, [x1], #32
        st1             {v20.4s,v21.4s}, [x1], #32
        st1             {v22.4s,v23.4s}, [x1], #32

        ret
endfunc


const  trans4_float, align=4
        .byte    0,  1,  2,  3
        .byte    8,  9, 10, 11
        .byte    4,  5,  6,  7
        .byte   12, 13, 14, 15
endconst

const  trans8_float, align=4
        .byte   24, 25, 26, 27
        .byte    0,  1,  2,  3
        .byte   28, 29, 30, 31
        .byte    4,  5,  6,  7
endconst

function fft_pass_neon
        sub             x6,  x2,  #1            // n - 1, loop counter
        lsl             x5,  x2,  #3            // 2 * n * sizeof FFTSample
        lsl             x1,  x2,  #4            // 2 * n * sizeof FFTComplex
        add             x5,  x4,  x5            // wim
        add             x3,  x1,  x2,  lsl #5   // 4 * n * sizeof FFTComplex
        add             x2,  x0,  x2,  lsl #5   // &z[o2]
        add             x3,  x0,  x3            // &z[o3]
        add             x1,  x0,  x1            // &z[o1]
        ld1             {v20.4s},[x2]           // {z[o2],z[o2+1]}
        ld1             {v22.4s},[x3]           // {z[o3],z[o3+1]}
        ld1             {v4.2s},  [x4], #8      // {wre[0],wre[1]}
        trn2            v25.2d, v20.2d, v22.2d
        sub             x5,  x5,  #4            // wim--
        trn1            v24.2d, v20.2d, v22.2d
        ld1             {v5.s}[0],  [x5], x7    // d5[0] = wim[-1]
        rev64           v7.4s,  v25.4s
        fmul            v25.4s, v25.4s, v4.s[1]
        ld1             {v16.4s}, [x0]          // {z[0],z[1]}
        fmul            v7.4s,  v7.4s,  v29.4s
        ld1             {v17.4s}, [x1]          // {z[o1],z[o1+1]}
        prfm            pldl1keep, [x2, #16]
        prfm            pldl1keep, [x3, #16]
        fmla            v25.4s, v7.4s,  v5.s[0] // {t1a,t2a,t5a,t6a}
        prfm            pldl1keep, [x0, #16]
        prfm            pldl1keep, [x1, #16]

        zip1            v20.4s, v24.4s, v25.4s
        zip2            v21.4s, v24.4s, v25.4s
        fneg            v22.4s, v20.4s
        fadd            v4.4s,  v21.4s, v20.4s
        fsub            v6.4s,  v20.4s, v21.4s  // just the second half
        fadd            v5.4s,  v21.4s, v22.4s  // just the first half

        tbl             v4.16b, {v4.16b},        v30.16b // trans4_float
        tbl             v5.16b, {v5.16b,v6.16b}, v31.16b // trans8_float

        fadd            v20.4s, v16.4s, v4.4s
        fsub            v22.4s, v16.4s, v4.4s
        fadd            v21.4s, v17.4s, v5.4s
        st1             {v20.4s}, [x0], #16     // {z[0], z[1]}
        fsub            v23.4s, v17.4s, v5.4s

        st1             {v21.4s}, [x1], #16     // {z[o1],z[o1+1]}
        st1             {v22.4s}, [x2], #16     // {z[o2],z[o2+1]}
        st1             {v23.4s}, [x3], #16     // {z[o3],z[o3+1]}
1:
        ld1             {v20.4s},[x2]    // {z[o2],z[o2+1]}
        ld1             {v22.4s},[x3]    // {z[o3],z[o3+1]}
        ld1             {v4.2s}, [x4], #8       // {wre[0],wre[1]}
        transpose       v26.2d, v27.2d, v20.2d, v22.2d
        ld1             {v5.2s}, [x5], x7       // {wim[-1],wim[0]}
        rev64           v6.4s,  v26.4s
        fmul            v26.4s, v26.4s, v4.s[0]
        rev64           v7.4s,  v27.4s
        fmul            v27.4s, v27.4s, v4.s[1]
        fmul            v6.4s,  v6.4s,  v29.4s
        fmul            v7.4s,  v7.4s,  v29.4s
        ld1             {v16.4s},[x0]           // {z[0],z[1]}
        fmla            v26.4s, v6.4s,  v5.s[1] // {t1,t2,t5,t6}
        fmla            v27.4s, v7.4s,  v5.s[0] // {t1a,t2a,t5a,t6a}
        ld1             {v17.4s},[x1]           // {z[o1],z[o1+1]}

        subs            x6,  x6,  #1            // n--

        zip1            v20.4s, v26.4s, v27.4s
        zip2            v21.4s, v26.4s, v27.4s
        fneg            v22.4s, v20.4s
        fadd            v4.4s,  v21.4s, v20.4s
        fsub            v6.4s,  v20.4s, v21.4s  // just the second half
        fadd            v5.4s,  v21.4s, v22.4s  // just the first half

        tbl             v4.16b, {v4.16b},        v30.16b // trans4_float
        tbl             v5.16b, {v5.16b,v6.16b}, v31.16b // trans8_float

        fadd            v20.4s, v16.4s, v4.4s
        fsub            v22.4s, v16.4s, v4.4s
        fadd            v21.4s, v17.4s, v5.4s
        st1             {v20.4s}, [x0], #16     // {z[0], z[1]}
        fsub            v23.4s, v17.4s, v5.4s

        st1             {v21.4s}, [x1], #16     // {z[o1],z[o1+1]}
        st1             {v22.4s}, [x2], #16     // {z[o2],z[o2+1]}
        st1             {v23.4s}, [x3], #16     // {z[o3],z[o3+1]}
        b.ne            1b

        ret
endfunc

.macro  def_fft n, n2, n4
function fft\n\()_neon, align=6
        sub             sp,  sp,  #16
        stp             x28, x30, [sp]
        add             x28, x0,  #\n4*2*8
        bl              fft\n2\()_neon
        mov             x0,  x28
        bl              fft\n4\()_neon
        add             x0,  x28, #\n4*1*8
        bl              fft\n4\()_neon
        sub             x0,  x28, #\n4*2*8
        ldp             x28, x30, [sp], #16
        movrel          x4,  X(ff_cos_\n)
        mov             x2,  #\n4>>1
        b               fft_pass_neon
endfunc
.endm

        def_fft    32,    16,     8
        def_fft    64,    32,    16
        def_fft   128,    64,    32
        def_fft   256,   128,    64
        def_fft   512,   256,   128
        def_fft  1024,   512,   256
        def_fft  2048,  1024,   512
        def_fft  4096,  2048,  1024
        def_fft  8192,  4096,  2048
        def_fft 16384,  8192,  4096
        def_fft 32768, 16384,  8192
        def_fft 65536, 32768, 16384

function ff_fft_calc_neon, export=1
        prfm            pldl1keep, [x1]
        movrel          x10, trans4_float
        ldr             w2,  [x0]
        movrel          x11, trans8_float
        sub             w2,  w2,  #2
        movrel          x3,  fft_tab_neon
        ld1             {v30.16b}, [x10]
        mov             x7,  #-8
        movrel          x12, pmmp
        ldr             x3,  [x3, x2, lsl #3]
        movrel          x13, mppm
        movrel          x14, X(ff_cos_16)
        ld1             {v31.16b}, [x11]
        mov             x0,  x1
        ld1             {v29.4s},  [x12]         // pmmp
        ld1             {v28.4s},  [x13]
        br              x3
endfunc

function ff_fft_permute_neon, export=1
        mov             x6,  #1
        ldr             w2,  [x0]       // nbits
        ldr             x3,  [x0, #16]  // tmp_buf
        ldr             x0,  [x0, #8]   // revtab
        lsl             x6,  x6, x2
        mov             x2,  x6
1:
        ld1             {v0.2s,v1.2s}, [x1], #16
        ldr             w4,  [x0], #4
        uxth            w5,  w4
        lsr             w4,  w4,  #16
        add             x5,  x3,  x5,  lsl #3
        add             x4,  x3,  x4,  lsl #3
        st1             {v0.2s}, [x5]
        st1             {v1.2s}, [x4]
        subs            x6,  x6, #2
        b.gt            1b

        sub             x1,  x1,  x2,  lsl #3
1:
        ld1             {v0.4s,v1.4s}, [x3], #32
        st1             {v0.4s,v1.4s}, [x1], #32
        subs            x2,  x2,  #4
        b.gt            1b

        ret
endfunc

const   fft_tab_neon
        .quad fft4_neon
        .quad fft8_neon
        .quad fft16_neon
        .quad fft32_neon
        .quad fft64_neon
        .quad fft128_neon
        .quad fft256_neon
        .quad fft512_neon
        .quad fft1024_neon
        .quad fft2048_neon
        .quad fft4096_neon
        .quad fft8192_neon
        .quad fft16384_neon
        .quad fft32768_neon
        .quad fft65536_neon
endconst

const   pmmp, align=4
        .float          +1.0, -1.0, -1.0, +1.0
endconst

const   mppm, align=4
        .float          -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, -M_SQRT1_2
endconst
Commit	Line	Data
	1	/*
	2	* ARM NEON optimised FFT
	3	*
	4	* Copyright (c) 2009 Mans Rullgard <mans@mansr.com>
	5	* Copyright (c) 2009 Naotoshi Nojiri
	6	* Copyright (c) 2014 Janne Grunau <janne-libav@jannau.net>
	7	*
	8	* This algorithm (though not any of the implementation details) is
	9	* based on libdjbfft by D. J. Bernstein.
	10	*
	11	* This file is part of FFmpeg.
	12	*
	13	* FFmpeg is free software; you can redistribute it and/or
	14	* modify it under the terms of the GNU Lesser General Public
	15	* License as published by the Free Software Foundation; either
	16	* version 2.1 of the License, or (at your option) any later version.
	17	*
	18	* FFmpeg is distributed in the hope that it will be useful,
	19	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	20	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	21	* Lesser General Public License for more details.
	22	*
	23	* You should have received a copy of the GNU Lesser General Public
	24	* License along with FFmpeg; if not, write to the Free Software
	25	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	26	*/
	27
	28	#include "libavutil/aarch64/asm.S"
	29
	30	#define M_SQRT1_2 0.70710678118654752440
	31
	32	.macro transpose d0, d1, s0, s1
	33	trn1 \d0, \s0, \s1
	34	trn2 \d1, \s0, \s1
	35	.endm
	36
	37
	38	function fft4_neon
	39	ld1 {v0.2s,v1.2s,v2.2s,v3.2s}, [x0]
	40
	41	fadd v4.2s, v0.2s, v1.2s // r0+r1,i0+i1
	42	fsub v6.2s, v0.2s, v1.2s // r0-r1,i0-i1
	43
	44	ext v16.8b, v2.8b, v3.8b, #4
	45	ext v17.8b, v3.8b, v2.8b, #4
	46
	47	fadd v5.2s, v2.2s, v3.2s // i2+i3,r2+r3
	48	fsub v7.2s, v16.2s, v17.2s // r3-r2,i2-i3
	49
	50	fadd v0.2s, v4.2s, v5.2s
	51	fsub v2.2s, v4.2s, v5.2s
	52	fadd v1.2s, v6.2s, v7.2s
	53	fsub v3.2s, v6.2s, v7.2s
	54
	55	st1 {v0.2s,v1.2s,v2.2s,v3.2s}, [x0]
	56
	57	ret
	58	endfunc
	59
	60	function fft8_neon
	61	mov x1, x0
	62	ld1 {v0.2s, v1.2s, v2.2s, v3.2s}, [x0], #32
	63	ld1 {v16.2s,v17.2s,v18.2s,v19.2s}, [x0]
	64	ext v22.8b, v2.8b, v3.8b, #4
	65	ext v23.8b, v3.8b, v2.8b, #4
	66	fadd v4.2s, v16.2s, v17.2s // r4+r5,i4+i5
	67	fadd v5.2s, v18.2s, v19.2s // r6+r7,i6+i7
	68	fsub v17.2s, v16.2s, v17.2s // r4-r5,i4-i5
	69	fsub v19.2s, v18.2s, v19.2s // r6-r7,i6-i7
	70	rev64 v27.2s, v28.2s // ???
	71	fadd v20.2s, v0.2s, v1.2s // r0+r1,i0+i1
	72	fadd v21.2s, v2.2s, v3.2s // r2+r3,i2+i3
	73	fmul v26.2s, v17.2s, v28.2s // -a2rw,a2iw
	74	ext v6.8b, v4.8b, v5.8b, #4
	75	ext v7.8b, v5.8b, v4.8b, #4
	76	fmul v27.2s, v19.2s, v27.2s // a3rw,-a3iw
	77	fsub v23.2s, v22.2s, v23.2s // i2-i3,r3-r2
	78	fsub v22.2s, v0.2s, v1.2s // r0-r1,i0-i1
	79	fmul v24.2s, v17.2s, v28.s[1] // a2rw,a2iw
	80	fmul v25.2s, v19.2s, v28.s[1] // a3rw,a3iw
	81	fadd v0.2s, v20.2s, v21.2s
	82	fsub v2.2s, v20.2s, v21.2s
	83	fadd v1.2s, v22.2s, v23.2s
	84	rev64 v26.2s, v26.2s
	85	rev64 v27.2s, v27.2s
	86	fsub v3.2s, v22.2s, v23.2s
	87	fsub v6.2s, v6.2s, v7.2s
	88	fadd v24.2s, v24.2s, v26.2s // a2r+a2i,a2i-a2r t1,t2
	89	fadd v25.2s, v25.2s, v27.2s // a3r-a3i,a3i+a3r t5,t6
	90	fadd v7.2s, v4.2s, v5.2s
	91	fsub v18.2s, v2.2s, v6.2s
	92	ext v26.8b, v24.8b, v25.8b, #4
	93	ext v27.8b, v25.8b, v24.8b, #4
	94	fadd v2.2s, v2.2s, v6.2s
	95	fsub v16.2s, v0.2s, v7.2s
	96	fadd v5.2s, v25.2s, v24.2s
	97	fsub v4.2s, v26.2s, v27.2s
	98	fadd v0.2s, v0.2s, v7.2s
	99	fsub v17.2s, v1.2s, v5.2s
	100	fsub v19.2s, v3.2s, v4.2s
	101	fadd v3.2s, v3.2s, v4.2s
	102	fadd v1.2s, v1.2s, v5.2s
	103
	104	st1 {v16.2s,v17.2s,v18.2s,v19.2s}, [x0]
	105	st1 {v0.2s, v1.2s, v2.2s, v3.2s}, [x1]
	106
	107	ret
	108	endfunc
	109
	110	function fft16_neon
	111	mov x1, x0
	112	ld1 {v0.2s, v1.2s, v2.2s, v3.2s}, [x0], #32
	113	ld1 {v16.2s,v17.2s,v18.2s,v19.2s}, [x0], #32
	114	ext v22.8b, v2.8b, v3.8b, #4
	115	ext v23.8b, v3.8b, v2.8b, #4
	116	fadd v4.2s, v16.2s, v17.2s // r4+r5,i4+i5
	117	fadd v5.2s, v18.2s, v19.2s // r6+r7,i6+i7
	118	fsub v17.2s, v16.2s, v17.2s // r4-r5,i4-i5
	119	fsub v19.2s, v18.2s, v19.2s // r6-r7,i6-i7
	120	rev64 v27.2s, v28.2s // ???
	121	fadd v20.2s, v0.2s, v1.2s // r0+r1,i0+i1
	122	fadd v21.2s, v2.2s, v3.2s // r2+r3,i2+i3
	123	fmul v26.2s, v17.2s, v28.2s // -a2rw,a2iw
	124	ext v6.8b, v4.8b, v5.8b, #4
	125	ext v7.8b, v5.8b, v4.8b, #4
	126	fmul v27.2s, v19.2s, v27.2s // a3rw,-a3iw
	127	fsub v23.2s, v22.2s, v23.2s // i2-i3,r3-r2
	128	fsub v22.2s, v0.2s, v1.2s // r0-r1,i0-i1
	129	fmul v24.2s, v17.2s, v28.s[1] // a2rw,a2iw
	130	fmul v25.2s, v19.2s, v28.s[1] // a3rw,a3iw
	131	fadd v0.2s, v20.2s, v21.2s
	132	fsub v2.2s, v20.2s, v21.2s
	133	fadd v1.2s, v22.2s, v23.2s
	134	rev64 v26.2s, v26.2s
	135	rev64 v27.2s, v27.2s
	136	fsub v3.2s, v22.2s, v23.2s
	137	fsub v6.2s, v6.2s, v7.2s
	138	fadd v24.2s, v24.2s, v26.2s // a2r+a2i,a2i-a2r t1,t2
	139	fadd v25.2s, v25.2s, v27.2s // a3r-a3i,a3i+a3r t5,t6
	140	fadd v7.2s, v4.2s, v5.2s
	141	fsub v18.2s, v2.2s, v6.2s
	142	ld1 {v20.4s,v21.4s}, [x0], #32
	143	ld1 {v22.4s,v23.4s}, [x0], #32
	144	ext v26.8b, v24.8b, v25.8b, #4
	145	ext v27.8b, v25.8b, v24.8b, #4
	146	fadd v2.2s, v2.2s, v6.2s
	147	fsub v16.2s, v0.2s, v7.2s
	148	fadd v5.2s, v25.2s, v24.2s
	149	fsub v4.2s, v26.2s, v27.2s
	150	transpose v24.2d, v25.2d, v20.2d, v22.2d
	151	transpose v26.2d, v27.2d, v21.2d, v23.2d
	152	fadd v0.2s, v0.2s, v7.2s
	153	fsub v17.2s, v1.2s, v5.2s
	154	fsub v19.2s, v3.2s, v4.2s
	155	fadd v3.2s, v3.2s, v4.2s
	156	fadd v1.2s, v1.2s, v5.2s
	157	ext v20.16b, v21.16b, v21.16b, #4
	158	ext v21.16b, v23.16b, v23.16b, #4
	159
	160	zip1 v0.2d, v0.2d, v1.2d // {z[0], z[1]}
	161	zip1 v1.2d, v2.2d, v3.2d // {z[2], z[3]}
	162	zip1 v2.2d, v16.2d, v17.2d // {z[o1], z[o1+1]}
	163	zip1 v3.2d, v18.2d, v19.2d // {z[o1+2],z[o1+3]}
	164
	165	// 2 x fft4
	166	transpose v22.2d, v23.2d, v20.2d, v21.2d
	167
	168	fadd v4.4s, v24.4s, v25.4s
	169	fadd v5.4s, v26.4s, v27.4s
	170	fsub v6.4s, v24.4s, v25.4s
	171	fsub v7.4s, v22.4s, v23.4s
	172
	173	ld1 {v23.4s}, [x14]
	174
	175	fadd v24.4s, v4.4s, v5.4s // {z[o2+0],z[o2+1]}
	176	fsub v26.4s, v4.4s, v5.4s // {z[o2+2],z[o2+3]}
	177	fadd v25.4s, v6.4s, v7.4s // {z[o3+0],z[o3+1]}
	178	fsub v27.4s, v6.4s, v7.4s // {z[o3+2],z[o3+3]}
	179
	180	//fft_pass_neon_16
	181	rev64 v7.4s, v25.4s
	182	fmul v25.4s, v25.4s, v23.s[1]
	183	fmul v7.4s, v7.4s, v29.4s
	184	fmla v25.4s, v7.4s, v23.s[3] // {t1a,t2a,t5a,t6a}
	185
	186	zip1 v20.4s, v24.4s, v25.4s
	187	zip2 v21.4s, v24.4s, v25.4s
	188	fneg v22.4s, v20.4s
	189	fadd v4.4s, v21.4s, v20.4s
	190	fsub v6.4s, v20.4s, v21.4s // just the second half
	191	fadd v5.4s, v21.4s, v22.4s // just the first half
	192
	193	tbl v4.16b, {v4.16b}, v30.16b // trans4_float
	194	tbl v5.16b, {v5.16b,v6.16b}, v31.16b // trans8_float
	195
	196	fsub v20.4s, v0.4s, v4.4s // {z[o2],z[o2+1]}
	197	fadd v16.4s, v0.4s, v4.4s // {z[0], z[1]}
	198	fsub v22.4s, v2.4s, v5.4s // {z[o3],z[o3+1]}
	199	fadd v18.4s, v2.4s, v5.4s // {z[o1],z[o1+1]}
	200
	201	//second half
	202	rev64 v6.4s, v26.4s
	203	fmul v26.4s, v26.4s, v23.s[2]
	204	rev64 v7.4s, v27.4s
	205	fmul v27.4s, v27.4s, v23.s[3]
	206	fmul v6.4s, v6.4s, v29.4s
	207	fmul v7.4s, v7.4s, v29.4s
	208	fmla v26.4s, v6.4s, v23.s[2] // {t1,t2,t5,t6}
	209	fmla v27.4s, v7.4s, v23.s[1] // {t1a,t2a,t5a,t6a}
	210
	211	zip1 v24.4s, v26.4s, v27.4s
	212	zip2 v25.4s, v26.4s, v27.4s
	213	fneg v26.4s, v24.4s
	214	fadd v4.4s, v25.4s, v24.4s
	215	fsub v6.4s, v24.4s, v25.4s // just the second half
	216	fadd v5.4s, v25.4s, v26.4s // just the first half
	217
	218	tbl v4.16b, {v4.16b}, v30.16b // trans4_float
	219	tbl v5.16b, {v5.16b,v6.16b}, v31.16b // trans8_float
	220
	221	fadd v17.4s, v1.4s, v4.4s // {z[2], z[3]}
	222	fsub v21.4s, v1.4s, v4.4s // {z[o2+2],z[o2+3]}
	223	fadd v19.4s, v3.4s, v5.4s // {z[o1+2],z[o1+3]}
	224	fsub v23.4s, v3.4s, v5.4s // {z[o3+2],z[o3+3]}
	225
	226	st1 {v16.4s,v17.4s}, [x1], #32
	227	st1 {v18.4s,v19.4s}, [x1], #32
	228	st1 {v20.4s,v21.4s}, [x1], #32
	229	st1 {v22.4s,v23.4s}, [x1], #32
	230
	231	ret
	232	endfunc
	233
	234
	235	const trans4_float, align=4
	236	.byte 0, 1, 2, 3
	237	.byte 8, 9, 10, 11
	238	.byte 4, 5, 6, 7
	239	.byte 12, 13, 14, 15
	240	endconst
	241
	242	const trans8_float, align=4
	243	.byte 24, 25, 26, 27
	244	.byte 0, 1, 2, 3
	245	.byte 28, 29, 30, 31
	246	.byte 4, 5, 6, 7
	247	endconst
	248
	249	function fft_pass_neon
	250	sub x6, x2, #1 // n - 1, loop counter
	251	lsl x5, x2, #3 // 2 * n * sizeof FFTSample
	252	lsl x1, x2, #4 // 2 * n * sizeof FFTComplex
	253	add x5, x4, x5 // wim
	254	add x3, x1, x2, lsl #5 // 4 * n * sizeof FFTComplex
	255	add x2, x0, x2, lsl #5 // &z[o2]
	256	add x3, x0, x3 // &z[o3]
	257	add x1, x0, x1 // &z[o1]
	258	ld1 {v20.4s},[x2] // {z[o2],z[o2+1]}
	259	ld1 {v22.4s},[x3] // {z[o3],z[o3+1]}
	260	ld1 {v4.2s}, [x4], #8 // {wre[0],wre[1]}
	261	trn2 v25.2d, v20.2d, v22.2d
	262	sub x5, x5, #4 // wim--
	263	trn1 v24.2d, v20.2d, v22.2d
	264	ld1 {v5.s}[0], [x5], x7 // d5[0] = wim[-1]
	265	rev64 v7.4s, v25.4s
	266	fmul v25.4s, v25.4s, v4.s[1]
	267	ld1 {v16.4s}, [x0] // {z[0],z[1]}
	268	fmul v7.4s, v7.4s, v29.4s
	269	ld1 {v17.4s}, [x1] // {z[o1],z[o1+1]}
	270	prfm pldl1keep, [x2, #16]
	271	prfm pldl1keep, [x3, #16]
	272	fmla v25.4s, v7.4s, v5.s[0] // {t1a,t2a,t5a,t6a}
	273	prfm pldl1keep, [x0, #16]
	274	prfm pldl1keep, [x1, #16]
	275
	276	zip1 v20.4s, v24.4s, v25.4s
	277	zip2 v21.4s, v24.4s, v25.4s
	278	fneg v22.4s, v20.4s
	279	fadd v4.4s, v21.4s, v20.4s
	280	fsub v6.4s, v20.4s, v21.4s // just the second half
	281	fadd v5.4s, v21.4s, v22.4s // just the first half
	282
	283	tbl v4.16b, {v4.16b}, v30.16b // trans4_float
	284	tbl v5.16b, {v5.16b,v6.16b}, v31.16b // trans8_float
	285
	286	fadd v20.4s, v16.4s, v4.4s
	287	fsub v22.4s, v16.4s, v4.4s
	288	fadd v21.4s, v17.4s, v5.4s
	289	st1 {v20.4s}, [x0], #16 // {z[0], z[1]}
	290	fsub v23.4s, v17.4s, v5.4s
	291
	292	st1 {v21.4s}, [x1], #16 // {z[o1],z[o1+1]}
	293	st1 {v22.4s}, [x2], #16 // {z[o2],z[o2+1]}
	294	st1 {v23.4s}, [x3], #16 // {z[o3],z[o3+1]}
	295	1:
	296	ld1 {v20.4s},[x2] // {z[o2],z[o2+1]}
	297	ld1 {v22.4s},[x3] // {z[o3],z[o3+1]}
	298	ld1 {v4.2s}, [x4], #8 // {wre[0],wre[1]}
	299	transpose v26.2d, v27.2d, v20.2d, v22.2d
	300	ld1 {v5.2s}, [x5], x7 // {wim[-1],wim[0]}
	301	rev64 v6.4s, v26.4s
	302	fmul v26.4s, v26.4s, v4.s[0]
	303	rev64 v7.4s, v27.4s
	304	fmul v27.4s, v27.4s, v4.s[1]
	305	fmul v6.4s, v6.4s, v29.4s
	306	fmul v7.4s, v7.4s, v29.4s
	307	ld1 {v16.4s},[x0] // {z[0],z[1]}
	308	fmla v26.4s, v6.4s, v5.s[1] // {t1,t2,t5,t6}
	309	fmla v27.4s, v7.4s, v5.s[0] // {t1a,t2a,t5a,t6a}
	310	ld1 {v17.4s},[x1] // {z[o1],z[o1+1]}
	311
	312	subs x6, x6, #1 // n--
	313
	314	zip1 v20.4s, v26.4s, v27.4s
	315	zip2 v21.4s, v26.4s, v27.4s
	316	fneg v22.4s, v20.4s
	317	fadd v4.4s, v21.4s, v20.4s
	318	fsub v6.4s, v20.4s, v21.4s // just the second half
	319	fadd v5.4s, v21.4s, v22.4s // just the first half
	320
	321	tbl v4.16b, {v4.16b}, v30.16b // trans4_float
	322	tbl v5.16b, {v5.16b,v6.16b}, v31.16b // trans8_float
	323
	324	fadd v20.4s, v16.4s, v4.4s
	325	fsub v22.4s, v16.4s, v4.4s
	326	fadd v21.4s, v17.4s, v5.4s
	327	st1 {v20.4s}, [x0], #16 // {z[0], z[1]}
	328	fsub v23.4s, v17.4s, v5.4s
	329
	330	st1 {v21.4s}, [x1], #16 // {z[o1],z[o1+1]}
	331	st1 {v22.4s}, [x2], #16 // {z[o2],z[o2+1]}
	332	st1 {v23.4s}, [x3], #16 // {z[o3],z[o3+1]}
	333	b.ne 1b
	334
	335	ret
	336	endfunc
	337
	338	.macro def_fft n, n2, n4
	339	function fft\n\()_neon, align=6
	340	sub sp, sp, #16
	341	stp x28, x30, [sp]
	342	add x28, x0, #\n428
	343	bl fft\n2\()_neon
	344	mov x0, x28
	345	bl fft\n4\()_neon
	346	add x0, x28, #\n418
	347	bl fft\n4\()_neon
	348	sub x0, x28, #\n428
	349	ldp x28, x30, [sp], #16
	350	movrel x4, X(ff_cos_\n)
	351	mov x2, #\n4>>1
	352	b fft_pass_neon
	353	endfunc
	354	.endm
	355
	356	def_fft 32, 16, 8
	357	def_fft 64, 32, 16
	358	def_fft 128, 64, 32
	359	def_fft 256, 128, 64
	360	def_fft 512, 256, 128
	361	def_fft 1024, 512, 256
	362	def_fft 2048, 1024, 512
	363	def_fft 4096, 2048, 1024
	364	def_fft 8192, 4096, 2048
	365	def_fft 16384, 8192, 4096
	366	def_fft 32768, 16384, 8192
	367	def_fft 65536, 32768, 16384
	368
	369	function ff_fft_calc_neon, export=1
	370	prfm pldl1keep, [x1]
	371	movrel x10, trans4_float
	372	ldr w2, [x0]
	373	movrel x11, trans8_float
	374	sub w2, w2, #2
	375	movrel x3, fft_tab_neon
	376	ld1 {v30.16b}, [x10]
	377	mov x7, #-8
	378	movrel x12, pmmp
	379	ldr x3, [x3, x2, lsl #3]
	380	movrel x13, mppm
	381	movrel x14, X(ff_cos_16)
	382	ld1 {v31.16b}, [x11]
	383	mov x0, x1
	384	ld1 {v29.4s}, [x12] // pmmp
	385	ld1 {v28.4s}, [x13]
	386	br x3
	387	endfunc
	388
	389	function ff_fft_permute_neon, export=1
	390	mov x6, #1
	391	ldr w2, [x0] // nbits
	392	ldr x3, [x0, #16] // tmp_buf
	393	ldr x0, [x0, #8] // revtab
	394	lsl x6, x6, x2
	395	mov x2, x6
	396	1:
	397	ld1 {v0.2s,v1.2s}, [x1], #16
	398	ldr w4, [x0], #4
	399	uxth w5, w4
	400	lsr w4, w4, #16
	401	add x5, x3, x5, lsl #3
	402	add x4, x3, x4, lsl #3
	403	st1 {v0.2s}, [x5]
	404	st1 {v1.2s}, [x4]
	405	subs x6, x6, #2
	406	b.gt 1b
	407
	408	sub x1, x1, x2, lsl #3
	409	1:
	410	ld1 {v0.4s,v1.4s}, [x3], #32
	411	st1 {v0.4s,v1.4s}, [x1], #32
	412	subs x2, x2, #4
	413	b.gt 1b
	414
	415	ret
	416	endfunc
	417
	418	const fft_tab_neon
	419	.quad fft4_neon
	420	.quad fft8_neon
	421	.quad fft16_neon
	422	.quad fft32_neon
	423	.quad fft64_neon
	424	.quad fft128_neon
	425	.quad fft256_neon
	426	.quad fft512_neon
	427	.quad fft1024_neon
	428	.quad fft2048_neon
	429	.quad fft4096_neon
	430	.quad fft8192_neon
	431	.quad fft16384_neon
	432	.quad fft32768_neon
	433	.quad fft65536_neon
	434	endconst
	435
	436	const pmmp, align=4
	437	.float +1.0, -1.0, -1.0, +1.0
	438	endconst
	439
	440	const mppm, align=4
	441	.float -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, -M_SQRT1_2
	442	endconst