[deb_ffmpeg.git] / ffmpeg / libavcodec / ppc / fft_altivec.S

/*
 * FFT transform with Altivec optimizations
 * Copyright (c) 2009 Loren Merritt
 *
 * This algorithm (though not any of the implementation details) is
 * based on libdjbfft by D. J. Bernstein.
 *
 * This file is part of FFmpeg.
 *
 * FFmpeg is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * FFmpeg is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with FFmpeg; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 */

/*
 * These functions are not individually interchangeable with the C versions.
 * While C takes arrays of FFTComplex, Altivec leaves intermediate results
 * in blocks as convenient to the vector size.
 * i.e. {4x real, 4x imaginary, 4x real, ...}
 *
 * I ignore standard calling convention.
 * Instead, the following registers are treated as global constants:
 * v14: zero
 * v15..v18: cosines
 * v19..v29: permutations
 * r9: 16
 * r12: ff_cos_tabs
 * and the rest are free for local use.
 */

#include "config.h"

#if HAVE_GNU_AS && HAVE_ALTIVEC

#include "asm.S"

.text

.macro addi2 ra, imm // add 32-bit immediate
.if \imm & 0xffff
    addi \ra, \ra, \imm@l
.endif
.if (\imm+0x8000)>>16
    addis \ra, \ra, \imm@ha
.endif
.endm

.macro FFT4 a0, a1, a2, a3 // in:0-1 out:2-3
    vperm   \a2,\a0,\a1,v20 // vcprm(0,1,s2,s1) // {r0,i0,r3,i2}
    vperm   \a3,\a0,\a1,v21 // vcprm(2,3,s0,s3) // {r1,i1,r2,i3}
    vaddfp  \a0,\a2,\a3                         // {t1,t2,t6,t5}
    vsubfp  \a1,\a2,\a3                         // {t3,t4,t8,t7}
    vmrghw  \a2,\a0,\a1     // vcprm(0,s0,1,s1) // {t1,t3,t2,t4}
    vperm   \a3,\a0,\a1,v22 // vcprm(2,s3,3,s2) // {t6,t7,t5,t8}
    vaddfp  \a0,\a2,\a3                         // {r0,r1,i0,i1}
    vsubfp  \a1,\a2,\a3                         // {r2,r3,i2,i3}
    vperm   \a2,\a0,\a1,v23 // vcprm(0,1,s0,s1) // {r0,r1,r2,r3}
    vperm   \a3,\a0,\a1,v24 // vcprm(2,3,s2,s3) // {i0,i1,i2,i3}
.endm

.macro FFT4x2 a0, a1, b0, b1, a2, a3, b2, b3
    vperm   \a2,\a0,\a1,v20 // vcprm(0,1,s2,s1) // {r0,i0,r3,i2}
    vperm   \a3,\a0,\a1,v21 // vcprm(2,3,s0,s3) // {r1,i1,r2,i3}
    vperm   \b2,\b0,\b1,v20
    vperm   \b3,\b0,\b1,v21
    vaddfp  \a0,\a2,\a3                         // {t1,t2,t6,t5}
    vsubfp  \a1,\a2,\a3                         // {t3,t4,t8,t7}
    vaddfp  \b0,\b2,\b3
    vsubfp  \b1,\b2,\b3
    vmrghw  \a2,\a0,\a1     // vcprm(0,s0,1,s1) // {t1,t3,t2,t4}
    vperm   \a3,\a0,\a1,v22 // vcprm(2,s3,3,s2) // {t6,t7,t5,t8}
    vmrghw  \b2,\b0,\b1
    vperm   \b3,\b0,\b1,v22
    vaddfp  \a0,\a2,\a3                         // {r0,r1,i0,i1}
    vsubfp  \a1,\a2,\a3                         // {r2,r3,i2,i3}
    vaddfp  \b0,\b2,\b3
    vsubfp  \b1,\b2,\b3
    vperm   \a2,\a0,\a1,v23 // vcprm(0,1,s0,s1) // {r0,r1,r2,r3}
    vperm   \a3,\a0,\a1,v24 // vcprm(2,3,s2,s3) // {i0,i1,i2,i3}
    vperm   \b2,\b0,\b1,v23
    vperm   \b3,\b0,\b1,v24
.endm

.macro FFT8 a0, a1, b0, b1, a2, a3, b2, b3, b4 // in,out:a0-b1
    vmrghw  \b2,\b0,\b1     // vcprm(0,s0,1,s1) // {r4,r6,i4,i6}
    vmrglw  \b3,\b0,\b1     // vcprm(2,s2,3,s3) // {r5,r7,i5,i7}
    vperm   \a2,\a0,\a1,v20         // FFT4 ...
    vperm   \a3,\a0,\a1,v21
    vaddfp  \b0,\b2,\b3                         // {t1,t3,t2,t4}
    vsubfp  \b1,\b2,\b3                         // {r5,r7,i5,i7}
    vperm   \b4,\b1,\b1,v25 // vcprm(2,3,0,1)   // {i5,i7,r5,r7}
    vaddfp  \a0,\a2,\a3
    vsubfp  \a1,\a2,\a3
    vmaddfp \b1,\b1,v17,v14 // * {-1,1,1,-1}/sqrt(2)
    vmaddfp \b1,\b4,v18,\b1 // * { 1,1,1,1 }/sqrt(2) // {t8,ta,t7,t9}
    vmrghw  \a2,\a0,\a1
    vperm   \a3,\a0,\a1,v22
    vperm   \b2,\b0,\b1,v26 // vcprm(1,2,s3,s0) // {t3,t2,t9,t8}
    vperm   \b3,\b0,\b1,v27 // vcprm(0,3,s2,s1) // {t1,t4,t7,ta}
    vaddfp  \a0,\a2,\a3
    vsubfp  \a1,\a2,\a3
    vaddfp  \b0,\b2,\b3                         // {t1,t2,t9,ta}
    vsubfp  \b1,\b2,\b3                         // {t6,t5,tc,tb}
    vperm   \a2,\a0,\a1,v23
    vperm   \a3,\a0,\a1,v24
    vperm   \b2,\b0,\b1,v28 // vcprm(0,2,s1,s3) // {t1,t9,t5,tb}
    vperm   \b3,\b0,\b1,v29 // vcprm(1,3,s0,s2) // {t2,ta,t6,tc}
    vsubfp  \b0,\a2,\b2                         // {r4,r5,r6,r7}
    vsubfp  \b1,\a3,\b3                         // {i4,i5,i6,i7}
    vaddfp  \a0,\a2,\b2                         // {r0,r1,r2,r3}
    vaddfp  \a1,\a3,\b3                         // {i0,i1,i2,i3}
.endm

.macro BF d0,d1,s0,s1
    vsubfp  \d1,\s0,\s1
    vaddfp  \d0,\s0,\s1
.endm

.macro zip d0,d1,s0,s1
    vmrghw  \d0,\s0,\s1
    vmrglw  \d1,\s0,\s1
.endm

.macro def_fft4 interleave
fft4\interleave\()_altivec:
    lvx    v0, 0,r3
    lvx    v1,r9,r3
    FFT4   v0,v1,v2,v3
.ifnb \interleave
    zip    v0,v1,v2,v3
    stvx   v0, 0,r3
    stvx   v1,r9,r3
.else
    stvx   v2, 0,r3
    stvx   v3,r9,r3
.endif
    blr
.endm

.macro def_fft8 interleave
fft8\interleave\()_altivec:
    addi   r4,r3,32
    lvx    v0, 0,r3
    lvx    v1,r9,r3
    lvx    v2, 0,r4
    lvx    v3,r9,r4
    FFT8   v0,v1,v2,v3,v4,v5,v6,v7,v8
.ifnb \interleave
    zip    v4,v5,v0,v1
    zip    v6,v7,v2,v3
    stvx   v4, 0,r3
    stvx   v5,r9,r3
    stvx   v6, 0,r4
    stvx   v7,r9,r4
.else
    stvx   v0, 0,r3
    stvx   v1,r9,r3
    stvx   v2, 0,r4
    stvx   v3,r9,r4
.endif
    blr
.endm

.macro def_fft16 interleave
fft16\interleave\()_altivec:
    addi   r5,r3,64
    addi   r6,r3,96
    addi   r4,r3,32
    lvx    v0, 0,r5
    lvx    v1,r9,r5
    lvx    v2, 0,r6
    lvx    v3,r9,r6
    FFT4x2 v0,v1,v2,v3,v4,v5,v6,v7
    lvx    v0, 0,r3
    lvx    v1,r9,r3
    lvx    v2, 0,r4
    lvx    v3,r9,r4
    FFT8   v0,v1,v2,v3,v8,v9,v10,v11,v12
    vmaddfp   v8,v4,v15,v14 // r2*wre
    vmaddfp   v9,v5,v15,v14 // i2*wre
    vmaddfp  v10,v6,v15,v14 // r3*wre
    vmaddfp  v11,v7,v15,v14 // i3*wre
    vmaddfp   v8,v5,v16,v8  // i2*wim
    vnmsubfp  v9,v4,v16,v9  // r2*wim
    vnmsubfp v10,v7,v16,v10 // i3*wim
    vmaddfp  v11,v6,v16,v11 // r3*wim
    BF     v10,v12,v10,v8
    BF     v11,v13,v9,v11
    BF     v0,v4,v0,v10
    BF     v3,v7,v3,v12
    BF     v1,v5,v1,v11
    BF     v2,v6,v2,v13
.ifnb \interleave
    zip     v8, v9,v0,v1
    zip    v10,v11,v2,v3
    zip    v12,v13,v4,v5
    zip    v14,v15,v6,v7
    stvx    v8, 0,r3
    stvx    v9,r9,r3
    stvx   v10, 0,r4
    stvx   v11,r9,r4
    stvx   v12, 0,r5
    stvx   v13,r9,r5
    stvx   v14, 0,r6
    stvx   v15,r9,r6
.else
    stvx   v0, 0,r3
    stvx   v4, 0,r5
    stvx   v3,r9,r4
    stvx   v7,r9,r6
    stvx   v1,r9,r3
    stvx   v5,r9,r5
    stvx   v2, 0,r4
    stvx   v6, 0,r6
.endif
    blr
.endm

// void pass(float *z, float *wre, int n)
.macro PASS interleave, suffix
fft_pass\suffix\()_altivec:
    mtctr  r5
    slwi   r0,r5,4
    slwi   r7,r5,6   // o2
    slwi   r5,r5,5   // o1
    add   r10,r5,r7  // o3
    add    r0,r4,r0  // wim
    addi   r6,r5,16  // o1+16
    addi   r8,r7,16  // o2+16
    addi  r11,r10,16 // o3+16
1:
    lvx    v8, 0,r4  // wre
    lvx   v10, 0,r0  // wim
    sub    r0,r0,r9
    lvx    v9, 0,r0
    vperm  v9,v9,v10,v19   // vcprm(s0,3,2,1) => wim[0 .. -3]
    lvx    v4,r3,r7        // r2 = z[o2]
    lvx    v5,r3,r8        // i2 = z[o2+16]
    lvx    v6,r3,r10       // r3 = z[o3]
    lvx    v7,r3,r11       // i3 = z[o3+16]
    vmaddfp  v10,v4,v8,v14 // r2*wre
    vmaddfp  v11,v5,v8,v14 // i2*wre
    vmaddfp  v12,v6,v8,v14 // r3*wre
    vmaddfp  v13,v7,v8,v14 // i3*wre
    lvx    v0, 0,r3        // r0 = z[0]
    lvx    v3,r3,r6        // i1 = z[o1+16]
    vmaddfp  v10,v5,v9,v10 // i2*wim
    vnmsubfp v11,v4,v9,v11 // r2*wim
    vnmsubfp v12,v7,v9,v12 // i3*wim
    vmaddfp  v13,v6,v9,v13 // r3*wim
    lvx    v1,r3,r9        // i0 = z[16]
    lvx    v2,r3,r5        // r1 = z[o1]
    BF     v12,v8,v12,v10
    BF     v13,v9,v11,v13
    BF     v0,v4,v0,v12
    BF     v3,v7,v3,v8
.if !\interleave
    stvx   v0, 0,r3
    stvx   v4,r3,r7
    stvx   v3,r3,r6
    stvx   v7,r3,r11
.endif
    BF     v1,v5,v1,v13
    BF     v2,v6,v2,v9
.if !\interleave
    stvx   v1,r3,r9
    stvx   v2,r3,r5
    stvx   v5,r3,r8
    stvx   v6,r3,r10
.else
    vmrghw v8,v0,v1
    vmrglw v9,v0,v1
    stvx   v8, 0,r3
    stvx   v9,r3,r9
    vmrghw v8,v2,v3
    vmrglw v9,v2,v3
    stvx   v8,r3,r5
    stvx   v9,r3,r6
    vmrghw v8,v4,v5
    vmrglw v9,v4,v5
    stvx   v8,r3,r7
    stvx   v9,r3,r8
    vmrghw v8,v6,v7
    vmrglw v9,v6,v7
    stvx   v8,r3,r10
    stvx   v9,r3,r11
.endif
    addi   r3,r3,32
    addi   r4,r4,16
    bdnz 1b
    sub    r3,r3,r5
    blr
.endm

#define M_SQRT1_2      0.70710678118654752440  /* 1/sqrt(2) */

#define WORD_0  0x00,0x01,0x02,0x03
#define WORD_1  0x04,0x05,0x06,0x07
#define WORD_2  0x08,0x09,0x0a,0x0b
#define WORD_3  0x0c,0x0d,0x0e,0x0f
#define WORD_s0 0x10,0x11,0x12,0x13
#define WORD_s1 0x14,0x15,0x16,0x17
#define WORD_s2 0x18,0x19,0x1a,0x1b
#define WORD_s3 0x1c,0x1d,0x1e,0x1f

#define vcprm(a, b, c, d) .byte WORD_##a, WORD_##b, WORD_##c, WORD_##d

    .rodata
    .align 4
fft_data:
    .float  0, 0, 0, 0
    .float  1, 0.92387953, M_SQRT1_2, 0.38268343
    .float  0, 0.38268343, M_SQRT1_2, 0.92387953
    .float  -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2,-M_SQRT1_2
    .float   M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, M_SQRT1_2
    vcprm(s0,3,2,1)
    vcprm(0,1,s2,s1)
    vcprm(2,3,s0,s3)
    vcprm(2,s3,3,s2)
    vcprm(0,1,s0,s1)
    vcprm(2,3,s2,s3)
    vcprm(2,3,0,1)
    vcprm(1,2,s3,s0)
    vcprm(0,3,s2,s1)
    vcprm(0,2,s1,s3)
    vcprm(1,3,s0,s2)

.macro lvm  b, r, regs:vararg
    lvx     \r, 0, \b
    addi    \b, \b, 16
  .ifnb \regs
    lvm     \b, \regs
  .endif
.endm

.macro stvm b, r, regs:vararg
    stvx    \r, 0, \b
    addi    \b, \b, 16
  .ifnb \regs
    stvm    \b, \regs
  .endif
.endm

.macro fft_calc interleave
extfunc ff_fft_calc\interleave\()_altivec
    mflr    r0
    stp     r0, 2*PS(r1)
    stpu    r1, -(160+16*PS)(r1)
    get_got r11
    addi    r6, r1, 16*PS
    stvm    r6, v20, v21, v22, v23, v24, v25, v26, v27, v28, v29
    mfvrsave r0
    stw     r0, 15*PS(r1)
    li      r6, 0xfffffffc
    mtvrsave r6

    movrel  r6, fft_data, r11
    lvm     r6, v14, v15, v16, v17, v18, v19, v20, v21
    lvm     r6, v22, v23, v24, v25, v26, v27, v28, v29

    li      r9, 16
    movrel  r12, X(ff_cos_tabs), r11

    movrel  r6, fft_dispatch_tab\interleave\()_altivec, r11
    lwz     r3, 0(r3)
    subi    r3, r3, 2
    slwi    r3, r3, 2+ARCH_PPC64
    lpx     r3, r3, r6
    mtctr   r3
    mr      r3, r4
    bctrl

    addi    r6, r1, 16*PS
    lvm     r6, v20, v21, v22, v23, v24, v25, v26, v27, v28, v29
    lwz     r6, 15*PS(r1)
    mtvrsave r6
    lp      r1, 0(r1)
    lp      r0, 2*PS(r1)
    mtlr    r0
    blr
.endm

.macro DECL_FFT suffix, bits, n, n2, n4
fft\n\suffix\()_altivec:
    mflr  r0
    stp   r0,PS*(\bits-3)(r1)
    bl    fft\n2\()_altivec
    addi2 r3,\n*4
    bl    fft\n4\()_altivec
    addi2 r3,\n*2
    bl    fft\n4\()_altivec
    addi2 r3,\n*-6
    lp    r0,PS*(\bits-3)(r1)
    lp    r4,\bits*PS(r12)
    mtlr  r0
    li    r5,\n/16
    b     fft_pass\suffix\()_altivec
.endm

.macro DECL_FFTS interleave, suffix
    .text
    def_fft4  \suffix
    def_fft8  \suffix
    def_fft16 \suffix
    PASS \interleave, \suffix
    DECL_FFT \suffix, 5,   32,   16,    8
    DECL_FFT \suffix, 6,   64,   32,   16
    DECL_FFT \suffix, 7,  128,   64,   32
    DECL_FFT \suffix, 8,  256,  128,   64
    DECL_FFT \suffix, 9,  512,  256,  128
    DECL_FFT \suffix,10, 1024,  512,  256
    DECL_FFT \suffix,11, 2048, 1024,  512
    DECL_FFT \suffix,12, 4096, 2048, 1024
    DECL_FFT \suffix,13, 8192, 4096, 2048
    DECL_FFT \suffix,14,16384, 8192, 4096
    DECL_FFT \suffix,15,32768,16384, 8192
    DECL_FFT \suffix,16,65536,32768,16384

    fft_calc \suffix

    .rodata
    .align 3
fft_dispatch_tab\suffix\()_altivec:
    PTR fft4\suffix\()_altivec
    PTR fft8\suffix\()_altivec
    PTR fft16\suffix\()_altivec
    PTR fft32\suffix\()_altivec
    PTR fft64\suffix\()_altivec
    PTR fft128\suffix\()_altivec
    PTR fft256\suffix\()_altivec
    PTR fft512\suffix\()_altivec
    PTR fft1024\suffix\()_altivec
    PTR fft2048\suffix\()_altivec
    PTR fft4096\suffix\()_altivec
    PTR fft8192\suffix\()_altivec
    PTR fft16384\suffix\()_altivec
    PTR fft32768\suffix\()_altivec
    PTR fft65536\suffix\()_altivec
.endm

DECL_FFTS 0
DECL_FFTS 1, _interleave

#endif /* HAVE_GNU_AS && HAVE_ALTIVEC */
Commit	Line	Data
	1	/*
	2	* FFT transform with Altivec optimizations
	3	* Copyright (c) 2009 Loren Merritt
	4	*
	5	* This algorithm (though not any of the implementation details) is
	6	* based on libdjbfft by D. J. Bernstein.
	7	*
	8	* This file is part of FFmpeg.
	9	*
	10	* FFmpeg is free software; you can redistribute it and/or
	11	* modify it under the terms of the GNU Lesser General Public
	12	* License as published by the Free Software Foundation; either
	13	* version 2.1 of the License, or (at your option) any later version.
	14	*
	15	* FFmpeg is distributed in the hope that it will be useful,
	16	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	17	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	18	* Lesser General Public License for more details.
	19	*
	20	* You should have received a copy of the GNU Lesser General Public
	21	* License along with FFmpeg; if not, write to the Free Software
	22	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	23	*/
	24
	25	/*
	26	* These functions are not individually interchangeable with the C versions.
	27	* While C takes arrays of FFTComplex, Altivec leaves intermediate results
	28	* in blocks as convenient to the vector size.
	29	* i.e. {4x real, 4x imaginary, 4x real, ...}
	30	*
	31	* I ignore standard calling convention.
	32	* Instead, the following registers are treated as global constants:
	33	* v14: zero
	34	* v15..v18: cosines
	35	* v19..v29: permutations
	36	* r9: 16
	37	* r12: ff_cos_tabs
	38	* and the rest are free for local use.
	39	*/
	40
	41	#include "config.h"
	42
	43	#if HAVE_GNU_AS && HAVE_ALTIVEC
	44
	45	#include "asm.S"
	46
	47	.text
	48
	49	.macro addi2 ra, imm // add 32-bit immediate
	50	.if \imm & 0xffff
	51	addi \ra, \ra, \imm@l
	52	.endif
	53	.if (\imm+0x8000)>>16
	54	addis \ra, \ra, \imm@ha
	55	.endif
	56	.endm
	57
	58	.macro FFT4 a0, a1, a2, a3 // in:0-1 out:2-3
	59	vperm \a2,\a0,\a1,v20 // vcprm(0,1,s2,s1) // {r0,i0,r3,i2}
	60	vperm \a3,\a0,\a1,v21 // vcprm(2,3,s0,s3) // {r1,i1,r2,i3}
	61	vaddfp \a0,\a2,\a3 // {t1,t2,t6,t5}
	62	vsubfp \a1,\a2,\a3 // {t3,t4,t8,t7}
	63	vmrghw \a2,\a0,\a1 // vcprm(0,s0,1,s1) // {t1,t3,t2,t4}
	64	vperm \a3,\a0,\a1,v22 // vcprm(2,s3,3,s2) // {t6,t7,t5,t8}
	65	vaddfp \a0,\a2,\a3 // {r0,r1,i0,i1}
	66	vsubfp \a1,\a2,\a3 // {r2,r3,i2,i3}
	67	vperm \a2,\a0,\a1,v23 // vcprm(0,1,s0,s1) // {r0,r1,r2,r3}
	68	vperm \a3,\a0,\a1,v24 // vcprm(2,3,s2,s3) // {i0,i1,i2,i3}
	69	.endm
	70
	71	.macro FFT4x2 a0, a1, b0, b1, a2, a3, b2, b3
	72	vperm \a2,\a0,\a1,v20 // vcprm(0,1,s2,s1) // {r0,i0,r3,i2}
	73	vperm \a3,\a0,\a1,v21 // vcprm(2,3,s0,s3) // {r1,i1,r2,i3}
	74	vperm \b2,\b0,\b1,v20
	75	vperm \b3,\b0,\b1,v21
	76	vaddfp \a0,\a2,\a3 // {t1,t2,t6,t5}
	77	vsubfp \a1,\a2,\a3 // {t3,t4,t8,t7}
	78	vaddfp \b0,\b2,\b3
	79	vsubfp \b1,\b2,\b3
	80	vmrghw \a2,\a0,\a1 // vcprm(0,s0,1,s1) // {t1,t3,t2,t4}
	81	vperm \a3,\a0,\a1,v22 // vcprm(2,s3,3,s2) // {t6,t7,t5,t8}
	82	vmrghw \b2,\b0,\b1
	83	vperm \b3,\b0,\b1,v22
	84	vaddfp \a0,\a2,\a3 // {r0,r1,i0,i1}
	85	vsubfp \a1,\a2,\a3 // {r2,r3,i2,i3}
	86	vaddfp \b0,\b2,\b3
	87	vsubfp \b1,\b2,\b3
	88	vperm \a2,\a0,\a1,v23 // vcprm(0,1,s0,s1) // {r0,r1,r2,r3}
	89	vperm \a3,\a0,\a1,v24 // vcprm(2,3,s2,s3) // {i0,i1,i2,i3}
	90	vperm \b2,\b0,\b1,v23
	91	vperm \b3,\b0,\b1,v24
	92	.endm
	93
	94	.macro FFT8 a0, a1, b0, b1, a2, a3, b2, b3, b4 // in,out:a0-b1
	95	vmrghw \b2,\b0,\b1 // vcprm(0,s0,1,s1) // {r4,r6,i4,i6}
	96	vmrglw \b3,\b0,\b1 // vcprm(2,s2,3,s3) // {r5,r7,i5,i7}
	97	vperm \a2,\a0,\a1,v20 // FFT4 ...
	98	vperm \a3,\a0,\a1,v21
	99	vaddfp \b0,\b2,\b3 // {t1,t3,t2,t4}
	100	vsubfp \b1,\b2,\b3 // {r5,r7,i5,i7}
	101	vperm \b4,\b1,\b1,v25 // vcprm(2,3,0,1) // {i5,i7,r5,r7}
	102	vaddfp \a0,\a2,\a3
	103	vsubfp \a1,\a2,\a3
	104	vmaddfp \b1,\b1,v17,v14 // * {-1,1,1,-1}/sqrt(2)
	105	vmaddfp \b1,\b4,v18,\b1 // * { 1,1,1,1 }/sqrt(2) // {t8,ta,t7,t9}
	106	vmrghw \a2,\a0,\a1
	107	vperm \a3,\a0,\a1,v22
	108	vperm \b2,\b0,\b1,v26 // vcprm(1,2,s3,s0) // {t3,t2,t9,t8}
	109	vperm \b3,\b0,\b1,v27 // vcprm(0,3,s2,s1) // {t1,t4,t7,ta}
	110	vaddfp \a0,\a2,\a3
	111	vsubfp \a1,\a2,\a3
	112	vaddfp \b0,\b2,\b3 // {t1,t2,t9,ta}
	113	vsubfp \b1,\b2,\b3 // {t6,t5,tc,tb}
	114	vperm \a2,\a0,\a1,v23
	115	vperm \a3,\a0,\a1,v24
	116	vperm \b2,\b0,\b1,v28 // vcprm(0,2,s1,s3) // {t1,t9,t5,tb}
	117	vperm \b3,\b0,\b1,v29 // vcprm(1,3,s0,s2) // {t2,ta,t6,tc}
	118	vsubfp \b0,\a2,\b2 // {r4,r5,r6,r7}
	119	vsubfp \b1,\a3,\b3 // {i4,i5,i6,i7}
	120	vaddfp \a0,\a2,\b2 // {r0,r1,r2,r3}
	121	vaddfp \a1,\a3,\b3 // {i0,i1,i2,i3}
	122	.endm
	123
	124	.macro BF d0,d1,s0,s1
	125	vsubfp \d1,\s0,\s1
	126	vaddfp \d0,\s0,\s1
	127	.endm
	128
	129	.macro zip d0,d1,s0,s1
	130	vmrghw \d0,\s0,\s1
	131	vmrglw \d1,\s0,\s1
	132	.endm
	133
	134	.macro def_fft4 interleave
	135	fft4\interleave\()_altivec:
	136	lvx v0, 0,r3
	137	lvx v1,r9,r3
	138	FFT4 v0,v1,v2,v3
	139	.ifnb \interleave
	140	zip v0,v1,v2,v3
	141	stvx v0, 0,r3
	142	stvx v1,r9,r3
	143	.else
	144	stvx v2, 0,r3
	145	stvx v3,r9,r3
	146	.endif
	147	blr
	148	.endm
	149
	150	.macro def_fft8 interleave
	151	fft8\interleave\()_altivec:
	152	addi r4,r3,32
	153	lvx v0, 0,r3
	154	lvx v1,r9,r3
	155	lvx v2, 0,r4
	156	lvx v3,r9,r4
	157	FFT8 v0,v1,v2,v3,v4,v5,v6,v7,v8
	158	.ifnb \interleave
	159	zip v4,v5,v0,v1
	160	zip v6,v7,v2,v3
	161	stvx v4, 0,r3
	162	stvx v5,r9,r3
	163	stvx v6, 0,r4
	164	stvx v7,r9,r4
	165	.else
	166	stvx v0, 0,r3
	167	stvx v1,r9,r3
	168	stvx v2, 0,r4
	169	stvx v3,r9,r4
	170	.endif
	171	blr
	172	.endm
	173
	174	.macro def_fft16 interleave
	175	fft16\interleave\()_altivec:
	176	addi r5,r3,64
	177	addi r6,r3,96
	178	addi r4,r3,32
	179	lvx v0, 0,r5
	180	lvx v1,r9,r5
	181	lvx v2, 0,r6
	182	lvx v3,r9,r6
	183	FFT4x2 v0,v1,v2,v3,v4,v5,v6,v7
	184	lvx v0, 0,r3
	185	lvx v1,r9,r3
	186	lvx v2, 0,r4
	187	lvx v3,r9,r4
	188	FFT8 v0,v1,v2,v3,v8,v9,v10,v11,v12
	189	vmaddfp v8,v4,v15,v14 // r2*wre
	190	vmaddfp v9,v5,v15,v14 // i2*wre
	191	vmaddfp v10,v6,v15,v14 // r3*wre
	192	vmaddfp v11,v7,v15,v14 // i3*wre
	193	vmaddfp v8,v5,v16,v8 // i2*wim
	194	vnmsubfp v9,v4,v16,v9 // r2*wim
	195	vnmsubfp v10,v7,v16,v10 // i3*wim
	196	vmaddfp v11,v6,v16,v11 // r3*wim
	197	BF v10,v12,v10,v8
	198	BF v11,v13,v9,v11
	199	BF v0,v4,v0,v10
	200	BF v3,v7,v3,v12
	201	BF v1,v5,v1,v11
	202	BF v2,v6,v2,v13
	203	.ifnb \interleave
	204	zip v8, v9,v0,v1
	205	zip v10,v11,v2,v3
	206	zip v12,v13,v4,v5
	207	zip v14,v15,v6,v7
	208	stvx v8, 0,r3
	209	stvx v9,r9,r3
	210	stvx v10, 0,r4
	211	stvx v11,r9,r4
	212	stvx v12, 0,r5
	213	stvx v13,r9,r5
	214	stvx v14, 0,r6
	215	stvx v15,r9,r6
	216	.else
	217	stvx v0, 0,r3
	218	stvx v4, 0,r5
	219	stvx v3,r9,r4
	220	stvx v7,r9,r6
	221	stvx v1,r9,r3
	222	stvx v5,r9,r5
	223	stvx v2, 0,r4
	224	stvx v6, 0,r6
	225	.endif
	226	blr
	227	.endm
	228
	229	// void pass(float z, float wre, int n)
	230	.macro PASS interleave, suffix
	231	fft_pass\suffix\()_altivec:
	232	mtctr r5
	233	slwi r0,r5,4
	234	slwi r7,r5,6 // o2
	235	slwi r5,r5,5 // o1
	236	add r10,r5,r7 // o3
	237	add r0,r4,r0 // wim
	238	addi r6,r5,16 // o1+16
	239	addi r8,r7,16 // o2+16
	240	addi r11,r10,16 // o3+16
	241	1:
	242	lvx v8, 0,r4 // wre
	243	lvx v10, 0,r0 // wim
	244	sub r0,r0,r9
	245	lvx v9, 0,r0
	246	vperm v9,v9,v10,v19 // vcprm(s0,3,2,1) => wim[0 .. -3]
	247	lvx v4,r3,r7 // r2 = z[o2]
	248	lvx v5,r3,r8 // i2 = z[o2+16]
	249	lvx v6,r3,r10 // r3 = z[o3]
	250	lvx v7,r3,r11 // i3 = z[o3+16]
	251	vmaddfp v10,v4,v8,v14 // r2*wre
	252	vmaddfp v11,v5,v8,v14 // i2*wre
	253	vmaddfp v12,v6,v8,v14 // r3*wre
	254	vmaddfp v13,v7,v8,v14 // i3*wre
	255	lvx v0, 0,r3 // r0 = z[0]
	256	lvx v3,r3,r6 // i1 = z[o1+16]
	257	vmaddfp v10,v5,v9,v10 // i2*wim
	258	vnmsubfp v11,v4,v9,v11 // r2*wim
	259	vnmsubfp v12,v7,v9,v12 // i3*wim
	260	vmaddfp v13,v6,v9,v13 // r3*wim
	261	lvx v1,r3,r9 // i0 = z[16]
	262	lvx v2,r3,r5 // r1 = z[o1]
	263	BF v12,v8,v12,v10
	264	BF v13,v9,v11,v13
	265	BF v0,v4,v0,v12
	266	BF v3,v7,v3,v8
	267	.if !\interleave
	268	stvx v0, 0,r3
	269	stvx v4,r3,r7
	270	stvx v3,r3,r6
	271	stvx v7,r3,r11
	272	.endif
	273	BF v1,v5,v1,v13
	274	BF v2,v6,v2,v9
	275	.if !\interleave
	276	stvx v1,r3,r9
	277	stvx v2,r3,r5
	278	stvx v5,r3,r8
	279	stvx v6,r3,r10
	280	.else
	281	vmrghw v8,v0,v1
	282	vmrglw v9,v0,v1
	283	stvx v8, 0,r3
	284	stvx v9,r3,r9
	285	vmrghw v8,v2,v3
	286	vmrglw v9,v2,v3
	287	stvx v8,r3,r5
	288	stvx v9,r3,r6
	289	vmrghw v8,v4,v5
	290	vmrglw v9,v4,v5
	291	stvx v8,r3,r7
	292	stvx v9,r3,r8
	293	vmrghw v8,v6,v7
	294	vmrglw v9,v6,v7
	295	stvx v8,r3,r10
	296	stvx v9,r3,r11
	297	.endif
	298	addi r3,r3,32
	299	addi r4,r4,16
	300	bdnz 1b
	301	sub r3,r3,r5
	302	blr
	303	.endm
	304
	305	#define M_SQRT1_2 0.70710678118654752440 /* 1/sqrt(2) */
	306
	307	#define WORD_0 0x00,0x01,0x02,0x03
	308	#define WORD_1 0x04,0x05,0x06,0x07
	309	#define WORD_2 0x08,0x09,0x0a,0x0b
	310	#define WORD_3 0x0c,0x0d,0x0e,0x0f
	311	#define WORD_s0 0x10,0x11,0x12,0x13
	312	#define WORD_s1 0x14,0x15,0x16,0x17
	313	#define WORD_s2 0x18,0x19,0x1a,0x1b
	314	#define WORD_s3 0x1c,0x1d,0x1e,0x1f
	315
	316	#define vcprm(a, b, c, d) .byte WORD_##a, WORD_##b, WORD_##c, WORD_##d
	317
	318	.rodata
	319	.align 4
	320	fft_data:
	321	.float 0, 0, 0, 0
	322	.float 1, 0.92387953, M_SQRT1_2, 0.38268343
	323	.float 0, 0.38268343, M_SQRT1_2, 0.92387953
	324	.float -M_SQRT1_2, M_SQRT1_2, M_SQRT1_2,-M_SQRT1_2
	325	.float M_SQRT1_2, M_SQRT1_2, M_SQRT1_2, M_SQRT1_2
	326	vcprm(s0,3,2,1)
	327	vcprm(0,1,s2,s1)
	328	vcprm(2,3,s0,s3)
	329	vcprm(2,s3,3,s2)
	330	vcprm(0,1,s0,s1)
	331	vcprm(2,3,s2,s3)
	332	vcprm(2,3,0,1)
	333	vcprm(1,2,s3,s0)
	334	vcprm(0,3,s2,s1)
	335	vcprm(0,2,s1,s3)
	336	vcprm(1,3,s0,s2)
	337
	338	.macro lvm b, r, regs:vararg
	339	lvx \r, 0, \b
	340	addi \b, \b, 16
	341	.ifnb \regs
	342	lvm \b, \regs
	343	.endif
	344	.endm
	345
	346	.macro stvm b, r, regs:vararg
	347	stvx \r, 0, \b
	348	addi \b, \b, 16
	349	.ifnb \regs
	350	stvm \b, \regs
	351	.endif
	352	.endm
	353
	354	.macro fft_calc interleave
	355	extfunc ff_fft_calc\interleave\()_altivec
	356	mflr r0
	357	stp r0, 2*PS(r1)
	358	stpu r1, -(160+16*PS)(r1)
	359	get_got r11
	360	addi r6, r1, 16*PS
	361	stvm r6, v20, v21, v22, v23, v24, v25, v26, v27, v28, v29
	362	mfvrsave r0
	363	stw r0, 15*PS(r1)
	364	li r6, 0xfffffffc
	365	mtvrsave r6
	366
	367	movrel r6, fft_data, r11
	368	lvm r6, v14, v15, v16, v17, v18, v19, v20, v21
	369	lvm r6, v22, v23, v24, v25, v26, v27, v28, v29
	370
	371	li r9, 16
	372	movrel r12, X(ff_cos_tabs), r11
	373
	374	movrel r6, fft_dispatch_tab\interleave\()_altivec, r11
	375	lwz r3, 0(r3)
	376	subi r3, r3, 2
	377	slwi r3, r3, 2+ARCH_PPC64
	378	lpx r3, r3, r6
	379	mtctr r3
	380	mr r3, r4
	381	bctrl
	382
	383	addi r6, r1, 16*PS
	384	lvm r6, v20, v21, v22, v23, v24, v25, v26, v27, v28, v29
	385	lwz r6, 15*PS(r1)
	386	mtvrsave r6
	387	lp r1, 0(r1)
	388	lp r0, 2*PS(r1)
	389	mtlr r0
	390	blr
	391	.endm
	392
	393	.macro DECL_FFT suffix, bits, n, n2, n4
	394	fft\n\suffix\()_altivec:
	395	mflr r0
	396	stp r0,PS*(\bits-3)(r1)
	397	bl fft\n2\()_altivec
	398	addi2 r3,\n*4
	399	bl fft\n4\()_altivec
	400	addi2 r3,\n*2
	401	bl fft\n4\()_altivec
	402	addi2 r3,\n*-6
	403	lp r0,PS*(\bits-3)(r1)
	404	lp r4,\bits*PS(r12)
	405	mtlr r0
	406	li r5,\n/16
	407	b fft_pass\suffix\()_altivec
	408	.endm
	409
	410	.macro DECL_FFTS interleave, suffix
	411	.text
	412	def_fft4 \suffix
	413	def_fft8 \suffix
	414	def_fft16 \suffix
	415	PASS \interleave, \suffix
	416	DECL_FFT \suffix, 5, 32, 16, 8
	417	DECL_FFT \suffix, 6, 64, 32, 16
	418	DECL_FFT \suffix, 7, 128, 64, 32
	419	DECL_FFT \suffix, 8, 256, 128, 64
	420	DECL_FFT \suffix, 9, 512, 256, 128
	421	DECL_FFT \suffix,10, 1024, 512, 256
	422	DECL_FFT \suffix,11, 2048, 1024, 512
	423	DECL_FFT \suffix,12, 4096, 2048, 1024
	424	DECL_FFT \suffix,13, 8192, 4096, 2048
	425	DECL_FFT \suffix,14,16384, 8192, 4096
	426	DECL_FFT \suffix,15,32768,16384, 8192
	427	DECL_FFT \suffix,16,65536,32768,16384
	428
	429	fft_calc \suffix
	430
	431	.rodata
	432	.align 3
	433	fft_dispatch_tab\suffix\()_altivec:
	434	PTR fft4\suffix\()_altivec
	435	PTR fft8\suffix\()_altivec
	436	PTR fft16\suffix\()_altivec
	437	PTR fft32\suffix\()_altivec
	438	PTR fft64\suffix\()_altivec
	439	PTR fft128\suffix\()_altivec
	440	PTR fft256\suffix\()_altivec
	441	PTR fft512\suffix\()_altivec
	442	PTR fft1024\suffix\()_altivec
	443	PTR fft2048\suffix\()_altivec
	444	PTR fft4096\suffix\()_altivec
	445	PTR fft8192\suffix\()_altivec
	446	PTR fft16384\suffix\()_altivec
	447	PTR fft32768\suffix\()_altivec
	448	PTR fft65536\suffix\()_altivec
	449	.endm
	450
	451	DECL_FFTS 0
	452	DECL_FFTS 1, _interleave
	453
	454	#endif /* HAVE_GNU_AS && HAVE_ALTIVEC */