[deb_ffmpeg.git] / ffmpeg / libavcodec / arm / simple_idct_neon.S

/*
 * ARM NEON IDCT
 *
 * Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
 *
 * Based on Simple IDCT
 * Copyright (c) 2001 Michael Niedermayer <michaelni@gmx.at>
 *
 * This file is part of FFmpeg.
 *
 * FFmpeg is free software; you can redistribute it and/or
 * modify it under the terms of the GNU Lesser General Public
 * License as published by the Free Software Foundation; either
 * version 2.1 of the License, or (at your option) any later version.
 *
 * FFmpeg is distributed in the hope that it will be useful,
 * but WITHOUT ANY WARRANTY; without even the implied warranty of
 * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
 * Lesser General Public License for more details.
 *
 * You should have received a copy of the GNU Lesser General Public
 * License along with FFmpeg; if not, write to the Free Software
 * Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
 */

#include "libavutil/arm/asm.S"

#define W1  22725  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
#define W2  21407  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
#define W3  19266  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
#define W4  16383  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
#define W5  12873  //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
#define W6  8867   //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
#define W7  4520   //cos(i*M_PI/16)*sqrt(2)*(1<<14) + 0.5
#define W4c ((1<<(COL_SHIFT-1))/W4)
#define ROW_SHIFT 11
#define COL_SHIFT 20

#define w1 d0[0]
#define w2 d0[1]
#define w3 d0[2]
#define w4 d0[3]
#define w5 d1[0]
#define w6 d1[1]
#define w7 d1[2]
#define w4c d1[3]

        .macro idct_col4_top
        vmull.s16       q7,  d6,  w2    /* q9   = W2 * col[2] */
        vmull.s16       q8,  d6,  w6    /* q10  = W6 * col[2] */
        vmull.s16       q9,  d4,  w1    /* q9   = W1 * col[1] */
        vadd.i32        q11, q15, q7
        vmull.s16       q10, d4,  w3    /* q10  = W3 * col[1] */
        vadd.i32        q12, q15, q8
        vmull.s16       q5,  d4,  w5    /* q5   = W5 * col[1] */
        vsub.i32        q13, q15, q8
        vmull.s16       q6,  d4,  w7    /* q6   = W7 * col[1] */
        vsub.i32        q14, q15, q7

        vmlal.s16       q9,  d8,  w3    /* q9  += W3 * col[3] */
        vmlsl.s16       q10, d8,  w7    /* q10 -= W7 * col[3] */
        vmlsl.s16       q5,  d8,  w1    /* q5  -= W1 * col[3] */
        vmlsl.s16       q6,  d8,  w5    /* q6  -= W5 * col[3] */
        .endm

        .text
        .align 6

function idct_row4_pld_neon
        pld             [r0]
        add             r3,  r0,  r1,  lsl #2
        pld             [r0, r1]
        pld             [r0, r1, lsl #1]
A       pld             [r3, -r1]
        pld             [r3]
        pld             [r3, r1]
        add             r3,  r3,  r1,  lsl #1
        pld             [r3]
        pld             [r3, r1]
endfunc

function idct_row4_neon
        vmov.i32        q15, #(1<<(ROW_SHIFT-1))
        vld1.64         {d2-d5},  [r2,:128]!
        vmlal.s16       q15, d2,  w4    /* q15  += W4 * col[0] */
        vld1.64         {d6,d7},  [r2,:128]!
        vorr            d10, d3,  d5
        vld1.64         {d8,d9},  [r2,:128]!
        add             r2,  r2,  #-64

        vorr            d11, d7,  d9
        vorr            d10, d10, d11
        vmov            r3,  r4,  d10

        idct_col4_top

        orrs            r3,  r3,  r4
        beq             1f

        vmull.s16       q7,  d3,  w4    /* q7   = W4 * col[4] */
        vmlal.s16       q9,  d5,  w5    /* q9  += W5 * col[5] */
        vmlsl.s16       q10, d5,  w1    /* q10 -= W1 * col[5] */
        vmull.s16       q8,  d7,  w2    /* q8   = W2 * col[6] */
        vmlal.s16       q5,  d5,  w7    /* q5  += W7 * col[5] */
        vadd.i32        q11, q11, q7
        vsub.i32        q12, q12, q7
        vsub.i32        q13, q13, q7
        vadd.i32        q14, q14, q7
        vmlal.s16       q6,  d5,  w3    /* q6  += W3 * col[5] */
        vmull.s16       q7,  d7,  w6    /* q7   = W6 * col[6] */
        vmlal.s16       q9,  d9,  w7
        vmlsl.s16       q10, d9,  w5
        vmlal.s16       q5,  d9,  w3
        vmlsl.s16       q6,  d9,  w1
        vadd.i32        q11, q11, q7
        vsub.i32        q12, q12, q8
        vadd.i32        q13, q13, q8
        vsub.i32        q14, q14, q7

1:      vadd.i32        q3,  q11, q9
        vadd.i32        q4,  q12, q10
        vshrn.i32       d2,  q3,  #ROW_SHIFT
        vshrn.i32       d4,  q4,  #ROW_SHIFT
        vadd.i32        q7,  q13, q5
        vadd.i32        q8,  q14, q6
        vtrn.16         d2,  d4
        vshrn.i32       d6,  q7,  #ROW_SHIFT
        vshrn.i32       d8,  q8,  #ROW_SHIFT
        vsub.i32        q14, q14, q6
        vsub.i32        q11, q11, q9
        vtrn.16         d6,  d8
        vsub.i32        q13, q13, q5
        vshrn.i32       d3,  q14, #ROW_SHIFT
        vtrn.32         d2,  d6
        vsub.i32        q12, q12, q10
        vtrn.32         d4,  d8
        vshrn.i32       d5,  q13, #ROW_SHIFT
        vshrn.i32       d7,  q12, #ROW_SHIFT
        vshrn.i32       d9,  q11, #ROW_SHIFT

        vtrn.16         d3,  d5
        vtrn.16         d7,  d9
        vtrn.32         d3,  d7
        vtrn.32         d5,  d9

        vst1.64         {d2-d5},  [r2,:128]!
        vst1.64         {d6-d9},  [r2,:128]!

        bx              lr
endfunc

function idct_col4_neon
        mov             ip,  #16
        vld1.64         {d2}, [r2,:64], ip /* d2 = col[0] */
        vdup.16         d30, w4c
        vld1.64         {d4}, [r2,:64], ip /* d3 = col[1] */
        vadd.i16        d30, d30, d2
        vld1.64         {d6}, [r2,:64], ip /* d4 = col[2] */
        vmull.s16       q15, d30, w4 /* q15 = W4*(col[0]+(1<<COL_SHIFT-1)/W4)*/
        vld1.64         {d8}, [r2,:64], ip /* d5 = col[3] */

        ldrd            r4,  r5,  [r2]
        ldrd            r6,  r7,  [r2, #16]
        orrs            r4,  r4,  r5

        idct_col4_top
        it              eq
        addeq           r2,  r2,  #16
        beq             1f

        vld1.64         {d3}, [r2,:64], ip /* d6 = col[4] */
        vmull.s16       q7,  d3,  w4    /* q7   = W4 * col[4] */
        vadd.i32        q11, q11, q7
        vsub.i32        q12, q12, q7
        vsub.i32        q13, q13, q7
        vadd.i32        q14, q14, q7

1:      orrs            r6,  r6,  r7
        ldrd            r4,  r5,  [r2, #16]
        it              eq
        addeq           r2,  r2,  #16
        beq             2f

        vld1.64         {d5}, [r2,:64], ip /* d7 = col[5] */
        vmlal.s16       q9,  d5,  w5    /* q9  += W5 * col[5] */
        vmlsl.s16       q10, d5,  w1    /* q10 -= W1 * col[5] */
        vmlal.s16       q5,  d5,  w7    /* q5  += W7 * col[5] */
        vmlal.s16       q6,  d5,  w3    /* q6  += W3 * col[5] */

2:      orrs            r4,  r4,  r5
        ldrd            r4,  r5,  [r2, #16]
        it              eq
        addeq           r2,  r2,  #16
        beq             3f

        vld1.64         {d7}, [r2,:64], ip /* d8 = col[6] */
        vmull.s16       q7,  d7,  w6    /* q7   = W6 * col[6] */
        vmull.s16       q8,  d7,  w2    /* q8   = W2 * col[6] */
        vadd.i32        q11, q11, q7
        vsub.i32        q14, q14, q7
        vsub.i32        q12, q12, q8
        vadd.i32        q13, q13, q8

3:      orrs            r4,  r4,  r5
        it              eq
        addeq           r2,  r2,  #16
        beq             4f

        vld1.64         {d9}, [r2,:64], ip /* d9 = col[7] */
        vmlal.s16       q9,  d9,  w7
        vmlsl.s16       q10, d9,  w5
        vmlal.s16       q5,  d9,  w3
        vmlsl.s16       q6,  d9,  w1

4:      vaddhn.i32      d2,  q11, q9
        vaddhn.i32      d3,  q12, q10
        vaddhn.i32      d4,  q13, q5
        vaddhn.i32      d5,  q14, q6
        vsubhn.i32      d9,  q11, q9
        vsubhn.i32      d8,  q12, q10
        vsubhn.i32      d7,  q13, q5
        vsubhn.i32      d6,  q14, q6

        bx              lr
endfunc

        .align 6

function idct_col4_st8_neon
        vqshrun.s16     d2,  q1,  #COL_SHIFT-16
        vqshrun.s16     d3,  q2,  #COL_SHIFT-16
        vqshrun.s16     d4,  q3,  #COL_SHIFT-16
        vqshrun.s16     d5,  q4,  #COL_SHIFT-16
        vst1.32         {d2[0]}, [r0,:32], r1
        vst1.32         {d2[1]}, [r0,:32], r1
        vst1.32         {d3[0]}, [r0,:32], r1
        vst1.32         {d3[1]}, [r0,:32], r1
        vst1.32         {d4[0]}, [r0,:32], r1
        vst1.32         {d4[1]}, [r0,:32], r1
        vst1.32         {d5[0]}, [r0,:32], r1
        vst1.32         {d5[1]}, [r0,:32], r1

        bx              lr
endfunc

const   idct_coeff_neon, align=4
        .short W1, W2, W3, W4, W5, W6, W7, W4c
endconst

        .macro idct_start data
        push            {r4-r7, lr}
        pld             [\data]
        pld             [\data, #64]
        vpush           {d8-d15}
        movrel          r3,  idct_coeff_neon
        vld1.64         {d0,d1}, [r3,:128]
        .endm

        .macro idct_end
        vpop            {d8-d15}
        pop             {r4-r7, pc}
        .endm

/* void ff_simple_idct_put_neon(uint8_t *dst, int line_size, int16_t *data); */
function ff_simple_idct_put_neon, export=1
        idct_start      r2

        bl              idct_row4_pld_neon
        bl              idct_row4_neon
        add             r2,  r2,  #-128
        bl              idct_col4_neon
        bl              idct_col4_st8_neon
        sub             r0,  r0,  r1, lsl #3
        add             r0,  r0,  #4
        add             r2,  r2,  #-120
        bl              idct_col4_neon
        bl              idct_col4_st8_neon

        idct_end
endfunc

        .align 6

function idct_col4_add8_neon
        mov             ip,  r0

        vld1.32         {d10[0]}, [r0,:32], r1
        vshr.s16        q1,  q1,  #COL_SHIFT-16
        vld1.32         {d10[1]}, [r0,:32], r1
        vshr.s16        q2,  q2,  #COL_SHIFT-16
        vld1.32         {d11[0]}, [r0,:32], r1
        vshr.s16        q3,  q3,  #COL_SHIFT-16
        vld1.32         {d11[1]}, [r0,:32], r1
        vshr.s16        q4,  q4,  #COL_SHIFT-16
        vld1.32         {d12[0]}, [r0,:32], r1
        vaddw.u8        q1,  q1,  d10
        vld1.32         {d12[1]}, [r0,:32], r1
        vaddw.u8        q2,  q2,  d11
        vld1.32         {d13[0]}, [r0,:32], r1
        vqmovun.s16     d2,  q1
        vld1.32         {d13[1]}, [r0,:32], r1
        vaddw.u8        q3,  q3,  d12
        vst1.32         {d2[0]},  [ip,:32], r1
        vqmovun.s16     d3,  q2
        vst1.32         {d2[1]},  [ip,:32], r1
        vaddw.u8        q4,  q4,  d13
        vst1.32         {d3[0]},  [ip,:32], r1
        vqmovun.s16     d4,  q3
        vst1.32         {d3[1]},  [ip,:32], r1
        vqmovun.s16     d5,  q4
        vst1.32         {d4[0]},  [ip,:32], r1
        vst1.32         {d4[1]},  [ip,:32], r1
        vst1.32         {d5[0]},  [ip,:32], r1
        vst1.32         {d5[1]},  [ip,:32], r1

        bx              lr
endfunc

/* void ff_simple_idct_add_neon(uint8_t *dst, int line_size, int16_t *data); */
function ff_simple_idct_add_neon, export=1
        idct_start      r2

        bl              idct_row4_pld_neon
        bl              idct_row4_neon
        add             r2,  r2,  #-128
        bl              idct_col4_neon
        bl              idct_col4_add8_neon
        sub             r0,  r0,  r1, lsl #3
        add             r0,  r0,  #4
        add             r2,  r2,  #-120
        bl              idct_col4_neon
        bl              idct_col4_add8_neon

        idct_end
endfunc

        .align 6

function idct_col4_st16_neon
        mov             ip,  #16

        vshr.s16        q1,  q1,  #COL_SHIFT-16
        vshr.s16        q2,  q2,  #COL_SHIFT-16
        vst1.64         {d2}, [r2,:64], ip
        vshr.s16        q3,  q3,  #COL_SHIFT-16
        vst1.64         {d3}, [r2,:64], ip
        vshr.s16        q4,  q4,  #COL_SHIFT-16
        vst1.64         {d4}, [r2,:64], ip
        vst1.64         {d5}, [r2,:64], ip
        vst1.64         {d6}, [r2,:64], ip
        vst1.64         {d7}, [r2,:64], ip
        vst1.64         {d8}, [r2,:64], ip
        vst1.64         {d9}, [r2,:64], ip

        bx              lr
endfunc

/* void ff_simple_idct_neon(int16_t *data); */
function ff_simple_idct_neon, export=1
        idct_start      r0

        mov             r2,  r0
        bl              idct_row4_neon
        bl              idct_row4_neon
        add             r2,  r2,  #-128
        bl              idct_col4_neon
        add             r2,  r2,  #-128
        bl              idct_col4_st16_neon
        add             r2,  r2,  #-120
        bl              idct_col4_neon
        add             r2,  r2,  #-128
        bl              idct_col4_st16_neon

        idct_end
endfunc
Commit	Line	Data
	1	/*
	2	* ARM NEON IDCT
	3	*
	4	* Copyright (c) 2008 Mans Rullgard <mans@mansr.com>
	5	*
	6	* Based on Simple IDCT
	7	* Copyright (c) 2001 Michael Niedermayer <michaelni@gmx.at>
	8	*
	9	* This file is part of FFmpeg.
	10	*
	11	* FFmpeg is free software; you can redistribute it and/or
	12	* modify it under the terms of the GNU Lesser General Public
	13	* License as published by the Free Software Foundation; either
	14	* version 2.1 of the License, or (at your option) any later version.
	15	*
	16	* FFmpeg is distributed in the hope that it will be useful,
	17	* but WITHOUT ANY WARRANTY; without even the implied warranty of
	18	* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	19	* Lesser General Public License for more details.
	20	*
	21	* You should have received a copy of the GNU Lesser General Public
	22	* License along with FFmpeg; if not, write to the Free Software
	23	* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	24	*/
	25
	26	#include "libavutil/arm/asm.S"
	27
	28	#define W1 22725 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
	29	#define W2 21407 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
	30	#define W3 19266 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
	31	#define W4 16383 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
	32	#define W5 12873 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
	33	#define W6 8867 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
	34	#define W7 4520 //cos(iM_PI/16)sqrt(2)*(1<<14) + 0.5
	35	#define W4c ((1<<(COL_SHIFT-1))/W4)
	36	#define ROW_SHIFT 11
	37	#define COL_SHIFT 20
	38
	39	#define w1 d0[0]
	40	#define w2 d0[1]
	41	#define w3 d0[2]
	42	#define w4 d0[3]
	43	#define w5 d1[0]
	44	#define w6 d1[1]
	45	#define w7 d1[2]
	46	#define w4c d1[3]
	47
	48	.macro idct_col4_top
	49	vmull.s16 q7, d6, w2 /* q9 = W2 * col[2] */
	50	vmull.s16 q8, d6, w6 /* q10 = W6 * col[2] */
	51	vmull.s16 q9, d4, w1 /* q9 = W1 * col[1] */
	52	vadd.i32 q11, q15, q7
	53	vmull.s16 q10, d4, w3 /* q10 = W3 * col[1] */
	54	vadd.i32 q12, q15, q8
	55	vmull.s16 q5, d4, w5 /* q5 = W5 * col[1] */
	56	vsub.i32 q13, q15, q8
	57	vmull.s16 q6, d4, w7 /* q6 = W7 * col[1] */
	58	vsub.i32 q14, q15, q7
	59
	60	vmlal.s16 q9, d8, w3 /* q9 += W3 * col[3] */
	61	vmlsl.s16 q10, d8, w7 /* q10 -= W7 * col[3] */
	62	vmlsl.s16 q5, d8, w1 /* q5 -= W1 * col[3] */
	63	vmlsl.s16 q6, d8, w5 /* q6 -= W5 * col[3] */
	64	.endm
	65
	66	.text
	67	.align 6
	68
	69	function idct_row4_pld_neon
	70	pld [r0]
	71	add r3, r0, r1, lsl #2
	72	pld [r0, r1]
	73	pld [r0, r1, lsl #1]
	74	A pld [r3, -r1]
	75	pld [r3]
	76	pld [r3, r1]
	77	add r3, r3, r1, lsl #1
	78	pld [r3]
	79	pld [r3, r1]
	80	endfunc
	81
	82	function idct_row4_neon
	83	vmov.i32 q15, #(1<<(ROW_SHIFT-1))
	84	vld1.64 {d2-d5}, [r2,:128]!
	85	vmlal.s16 q15, d2, w4 /* q15 += W4 * col[0] */
	86	vld1.64 {d6,d7}, [r2,:128]!
	87	vorr d10, d3, d5
	88	vld1.64 {d8,d9}, [r2,:128]!
	89	add r2, r2, #-64
	90
	91	vorr d11, d7, d9
	92	vorr d10, d10, d11
	93	vmov r3, r4, d10
	94
	95	idct_col4_top
	96
	97	orrs r3, r3, r4
	98	beq 1f
	99
	100	vmull.s16 q7, d3, w4 /* q7 = W4 * col[4] */
	101	vmlal.s16 q9, d5, w5 /* q9 += W5 * col[5] */
	102	vmlsl.s16 q10, d5, w1 /* q10 -= W1 * col[5] */
	103	vmull.s16 q8, d7, w2 /* q8 = W2 * col[6] */
	104	vmlal.s16 q5, d5, w7 /* q5 += W7 * col[5] */
	105	vadd.i32 q11, q11, q7
	106	vsub.i32 q12, q12, q7
	107	vsub.i32 q13, q13, q7
	108	vadd.i32 q14, q14, q7
	109	vmlal.s16 q6, d5, w3 /* q6 += W3 * col[5] */
	110	vmull.s16 q7, d7, w6 /* q7 = W6 * col[6] */
	111	vmlal.s16 q9, d9, w7
	112	vmlsl.s16 q10, d9, w5
	113	vmlal.s16 q5, d9, w3
	114	vmlsl.s16 q6, d9, w1
	115	vadd.i32 q11, q11, q7
	116	vsub.i32 q12, q12, q8
	117	vadd.i32 q13, q13, q8
	118	vsub.i32 q14, q14, q7
	119
	120	1: vadd.i32 q3, q11, q9
	121	vadd.i32 q4, q12, q10
	122	vshrn.i32 d2, q3, #ROW_SHIFT
	123	vshrn.i32 d4, q4, #ROW_SHIFT
	124	vadd.i32 q7, q13, q5
	125	vadd.i32 q8, q14, q6
	126	vtrn.16 d2, d4
	127	vshrn.i32 d6, q7, #ROW_SHIFT
	128	vshrn.i32 d8, q8, #ROW_SHIFT
	129	vsub.i32 q14, q14, q6
	130	vsub.i32 q11, q11, q9
	131	vtrn.16 d6, d8
	132	vsub.i32 q13, q13, q5
	133	vshrn.i32 d3, q14, #ROW_SHIFT
	134	vtrn.32 d2, d6
	135	vsub.i32 q12, q12, q10
	136	vtrn.32 d4, d8
	137	vshrn.i32 d5, q13, #ROW_SHIFT
	138	vshrn.i32 d7, q12, #ROW_SHIFT
	139	vshrn.i32 d9, q11, #ROW_SHIFT
	140
	141	vtrn.16 d3, d5
	142	vtrn.16 d7, d9
	143	vtrn.32 d3, d7
	144	vtrn.32 d5, d9
	145
	146	vst1.64 {d2-d5}, [r2,:128]!
	147	vst1.64 {d6-d9}, [r2,:128]!
	148
	149	bx lr
	150	endfunc
	151
	152	function idct_col4_neon
	153	mov ip, #16
	154	vld1.64 {d2}, [r2,:64], ip /* d2 = col[0] */
	155	vdup.16 d30, w4c
	156	vld1.64 {d4}, [r2,:64], ip /* d3 = col[1] */
	157	vadd.i16 d30, d30, d2
	158	vld1.64 {d6}, [r2,:64], ip /* d4 = col[2] */
	159	vmull.s16 q15, d30, w4 /* q15 = W4(col[0]+(1<<COL_SHIFT-1)/W4)/
	160	vld1.64 {d8}, [r2,:64], ip /* d5 = col[3] */
	161
	162	ldrd r4, r5, [r2]
	163	ldrd r6, r7, [r2, #16]
	164	orrs r4, r4, r5
	165
	166	idct_col4_top
	167	it eq
	168	addeq r2, r2, #16
	169	beq 1f
	170
	171	vld1.64 {d3}, [r2,:64], ip /* d6 = col[4] */
	172	vmull.s16 q7, d3, w4 /* q7 = W4 * col[4] */
	173	vadd.i32 q11, q11, q7
	174	vsub.i32 q12, q12, q7
	175	vsub.i32 q13, q13, q7
	176	vadd.i32 q14, q14, q7
	177
	178	1: orrs r6, r6, r7
	179	ldrd r4, r5, [r2, #16]
	180	it eq
	181	addeq r2, r2, #16
	182	beq 2f
	183
	184	vld1.64 {d5}, [r2,:64], ip /* d7 = col[5] */
	185	vmlal.s16 q9, d5, w5 /* q9 += W5 * col[5] */
	186	vmlsl.s16 q10, d5, w1 /* q10 -= W1 * col[5] */
	187	vmlal.s16 q5, d5, w7 /* q5 += W7 * col[5] */
	188	vmlal.s16 q6, d5, w3 /* q6 += W3 * col[5] */
	189
	190	2: orrs r4, r4, r5
	191	ldrd r4, r5, [r2, #16]
	192	it eq
	193	addeq r2, r2, #16
	194	beq 3f
	195
	196	vld1.64 {d7}, [r2,:64], ip /* d8 = col[6] */
	197	vmull.s16 q7, d7, w6 /* q7 = W6 * col[6] */
	198	vmull.s16 q8, d7, w2 /* q8 = W2 * col[6] */
	199	vadd.i32 q11, q11, q7
	200	vsub.i32 q14, q14, q7
	201	vsub.i32 q12, q12, q8
	202	vadd.i32 q13, q13, q8
	203
	204	3: orrs r4, r4, r5
	205	it eq
	206	addeq r2, r2, #16
	207	beq 4f
	208
	209	vld1.64 {d9}, [r2,:64], ip /* d9 = col[7] */
	210	vmlal.s16 q9, d9, w7
	211	vmlsl.s16 q10, d9, w5
	212	vmlal.s16 q5, d9, w3
	213	vmlsl.s16 q6, d9, w1
	214
	215	4: vaddhn.i32 d2, q11, q9
	216	vaddhn.i32 d3, q12, q10
	217	vaddhn.i32 d4, q13, q5
	218	vaddhn.i32 d5, q14, q6
	219	vsubhn.i32 d9, q11, q9
	220	vsubhn.i32 d8, q12, q10
	221	vsubhn.i32 d7, q13, q5
	222	vsubhn.i32 d6, q14, q6
	223
	224	bx lr
	225	endfunc
	226
	227	.align 6
	228
	229	function idct_col4_st8_neon
	230	vqshrun.s16 d2, q1, #COL_SHIFT-16
	231	vqshrun.s16 d3, q2, #COL_SHIFT-16
	232	vqshrun.s16 d4, q3, #COL_SHIFT-16
	233	vqshrun.s16 d5, q4, #COL_SHIFT-16
	234	vst1.32 {d2[0]}, [r0,:32], r1
	235	vst1.32 {d2[1]}, [r0,:32], r1
	236	vst1.32 {d3[0]}, [r0,:32], r1
	237	vst1.32 {d3[1]}, [r0,:32], r1
	238	vst1.32 {d4[0]}, [r0,:32], r1
	239	vst1.32 {d4[1]}, [r0,:32], r1
	240	vst1.32 {d5[0]}, [r0,:32], r1
	241	vst1.32 {d5[1]}, [r0,:32], r1
	242
	243	bx lr
	244	endfunc
	245
	246	const idct_coeff_neon, align=4
	247	.short W1, W2, W3, W4, W5, W6, W7, W4c
	248	endconst
	249
	250	.macro idct_start data
	251	push {r4-r7, lr}
	252	pld [\data]
	253	pld [\data, #64]
	254	vpush {d8-d15}
	255	movrel r3, idct_coeff_neon
	256	vld1.64 {d0,d1}, [r3,:128]
	257	.endm
	258
	259	.macro idct_end
	260	vpop {d8-d15}
	261	pop {r4-r7, pc}
	262	.endm
	263
	264	/* void ff_simple_idct_put_neon(uint8_t dst, int line_size, int16_t data); */
	265	function ff_simple_idct_put_neon, export=1
	266	idct_start r2
	267
	268	bl idct_row4_pld_neon
	269	bl idct_row4_neon
	270	add r2, r2, #-128
	271	bl idct_col4_neon
	272	bl idct_col4_st8_neon
	273	sub r0, r0, r1, lsl #3
	274	add r0, r0, #4
	275	add r2, r2, #-120
	276	bl idct_col4_neon
	277	bl idct_col4_st8_neon
	278
	279	idct_end
	280	endfunc
	281
	282	.align 6
	283
	284	function idct_col4_add8_neon
	285	mov ip, r0
	286
	287	vld1.32 {d10[0]}, [r0,:32], r1
	288	vshr.s16 q1, q1, #COL_SHIFT-16
	289	vld1.32 {d10[1]}, [r0,:32], r1
	290	vshr.s16 q2, q2, #COL_SHIFT-16
	291	vld1.32 {d11[0]}, [r0,:32], r1
	292	vshr.s16 q3, q3, #COL_SHIFT-16
	293	vld1.32 {d11[1]}, [r0,:32], r1
	294	vshr.s16 q4, q4, #COL_SHIFT-16
	295	vld1.32 {d12[0]}, [r0,:32], r1
	296	vaddw.u8 q1, q1, d10
	297	vld1.32 {d12[1]}, [r0,:32], r1
	298	vaddw.u8 q2, q2, d11
	299	vld1.32 {d13[0]}, [r0,:32], r1
	300	vqmovun.s16 d2, q1
	301	vld1.32 {d13[1]}, [r0,:32], r1
	302	vaddw.u8 q3, q3, d12
	303	vst1.32 {d2[0]}, [ip,:32], r1
	304	vqmovun.s16 d3, q2
	305	vst1.32 {d2[1]}, [ip,:32], r1
	306	vaddw.u8 q4, q4, d13
	307	vst1.32 {d3[0]}, [ip,:32], r1
	308	vqmovun.s16 d4, q3
	309	vst1.32 {d3[1]}, [ip,:32], r1
	310	vqmovun.s16 d5, q4
	311	vst1.32 {d4[0]}, [ip,:32], r1
	312	vst1.32 {d4[1]}, [ip,:32], r1
	313	vst1.32 {d5[0]}, [ip,:32], r1
	314	vst1.32 {d5[1]}, [ip,:32], r1
	315
	316	bx lr
	317	endfunc
	318
	319	/* void ff_simple_idct_add_neon(uint8_t dst, int line_size, int16_t data); */
	320	function ff_simple_idct_add_neon, export=1
	321	idct_start r2
	322
	323	bl idct_row4_pld_neon
	324	bl idct_row4_neon
	325	add r2, r2, #-128
	326	bl idct_col4_neon
	327	bl idct_col4_add8_neon
	328	sub r0, r0, r1, lsl #3
	329	add r0, r0, #4
	330	add r2, r2, #-120
	331	bl idct_col4_neon
	332	bl idct_col4_add8_neon
	333
	334	idct_end
	335	endfunc
	336
	337	.align 6
	338
	339	function idct_col4_st16_neon
	340	mov ip, #16
	341
	342	vshr.s16 q1, q1, #COL_SHIFT-16
	343	vshr.s16 q2, q2, #COL_SHIFT-16
	344	vst1.64 {d2}, [r2,:64], ip
	345	vshr.s16 q3, q3, #COL_SHIFT-16
	346	vst1.64 {d3}, [r2,:64], ip
	347	vshr.s16 q4, q4, #COL_SHIFT-16
	348	vst1.64 {d4}, [r2,:64], ip
	349	vst1.64 {d5}, [r2,:64], ip
	350	vst1.64 {d6}, [r2,:64], ip
	351	vst1.64 {d7}, [r2,:64], ip
	352	vst1.64 {d8}, [r2,:64], ip
	353	vst1.64 {d9}, [r2,:64], ip
	354
	355	bx lr
	356	endfunc
	357
	358	/* void ff_simple_idct_neon(int16_t data); /
	359	function ff_simple_idct_neon, export=1
	360	idct_start r0
	361
	362	mov r2, r0
	363	bl idct_row4_neon
	364	bl idct_row4_neon
	365	add r2, r2, #-128
	366	bl idct_col4_neon
	367	add r2, r2, #-128
	368	bl idct_col4_st16_neon
	369	add r2, r2, #-120
	370	bl idct_col4_neon
	371	add r2, r2, #-128
	372	bl idct_col4_st16_neon
	373
	374	idct_end
	375	endfunc