[deb_ffmpeg.git] / ffmpeg / libavcodec / x86 / qpel.asm

;******************************************************************************
;* SIMD-optimized quarterpel functions
;* Copyright (c) 2008 Loren Merritt
;* Copyright (c) 2003-2013 Michael Niedermayer
;* Copyright (c) 2013 Daniel Kang
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION .text

%macro op_avgh 3
    movh   %3, %2
    pavgb  %1, %3
    movh   %2, %1
%endmacro

%macro op_avg 2
    pavgb  %1, %2
    mova   %2, %1
%endmacro

%macro op_puth 2-3
    movh   %2, %1
%endmacro

%macro op_put 2
    mova   %2, %1
%endmacro

; void ff_put/avg_pixels4_l2_mmxext(uint8_t *dst, uint8_t *src1, uint8_t *src2,
;                                   int dstStride, int src1Stride, int h)
%macro PIXELS4_L2 1
%define OP op_%1h
cglobal %1_pixels4_l2, 6,6
    movsxdifnidn r3, r3d
    movsxdifnidn r4, r4d
    test        r5d, 1
    je        .loop
    movd         m0, [r1]
    movd         m1, [r2]
    add          r1, r4
    add          r2, 4
    pavgb        m0, m1
    OP           m0, [r0], m3
    add          r0, r3
    dec         r5d
.loop:
    mova         m0, [r1]
    mova         m1, [r1+r4]
    lea          r1, [r1+2*r4]
    pavgb        m0, [r2]
    pavgb        m1, [r2+4]
    OP           m0, [r0], m3
    OP           m1, [r0+r3], m3
    lea          r0, [r0+2*r3]
    mova         m0, [r1]
    mova         m1, [r1+r4]
    lea          r1, [r1+2*r4]
    pavgb        m0, [r2+8]
    pavgb        m1, [r2+12]
    OP           m0, [r0], m3
    OP           m1, [r0+r3], m3
    lea          r0, [r0+2*r3]
    add          r2, 16
    sub         r5d, 4
    jne       .loop
    REP_RET
%endmacro

INIT_MMX mmxext
PIXELS4_L2 put
PIXELS4_L2 avg

; void ff_put/avg_pixels8_l2_mmxext(uint8_t *dst, uint8_t *src1, uint8_t *src2,
;                                   int dstStride, int src1Stride, int h)
%macro PIXELS8_L2 1
%define OP op_%1
cglobal %1_pixels8_l2, 6,6
    movsxdifnidn r3, r3d
    movsxdifnidn r4, r4d
    test        r5d, 1
    je        .loop
    mova         m0, [r1]
    mova         m1, [r2]
    add          r1, r4
    add          r2, 8
    pavgb        m0, m1
    OP           m0, [r0]
    add          r0, r3
    dec         r5d
.loop:
    mova         m0, [r1]
    mova         m1, [r1+r4]
    lea          r1, [r1+2*r4]
    pavgb        m0, [r2]
    pavgb        m1, [r2+8]
    OP           m0, [r0]
    OP           m1, [r0+r3]
    lea          r0, [r0+2*r3]
    mova         m0, [r1]
    mova         m1, [r1+r4]
    lea          r1, [r1+2*r4]
    pavgb        m0, [r2+16]
    pavgb        m1, [r2+24]
    OP           m0, [r0]
    OP           m1, [r0+r3]
    lea          r0, [r0+2*r3]
    add          r2, 32
    sub         r5d, 4
    jne       .loop
    REP_RET
%endmacro

INIT_MMX mmxext
PIXELS8_L2 put
PIXELS8_L2 avg

; void ff_put/avg_pixels16_l2_mmxext(uint8_t *dst, uint8_t *src1, uint8_t *src2,
;                                    int dstStride, int src1Stride, int h)
%macro PIXELS16_L2 1
%define OP op_%1
cglobal %1_pixels16_l2, 6,6
    movsxdifnidn r3, r3d
    movsxdifnidn r4, r4d
    test        r5d, 1
    je        .loop
    mova         m0, [r1]
    mova         m1, [r1+8]
    pavgb        m0, [r2]
    pavgb        m1, [r2+8]
    add          r1, r4
    add          r2, 16
    OP           m0, [r0]
    OP           m1, [r0+8]
    add          r0, r3
    dec         r5d
.loop:
    mova         m0, [r1]
    mova         m1, [r1+8]
    add          r1, r4
    pavgb        m0, [r2]
    pavgb        m1, [r2+8]
    OP           m0, [r0]
    OP           m1, [r0+8]
    add          r0, r3
    mova         m0, [r1]
    mova         m1, [r1+8]
    add          r1, r4
    pavgb        m0, [r2+16]
    pavgb        m1, [r2+24]
    OP           m0, [r0]
    OP           m1, [r0+8]
    add          r0, r3
    add          r2, 32
    sub         r5d, 2
    jne       .loop
    REP_RET
%endmacro

INIT_MMX mmxext
PIXELS16_L2 put
PIXELS16_L2 avg
Commit	Line	Data
	1	;******************************************************************************
	2	;* SIMD-optimized quarterpel functions
	3	;* Copyright (c) 2008 Loren Merritt
	4	;* Copyright (c) 2003-2013 Michael Niedermayer
	5	;* Copyright (c) 2013 Daniel Kang
	6	;*
	7	;* This file is part of FFmpeg.
	8	;*
	9	;* FFmpeg is free software; you can redistribute it and/or
	10	;* modify it under the terms of the GNU Lesser General Public
	11	;* License as published by the Free Software Foundation; either
	12	;* version 2.1 of the License, or (at your option) any later version.
	13	;*
	14	;* FFmpeg is distributed in the hope that it will be useful,
	15	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	16	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	17	;* Lesser General Public License for more details.
	18	;*
	19	;* You should have received a copy of the GNU Lesser General Public
	20	;* License along with FFmpeg; if not, write to the Free Software
	21	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	22	;******************************************************************************
	23
	24	%include "libavutil/x86/x86util.asm"
	25
	26	SECTION .text
	27
	28	%macro op_avgh 3
	29	movh %3, %2
	30	pavgb %1, %3
	31	movh %2, %1
	32	%endmacro
	33
	34	%macro op_avg 2
	35	pavgb %1, %2
	36	mova %2, %1
	37	%endmacro
	38
	39	%macro op_puth 2-3
	40	movh %2, %1
	41	%endmacro
	42
	43	%macro op_put 2
	44	mova %2, %1
	45	%endmacro
	46
	47	; void ff_put/avg_pixels4_l2_mmxext(uint8_t dst, uint8_t src1, uint8_t *src2,
	48	; int dstStride, int src1Stride, int h)
	49	%macro PIXELS4_L2 1
	50	%define OP op_%1h
	51	cglobal %1_pixels4_l2, 6,6
	52	movsxdifnidn r3, r3d
	53	movsxdifnidn r4, r4d
	54	test r5d, 1
	55	je .loop
	56	movd m0, [r1]
	57	movd m1, [r2]
	58	add r1, r4
	59	add r2, 4
	60	pavgb m0, m1
	61	OP m0, [r0], m3
	62	add r0, r3
	63	dec r5d
	64	.loop:
	65	mova m0, [r1]
	66	mova m1, [r1+r4]
	67	lea r1, [r1+2*r4]
	68	pavgb m0, [r2]
	69	pavgb m1, [r2+4]
	70	OP m0, [r0], m3
	71	OP m1, [r0+r3], m3
	72	lea r0, [r0+2*r3]
	73	mova m0, [r1]
	74	mova m1, [r1+r4]
	75	lea r1, [r1+2*r4]
	76	pavgb m0, [r2+8]
	77	pavgb m1, [r2+12]
	78	OP m0, [r0], m3
	79	OP m1, [r0+r3], m3
	80	lea r0, [r0+2*r3]
	81	add r2, 16
	82	sub r5d, 4
	83	jne .loop
	84	REP_RET
	85	%endmacro
	86
	87	INIT_MMX mmxext
	88	PIXELS4_L2 put
	89	PIXELS4_L2 avg
	90
	91	; void ff_put/avg_pixels8_l2_mmxext(uint8_t dst, uint8_t src1, uint8_t *src2,
	92	; int dstStride, int src1Stride, int h)
	93	%macro PIXELS8_L2 1
	94	%define OP op_%1
	95	cglobal %1_pixels8_l2, 6,6
	96	movsxdifnidn r3, r3d
	97	movsxdifnidn r4, r4d
	98	test r5d, 1
	99	je .loop
	100	mova m0, [r1]
	101	mova m1, [r2]
	102	add r1, r4
	103	add r2, 8
	104	pavgb m0, m1
	105	OP m0, [r0]
	106	add r0, r3
	107	dec r5d
	108	.loop:
	109	mova m0, [r1]
	110	mova m1, [r1+r4]
	111	lea r1, [r1+2*r4]
	112	pavgb m0, [r2]
	113	pavgb m1, [r2+8]
	114	OP m0, [r0]
	115	OP m1, [r0+r3]
	116	lea r0, [r0+2*r3]
	117	mova m0, [r1]
	118	mova m1, [r1+r4]
	119	lea r1, [r1+2*r4]
	120	pavgb m0, [r2+16]
	121	pavgb m1, [r2+24]
	122	OP m0, [r0]
	123	OP m1, [r0+r3]
	124	lea r0, [r0+2*r3]
	125	add r2, 32
	126	sub r5d, 4
	127	jne .loop
	128	REP_RET
	129	%endmacro
	130
	131	INIT_MMX mmxext
	132	PIXELS8_L2 put
	133	PIXELS8_L2 avg
	134
	135	; void ff_put/avg_pixels16_l2_mmxext(uint8_t dst, uint8_t src1, uint8_t *src2,
	136	; int dstStride, int src1Stride, int h)
	137	%macro PIXELS16_L2 1
	138	%define OP op_%1
	139	cglobal %1_pixels16_l2, 6,6
	140	movsxdifnidn r3, r3d
	141	movsxdifnidn r4, r4d
	142	test r5d, 1
	143	je .loop
	144	mova m0, [r1]
	145	mova m1, [r1+8]
	146	pavgb m0, [r2]
	147	pavgb m1, [r2+8]
	148	add r1, r4
	149	add r2, 16
	150	OP m0, [r0]
	151	OP m1, [r0+8]
	152	add r0, r3
	153	dec r5d
	154	.loop:
	155	mova m0, [r1]
	156	mova m1, [r1+8]
	157	add r1, r4
	158	pavgb m0, [r2]
	159	pavgb m1, [r2+8]
	160	OP m0, [r0]
	161	OP m1, [r0+8]
	162	add r0, r3
	163	mova m0, [r1]
	164	mova m1, [r1+8]
	165	add r1, r4
	166	pavgb m0, [r2+16]
	167	pavgb m1, [r2+24]
	168	OP m0, [r0]
	169	OP m1, [r0+8]
	170	add r0, r3
	171	add r2, 32
	172	sub r5d, 2
	173	jne .loop
	174	REP_RET
	175	%endmacro
	176
	177	INIT_MMX mmxext
	178	PIXELS16_L2 put
	179	PIXELS16_L2 avg