[deb_ffmpeg.git] / x86 / vf_idet.asm

;*****************************************************************************
;* x86-optimized functions for idet filter
;*
;* Copyright (C) 2014 Pascal Massimino (pascal.massimino@gmail.com)
;* Copyright (c) 2014 Neil Birkbeck (birkbeck@google.com)
;*
;* This file is part of FFmpeg.
;*
;* FFmpeg is free software; you can redistribute it and/or
;* modify it under the terms of the GNU Lesser General Public
;* License as published by the Free Software Foundation; either
;* version 2.1 of the License, or (at your option) any later version.
;*
;* FFmpeg is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
;* Lesser General Public License for more details.
;*
;* You should have received a copy of the GNU Lesser General Public
;* License along with FFmpeg; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
;******************************************************************************

%include "libavutil/x86/x86util.asm"

SECTION_TEXT

; Implementation that does 8-bytes at a time using single-word operations.
%macro IDET_FILTER_LINE 1
INIT_MMX %1
cglobal idet_filter_line, 4, 5, 0, a, b, c, width, index
    xor       indexq, indexq
%define   m_zero m2
%define   m_sum  m5
    pxor      m_sum, m_sum
    pxor      m_zero, m_zero

.loop:
    movu      m0, [aq + indexq*1]
    punpckhbw m1, m0, m_zero
    punpcklbw m0, m_zero

    movu      m3, [cq + indexq*1]
    punpckhbw m4, m3, m_zero
    punpcklbw m3, m_zero

    paddsw    m1, m4
    paddsw    m0, m3

    movu      m3, [bq + indexq*1]
    punpckhbw m4, m3, m_zero
    punpcklbw m3, m_zero

    paddw     m4, m4
    paddw     m3, m3
    psubsw    m1, m4
    psubsw    m0, m3

    ABS2      m1, m0, m4, m3

    paddw     m0, m1
    punpckhwd m1, m0, m_zero
    punpcklwd m0, m_zero

    paddd     m0, m1
    paddd     m_sum, m0

    add       indexq, 0x8
    CMP       widthd, indexd
    jg        .loop

    HADDD     m_sum, m0
    movd      eax, m_sum
    RET
%endmacro

%if ARCH_X86_32
IDET_FILTER_LINE mmxext
IDET_FILTER_LINE mmx
%endif

;******************************************************************************
; 16bit implementation that does 4/8-pixels at a time

%macro PABS_DIFF_WD 3    ; a, b, junk   , output=a
  psubusw   %3, %2, %1
  psubusw   %1, %2
  por       %1, %3

  mova      %2, %1
  punpcklwd %1, m_zero
  punpckhwd %2, m_zero
  paddd     %1, %2
%endmacro

%macro IDET_FILTER_LINE_16BIT 1   ; %1=increment (4 or 8 words)
cglobal idet_filter_line_16bit, 4, 5, 8, a, b, c, width, index
    xor       indexq, indexq
%define m_zero m1
%define m_sum  m0
    pxor      m_sum, m_sum
    pxor      m_zero, m_zero

.loop_16bit:
    movu      m2, [bq + indexq * 2]  ; B
    movu      m3, [aq + indexq * 2]  ; A
    mova      m6, m2
    psubusw   m5, m2, m3             ; ba

    movu      m4, [cq + indexq * 2]  ; C
    add       indexq, %1
    psubusw   m3, m2                 ; ab
    CMP       indexd, widthd

    psubusw   m6, m4                 ; bc
    psubusw   m4, m2                 ; cb

    PABS_DIFF_WD   m3, m6, m7        ; |ab - bc|
    PABS_DIFF_WD   m5, m4, m7        ; |ba - cb|
    paddd          m_sum, m3
    paddd          m_sum, m5
    jl        .loop_16bit

    HADDD     m_sum, m2
    movd      eax, m_sum
    RET
%endmacro

INIT_XMM sse2
IDET_FILTER_LINE_16BIT 8
%if ARCH_X86_32
INIT_MMX mmx
IDET_FILTER_LINE_16BIT 4
%endif

;******************************************************************************
; SSE2 8-bit implementation that does 16-bytes at a time:

INIT_XMM sse2
cglobal idet_filter_line, 4, 6, 7, a, b, c, width, index, total
    xor       indexq, indexq
    pxor      m0, m0
    pxor      m1, m1

.sse2_loop:
    movu      m2, [bq + indexq*1]  ; B
    movu      m3, [aq + indexq*1]  ; A
    mova      m6, m2
    mova      m4, m3
    psubusb   m5, m2, m3           ; ba

    movu      m3, [cq + indexq*1]  ; C
    add       indexq, 0x10
    psubusb   m4, m2               ; ab
    CMP       indexd, widthd

    psubusb   m6, m3               ; bc
    psubusb   m3, m2               ; cb

    psadbw    m4, m6               ; |ab - bc|
    paddq     m0, m4
    psadbw    m5, m3               ; |ba - cb|
    paddq     m1, m5
    jl       .sse2_loop

    paddq     m0, m1
    movhlps   m1, m0
    paddq     m0, m1
    movd      eax, m0
    RET
Commit	Line	Data
	1	;*****************************************************************************
	2	;* x86-optimized functions for idet filter
	3	;*
	4	;* Copyright (C) 2014 Pascal Massimino (pascal.massimino@gmail.com)
	5	;* Copyright (c) 2014 Neil Birkbeck (birkbeck@google.com)
	6	;*
	7	;* This file is part of FFmpeg.
	8	;*
	9	;* FFmpeg is free software; you can redistribute it and/or
	10	;* modify it under the terms of the GNU Lesser General Public
	11	;* License as published by the Free Software Foundation; either
	12	;* version 2.1 of the License, or (at your option) any later version.
	13	;*
	14	;* FFmpeg is distributed in the hope that it will be useful,
	15	;* but WITHOUT ANY WARRANTY; without even the implied warranty of
	16	;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU
	17	;* Lesser General Public License for more details.
	18	;*
	19	;* You should have received a copy of the GNU Lesser General Public
	20	;* License along with FFmpeg; if not, write to the Free Software
	21	;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301 USA
	22	;******************************************************************************
	23
	24	%include "libavutil/x86/x86util.asm"
	25
	26	SECTION_TEXT
	27
	28	; Implementation that does 8-bytes at a time using single-word operations.
	29	%macro IDET_FILTER_LINE 1
	30	INIT_MMX %1
	31	cglobal idet_filter_line, 4, 5, 0, a, b, c, width, index
	32	xor indexq, indexq
	33	%define m_zero m2
	34	%define m_sum m5
	35	pxor m_sum, m_sum
	36	pxor m_zero, m_zero
	37
	38	.loop:
	39	movu m0, [aq + indexq*1]
	40	punpckhbw m1, m0, m_zero
	41	punpcklbw m0, m_zero
	42
	43	movu m3, [cq + indexq*1]
	44	punpckhbw m4, m3, m_zero
	45	punpcklbw m3, m_zero
	46
	47	paddsw m1, m4
	48	paddsw m0, m3
	49
	50	movu m3, [bq + indexq*1]
	51	punpckhbw m4, m3, m_zero
	52	punpcklbw m3, m_zero
	53
	54	paddw m4, m4
	55	paddw m3, m3
	56	psubsw m1, m4
	57	psubsw m0, m3
	58
	59	ABS2 m1, m0, m4, m3
	60
	61	paddw m0, m1
	62	punpckhwd m1, m0, m_zero
	63	punpcklwd m0, m_zero
	64
	65	paddd m0, m1
	66	paddd m_sum, m0
	67
	68	add indexq, 0x8
	69	CMP widthd, indexd
	70	jg .loop
	71
	72	HADDD m_sum, m0
	73	movd eax, m_sum
	74	RET
	75	%endmacro
	76
	77	%if ARCH_X86_32
	78	IDET_FILTER_LINE mmxext
	79	IDET_FILTER_LINE mmx
	80	%endif
	81
	82	;******************************************************************************
	83	; 16bit implementation that does 4/8-pixels at a time
	84
	85	%macro PABS_DIFF_WD 3 ; a, b, junk , output=a
	86	psubusw %3, %2, %1
	87	psubusw %1, %2
	88	por %1, %3
	89
	90	mova %2, %1
	91	punpcklwd %1, m_zero
	92	punpckhwd %2, m_zero
	93	paddd %1, %2
	94	%endmacro
	95
	96	%macro IDET_FILTER_LINE_16BIT 1 ; %1=increment (4 or 8 words)
	97	cglobal idet_filter_line_16bit, 4, 5, 8, a, b, c, width, index
	98	xor indexq, indexq
	99	%define m_zero m1
	100	%define m_sum m0
	101	pxor m_sum, m_sum
	102	pxor m_zero, m_zero
	103
	104	.loop_16bit:
	105	movu m2, [bq + indexq * 2] ; B
	106	movu m3, [aq + indexq * 2] ; A
	107	mova m6, m2
	108	psubusw m5, m2, m3 ; ba
	109
	110	movu m4, [cq + indexq * 2] ; C
	111	add indexq, %1
	112	psubusw m3, m2 ; ab
	113	CMP indexd, widthd
	114
	115	psubusw m6, m4 ; bc
	116	psubusw m4, m2 ; cb
	117
	118	PABS_DIFF_WD m3, m6, m7 ; \|ab - bc\|
	119	PABS_DIFF_WD m5, m4, m7 ; \|ba - cb\|
	120	paddd m_sum, m3
	121	paddd m_sum, m5
	122	jl .loop_16bit
	123
	124	HADDD m_sum, m2
	125	movd eax, m_sum
	126	RET
	127	%endmacro
	128
	129	INIT_XMM sse2
	130	IDET_FILTER_LINE_16BIT 8
	131	%if ARCH_X86_32
	132	INIT_MMX mmx
	133	IDET_FILTER_LINE_16BIT 4
	134	%endif
	135
	136	;******************************************************************************
	137	; SSE2 8-bit implementation that does 16-bytes at a time:
	138
	139	INIT_XMM sse2
	140	cglobal idet_filter_line, 4, 6, 7, a, b, c, width, index, total
	141	xor indexq, indexq
	142	pxor m0, m0
	143	pxor m1, m1
	144
	145	.sse2_loop:
	146	movu m2, [bq + indexq*1] ; B
	147	movu m3, [aq + indexq*1] ; A
	148	mova m6, m2
	149	mova m4, m3
	150	psubusb m5, m2, m3 ; ba
	151
	152	movu m3, [cq + indexq*1] ; C
	153	add indexq, 0x10
	154	psubusb m4, m2 ; ab
	155	CMP indexd, widthd
	156
	157	psubusb m6, m3 ; bc
	158	psubusb m3, m2 ; cb
	159
	160	psadbw m4, m6 ; \|ab - bc\|
	161	paddq m0, m4
	162	psadbw m5, m3 ; \|ba - cb\|
	163	paddq m1, m5
	164	jl .sse2_loop
	165
	166	paddq m0, m1
	167	movhlps m1, m0
	168	paddq m0, m1
	169	movd eax, m0
	170	RET