]>
Raphaël G. Git Repositories - youtubedl/blob - youtube_dl/extractor/elpais.py
2 from __future__
import unicode_literals
4 from . common
import InfoExtractor
5 from .. utils
import unified_strdate
8 class ElPaisIE ( InfoExtractor
):
9 _VALID_URL
= r
'https?://(?:[^.]+\.)?elpais\.com/.*/(?P<id>[^/#?]+)\.html(?:$|[?#])'
13 'url' : 'http://blogs.elpais.com/la-voz-de-inaki/2014/02/tiempo-nuevo-recetas-viejas.html' ,
14 'md5' : '98406f301f19562170ec071b83433d55' ,
16 'id' : 'tiempo-nuevo-recetas-viejas' ,
18 'title' : 'Tiempo nuevo, recetas viejas' ,
19 'description' : 'De lunes a viernes, a partir de las ocho de la mañana, Iñaki Gabilondo nos cuenta su visión de la actualidad nacional e internacional.' ,
20 'upload_date' : '20140206' ,
23 'url' : 'http://elcomidista.elpais.com/elcomidista/2016/02/24/articulo/1456340311_668921.html#?id_externo_nwl=newsletter_diaria20160303t' ,
24 'md5' : '3bd5b09509f3519d7d9e763179b013de' ,
26 'id' : '1456340311_668921' ,
28 'title' : 'Cómo hacer el mejor café con cafetera italiana' ,
29 'description' : 'Que sí, que las cápsulas son cómodas. Pero si le pides algo más a la vida, quizá deberías aprender a usar bien la cafetera italiana. No tienes más que ver este vídeo y seguir sus siete normas básicas.' ,
30 'upload_date' : '20160303' ,
34 def _real_extract ( self
, url
):
35 video_id
= self
._ match
_ id
( url
)
36 webpage
= self
._ download
_ webpage
( url
, video_id
)
38 prefix
= self
._ html
_ search
_ regex
(
39 r
'var\s+url_cache\s*=\s*"([^"]+)";' , webpage
, 'URL prefix' )
40 video_suffix
= self
._ search
_ regex
(
41 r
"(?:URLMediaFile|urlVideo_\d+)\s*=\s*url_cache\s*\+\s*'([^']+)'" , webpage
, 'video URL' )
42 video_url
= prefix
+ video_suffix
43 thumbnail_suffix
= self
._ search
_ regex
(
44 r
"(?:URLMediaStill|urlFotogramaFijo_\d+)\s*=\s*url_cache\s*\+\s*'([^']+)'" ,
45 webpage
, 'thumbnail URL' , fatal
= False )
47 None if thumbnail_suffix
is None
48 else prefix
+ thumbnail_suffix
)
49 title
= self
._ html
_ search
_ regex
(
50 ( r
"tituloVideo\s*=\s*'([^']+)'" , webpage
, 'title' ,
51 r
'<h2 class="entry-header entry-title.*?>(.*?)</h2>' ),
53 upload_date
= unified_strdate ( self
._ search
_ regex
(
54 r
'<p class="date-header date-int updated"\s+title="([^"]+)">' ,
55 webpage
, 'upload date' , default
= None ) or self
._ html
_ search
_ meta
(
56 'datePublished' , webpage
, 'timestamp' ))
62 'description' : self
._ og
_ search
_ description
( webpage
),
63 'thumbnail' : thumbnail
,
64 'upload_date' : upload_date
,