]>
Raphaël G. Git Repositories - youtubedl/blob - youtube_dl/extractor/elpais.py
2 from __future__
import unicode_literals
4 from . common
import InfoExtractor
5 from .. utils
import strip_jsonp
, unified_strdate
8 class ElPaisIE ( InfoExtractor
):
9 _VALID_URL
= r
'https?://(?:[^.]+\.)?elpais\.com/.*/(?P<id>[^/#?]+)\.html(?:$|[?#])'
13 'url' : 'http://blogs.elpais.com/la-voz-de-inaki/2014/02/tiempo-nuevo-recetas-viejas.html' ,
14 'md5' : '98406f301f19562170ec071b83433d55' ,
16 'id' : 'tiempo-nuevo-recetas-viejas' ,
18 'title' : 'Tiempo nuevo, recetas viejas' ,
19 'description' : 'De lunes a viernes, a partir de las ocho de la mañana, Iñaki Gabilondo nos cuenta su visión de la actualidad nacional e internacional.' ,
20 'upload_date' : '20140206' ,
23 'url' : 'http://elcomidista.elpais.com/elcomidista/2016/02/24/articulo/1456340311_668921.html#?id_externo_nwl=newsletter_diaria20160303t' ,
24 'md5' : '3bd5b09509f3519d7d9e763179b013de' ,
26 'id' : '1456340311_668921' ,
28 'title' : 'Cómo hacer el mejor café con cafetera italiana' ,
29 'description' : 'Que sí, que las cápsulas son cómodas. Pero si le pides algo más a la vida, quizá deberías aprender a usar bien la cafetera italiana. No tienes más que ver este vídeo y seguir sus siete normas básicas.' ,
30 'upload_date' : '20160303' ,
33 'url' : 'http://elpais.com/elpais/2017/01/26/ciencia/1485456786_417876.html' ,
34 'md5' : '9c79923a118a067e1a45789e1e0b0f9c' ,
36 'id' : '1485456786_417876' ,
38 'title' : 'Hallado un barco de la antigua Roma que naufragó en Baleares hace 1.800 años' ,
39 'description' : 'La nave portaba cientos de ánforas y se hundió cerca de la isla de Cabrera por razones desconocidas' ,
40 'upload_date' : '20170127' ,
44 def _real_extract ( self
, url
):
45 video_id
= self
._ match
_ id
( url
)
46 webpage
= self
._ download
_ webpage
( url
, video_id
)
48 prefix
= self
._ html
_ search
_ regex
(
49 r
'var\s+url_cache\s*=\s*"([^"]+)";' , webpage
, 'URL prefix' )
50 id_multimedia
= self
._ search
_ regex
(
51 r
"id_multimedia\s*=\s*'([^']+)'" , webpage
, 'ID multimedia' , default
= None )
53 url_info
= self
._ download
_ json
(
54 'http://elpais.com/vdpep/1/?pepid=' + id_multimedia
, video_id
, transform_source
= strip_jsonp
)
55 video_suffix
= url_info
[ 'mp4' ]
57 video_suffix
= self
._ search
_ regex
(
58 r
"(?:URLMediaFile|urlVideo_\d+)\s*=\s*url_cache\s*\+\s*'([^']+)'" , webpage
, 'video URL' )
59 video_url
= prefix
+ video_suffix
60 thumbnail_suffix
= self
._ search
_ regex
(
61 r
"(?:URLMediaStill|urlFotogramaFijo_\d+)\s*=\s*url_cache\s*\+\s*'([^']+)'" ,
62 webpage
, 'thumbnail URL' , fatal
= False )
64 None if thumbnail_suffix
is None
65 else prefix
+ thumbnail_suffix
)
66 title
= self
._ html
_ search
_ regex
(
67 ( r
"tituloVideo\s*=\s*'([^']+)'" , webpage
, 'title' ,
68 r
'<h2 class="entry-header entry-title.*?>(.*?)</h2>' ),
70 upload_date
= unified_strdate ( self
._ search
_ regex
(
71 r
'<p class="date-header date-int updated"\s+title="([^"]+)">' ,
72 webpage
, 'upload date' , default
= None ) or self
._ html
_ search
_ meta
(
73 'datePublished' , webpage
, 'timestamp' ))
79 'description' : self
._ og
_ search
_ description
( webpage
),
80 'thumbnail' : thumbnail
,
81 'upload_date' : upload_date
,