]> Raphaël G. Git Repositories - youtubedl/blob - youtube_dl/extractor/globo.py
dc7b2661c58a0b35053ea50c7a2c1fa7b093f642
[youtubedl] / youtube_dl / extractor / globo.py
1 # coding: utf-8
2 from __future__ import unicode_literals
3
4 import random
5 import re
6 import math
7
8 from .common import InfoExtractor
9 from ..compat import (
10 compat_str,
11 compat_chr,
12 compat_ord,
13 )
14 from ..utils import (
15 ExtractorError,
16 float_or_none,
17 int_or_none,
18 orderedSet,
19 str_or_none,
20 )
21
22
23 class GloboIE(InfoExtractor):
24 _VALID_URL = r'(?:globo:|https?://.+?\.globo\.com/(?:[^/]+/)*(?:v/(?:[^/]+/)?|videos/))(?P<id>\d{7,})'
25
26 _API_URL_TEMPLATE = 'http://api.globovideos.com/videos/%s/playlist'
27 _SECURITY_URL_TEMPLATE = 'http://security.video.globo.com/videos/%s/hash?player=flash&version=17.0.0.132&resource_id=%s'
28
29 _RESIGN_EXPIRATION = 86400
30
31 _TESTS = [{
32 'url': 'http://g1.globo.com/carros/autoesporte/videos/t/exclusivos-do-g1/v/mercedes-benz-gla-passa-por-teste-de-colisao-na-europa/3607726/',
33 'md5': 'b3ccc801f75cd04a914d51dadb83a78d',
34 'info_dict': {
35 'id': '3607726',
36 'ext': 'mp4',
37 'title': 'Mercedes-Benz GLA passa por teste de colisão na Europa',
38 'duration': 103.204,
39 'uploader': 'Globo.com',
40 'uploader_id': '265',
41 },
42 }, {
43 'url': 'http://globoplay.globo.com/v/4581987/',
44 'md5': 'f36a1ecd6a50da1577eee6dd17f67eff',
45 'info_dict': {
46 'id': '4581987',
47 'ext': 'mp4',
48 'title': 'Acidentes de trânsito estão entre as maiores causas de queda de energia em SP',
49 'duration': 137.973,
50 'uploader': 'Rede Globo',
51 'uploader_id': '196',
52 },
53 }, {
54 'url': 'http://canalbrasil.globo.com/programas/sangue-latino/videos/3928201.html',
55 'only_matching': True,
56 }, {
57 'url': 'http://globosatplay.globo.com/globonews/v/4472924/',
58 'only_matching': True,
59 }, {
60 'url': 'http://globotv.globo.com/t/programa/v/clipe-sexo-e-as-negas-adeus/3836166/',
61 'only_matching': True,
62 }, {
63 'url': 'http://globotv.globo.com/canal-brasil/sangue-latino/t/todos-os-videos/v/ator-e-diretor-argentino-ricado-darin-fala-sobre-utopias-e-suas-perdas/3928201/',
64 'only_matching': True,
65 }, {
66 'url': 'http://canaloff.globo.com/programas/desejar-profundo/videos/4518560.html',
67 'only_matching': True,
68 }, {
69 'url': 'globo:3607726',
70 'only_matching': True,
71 }]
72
73 class MD5(object):
74 HEX_FORMAT_LOWERCASE = 0
75 HEX_FORMAT_UPPERCASE = 1
76 BASE64_PAD_CHARACTER_DEFAULT_COMPLIANCE = ''
77 BASE64_PAD_CHARACTER_RFC_COMPLIANCE = '='
78 PADDING = '=0xFF01DD'
79 hexcase = 0
80 b64pad = ''
81
82 def __init__(self):
83 pass
84
85 class JSArray(list):
86 def __getitem__(self, y):
87 try:
88 return list.__getitem__(self, y)
89 except IndexError:
90 return 0
91
92 def __setitem__(self, i, y):
93 try:
94 return list.__setitem__(self, i, y)
95 except IndexError:
96 self.extend([0] * (i - len(self) + 1))
97 self[-1] = y
98
99 @classmethod
100 def hex_md5(cls, param1):
101 return cls.rstr2hex(cls.rstr_md5(cls.str2rstr_utf8(param1)))
102
103 @classmethod
104 def b64_md5(cls, param1, param2=None):
105 return cls.rstr2b64(cls.rstr_md5(cls.str2rstr_utf8(param1, param2)))
106
107 @classmethod
108 def any_md5(cls, param1, param2):
109 return cls.rstr2any(cls.rstr_md5(cls.str2rstr_utf8(param1)), param2)
110
111 @classmethod
112 def rstr_md5(cls, param1):
113 return cls.binl2rstr(cls.binl_md5(cls.rstr2binl(param1), len(param1) * 8))
114
115 @classmethod
116 def rstr2hex(cls, param1):
117 _loc_2 = '0123456789ABCDEF' if cls.hexcase else '0123456789abcdef'
118 _loc_3 = ''
119 for _loc_5 in range(0, len(param1)):
120 _loc_4 = compat_ord(param1[_loc_5])
121 _loc_3 += _loc_2[_loc_4 >> 4 & 15] + _loc_2[_loc_4 & 15]
122 return _loc_3
123
124 @classmethod
125 def rstr2b64(cls, param1):
126 _loc_2 = 'ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789-_'
127 _loc_3 = ''
128 _loc_4 = len(param1)
129 for _loc_5 in range(0, _loc_4, 3):
130 _loc_6_1 = compat_ord(param1[_loc_5]) << 16
131 _loc_6_2 = compat_ord(param1[_loc_5 + 1]) << 8 if _loc_5 + 1 < _loc_4 else 0
132 _loc_6_3 = compat_ord(param1[_loc_5 + 2]) if _loc_5 + 2 < _loc_4 else 0
133 _loc_6 = _loc_6_1 | _loc_6_2 | _loc_6_3
134 for _loc_7 in range(0, 4):
135 if _loc_5 * 8 + _loc_7 * 6 > len(param1) * 8:
136 _loc_3 += cls.b64pad
137 else:
138 _loc_3 += _loc_2[_loc_6 >> 6 * (3 - _loc_7) & 63]
139 return _loc_3
140
141 @staticmethod
142 def rstr2any(param1, param2):
143 _loc_3 = len(param2)
144 _loc_4 = []
145 _loc_9 = [0] * ((len(param1) >> 2) + 1)
146 for _loc_5 in range(0, len(_loc_9)):
147 _loc_9[_loc_5] = compat_ord(param1[_loc_5 * 2]) << 8 | compat_ord(param1[_loc_5 * 2 + 1])
148
149 while len(_loc_9) > 0:
150 _loc_8 = []
151 _loc_7 = 0
152 for _loc_5 in range(0, len(_loc_9)):
153 _loc_7 = (_loc_7 << 16) + _loc_9[_loc_5]
154 _loc_6 = math.floor(_loc_7 / _loc_3)
155 _loc_7 -= _loc_6 * _loc_3
156 if len(_loc_8) > 0 or _loc_6 > 0:
157 _loc_8[len(_loc_8)] = _loc_6
158
159 _loc_4[len(_loc_4)] = _loc_7
160 _loc_9 = _loc_8
161
162 _loc_10 = ''
163 _loc_5 = len(_loc_4) - 1
164 while _loc_5 >= 0:
165 _loc_10 += param2[_loc_4[_loc_5]]
166 _loc_5 -= 1
167
168 return _loc_10
169
170 @classmethod
171 def str2rstr_utf8(cls, param1, param2=None):
172 _loc_3 = ''
173 _loc_4 = -1
174 if not param2:
175 param2 = cls.PADDING
176 param1 = param1 + param2[1:9]
177 while True:
178 _loc_4 += 1
179 if _loc_4 >= len(param1):
180 break
181 _loc_5 = compat_ord(param1[_loc_4])
182 _loc_6 = compat_ord(param1[_loc_4 + 1]) if _loc_4 + 1 < len(param1) else 0
183 if 55296 <= _loc_5 <= 56319 and 56320 <= _loc_6 <= 57343:
184 _loc_5 = 65536 + ((_loc_5 & 1023) << 10) + (_loc_6 & 1023)
185 _loc_4 += 1
186 if _loc_5 <= 127:
187 _loc_3 += compat_chr(_loc_5)
188 continue
189 if _loc_5 <= 2047:
190 _loc_3 += compat_chr(192 | _loc_5 >> 6 & 31) + compat_chr(128 | _loc_5 & 63)
191 continue
192 if _loc_5 <= 65535:
193 _loc_3 += compat_chr(224 | _loc_5 >> 12 & 15) + compat_chr(128 | _loc_5 >> 6 & 63) + compat_chr(
194 128 | _loc_5 & 63)
195 continue
196 if _loc_5 <= 2097151:
197 _loc_3 += compat_chr(240 | _loc_5 >> 18 & 7) + compat_chr(128 | _loc_5 >> 12 & 63) + compat_chr(
198 128 | _loc_5 >> 6 & 63) + compat_chr(128 | _loc_5 & 63)
199 return _loc_3
200
201 @staticmethod
202 def rstr2binl(param1):
203 _loc_2 = [0] * ((len(param1) >> 2) + 1)
204 for _loc_3 in range(0, len(_loc_2)):
205 _loc_2[_loc_3] = 0
206 for _loc_3 in range(0, len(param1) * 8, 8):
207 _loc_2[_loc_3 >> 5] |= (compat_ord(param1[_loc_3 // 8]) & 255) << _loc_3 % 32
208 return _loc_2
209
210 @staticmethod
211 def binl2rstr(param1):
212 _loc_2 = ''
213 for _loc_3 in range(0, len(param1) * 32, 8):
214 _loc_2 += compat_chr(param1[_loc_3 >> 5] >> _loc_3 % 32 & 255)
215 return _loc_2
216
217 @classmethod
218 def binl_md5(cls, param1, param2):
219 param1 = cls.JSArray(param1)
220 param1[param2 >> 5] |= 128 << param2 % 32
221 param1[(param2 + 64 >> 9 << 4) + 14] = param2
222 _loc_3 = 1732584193
223 _loc_4 = -271733879
224 _loc_5 = -1732584194
225 _loc_6 = 271733878
226 for _loc_7 in range(0, len(param1), 16):
227 _loc_8 = _loc_3
228 _loc_9 = _loc_4
229 _loc_10 = _loc_5
230 _loc_11 = _loc_6
231 _loc_3 = cls.md5_ff(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 0], 7, -680876936)
232 _loc_6 = cls.md5_ff(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 1], 12, -389564586)
233 _loc_5 = cls.md5_ff(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 2], 17, 606105819)
234 _loc_4 = cls.md5_ff(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 3], 22, -1044525330)
235 _loc_3 = cls.md5_ff(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 4], 7, -176418897)
236 _loc_6 = cls.md5_ff(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 5], 12, 1200080426)
237 _loc_5 = cls.md5_ff(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 6], 17, -1473231341)
238 _loc_4 = cls.md5_ff(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 7], 22, -45705983)
239 _loc_3 = cls.md5_ff(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 8], 7, 1770035416)
240 _loc_6 = cls.md5_ff(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 9], 12, -1958414417)
241 _loc_5 = cls.md5_ff(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 10], 17, -42063)
242 _loc_4 = cls.md5_ff(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 11], 22, -1990404162)
243 _loc_3 = cls.md5_ff(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 12], 7, 1804603682)
244 _loc_6 = cls.md5_ff(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 13], 12, -40341101)
245 _loc_5 = cls.md5_ff(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 14], 17, -1502002290)
246 _loc_4 = cls.md5_ff(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 15], 22, 1236535329)
247 _loc_3 = cls.md5_gg(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 1], 5, -165796510)
248 _loc_6 = cls.md5_gg(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 6], 9, -1069501632)
249 _loc_5 = cls.md5_gg(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 11], 14, 643717713)
250 _loc_4 = cls.md5_gg(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 0], 20, -373897302)
251 _loc_3 = cls.md5_gg(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 5], 5, -701558691)
252 _loc_6 = cls.md5_gg(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 10], 9, 38016083)
253 _loc_5 = cls.md5_gg(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 15], 14, -660478335)
254 _loc_4 = cls.md5_gg(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 4], 20, -405537848)
255 _loc_3 = cls.md5_gg(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 9], 5, 568446438)
256 _loc_6 = cls.md5_gg(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 14], 9, -1019803690)
257 _loc_5 = cls.md5_gg(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 3], 14, -187363961)
258 _loc_4 = cls.md5_gg(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 8], 20, 1163531501)
259 _loc_3 = cls.md5_gg(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 13], 5, -1444681467)
260 _loc_6 = cls.md5_gg(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 2], 9, -51403784)
261 _loc_5 = cls.md5_gg(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 7], 14, 1735328473)
262 _loc_4 = cls.md5_gg(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 12], 20, -1926607734)
263 _loc_3 = cls.md5_hh(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 5], 4, -378558)
264 _loc_6 = cls.md5_hh(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 8], 11, -2022574463)
265 _loc_5 = cls.md5_hh(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 11], 16, 1839030562)
266 _loc_4 = cls.md5_hh(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 14], 23, -35309556)
267 _loc_3 = cls.md5_hh(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 1], 4, -1530992060)
268 _loc_6 = cls.md5_hh(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 4], 11, 1272893353)
269 _loc_5 = cls.md5_hh(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 7], 16, -155497632)
270 _loc_4 = cls.md5_hh(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 10], 23, -1094730640)
271 _loc_3 = cls.md5_hh(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 13], 4, 681279174)
272 _loc_6 = cls.md5_hh(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 0], 11, -358537222)
273 _loc_5 = cls.md5_hh(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 3], 16, -722521979)
274 _loc_4 = cls.md5_hh(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 6], 23, 76029189)
275 _loc_3 = cls.md5_hh(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 9], 4, -640364487)
276 _loc_6 = cls.md5_hh(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 12], 11, -421815835)
277 _loc_5 = cls.md5_hh(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 15], 16, 530742520)
278 _loc_4 = cls.md5_hh(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 2], 23, -995338651)
279 _loc_3 = cls.md5_ii(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 0], 6, -198630844)
280 _loc_6 = cls.md5_ii(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 7], 10, 1126891415)
281 _loc_5 = cls.md5_ii(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 14], 15, -1416354905)
282 _loc_4 = cls.md5_ii(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 5], 21, -57434055)
283 _loc_3 = cls.md5_ii(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 12], 6, 1700485571)
284 _loc_6 = cls.md5_ii(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 3], 10, -1894986606)
285 _loc_5 = cls.md5_ii(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 10], 15, -1051523)
286 _loc_4 = cls.md5_ii(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 1], 21, -2054922799)
287 _loc_3 = cls.md5_ii(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 8], 6, 1873313359)
288 _loc_6 = cls.md5_ii(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 15], 10, -30611744)
289 _loc_5 = cls.md5_ii(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 6], 15, -1560198380)
290 _loc_4 = cls.md5_ii(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 13], 21, 1309151649)
291 _loc_3 = cls.md5_ii(_loc_3, _loc_4, _loc_5, _loc_6, param1[_loc_7 + 4], 6, -145523070)
292 _loc_6 = cls.md5_ii(_loc_6, _loc_3, _loc_4, _loc_5, param1[_loc_7 + 11], 10, -1120210379)
293 _loc_5 = cls.md5_ii(_loc_5, _loc_6, _loc_3, _loc_4, param1[_loc_7 + 2], 15, 718787259)
294 _loc_4 = cls.md5_ii(_loc_4, _loc_5, _loc_6, _loc_3, param1[_loc_7 + 9], 21, -343485551)
295 _loc_3 = cls.safe_add(_loc_3, _loc_8)
296 _loc_4 = cls.safe_add(_loc_4, _loc_9)
297 _loc_5 = cls.safe_add(_loc_5, _loc_10)
298 _loc_6 = cls.safe_add(_loc_6, _loc_11)
299 return [_loc_3, _loc_4, _loc_5, _loc_6]
300
301 @classmethod
302 def md5_cmn(cls, param1, param2, param3, param4, param5, param6):
303 return cls.safe_add(
304 cls.bit_rol(cls.safe_add(cls.safe_add(param2, param1), cls.safe_add(param4, param6)), param5), param3)
305
306 @classmethod
307 def md5_ff(cls, param1, param2, param3, param4, param5, param6, param7):
308 return cls.md5_cmn(param2 & param3 | ~param2 & param4, param1, param2, param5, param6, param7)
309
310 @classmethod
311 def md5_gg(cls, param1, param2, param3, param4, param5, param6, param7):
312 return cls.md5_cmn(param2 & param4 | param3 & ~param4, param1, param2, param5, param6, param7)
313
314 @classmethod
315 def md5_hh(cls, param1, param2, param3, param4, param5, param6, param7):
316 return cls.md5_cmn(param2 ^ param3 ^ param4, param1, param2, param5, param6, param7)
317
318 @classmethod
319 def md5_ii(cls, param1, param2, param3, param4, param5, param6, param7):
320 return cls.md5_cmn(param3 ^ (param2 | ~param4), param1, param2, param5, param6, param7)
321
322 @classmethod
323 def safe_add(cls, param1, param2):
324 _loc_3 = (param1 & 65535) + (param2 & 65535)
325 _loc_4 = (param1 >> 16) + (param2 >> 16) + (_loc_3 >> 16)
326 return cls.lshift(_loc_4, 16) | _loc_3 & 65535
327
328 @classmethod
329 def bit_rol(cls, param1, param2):
330 return cls.lshift(param1, param2) | (param1 & 0xFFFFFFFF) >> (32 - param2)
331
332 @staticmethod
333 def lshift(value, count):
334 r = (0xFFFFFFFF & value) << count
335 return -(~(r - 1) & 0xFFFFFFFF) if r > 0x7FFFFFFF else r
336
337 def _real_extract(self, url):
338 video_id = self._match_id(url)
339
340 video = self._download_json(
341 self._API_URL_TEMPLATE % video_id, video_id)['videos'][0]
342
343 title = video['title']
344
345 formats = []
346 for resource in video['resources']:
347 resource_id = resource.get('_id')
348 if not resource_id or resource_id.endswith('manifest'):
349 continue
350
351 security = self._download_json(
352 self._SECURITY_URL_TEMPLATE % (video_id, resource_id),
353 video_id, 'Downloading security hash for %s' % resource_id)
354
355 security_hash = security.get('hash')
356 if not security_hash:
357 message = security.get('message')
358 if message:
359 raise ExtractorError(
360 '%s returned error: %s' % (self.IE_NAME, message), expected=True)
361 continue
362
363 hash_code = security_hash[:2]
364 received_time = int(security_hash[2:12])
365 received_random = security_hash[12:22]
366 received_md5 = security_hash[22:]
367
368 sign_time = received_time + self._RESIGN_EXPIRATION
369 padding = '%010d' % random.randint(1, 10000000000)
370
371 signed_md5 = self.MD5.b64_md5(received_md5 + compat_str(sign_time) + padding)
372 signed_hash = hash_code + compat_str(received_time) + received_random + compat_str(sign_time) + padding + signed_md5
373
374 resource_url = resource['url']
375 signed_url = '%s?h=%s&k=%s' % (resource_url, signed_hash, 'flash')
376 if resource_id.endswith('m3u8') or resource_url.endswith('.m3u8'):
377 formats.extend(self._extract_m3u8_formats(
378 signed_url, resource_id, 'mp4', entry_protocol='m3u8_native',
379 m3u8_id='hls', fatal=False))
380 else:
381 formats.append({
382 'url': signed_url,
383 'format_id': 'http-%s' % resource_id,
384 'height': int_or_none(resource.get('height')),
385 })
386
387 self._sort_formats(formats)
388
389 duration = float_or_none(video.get('duration'), 1000)
390 uploader = video.get('channel')
391 uploader_id = str_or_none(video.get('channel_id'))
392
393 return {
394 'id': video_id,
395 'title': title,
396 'duration': duration,
397 'uploader': uploader,
398 'uploader_id': uploader_id,
399 'formats': formats
400 }
401
402
403 class GloboArticleIE(InfoExtractor):
404 _VALID_URL = r'https?://.+?\.globo\.com/(?:[^/]+/)*(?P<id>[^/.]+)(?:\.html)?'
405
406 _VIDEOID_REGEXES = [
407 r'\bdata-video-id=["\'](\d{7,})',
408 r'\bdata-player-videosids=["\'](\d{7,})',
409 r'\bvideosIDs\s*:\s*["\']?(\d{7,})',
410 r'\bdata-id=["\'](\d{7,})',
411 r'<div[^>]+\bid=["\'](\d{7,})',
412 ]
413
414 _TESTS = [{
415 'url': 'http://g1.globo.com/jornal-nacional/noticia/2014/09/novidade-na-fiscalizacao-de-bagagem-pela-receita-provoca-discussoes.html',
416 'info_dict': {
417 'id': 'novidade-na-fiscalizacao-de-bagagem-pela-receita-provoca-discussoes',
418 'title': 'Novidade na fiscalização de bagagem pela Receita provoca discussões',
419 'description': 'md5:c3c4b4d4c30c32fce460040b1ac46b12',
420 },
421 'playlist_count': 1,
422 }, {
423 'url': 'http://g1.globo.com/pr/parana/noticia/2016/09/mpf-denuncia-lula-marisa-e-mais-seis-na-operacao-lava-jato.html',
424 'info_dict': {
425 'id': 'mpf-denuncia-lula-marisa-e-mais-seis-na-operacao-lava-jato',
426 'title': "Lula era o 'comandante máximo' do esquema da Lava Jato, diz MPF",
427 'description': 'md5:8aa7cc8beda4dc71cc8553e00b77c54c',
428 },
429 'playlist_count': 6,
430 }, {
431 'url': 'http://gq.globo.com/Prazeres/Poder/noticia/2015/10/all-o-desafio-assista-ao-segundo-capitulo-da-serie.html',
432 'only_matching': True,
433 }, {
434 'url': 'http://gshow.globo.com/programas/tv-xuxa/O-Programa/noticia/2014/01/xuxa-e-junno-namoram-muuuito-em-luau-de-zeze-di-camargo-e-luciano.html',
435 'only_matching': True,
436 }, {
437 'url': 'http://oglobo.globo.com/rio/a-amizade-entre-um-entregador-de-farmacia-um-piano-19946271',
438 'only_matching': True,
439 }]
440
441 @classmethod
442 def suitable(cls, url):
443 return False if GloboIE.suitable(url) else super(GloboArticleIE, cls).suitable(url)
444
445 def _real_extract(self, url):
446 display_id = self._match_id(url)
447 webpage = self._download_webpage(url, display_id)
448 video_ids = []
449 for video_regex in self._VIDEOID_REGEXES:
450 video_ids.extend(re.findall(video_regex, webpage))
451 entries = [
452 self.url_result('globo:%s' % video_id, GloboIE.ie_key())
453 for video_id in orderedSet(video_ids)]
454 title = self._og_search_title(webpage, fatal=False)
455 description = self._html_search_meta('description', webpage)
456 return self.playlist_result(entries, display_id, title, description)