Raphaël G. Git Repositories - youtubedl/blob - youtube_dl/extractor/lifenews.py

   1 # encoding: utf-8
   2 from __future__ import unicode_literals
   3
   4 import re
   5
   6 from .common import InfoExtractor
   7 from ..compat import (
   8     compat_str,
   9     compat_urlparse,
  10 )
  11 from ..utils import (
  12     determine_ext,
  13     ExtractorError,
  14     int_or_none,
  15     parse_iso8601,
  16     remove_end,
  17 )
  18
  19
  20 class LifeNewsIE(InfoExtractor):
  21     IE_NAME = 'life'
  22     IE_DESC = 'Life.ru'
  23     _VALID_URL = r'https?://life\.ru/t/[^/]+/(?P<id>\d+)'
  24
  25     _TESTS = [{
  26         # single video embedded via video/source
  27         'url': 'https://life.ru/t/новости/98736',
  28         'md5': '77c95eaefaca216e32a76a343ad89d23',
  29         'info_dict': {
  30             'id': '98736',
  31             'ext': 'mp4',
  32             'title': 'Мужчина нашел дома архив оборонного завода',
  33             'description': 'md5:3b06b1b39b5e2bea548e403d99b8bf26',
  34             'timestamp': 1344154740,
  35             'upload_date': '20120805',
  36             'view_count': int,
  37         }
  38     }, {
  39         # single video embedded via iframe
  40         'url': 'https://life.ru/t/новости/152125',
  41         'md5': '77d19a6f0886cd76bdbf44b4d971a273',
  42         'info_dict': {
  43             'id': '152125',
  44             'ext': 'mp4',
  45             'title': 'В Сети появилось видео захвата «Правым сектором» колхозных полей ',
  46             'description': 'Жители двух поселков Днепропетровской области не простили радикалам угрозу лишения плодородных земель и пошли в лобовую. ',
  47             'timestamp': 1427961840,
  48             'upload_date': '20150402',
  49             'view_count': int,
  50         }
  51     }, {
  52         # two videos embedded via iframe
  53         'url': 'https://life.ru/t/новости/153461',
  54         'info_dict': {
  55             'id': '153461',
  56             'title': 'В Москве спасли потерявшегося медвежонка, который спрятался на дереве',
  57             'description': 'Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока его не нашла соседская собака.',
  58             'timestamp': 1430825520,
  59             'view_count': int,
  60         },
  61         'playlist': [{
  62             'md5': '9b6ef8bc0ffa25aebc8bdb40d89ab795',
  63             'info_dict': {
  64                 'id': '153461-video1',
  65                 'ext': 'mp4',
  66                 'title': 'В Москве спасли потерявшегося медвежонка, который спрятался на дереве (Видео 1)',
  67                 'description': 'Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока его не нашла соседская собака.',
  68                 'timestamp': 1430825520,
  69                 'upload_date': '20150505',
  70             },
  71         }, {
  72             'md5': 'ebb3bf3b1ce40e878d0d628e93eb0322',
  73             'info_dict': {
  74                 'id': '153461-video2',
  75                 'ext': 'mp4',
  76                 'title': 'В Москве спасли потерявшегося медвежонка, который спрятался на дереве (Видео 2)',
  77                 'description': 'Маленький хищник не смог найти дорогу домой и обрел временное убежище на тополе недалеко от жилого массива, пока его не нашла соседская собака.',
  78                 'timestamp': 1430825520,
  79                 'upload_date': '20150505',
  80             },
  81         }],
  82     }, {
  83         'url': 'https://life.ru/t/новости/213035',
  84         'only_matching': True,
  85     }, {
  86         'url': 'https://life.ru/t/%D0%BD%D0%BE%D0%B2%D0%BE%D1%81%D1%82%D0%B8/153461',
  87         'only_matching': True,
  88     }, {
  89         'url': 'https://life.ru/t/новости/411489/manuel_vals_nazval_frantsiiu_tsieliu_nomier_odin_dlia_ighil',
  90         'only_matching': True,
  91     }]
  92
  93     def _real_extract(self, url):
  94         video_id = self._match_id(url)
  95
  96         webpage = self._download_webpage(url, video_id)
  97
  98         video_urls = re.findall(
  99             r'<video[^>]+><source[^>]+src=["\'](.+?)["\']', webpage)
 100
 101         iframe_links = re.findall(
 102             r'<iframe[^>]+src=["\']((?:https?:)?//embed\.life\.ru/(?:embed|video)/.+?)["\']',
 103             webpage)
 104
 105         if not video_urls and not iframe_links:
 106             raise ExtractorError('No media links available for %s' % video_id)
 107
 108         title = remove_end(
 109             self._og_search_title(webpage),
 110             ' - Life.ru')
 111
 112         description = self._og_search_description(webpage)
 113
 114         view_count = self._html_search_regex(
 115             r'<div[^>]+class=(["\']).*?\bhits-count\b.*?\1[^>]*>\s*(?P<value>\d+)\s*</div>',
 116             webpage, 'view count', fatal=False, group='value')
 117
 118         timestamp = parse_iso8601(self._search_regex(
 119             r'<time[^>]+datetime=(["\'])(?P<value>.+?)\1',
 120             webpage, 'upload date', fatal=False, group='value'))
 121
 122         common_info = {
 123             'description': description,
 124             'view_count': int_or_none(view_count),
 125             'timestamp': timestamp,
 126         }
 127
 128         def make_entry(video_id, video_url, index=None):
 129             cur_info = dict(common_info)
 130             cur_info.update({
 131                 'id': video_id if not index else '%s-video%s' % (video_id, index),
 132                 'url': video_url,
 133                 'title': title if not index else '%s (Видео %s)' % (title, index),
 134             })
 135             return cur_info
 136
 137         def make_video_entry(video_id, video_url, index=None):
 138             video_url = compat_urlparse.urljoin(url, video_url)
 139             return make_entry(video_id, video_url, index)
 140
 141         def make_iframe_entry(video_id, video_url, index=None):
 142             video_url = self._proto_relative_url(video_url, 'http:')
 143             cur_info = make_entry(video_id, video_url, index)
 144             cur_info['_type'] = 'url_transparent'
 145             return cur_info
 146
 147         if len(video_urls) == 1 and not iframe_links:
 148             return make_video_entry(video_id, video_urls[0])
 149
 150         if len(iframe_links) == 1 and not video_urls:
 151             return make_iframe_entry(video_id, iframe_links[0])
 152
 153         entries = []
 154
 155         if video_urls:
 156             for num, video_url in enumerate(video_urls, 1):
 157                 entries.append(make_video_entry(video_id, video_url, num))
 158
 159         if iframe_links:
 160             for num, iframe_link in enumerate(iframe_links, len(video_urls) + 1):
 161                 entries.append(make_iframe_entry(video_id, iframe_link, num))
 162
 163         playlist = common_info.copy()
 164         playlist.update(self.playlist_result(entries, video_id, title, description))
 165         return playlist
 166
 167
 168 class LifeEmbedIE(InfoExtractor):
 169     IE_NAME = 'life:embed'
 170     _VALID_URL = r'https?://embed\.life\.ru/(?:embed|video)/(?P<id>[\da-f]{32})'
 171
 172     _TESTS = [{
 173         'url': 'http://embed.life.ru/embed/e50c2dec2867350528e2574c899b8291',
 174         'md5': 'b889715c9e49cb1981281d0e5458fbbe',
 175         'info_dict': {
 176             'id': 'e50c2dec2867350528e2574c899b8291',
 177             'ext': 'mp4',
 178             'title': 'e50c2dec2867350528e2574c899b8291',
 179             'thumbnail': 're:http://.*\.jpg',
 180         }
 181     }, {
 182         # with 1080p
 183         'url': 'https://embed.life.ru/video/e50c2dec2867350528e2574c899b8291',
 184         'only_matching': True,
 185     }]
 186
 187     def _real_extract(self, url):
 188         video_id = self._match_id(url)
 189
 190         webpage = self._download_webpage(url, video_id)
 191
 192         thumbnail = None
 193         formats = []
 194
 195         def extract_m3u8(manifest_url):
 196             formats.extend(self._extract_m3u8_formats(
 197                 manifest_url, video_id, 'mp4',
 198                 entry_protocol='m3u8_native', m3u8_id='m3u8'))
 199
 200         def extract_original(original_url):
 201             formats.append({
 202                 'url': original_url,
 203                 'format_id': determine_ext(original_url, None),
 204                 'preference': 1,
 205             })
 206
 207         playlist = self._parse_json(
 208             self._search_regex(
 209                 r'options\s*=\s*({.+?});', webpage, 'options', default='{}'),
 210             video_id).get('playlist', {})
 211         if playlist:
 212             master = playlist.get('master')
 213             if isinstance(master, compat_str) and determine_ext(master) == 'm3u8':
 214                 extract_m3u8(compat_urlparse.urljoin(url, master))
 215             original = playlist.get('original')
 216             if isinstance(original, compat_str):
 217                 extract_original(original)
 218             thumbnail = playlist.get('image')
 219
 220         # Old rendition fallback
 221         if not formats:
 222             for video_url in re.findall(r'"file"\s*:\s*"([^"]+)', webpage):
 223                 video_url = compat_urlparse.urljoin(url, video_url)
 224                 if determine_ext(video_url) == 'm3u8':
 225                     extract_m3u8(video_url)
 226                 else:
 227                     extract_original(video_url)
 228
 229         self._sort_formats(formats)
 230
 231         thumbnail = thumbnail or self._search_regex(
 232             r'"image"\s*:\s*"([^"]+)', webpage, 'thumbnail', default=None)
 233
 234         return {
 235             'id': video_id,
 236             'title': video_id,
 237             'thumbnail': thumbnail,
 238             'formats': formats,
 239         }