Merge pull request #3 from unit193/master

[youtubedl] / youtube_dl / extractor / linkedin.py
diff --git a/youtube_dl/extractor/linkedin.py b/youtube_dl/extractor/linkedin.py

index 259fc4c5e8d6d7fe214faf408c97110ce55ac5bc..26fc703d1a8f764bb6728cfac9441a43a40bc1c9 100644 (file)
--- a/youtube_dl/extractor/linkedin.py
+++ b/youtube_dl/extractor/linkedin.py
@@ -9,11 +9,13 @@ from ..utils import (
      float_or_none,
      int_or_none,
      urlencode_postdata,
      float_or_none,
      int_or_none,
      urlencode_postdata,
+    urljoin,
  )
  
  
  class LinkedInLearningBaseIE(InfoExtractor):
      _NETRC_MACHINE = 'linkedin'
  )
  
  
  class LinkedInLearningBaseIE(InfoExtractor):
      _NETRC_MACHINE = 'linkedin'
+    _LOGIN_URL = 'https://www.linkedin.com/uas/login?trk=learning'
  
      def _call_api(self, course_slug, fields, video_slug=None, resolution=None):
          query = {
  
      def _call_api(self, course_slug, fields, video_slug=None, resolution=None):
          query = {
@@ -34,12 +36,15 @@ class LinkedInLearningBaseIE(InfoExtractor):
                  'Csrf-Token': self._get_cookies(api_url)['JSESSIONID'].value,
              }, query=query)['elements'][0]
  
                  'Csrf-Token': self._get_cookies(api_url)['JSESSIONID'].value,
              }, query=query)['elements'][0]
  
-    def _get_video_id(self, urn, course_slug, video_slug):
+    def _get_urn_id(self, video_data):
+        urn = video_data.get('urn')
          if urn:
              mobj = re.search(r'urn:li:lyndaCourse:\d+,(\d+)', urn)
              if mobj:
                  return mobj.group(1)
          if urn:
              mobj = re.search(r'urn:li:lyndaCourse:\d+,(\d+)', urn)
              if mobj:
                  return mobj.group(1)
-        return '%s/%s' % (course_slug, video_slug)
+
+    def _get_video_id(self, video_data, course_slug, video_slug):
+        return self._get_urn_id(video_data) or '%s/%s' % (course_slug, video_slug)
  
      def _real_initialize(self):
          email, password = self._get_login_info()
  
      def _real_initialize(self):
          email, password = self._get_login_info()
@@ -47,11 +52,10 @@ class LinkedInLearningBaseIE(InfoExtractor):
              return
  
          login_page = self._download_webpage(
              return
  
          login_page = self._download_webpage(
-            'https://www.linkedin.com/uas/login?trk=learning',
-            None, 'Downloading login page')
-        action_url = self._search_regex(
+            self._LOGIN_URL, None, 'Downloading login page')
+        action_url = urljoin(self._LOGIN_URL, self._search_regex(
              r'<form[^>]+action=(["\'])(?P<url>.+?)\1', login_page, 'post url',
              r'<form[^>]+action=(["\'])(?P<url>.+?)\1', login_page, 'post url',
-            default='https://www.linkedin.com/uas/login-submit', group='url')
+            default='https://www.linkedin.com/uas/login-submit', group='url'))
          data = self._hidden_inputs(login_page)
          data.update({
              'session_key': email,
          data = self._hidden_inputs(login_page)
          data.update({
              'session_key': email,
@@ -123,7 +127,7 @@ class LinkedInLearningIE(LinkedInLearningBaseIE):
          self._sort_formats(formats, ('width', 'height', 'source_preference', 'tbr', 'abr'))
  
          return {
          self._sort_formats(formats, ('width', 'height', 'source_preference', 'tbr', 'abr'))
  
          return {
-            'id': self._get_video_id(video_data.get('urn'), course_slug, video_slug),
+            'id': self._get_video_id(video_data, course_slug, video_slug),
              'title': title,
              'formats': formats,
              'thumbnail': video_data.get('defaultThumbnail'),
              'title': title,
              'formats': formats,
              'thumbnail': video_data.get('defaultThumbnail'),
@@ -154,18 +158,21 @@ class LinkedInLearningCourseIE(LinkedInLearningBaseIE):
          course_data = self._call_api(course_slug, 'chapters,description,title')
  
          entries = []
          course_data = self._call_api(course_slug, 'chapters,description,title')
  
          entries = []
-        for chapter in course_data.get('chapters', []):
+        for chapter_number, chapter in enumerate(course_data.get('chapters', []), 1):
              chapter_title = chapter.get('title')
              chapter_title = chapter.get('title')
+            chapter_id = self._get_urn_id(chapter)
              for video in chapter.get('videos', []):
                  video_slug = video.get('slug')
                  if not video_slug:
                      continue
                  entries.append({
                      '_type': 'url_transparent',
              for video in chapter.get('videos', []):
                  video_slug = video.get('slug')
                  if not video_slug:
                      continue
                  entries.append({
                      '_type': 'url_transparent',
-                    'id': self._get_video_id(video.get('urn'), course_slug, video_slug),
+                    'id': self._get_video_id(video, course_slug, video_slug),
                      'title': video.get('title'),
                      'url': 'https://www.linkedin.com/learning/%s/%s' % (course_slug, video_slug),
                      'chapter': chapter_title,
                      'title': video.get('title'),
                      'url': 'https://www.linkedin.com/learning/%s/%s' % (course_slug, video_slug),
                      'chapter': chapter_title,
+                    'chapter_number': chapter_number,
+                    'chapter_id': chapter_id,
                      'ie_key': LinkedInLearningIE.ie_key(),
                  })
  
                      'ie_key': LinkedInLearningIE.ie_key(),
                  })