__scraping__

furas · furas · commit 585ac6335d6b · 2019-12-20T07:29:11.000+01:00
diff --git a/__scraping__/curecity.in - selenium/main.py b/__scraping__/curecity.in - selenium/main.py
@@ -0,0 +1,40 @@
+#!/usr/bin/env python3 
+
+# date: 2019.12.18
+# https://stackoverflow.com/questions/59386434/selenium-webdriver-i-want-to-click-on-the-next-page-till-last-page/59387563#59387563
+
+from selenium import webdriver
+#from bs4 import BeautifulSoup as bs
+import time
+
+url = 'https://curecity.in/vendor-list.php?category=Doctor&filters_location=Jaipur&filters%5Bsubareas_global%5D=&filters_speciality='
+
+#driver = webdriver.Chrome('C:\chromedriver.exe')
+driver = webdriver.Firefox()
+driver.maximize_window()
+
+driver.get(url)
+next_page_number = 1
+
+while True:
+
+    print('page:', next_page_number)
+    time.sleep(10) # page loads very slow so I need longer sleep
+
+    #soup = bs(driver.page_source, 'html.parser')
+    #for link in soup.find_all('div',class_='col-md-9 feature-info'):
+    #    link1 = link.find('a')
+    #    print(link1['href'])
+
+    for link in driver.find_elements_by_xpath('//div[@class="col-md-2 feature-icon"]/a'):
+        print(link.get_attribute('href'))
+
+    try:
+        # button '>' jums 3 pages so I click button with number of next page.
+        next_page_number += 1
+        driver.find_element_by_xpath('//a[@data-page="{}"]'.format(next_page_number)).click()
+    except:
+        print('No more pages')
+        break # exit loop
+
+#driver.close()
diff --git a/__scraping__/games.crossfit.com - requests/main.py b/__scraping__/games.crossfit.com - requests/main.py
@@ -0,0 +1,13 @@
+#!/usr/bin/env python3
+
+# date: 2019.12.20
+# https://stackoverflow.com/questions/59419682/how-do-i-extract-this-entire-table-and-store-it-in-csv-file/
+
+import requests
+
+r = requests.get('https://games.crossfit.com/competitions/api/v1/competitions/open/2020/leaderboards?view=0&division=1&scaled=0&sort=0')
+
+data = r.json()
+
+for row in data['leaderboardRows']:
+    print(row['entrant']['competitorName'], row['overallScore'], [(x['rank'],x['scoreDisplay']) for x in row['scores']])
diff --git a/__scraping__/researchgrant.gov.sg - scrapy/main.py b/__scraping__/researchgrant.gov.sg - scrapy/main.py
@@ -0,0 +1,113 @@
+#!/usr/bin/env python3
+
+# date: 2019.12.12
+# https://stackoverflow.com/questions/59259699/scrapy-formrequest-parameter-not-working-but-showing-all-result-instead/
+# page: https://researchgrant.gov.sg/eservices/advanced-search/
+
+import scrapy
+import urllib.parse
+
+class MySpider(scrapy.Spider):
+
+    name = 'myspider'
+    #allowed_domains = []
+
+    params = {
+        'name': 'advancesearchawardedprojectsp'
+    }
+
+    args = {
+        'keyword': '',
+        'source': 'sharepoint',
+        'type': 'project',
+        'status': 'open',
+        'page': 1,
+        '_pp_projectstatus': '',
+
+        #'_pp_hiname': 'tan',
+        #'_pp_piname': '',
+        '_pp_hiname': 'ab',
+        '_pp_piname': '', #'pua',
+
+        '_pp_source': '',
+        '_pp_details': '',
+    }
+
+    def start_requests(self):
+
+        # create request for first page
+        args = urllib.parse.urlencode(self.args)
+
+        url = 'https://researchgrant.gov.sg/eservices/mvcgrid?' + args
+
+        yield scrapy.FormRequest(url, callback=self.parse_item, method='POST', formdata=self.params, headers={'X-Requested-With': 'XMLHttpRequest'})
+
+
+    def parse_item(self,response):
+        #print('parse_item] url:', response.url)
+        #print('parse_item] text:', response.text)
+
+        #for quote in response.xpath('//div[contains(@style,"overflow-x:auto")]'):
+        #    for row in quote.xpath('./table[contains(@class,"table-striped")]/tbody/tr'):
+        #        link = row.xpath('td[1]/a/@href').extract_first()
+        #        yield scrapy.Request(link, callback=self.parse_product)
+
+        for row in response.xpath('//table[@name="MVCGridTable_advancesearchawardedprojectsp"]/tbody/tr'):
+            cols = row.xpath('.//td')
+            link = cols[0].xpath('.//a/@href').get().strip()
+            title = cols[0].xpath('.//a/text()').get().strip()
+            status = cols[1].xpath('.//text()').get().strip()
+            pi = cols[2].xpath('.//text()').get().strip()
+            hi = cols[3].xpath('.//text()').get().strip()
+            date = cols[4].xpath('.//text()').get().strip()
+
+            item = {
+                #'id': project_id,
+                'status': status,
+                'title': title,
+                'link': link,
+                'pi': pi,
+                'hi': hi,
+                'date': date,
+            }
+        
+            # few links are redirected to main page so they are filtered and it needs `dont_filter=True`
+            yield scrapy.Request(link, meta={'item': item}, callback=self.parse_product, dont_filter=True)
+
+        # create request for next page
+        onclick = response.xpath('//a[@aria-label="Next page"]/@onclick').get()
+
+        if onclick:
+            # next page 
+            self.args['page'] += 1
+            args = urllib.parse.urlencode(self.args)
+            url = 'https://researchgrant.gov.sg/eservices/mvcgrid?' + args
+            yield scrapy.FormRequest(url, callback=self.parse_item, method='POST', formdata=self.params, headers={'X-Requested-With': 'XMLHttpRequest'})
+
+    def parse_product(self, response):
+        #print('parse_product] url:', response.url)
+        item = response.meta['item']
+        
+        # .extract_first() or .get() instead of .extract()
+        project_id = response.xpath('//span[@id="ctl00_ctl47_g_b43c0a74_fae0_498f_b75e_c103772db011_ctl00_lblProjIdExt"]/text()').get()
+        #title = response.xpath('//span[@id="ctl00_ctl47_g_b43c0a74_fae0_498f_b75e_c103772db011_ctl00_lblProjectTitle"]/text()').get()
+        #pi = response.xpath('//span[@id="ctl00_ctl47_g_b43c0a74_fae0_498f_b75e_c103772db011_ctl00_lblLeadPIName"]/text()').get()
+        #hi = response.xpath('//span[@id="ctl00_ctl47_g_b43c0a74_fae0_498f_b75e_c103772db011_ctl00_lblHostInstName"]/text()').get()
+        #date = response.xpath('//span[@id="ctl00_ctl47_g_b43c0a74_fae0_498f_b75e_c103772db011_ctl00_dtPickerStartDate"]/text()').get()
+        # etc.
+        item['id'] = project_id
+             
+        yield item
+
+# --- run without project and save in `output.csv` ---
+
+from scrapy.crawler import CrawlerProcess
+
+c = CrawlerProcess({
+    'USER_AGENT': 'Mozilla/5.0',
+    # save in file CSV, JSON or XML
+    'FEED_FORMAT': 'csv',     # csv, json, xml
+    'FEED_URI': 'output.csv', #
+})
+c.crawl(MySpider)
+c.start()
diff --git a/__scraping__/shopee.com.my/main.py b/__scraping__/shopee.com.my/main.py
@@ -0,0 +1,39 @@
+#!/usr/bin/env python3 
+
+# date: 2019.12.14
+# 
+
+import selenium.webdriver
+from selenium.webdriver.common.action_chains import ActionChains
+    
+import time
+url = 'https://shopee.com.my/search?keyword=mattress'
+
+driver = selenium.webdriver.Firefox()
+driver.get(url)
+time.sleep(1)
+
+# select language
+driver.find_element_by_xpath('//div[@class="language-selection__list"]/button').click()
+time.sleep(3)
+
+# scroll few times to load all items 
+for x in range(10):
+    driver.execute_script("window.scrollBy(0,300)")
+    time.sleep(0.1)
+
+# get all links
+all_items = driver.find_elements_by_xpath('//a[@data-sqe="link"]')
+print('len:', len(all_items))
+
+all_urls = []
+
+for item in all_items:
+    url = item.get_attribute('href')
+    all_urls.append(url)
+    print(url)
+    
+# use links
+
+#for item in all_urls:
+#    driver.get(url)
diff --git a/__scraping__/spaceflightnow.com - selenium/main.py b/__scraping__/spaceflightnow.com - selenium/main.py
@@ -0,0 +1,74 @@
+#!/usr/bin/env python3 
+
+# date: 2019.12.17
+# 
+
+import time
+from bs4 import BeautifulSoup
+from urllib.parse import urljoin
+from selenium import webdriver
+from selenium.webdriver.chrome.options import Options
+
+def get_links(driver, url):
+    driver.get(url)
+    time.sleep(5)
+
+    soup = BeautifulSoup(driver.page_source,"lxml")
+
+    links = []
+    
+    for new_url in soup.find_all('a', href=True):
+         new_url = new_url.get('href')
+         new_url = urljoin(url, new_url) 
+         links.append(new_url)
+         
+    return links
+
+# ---
+
+options = Options()
+options.add_argument('--incognito')
+options.add_argument('--headless')
+options.add_argument("--no-sandbox")
+options.add_argument('--disable-dev-shm-usage')
+options.add_argument("--profile-directory=Default")
+#driver = webdriver.Chrome("./chromedriver",options=options)
+driver = webdriver.Firefox()
+
+# ---
+
+domain = 'https://spaceflightnow.com/' # to filter external links
+start_url = 'https://spaceflightnow.com/'
+max_level = 2
+
+links_visited = set([start_url])  # to test visited links
+links_with_levels = [(start_url, 0)] # to control levels
+
+# ---
+
+for link, level in links_with_levels:
+    if level >= max_level:
+        print('skip:', level, link)
+        continue
+
+    print('visit:', level, link)
+
+    links = get_links(driver, link)
+
+    print('found:', len(links))
+    links = list(set(links) - links_visited)
+    print('after filtering:', len(links))
+          
+    level += 1
+
+    for new_link in links:
+        if new_link.startswith(domain): # filter external links
+            links_visited.add(new_link)
+            links_with_levels.append( (new_link, level) )
+
+# ---
+
+for link, level in links_with_levels:
+    print('skip:', level, link)
+
+