feat: Ability to query by time posted for linkedin, indeed, glassdoor

2024-02-09 15:04:12 +00:00 · 2024-02-09 15:04:12 +00:00 · e8db57695c
parent 32282305c8
commit e8db57695c
5 changed files with 33 additions and 15 deletions
--- a/src/jobspy/init.py
+++ b/src/jobspy/init.py
@ -43,6 +43,8 @@ def scrape_jobs(
    full_description: bool | None = False,
    linkedin_company_ids: list[int] | None = None,
    offset: int | None = 0,
+    hours_old: int = None,
+    **kwargs,
 ) -> pd.DataFrame:
    """
    Simultaneously scrapes job data from multiple job sites.
@ -85,6 +87,7 @@ def scrape_jobs(
        results_wanted=results_wanted,
        linkedin_company_ids=linkedin_company_ids,
        offset=offset,
+        hours_old=hours_old
    )

    def scrape_site(site: Site) -> Tuple[str, JobResponse]:
--- a/src/jobspy/scrapers/init.py
+++ b/src/jobspy/scrapers/init.py
@ -23,6 +23,7 @@ class ScraperInput(BaseModel):
    linkedin_company_ids: list[int] | None = None

    results_wanted: int = 15
+    hours_old: int | None = None


 class Scraper:
@ -30,5 +31,4 @@ class Scraper:
        self.site = site
        self.proxy = (lambda p: {"http": p, "https": p} if p else None)(proxy)

-    def scrape(self, scraper_input: ScraperInput) -> JobResponse:
-        ...
+    def scrape(self, scraper_input: ScraperInput) -> JobResponse: ...
--- a/src/jobspy/scrapers/glassdoor/init.py
+++ b/src/jobspy/scrapers/glassdoor/init.py
@ -258,6 +258,8 @@ class GlassdoorScraper(Scraper):
        page_num: int,
        cursor: str | None = None,
    ) -> str:
+        # `fromage` is the posting time filter in days
+        fromage = min(scraper_input.hours_old // 24, 1) if scraper_input.hours_old else None
        payload = {
            "operationName": "JobSearchResultsQuery",
            "variables": {
@ -270,6 +272,7 @@ class GlassdoorScraper(Scraper):
                "parameterUrlInput": f"IL.0,12_I{location_type}{location_id}",
                "pageNumber": page_num,
                "pageCursor": cursor,
+                "fromAge": fromage
            },
            "query": "query JobSearchResultsQuery($excludeJobListingIds: [Long!], $keyword: String, $locationId: Int, $locationType: LocationTypeEnum, $numJobsToShow: Int!, $pageCursor: String, $pageNumber: Int, $filterParams: [FilterParams], $originalPageUrl: String, $seoFriendlyUrlInput: String, $parameterUrlInput: String, $seoUrl: Boolean) {\n  jobListings(\n    contextHolder: {searchParams: {excludeJobListingIds: $excludeJobListingIds, keyword: $keyword, locationId: $locationId, locationType: $locationType, numPerPage: $numJobsToShow, pageCursor: $pageCursor, pageNumber: $pageNumber, filterParams: $filterParams, originalPageUrl: $originalPageUrl, seoFriendlyUrlInput: $seoFriendlyUrlInput, parameterUrlInput: $parameterUrlInput, seoUrl: $seoUrl, searchType: SR}}\n  ) {\n    companyFilterOptions {\n      id\n      shortName\n      __typename\n    }\n    filterOptions\n    indeedCtk\n    jobListings {\n      ...JobView\n      __typename\n    }\n    jobListingSeoLinks {\n      linkItems {\n        position\n        url\n        __typename\n      }\n      __typename\n    }\n    jobSearchTrackingKey\n    jobsPageSeoData {\n      pageMetaDescription\n      pageTitle\n      __typename\n    }\n    paginationCursors {\n      cursor\n      pageNumber\n      __typename\n    }\n    indexablePageForSeo\n    searchResultsMetadata {\n      searchCriteria {\n        implicitLocation {\n          id\n          localizedDisplayName\n          type\n          __typename\n        }\n        keyword\n        location {\n          id\n          shortName\n          localizedShortName\n          localizedDisplayName\n          type\n          __typename\n        }\n        __typename\n      }\n      footerVO {\n        countryMenu {\n          childNavigationLinks {\n            id\n            link\n            textKey\n            __typename\n          }\n          __typename\n        }\n        __typename\n      }\n      helpCenterDomain\n      helpCenterLocale\n      jobAlert {\n        jobAlertExists\n        __typename\n      }\n      jobSerpFaq {\n        questions {\n          answer\n          question\n          __typename\n        }\n        __typename\n      }\n      jobSerpJobOutlook {\n        occupation\n        paragraph\n        __typename\n      }\n      showMachineReadableJobs\n      __typename\n    }\n    serpSeoLinksVO {\n      relatedJobTitlesResults\n      searchedJobTitle\n      searchedKeyword\n      searchedLocationIdAsString\n      searchedLocationSeoName\n      searchedLocationType\n      topCityIdsToNameResults {\n        key\n        value\n        __typename\n      }\n      topEmployerIdsToNameResults {\n        key\n        value\n        __typename\n      }\n      topEmployerNameResults\n      topOccupationResults\n      __typename\n    }\n    totalJobsCount\n    __typename\n  }\n}\n\nfragment JobView on JobListingSearchResult {\n  jobview {\n    header {\n      adOrderId\n      advertiserType\n      adOrderSponsorshipLevel\n      ageInDays\n      divisionEmployerName\n      easyApply\n      employer {\n        id\n        name\n        shortName\n        __typename\n      }\n      employerNameFromSearch\n      goc\n      gocConfidence\n      gocId\n      jobCountryId\n      jobLink\n      jobResultTrackingKey\n      jobTitleText\n      locationName\n      locationType\n      locId\n      needsCommission\n      payCurrency\n      payPeriod\n      payPeriodAdjustedPay {\n        p10\n        p50\n        p90\n        __typename\n      }\n      rating\n      salarySource\n      savedJobId\n      sponsored\n      __typename\n    }\n    job {\n      descriptionFragments\n      importConfigId\n      jobTitleId\n      jobTitleText\n      listingId\n      __typename\n    }\n    jobListingAdminDetails {\n      cpcVal\n      importConfigId\n      jobListingId\n      jobSourceId\n      userEligibleForAdminJobDetails\n      __typename\n    }\n    overview {\n      shortName\n      squareLogoUrl\n      __typename\n    }\n    __typename\n  }\n  __typename\n}\n",
        }
--- a/src/jobspy/scrapers/indeed/init.py
+++ b/src/jobspy/scrapers/indeed/init.py
@ -346,12 +346,15 @@ class IndeedScraper(Scraper):

    @staticmethod
    def add_params(scraper_input: ScraperInput, page: int) -> dict[str, str | Any]:
+        # `fromage` is the posting time filter in days
+        fromage = min(scraper_input.hours_old // 24, 1) if scraper_input.hours_old else None
        params = {
            "q": scraper_input.search_term,
            "l": scraper_input.location if scraper_input.location else scraper_input.country.value[0].split(',')[-1],
            "filter": 0,
            "start": scraper_input.offset + page * 10,
-            "sort": "date"
+            "sort": "date",
+            "fromage": fromage,
        }
        if scraper_input.distance:
            params["radius"] = scraper_input.distance
--- a/src/jobspy/scrapers/linkedin/init.py
+++ b/src/jobspy/scrapers/linkedin/init.py
@ -59,6 +59,12 @@ class LinkedInScraper(Scraper):
        url_lock = Lock()
        page = scraper_input.offset // 25 + 25 if scraper_input.offset else 0

+        seconds_old = (
+            scraper_input.hours_old * 3600
+            if scraper_input.hours_old
+            else None
+        )
+
        def job_type_code(job_type_enum):
            mapping = {
                JobType.FULL_TIME: "F",
@ -85,7 +91,8 @@ class LinkedInScraper(Scraper):
                "pageNum": 0,
                "start": page + scraper_input.offset,
                "f_AL": "true" if scraper_input.easy_apply else None,
-                "f_C": ','.join(map(str, scraper_input.linkedin_company_ids)) if scraper_input.linkedin_company_ids else None
+                "f_C": ','.join(map(str, scraper_input.linkedin_company_ids)) if scraper_input.linkedin_company_ids else None,
+                "f_TPR": f"r{seconds_old}",
            }

            params = {k: v for k, v in params.items() if v is not None}
@ -101,7 +108,9 @@ class LinkedInScraper(Scraper):
                response.raise_for_status()

            except requests.HTTPError as e:
-                raise LinkedInException(f"bad response status code: {e.response.status_code}")
+                raise LinkedInException(
+                    f"bad response status code: {e.response.status_code}"
+                )
            except ProxyError as e:
                raise LinkedInException("bad proxy")
            except Exception as e:
@ -145,11 +154,11 @@ class LinkedInScraper(Scraper):

        compensation = None
        if salary_tag:
-            salary_text = salary_tag.get_text(separator=' ').strip()
-            salary_values = [currency_parser(value) for value in salary_text.split('-')]
+            salary_text = salary_tag.get_text(separator=" ").strip()
+            salary_values = [currency_parser(value) for value in salary_text.split("-")]
            salary_min = salary_values[0]
            salary_max = salary_values[1]
-            currency = salary_text[0] if salary_text[0] != '$' else 'USD'
+            currency = salary_text[0] if salary_text[0] != "$" else "USD"

            compensation = Compensation(
                min_amount=int(salary_min),
@ -294,17 +303,17 @@ class LinkedInScraper(Scraper):
    @staticmethod
    def headers() -> dict:
        return {
-            'authority': 'www.linkedin.com',
-            'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
-            'accept-language': 'en-US,en;q=0.9',
-            'cache-control': 'max-age=0',
-            'sec-ch-ua': '"Not_A Brand";v="8", "Chromium";v="120", "Google Chrome";v="120"',
+            "authority": "www.linkedin.com",
+            "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7",
+            "accept-language": "en-US,en;q=0.9",
+            "cache-control": "max-age=0",
+            "sec-ch-ua": '"Not_A Brand";v="8", "Chromium";v="120", "Google Chrome";v="120"',
            # 'sec-ch-ua-mobile': '?0',
            # 'sec-ch-ua-platform': '"macOS"',
            # 'sec-fetch-dest': 'document',
            # 'sec-fetch-mode': 'navigate',
            # 'sec-fetch-site': 'none',
            # 'sec-fetch-user': '?1',
-            'upgrade-insecure-requests': '1',
-            'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36'
+            "upgrade-insecure-requests": "1",
+            "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
        }