JobSpy/jobspy/glassdoor/__init__.py

from __future__ import annotations

import re
import json
import requests
from typing import Tuple
from datetime import datetime, timedelta
from concurrent.futures import ThreadPoolExecutor, as_completed

from jobspy.glassdoor.constant import fallback_token, query_template, headers
from jobspy.glassdoor.util import (
    get_cursor_for_page,
    parse_compensation,
    parse_location,
)
from jobspy.util import (
    extract_emails_from_text,
    create_logger,
    create_session,
    markdown_converter,
)
from jobspy.exception import GlassdoorException
from jobspy.model import (
    JobPost,
    JobResponse,
    DescriptionFormat,
    Scraper,
    ScraperInput,
    Site,
)

log = create_logger("Glassdoor")


class Glassdoor(Scraper):
    def __init__(
        self, proxies: list[str] | str | None = None, ca_cert: str | None = None
    ):
        """
        Initializes GlassdoorScraper with the Glassdoor job search url
        """
        site = Site(Site.GLASSDOOR)
        super().__init__(site, proxies=proxies, ca_cert=ca_cert)

        self.base_url = None
        self.country = None
        self.session = None
        self.scraper_input = None
        self.jobs_per_page = 30
        self.max_pages = 30
        self.seen_urls = set()

    def scrape(self, scraper_input: ScraperInput) -> JobResponse:
        """
        Scrapes Glassdoor for jobs with scraper_input criteria.
        :param scraper_input: Information about job search criteria.
        :return: JobResponse containing a list of jobs.
        """
        self.scraper_input = scraper_input
        self.scraper_input.results_wanted = min(900, scraper_input.results_wanted)
        self.base_url = self.scraper_input.country.get_glassdoor_url()

        self.session = create_session(
            proxies=self.proxies, ca_cert=self.ca_cert, has_retry=True
        )
        token = self._get_csrf_token()
        headers["gd-csrf-token"] = token if token else fallback_token
        self.session.headers.update(headers)

        location_id, location_type = self._get_location(
            scraper_input.location, scraper_input.is_remote
        )
        if location_type is None:
            log.error("Glassdoor: location not parsed")
            return JobResponse(jobs=[])
        job_list: list[JobPost] = []
        cursor = None

        range_start = 1 + (scraper_input.offset // self.jobs_per_page)
        tot_pages = (scraper_input.results_wanted // self.jobs_per_page) + 2
        range_end = min(tot_pages, self.max_pages + 1)
        for page in range(range_start, range_end):
            log.info(f"search page: {page} / {range_end - 1}")
            try:
                jobs, cursor = self._fetch_jobs_page(
                    scraper_input, location_id, location_type, page, cursor
                )
                job_list.extend(jobs)
                if not jobs or len(job_list) >= scraper_input.results_wanted:
                    job_list = job_list[: scraper_input.results_wanted]
                    break
            except Exception as e:
                log.error(f"Glassdoor: {str(e)}")
                break
        return JobResponse(jobs=job_list)

    def _fetch_jobs_page(
        self,
        scraper_input: ScraperInput,
        location_id: int,
        location_type: str,
        page_num: int,
        cursor: str | None,
    ) -> Tuple[list[JobPost], str | None]:
        """
        Scrapes a page of Glassdoor for jobs with scraper_input criteria
        """
        jobs = []
        self.scraper_input = scraper_input
        try:
            payload = self._add_payload(location_id, location_type, page_num, cursor)
            response = self.session.post(
                f"{self.base_url}/graph",
                timeout_seconds=15,
                data=payload,
            )
            if response.status_code != 200:
                exc_msg = f"bad response status code: {response.status_code}"
                raise GlassdoorException(exc_msg)
            res_json = response.json()[0]
            if "errors" in res_json:
                raise ValueError("Error encountered in API response")
        except (
            requests.exceptions.ReadTimeout,
            GlassdoorException,
            ValueError,
            Exception,
        ) as e:
            log.error(f"Glassdoor: {str(e)}")
            return jobs, None

        jobs_data = res_json["data"]["jobListings"]["jobListings"]

        with ThreadPoolExecutor(max_workers=self.jobs_per_page) as executor:
            future_to_job_data = {
                executor.submit(self._process_job, job): job for job in jobs_data
            }
            for future in as_completed(future_to_job_data):
                try:
                    job_post = future.result()
                    if job_post:
                        jobs.append(job_post)
                except Exception as exc:
                    raise GlassdoorException(f"Glassdoor generated an exception: {exc}")

        return jobs, get_cursor_for_page(
            res_json["data"]["jobListings"]["paginationCursors"], page_num + 1
        )

    def _get_csrf_token(self):
        """
        Fetches csrf token needed for API by visiting a generic page
        """
        res = self.session.get(f"{self.base_url}/Job/computer-science-jobs.htm")
        pattern = r'"token":\s*"([^"]+)"'
        matches = re.findall(pattern, res.text)
        token = None
        if matches:
            token = matches[0]
        return token

    def _process_job(self, job_data):
        """
        Processes a single job and fetches its description.
        """
        job_id = job_data["jobview"]["job"]["listingId"]
        job_url = f"{self.base_url}job-listing/j?jl={job_id}"
        if job_url in self.seen_urls:
            return None
        self.seen_urls.add(job_url)
        job = job_data["jobview"]
        title = job["job"]["jobTitleText"]
        company_name = job["header"]["employerNameFromSearch"]
        company_id = job_data["jobview"]["header"]["employer"]["id"]
        location_name = job["header"].get("locationName", "")
        location_type = job["header"].get("locationType", "")
        age_in_days = job["header"].get("ageInDays")
        is_remote, location = False, None
        date_diff = (datetime.now() - timedelta(days=age_in_days)).date()
        date_posted = date_diff if age_in_days is not None else None

        if location_type == "S":
            is_remote = True
        else:
            location = parse_location(location_name)

        compensation = parse_compensation(job["header"])
        try:
            description = self._fetch_job_description(job_id)
        except:
            description = None
        company_url = f"{self.base_url}Overview/W-EI_IE{company_id}.htm"
        company_logo = (
            job_data["jobview"].get("overview", {}).get("squareLogoUrl", None)
        )
        listing_type = (
            job_data["jobview"]
            .get("header", {})
            .get("adOrderSponsorshipLevel", "")
            .lower()
        )
        return JobPost(
            id=f"gd-{job_id}",
            title=title,
            company_url=company_url if company_id else None,
            company_name=company_name,
            date_posted=date_posted,
            job_url=job_url,
            location=location,
            compensation=compensation,
            is_remote=is_remote,
            description=description,
            emails=extract_emails_from_text(description) if description else None,
            company_logo=company_logo,
            listing_type=listing_type,
        )

    def _fetch_job_description(self, job_id):
        """
        Fetches the job description for a single job ID.
        """
        url = f"{self.base_url}/graph"
        body = [
            {
                "operationName": "JobDetailQuery",
                "variables": {
                    "jl": job_id,
                    "queryString": "q",
                    "pageTypeEnum": "SERP",
                },
                "query": """
                query JobDetailQuery($jl: Long!, $queryString: String, $pageTypeEnum: PageTypeEnum) {
                    jobview: jobView(
                        listingId: $jl
                        contextHolder: {queryString: $queryString, pageTypeEnum: $pageTypeEnum}
                    ) {
                        job {
                            description
                            __typename
                        }
                        __typename
                    }
                }
                """,
            }
        ]
        res = requests.post(url, json=body, headers=headers)
        if res.status_code != 200:
            return None
        data = res.json()[0]
        desc = data["data"]["jobview"]["job"]["description"]
        if self.scraper_input.description_format == DescriptionFormat.MARKDOWN:
            desc = markdown_converter(desc)
        return desc

    def _get_location(self, location: str, is_remote: bool) -> (int, str):
        if not location or is_remote:
            return "11047", "STATE"  # remote options
        url = f"{self.base_url}/findPopularLocationAjax.htm?maxLocationsToReturn=10&term={location}"
        res = self.session.get(url)
        if res.status_code != 200:
            if res.status_code == 429:
                err = f"429 Response - Blocked by Glassdoor for too many requests"
                log.error(err)
                return None, None
            else:
                err = f"Glassdoor response status code {res.status_code}"
                err += f" - {res.text}"
                log.error(f"Glassdoor response status code {res.status_code}")
                return None, None
        items = res.json()

        if not items:
            raise ValueError(f"Location '{location}' not found on Glassdoor")
        location_type = items[0]["locationType"]
        if location_type == "C":
            location_type = "CITY"
        elif location_type == "S":
            location_type = "STATE"
        elif location_type == "N":
            location_type = "COUNTRY"
        return int(items[0]["locationId"]), location_type

    def _add_payload(
        self,
        location_id: int,
        location_type: str,
        page_num: int,
        cursor: str | None = None,
    ) -> str:
        fromage = None
        if self.scraper_input.hours_old:
            fromage = max(self.scraper_input.hours_old // 24, 1)
        filter_params = []
        if self.scraper_input.easy_apply:
            filter_params.append({"filterKey": "applicationType", "values": "1"})
        if fromage:
            filter_params.append({"filterKey": "fromAge", "values": str(fromage)})
        payload = {
            "operationName": "JobSearchResultsQuery",
            "variables": {
                "excludeJobListingIds": [],
                "filterParams": filter_params,
                "keyword": self.scraper_input.search_term,
                "numJobsToShow": 30,
                "locationType": location_type,
                "locationId": int(location_id),
                "parameterUrlInput": f"IL.0,12_I{location_type}{location_id}",
                "pageNumber": page_num,
                "pageCursor": cursor,
                "fromage": fromage,
                "sort": "date",
            },
            "query": query_template,
        }
        if self.scraper_input.job_type:
            payload["variables"]["filterParams"].append(
                {"filterKey": "jobType", "values": self.scraper_input.job_type.value[0]}
            )
        return json.dumps([payload])
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`from __future__ import annotations`

			`import re`
			`import json`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`import requests`
refactor:organize code 2025-02-21 12:14:55 -08:00			`from typing import Tuple`
Add czech to Indeed (#72) 2023-12-02 00:42:54 -08:00			`from datetime import datetime, timedelta`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`from concurrent.futures import ThreadPoolExecutor, as_completed`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00
refactor:organize code 2025-02-21 12:14:55 -08:00			`from jobspy.glassdoor.constant import fallback_token, query_template, headers`
			`from jobspy.glassdoor.util import (`
			`get_cursor_for_page,`
			`parse_compensation,`
			`parse_location,`
			`)`
			`from jobspy.util import (`
			`extract_emails_from_text,`
			`create_logger,`
Description format (#107) 2024-02-14 14:04:23 -08:00			`create_session,`
			`markdown_converter,`
			`)`
refactor:organize code 2025-02-21 12:14:55 -08:00			`from jobspy.exception import GlassdoorException`
			`from jobspy.model import (`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`JobPost,`
			`JobResponse,`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`DescriptionFormat,`
refactor:organize code 2025-02-21 12:14:55 -08:00			`Scraper,`
			`ScraperInput,`
			`Site,`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`)`

enh:remove log by default 2025-02-21 10:29:28 -08:00			`log = create_logger("Glassdoor")`
indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00
add glassdoor (#66) 2023-10-30 17:57:36 -07:00
refactor:organize code 2025-02-21 12:14:55 -08:00			`class Glassdoor(Scraper):`
indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00			`def __init__(`
			`self, proxies: list[str] \| str \| None = None, ca_cert: str \| None = None`
			`):`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`"""`
			`Initializes GlassdoorScraper with the Glassdoor job search url`
			`"""`
fix(glassdoor): add retry adapter (#77) 2024-01-03 10:04:32 -08:00			`site = Site(Site.GLASSDOOR)`
FEATURE: Add the "ca_cert" setting for providing a Certification Authority certificate in order to use proxies requiring it. (#204) 2024-10-08 15:46:46 -07:00			`super().__init__(site, proxies=proxies, ca_cert=ca_cert)`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00
Description format (#107) 2024-02-14 14:04:23 -08:00			`self.base_url = None`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`self.country = None`
fix job type search (#106) 2024-02-12 09:02:48 -08:00			`self.session = None`
Description format (#107) 2024-02-14 14:04:23 -08:00			`self.scraper_input = None`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`self.jobs_per_page = 30`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`self.max_pages = 30`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`self.seen_urls = set()`

Description format (#107) 2024-02-14 14:04:23 -08:00			`def scrape(self, scraper_input: ScraperInput) -> JobResponse:`
			`"""`
			`Scrapes Glassdoor for jobs with scraper_input criteria.`
			`:param scraper_input: Information about job search criteria.`
			`:return: JobResponse containing a list of jobs.`
			`"""`
			`self.scraper_input = scraper_input`
			`self.scraper_input.results_wanted = min(900, scraper_input.results_wanted)`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`self.base_url = self.scraper_input.country.get_glassdoor_url()`

indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00			`self.session = create_session(`
enh:remove log by default 2025-02-21 10:29:28 -08:00			`proxies=self.proxies, ca_cert=self.ca_cert, has_retry=True`
indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00			`)`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`token = self._get_csrf_token()`
indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00			`headers["gd-csrf-token"] = token if token else fallback_token`
			`self.session.headers.update(headers)`
Description format (#107) 2024-02-14 14:04:23 -08:00
			`location_id, location_type = self._get_location(`
			`scraper_input.location, scraper_input.is_remote`
			`)`
			`if location_type is None:`
enh:remove log by default 2025-02-21 10:29:28 -08:00			`log.error("Glassdoor: location not parsed")`
Description format (#107) 2024-02-14 14:04:23 -08:00			`return JobResponse(jobs=[])`
Salary parse (#163) 2024-06-09 15:45:38 -07:00			`job_list: list[JobPost] = []`
Description format (#107) 2024-02-14 14:04:23 -08:00			`cursor = None`

format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`range_start = 1 + (scraper_input.offset // self.jobs_per_page)`
			`tot_pages = (scraper_input.results_wanted // self.jobs_per_page) + 2`
			`range_end = min(tot_pages, self.max_pages + 1)`
			`for page in range(range_start, range_end):`
enh:remove log by default 2025-02-21 10:29:28 -08:00			`log.info(f"search page: {page} / {range_end - 1}")`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`try:`
			`jobs, cursor = self._fetch_jobs_page(`
			`scraper_input, location_id, location_type, page, cursor`
			`)`
Salary parse (#163) 2024-06-09 15:45:38 -07:00			`job_list.extend(jobs)`
			`if not jobs or len(job_list) >= scraper_input.results_wanted:`
			`job_list = job_list[: scraper_input.results_wanted]`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`break`
			`except Exception as e:`
enh:remove log by default 2025-02-21 10:29:28 -08:00			`log.error(f"Glassdoor: {str(e)}")`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`break`
Salary parse (#163) 2024-06-09 15:45:38 -07:00			`return JobResponse(jobs=job_list)`
Description format (#107) 2024-02-14 14:04:23 -08:00
			`def _fetch_jobs_page(`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`self,`
			`scraper_input: ScraperInput,`
			`location_id: int,`
			`location_type: str,`
			`page_num: int,`
			`cursor: str \| None,`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`) -> Tuple[list[JobPost], str \| None]:`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`"""`
			`Scrapes a page of Glassdoor for jobs with scraper_input criteria`
			`"""`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`jobs = []`
Description format (#107) 2024-02-14 14:04:23 -08:00			`self.scraper_input = scraper_input`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`try:`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`payload = self._add_payload(location_id, location_type, page_num, cursor)`
fix job type search (#106) 2024-02-12 09:02:48 -08:00			`response = self.session.post(`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`f"{self.base_url}/graph",`
			`timeout_seconds=15,`
			`data=payload,`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`)`
			`if response.status_code != 200:`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`exc_msg = f"bad response status code: {response.status_code}"`
			`raise GlassdoorException(exc_msg)`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`res_json = response.json()[0]`
			`if "errors" in res_json:`
			`raise ValueError("Error encountered in API response")`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`except (`
			`requests.exceptions.ReadTimeout,`
			`GlassdoorException,`
			`ValueError,`
			`Exception,`
			`) as e:`
enh:remove log by default 2025-02-21 10:29:28 -08:00			`log.error(f"Glassdoor: {str(e)}")`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`return jobs, None`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00
			`jobs_data = res_json["data"]["jobListings"]["jobListings"]`

enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`with ThreadPoolExecutor(max_workers=self.jobs_per_page) as executor:`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`future_to_job_data = {`
			`executor.submit(self._process_job, job): job for job in jobs_data`
			`}`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`for future in as_completed(future_to_job_data):`
			`try:`
			`job_post = future.result()`
			`if job_post:`
			`jobs.append(job_post)`
			`except Exception as exc:`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`raise GlassdoorException(f"Glassdoor generated an exception: {exc}")`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00
refactor:organize code 2025-02-21 12:14:55 -08:00			`return jobs, get_cursor_for_page(`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`res_json["data"]["jobListings"]["paginationCursors"], page_num + 1`
			`)`

log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`def _get_csrf_token(self):`
			`"""`
			`Fetches csrf token needed for API by visiting a generic page`
			`"""`
indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00			`res = self.session.get(f"{self.base_url}/Job/computer-science-jobs.htm")`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`pattern = r'"token":\s*"([^"]+)"'`
			`matches = re.findall(pattern, res.text)`
			`token = None`
			`if matches:`
			`token = matches[0]`
			`return token`

Description format (#107) 2024-02-14 14:04:23 -08:00			`def _process_job(self, job_data):`
			`"""`
			`Processes a single job and fetches its description.`
			`"""`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`job_id = job_data["jobview"]["job"]["listingId"]`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`job_url = f"{self.base_url}job-listing/j?jl={job_id}"`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`if job_url in self.seen_urls:`
			`return None`
			`self.seen_urls.add(job_url)`
			`job = job_data["jobview"]`
			`title = job["job"]["jobTitleText"]`
			`company_name = job["header"]["employerNameFromSearch"]`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`company_id = job_data["jobview"]["header"]["employer"]["id"]`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`location_name = job["header"].get("locationName", "")`
			`location_type = job["header"].get("locationType", "")`
			`age_in_days = job["header"].get("ageInDays")`
			`is_remote, location = False, None`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`date_diff = (datetime.now() - timedelta(days=age_in_days)).date()`
			`date_posted = date_diff if age_in_days is not None else None`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00
			`if location_type == "S":`
			`is_remote = True`
			`else:`
refactor:organize code 2025-02-21 12:14:55 -08:00			`location = parse_location(location_name)`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00
refactor:organize code 2025-02-21 12:14:55 -08:00			`compensation = parse_compensation(job["header"])`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`try:`
Description format (#107) 2024-02-14 14:04:23 -08:00			`description = self._fetch_job_description(job_id)`
fix job type search (#106) 2024-02-12 09:02:48 -08:00			`except:`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`description = None`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`company_url = f"{self.base_url}Overview/W-EI_IE{company_id}.htm"`
enh: listing source (#168) 2024-07-15 18:30:04 -07:00			`company_logo = (`
			`job_data["jobview"].get("overview", {}).get("squareLogoUrl", None)`
			`)`
			`listing_type = (`
			`job_data["jobview"]`
			`.get("header", {})`
			`.get("adOrderSponsorshipLevel", "")`
			`.lower()`
			`)`
Description format (#107) 2024-02-14 14:04:23 -08:00			`return JobPost(`
indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00			`id=f"gd-{job_id}",`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`title=title,`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`company_url=company_url if company_id else None,`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`company_name=company_name,`
			`date_posted=date_posted,`
			`job_url=job_url,`
			`location=location,`
			`compensation=compensation,`
			`is_remote=is_remote,`
			`description=description,`
			`emails=extract_emails_from_text(description) if description else None,`
enh: google jobs (#214) 2024-10-24 13:19:40 -07:00			`company_logo=company_logo,`
enh: listing source (#168) 2024-07-15 18:30:04 -07:00			`listing_type=listing_type,`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`)`

Description format (#107) 2024-02-14 14:04:23 -08:00			`def _fetch_job_description(self, job_id):`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`"""`
Description format (#107) 2024-02-14 14:04:23 -08:00			`Fetches the job description for a single job ID.`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`"""`
Description format (#107) 2024-02-14 14:04:23 -08:00			`url = f"{self.base_url}/graph"`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`body = [`
			`{`
			`"operationName": "JobDetailQuery",`
			`"variables": {`
			`"jl": job_id,`
			`"queryString": "q",`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`"pageTypeEnum": "SERP",`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`},`
			`"query": """`
			`query JobDetailQuery($jl: Long!, $queryString: String, $pageTypeEnum: PageTypeEnum) {`
			`jobview: jobView(`
			`listingId: $jl`
			`contextHolder: {queryString: $queryString, pageTypeEnum: $pageTypeEnum}`
			`) {`
			`job {`
			`description`
			`__typename`
			`}`
			`__typename`
			`}`
			`}`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`""",`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`}`
			`]`
indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00			`res = requests.post(url, json=body, headers=headers)`
Description format (#107) 2024-02-14 14:04:23 -08:00			`if res.status_code != 200:`
enh: full description param (#85) 2024-01-22 18:22:32 -08:00			`return None`
Description format (#107) 2024-02-14 14:04:23 -08:00			`data = res.json()[0]`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`desc = data["data"]["jobview"]["job"]["description"]`
			`if self.scraper_input.description_format == DescriptionFormat.MARKDOWN:`
			`desc = markdown_converter(desc)`
			`return desc`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00
Description format (#107) 2024-02-14 14:04:23 -08:00			`def _get_location(self, location: str, is_remote: bool) -> (int, str):`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`if not location or is_remote:`
[fix] glassdoor location 2023-10-30 18:19:56 -07:00			`return "11047", "STATE" # remote options`
Description format (#107) 2024-02-14 14:04:23 -08:00			`url = f"{self.base_url}/findPopularLocationAjax.htm?maxLocationsToReturn=10&term={location}"`
indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00			`res = self.session.get(url)`
Description format (#107) 2024-02-14 14:04:23 -08:00			`if res.status_code != 200:`
			`if res.status_code == 429:`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`err = f"429 Response - Blocked by Glassdoor for too many requests"`
enh:remove log by default 2025-02-21 10:29:28 -08:00			`log.error(err)`
Description format (#107) 2024-02-14 14:04:23 -08:00			`return None, None`
			`else:`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`err = f"Glassdoor response status code {res.status_code}"`
			`err += f" - {res.text}"`
enh:remove log by default 2025-02-21 10:29:28 -08:00			`log.error(f"Glassdoor response status code {res.status_code}")`
Description format (#107) 2024-02-14 14:04:23 -08:00			`return None, None`
			`items = res.json()`

add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`if not items:`
			`raise ValueError(f"Location '{location}' not found on Glassdoor")`
[fix] glassdoor location 2023-10-30 18:19:56 -07:00			`location_type = items[0]["locationType"]`
			`if location_type == "C":`
			`location_type = "CITY"`
			`elif location_type == "S":`
			`location_type = "STATE"`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`elif location_type == "N":`
fix(zr): date posted (#98) 2024-02-03 05:20:53 -08:00			`location_type = "COUNTRY"`
[fix] glassdoor location 2023-10-30 18:19:56 -07:00			`return int(items[0]["locationId"]), location_type`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00
Description format (#107) 2024-02-14 14:04:23 -08:00			`def _add_payload(`
			`self,`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`location_id: int,`
			`location_type: str,`
			`page_num: int,`
			`cursor: str \| None = None,`
fix(glassdoor): add retry adapter (#77) 2024-01-03 10:04:32 -08:00			`) -> str:`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`fromage = None`
			`if self.scraper_input.hours_old:`
			`fromage = max(self.scraper_input.hours_old // 24, 1)`
feat: Ability to query by time posted for linkedin, indeed, glassdoor, ziprecruiter (#103) 2024-02-09 12:02:03 -08:00			`filter_params = []`
Description format (#107) 2024-02-14 14:04:23 -08:00			`if self.scraper_input.easy_apply:`
feat: Ability to query by time posted for linkedin, indeed, glassdoor, ziprecruiter (#103) 2024-02-09 12:02:03 -08:00			`filter_params.append({"filterKey": "applicationType", "values": "1"})`
			`if fromage:`
			`filter_params.append({"filterKey": "fromAge", "values": str(fromage)})`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`payload = {`
			`"operationName": "JobSearchResultsQuery",`
			`"variables": {`
			`"excludeJobListingIds": [],`
feat: Ability to query by time posted for linkedin, indeed, glassdoor, ziprecruiter (#103) 2024-02-09 12:02:03 -08:00			`"filterParams": filter_params,`
Description format (#107) 2024-02-14 14:04:23 -08:00			`"keyword": self.scraper_input.search_term,`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`"numJobsToShow": 30,`
[fix] glassdoor location 2023-10-30 18:19:56 -07:00			`"locationType": location_type,`
			`"locationId": int(location_id),`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`"parameterUrlInput": f"IL.0,12_I{location_type}{location_id}",`
			`"pageNumber": page_num,`
			`"pageCursor": cursor,`
feat: Ability to query by time posted for linkedin, indeed, glassdoor, ziprecruiter (#103) 2024-02-09 12:02:03 -08:00			`"fromage": fromage,`
format: Apply Black formatter to the codebase (#127) 2024-03-10 21:36:27 -07:00			`"sort": "date",`
add glassdoor (#66) 2023-10-30 17:57:36 -07:00			`},`
indeed:remove tpe (#210) 2024-10-19 16:01:59 -07:00			`"query": query_template,`
log search updates, fix glassdoor (#120) 2024-03-04 14:39:38 -08:00			`}`
			`if self.scraper_input.job_type:`
			`payload["variables"]["filterParams"].append(`
			`{"filterKey": "jobType", "values": self.scraper_input.job_type.value[0]}`
			`)`
			`return json.dumps([payload])`