JobSpy/api/v1/jobs/__init__.py

from concurrent.futures import ThreadPoolExecutor
from fastapi import APIRouter

from api.core.scrapers.indeed import IndeedScraper
from api.core.scrapers.ziprecruiter import ZipRecruiterScraper
from api.core.scrapers.linkedin import LinkedInScraper
from api.core.scrapers import ScraperInput, Site, JobResponse
from typing import List, Dict, Tuple

router = APIRouter(prefix="/jobs", tags=["jobs"])

SCRAPER_MAPPING = {
    Site.LINKEDIN: LinkedInScraper,
    Site.INDEED: IndeedScraper,
    Site.ZIP_RECRUITER: ZipRecruiterScraper,
}


@router.post("/")
async def scrape_jobs(scraper_input: ScraperInput) -> Dict[str, JobResponse]:
    """
    Asynchronously scrapes job data from multiple job sites.
    :param scraper_input:
    :return: Dict[str, JobResponse]: where each key is a site
    """

    def scrape_site(site: Site) -> Tuple[str, JobResponse]:
        scraper_class = SCRAPER_MAPPING[site]
        scraper = scraper_class()
        scraped_data = scraper.scrape(scraper_input)
        return (site.value, scraped_data)

    with ThreadPoolExecutor() as executor:
        resp_dict = {
            site: resp
            for site, resp in executor.map(scrape_site, scraper_input.site_type)
        }

    return resp_dict
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`from concurrent.futures import ThreadPoolExecutor`
feat(jobs): remove pages for results_wanted 2023-07-10 20:07:19 -07:00			`from fastapi import APIRouter`
- init 2023-07-06 16:44:38 -07:00
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00			`from api.core.scrapers.indeed import IndeedScraper`
feat: add ZipRecruiterScraper 2023-07-08 04:57:36 -07:00			`from api.core.scrapers.ziprecruiter import ZipRecruiterScraper`
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00			`from api.core.scrapers.linkedin import LinkedInScraper`
- api/jobs/v1 schema change 2023-07-10 16:04:44 -07:00			`from api.core.scrapers import ScraperInput, Site, JobResponse`
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`from typing import List, Dict, Tuple`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
chore: clean up 2023-08-19 16:46:03 -07:00			`router = APIRouter(prefix="/jobs", tags=["jobs"])`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
refactor(jobs): switch site_type param from string to SiteType enum 2023-07-08 19:36:08 -07:00			`SCRAPER_MAPPING = {`
			`Site.LINKEDIN: LinkedInScraper,`
			`Site.INDEED: IndeedScraper,`
			`Site.ZIP_RECRUITER: ZipRecruiterScraper,`
			`}`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`@router.post("/")`
			`async def scrape_jobs(scraper_input: ScraperInput) -> Dict[str, JobResponse]:`
			`"""`
			`Asynchronously scrapes job data from multiple job sites.`
			`:param scraper_input:`
			`:return: Dict[str, JobResponse]: where each key is a site`
			`"""`
remove postal code (#17) * fix: remove postal code 2023-08-26 20:09:04 -07:00
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`def scrape_site(site: Site) -> Tuple[str, JobResponse]:`
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`scraper_class = SCRAPER_MAPPING[site]`
			`scraper = scraper_class()`
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`scraped_data = scraper.scrape(scraper_input)`
			`return (site.value, scraped_data)`
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`with ThreadPoolExecutor() as executor:`
remove postal code (#17) * fix: remove postal code 2023-08-26 20:09:04 -07:00			`resp_dict = {`
			`site: resp`
			`for site, resp in executor.map(scrape_site, scraper_input.site_type)`
			`}`
update resp schema (#15) 2023-08-26 18:30:00 -07:00
			`return resp_dict`