JobSpy/api/v1/jobs/__init__.py

from concurrent.futures import ThreadPoolExecutor
from fastapi import APIRouter

from api.core.scrapers.indeed import IndeedScraper
from api.core.scrapers.ziprecruiter import ZipRecruiterScraper
from api.core.scrapers.linkedin import LinkedInScraper
from api.core.scrapers import ScraperInput, Site, JobResponse
from typing import List

router = APIRouter(prefix="/jobs", tags=["jobs"])

SCRAPER_MAPPING = {
    Site.LINKEDIN: LinkedInScraper,
    Site.INDEED: IndeedScraper,
    Site.ZIP_RECRUITER: ZipRecruiterScraper,
}


@router.post("/", response_model=List[JobResponse])
async def scrape_jobs(scraper_input: ScraperInput) -> List[JobResponse]:
    def scrape_site(site: str) -> JobResponse:
        scraper_class = SCRAPER_MAPPING[site]
        scraper = scraper_class()
        return scraper.scrape(scraper_input)

    with ThreadPoolExecutor() as executor:
        resp = list(executor.map(scrape_site, scraper_input.site_type))

    return resp
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`from concurrent.futures import ThreadPoolExecutor`
feat(jobs): remove pages for results_wanted 2023-07-10 20:07:19 -07:00			`from fastapi import APIRouter`
- init 2023-07-06 16:44:38 -07:00
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00			`from api.core.scrapers.indeed import IndeedScraper`
feat: add ZipRecruiterScraper 2023-07-08 04:57:36 -07:00			`from api.core.scrapers.ziprecruiter import ZipRecruiterScraper`
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00			`from api.core.scrapers.linkedin import LinkedInScraper`
- api/jobs/v1 schema change 2023-07-10 16:04:44 -07:00			`from api.core.scrapers import ScraperInput, Site, JobResponse`
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`from typing import List`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
chore: clean up 2023-08-19 16:46:03 -07:00			`router = APIRouter(prefix="/jobs", tags=["jobs"])`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
refactor(jobs): switch site_type param from string to SiteType enum 2023-07-08 19:36:08 -07:00			`SCRAPER_MAPPING = {`
			`Site.LINKEDIN: LinkedInScraper,`
			`Site.INDEED: IndeedScraper,`
			`Site.ZIP_RECRUITER: ZipRecruiterScraper,`
			`}`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`@router.post("/", response_model=List[JobResponse])`
			`async def scrape_jobs(scraper_input: ScraperInput) -> List[JobResponse]:`
			`def scrape_site(site: str) -> JobResponse:`
			`scraper_class = SCRAPER_MAPPING[site]`
			`scraper = scraper_class()`
			`return scraper.scrape(scraper_input)`
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`with ThreadPoolExecutor() as executor:`
			`resp = list(executor.map(scrape_site, scraper_input.site_type))`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`return resp`