JobSpy/api/v1/jobs/__init__.py

import io
from fastapi import APIRouter
from fastapi.responses import StreamingResponse
from concurrent.futures import ThreadPoolExecutor

from api.core.scrapers.indeed import IndeedScraper
from api.core.scrapers.ziprecruiter import ZipRecruiterScraper
from api.core.scrapers.linkedin import LinkedInScraper
from api.core.formatters.csv import CSVFormatter, generate_filename
from api.core.scrapers import (
    ScraperInput,
    Site,
    JobResponse,
    OutputFormat,
    ScraperResponse,
)
from typing import List, Dict, Tuple, Union

router = APIRouter(prefix="/jobs", tags=["jobs"])

SCRAPER_MAPPING = {
    Site.LINKEDIN: LinkedInScraper,
    Site.INDEED: IndeedScraper,
    Site.ZIP_RECRUITER: ZipRecruiterScraper,
}


@router.post("/")
async def scrape_jobs(scraper_input: ScraperInput) -> ScraperResponse:
    """
    Asynchronously scrapes job data from multiple job sites.
    :param scraper_input:
    :return: scraper_response
    """

    def scrape_site(site: Site) -> Tuple[str, JobResponse]:
        scraper_class = SCRAPER_MAPPING[site]
        scraper = scraper_class()
        scraped_data: JobResponse = scraper.scrape(scraper_input)
        return (site.value, scraped_data)

    with ThreadPoolExecutor() as executor:
        results = dict(executor.map(scrape_site, scraper_input.site_type))

    scraper_response = ScraperResponse(**results)

    if scraper_input.output_format == OutputFormat.CSV:
        csv_output = CSVFormatter.format(scraper_response)
        response = StreamingResponse(csv_output, media_type="text/csv")
        response.headers[
            "Content-Disposition"
        ] = f"attachment; filename={generate_filename()}"
        return response

    return scraper_response
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`import io`
feat(jobs): remove pages for results_wanted 2023-07-10 20:07:19 -07:00			`from fastapi import APIRouter`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`from fastapi.responses import StreamingResponse`
			`from concurrent.futures import ThreadPoolExecutor`
- init 2023-07-06 16:44:38 -07:00
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00			`from api.core.scrapers.indeed import IndeedScraper`
feat: add ZipRecruiterScraper 2023-07-08 04:57:36 -07:00			`from api.core.scrapers.ziprecruiter import ZipRecruiterScraper`
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00			`from api.core.scrapers.linkedin import LinkedInScraper`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`from api.core.formatters.csv import CSVFormatter, generate_filename`
			`from api.core.scrapers import (`
			`ScraperInput,`
			`Site,`
			`JobResponse,`
			`OutputFormat,`
			`ScraperResponse,`
			`)`
			`from typing import List, Dict, Tuple, Union`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
chore: clean up 2023-08-19 16:46:03 -07:00			`router = APIRouter(prefix="/jobs", tags=["jobs"])`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
refactor(jobs): switch site_type param from string to SiteType enum 2023-07-08 19:36:08 -07:00			`SCRAPER_MAPPING = {`
			`Site.LINKEDIN: LinkedInScraper,`
			`Site.INDEED: IndeedScraper,`
			`Site.ZIP_RECRUITER: ZipRecruiterScraper,`
			`}`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`@router.post("/")`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`async def scrape_jobs(scraper_input: ScraperInput) -> ScraperResponse:`
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`"""`
			`Asynchronously scrapes job data from multiple job sites.`
			`:param scraper_input:`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`:return: scraper_response`
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`"""`
remove postal code (#17) * fix: remove postal code 2023-08-26 20:09:04 -07:00
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`def scrape_site(site: Site) -> Tuple[str, JobResponse]:`
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`scraper_class = SCRAPER_MAPPING[site]`
			`scraper = scraper_class()`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`scraped_data: JobResponse = scraper.scrape(scraper_input)`
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`return (site.value, scraped_data)`
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`with ThreadPoolExecutor() as executor:`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`results = dict(executor.map(scrape_site, scraper_input.site_type))`

			`scraper_response = ScraperResponse(**results)`

			`if scraper_input.output_format == OutputFormat.CSV:`
			`csv_output = CSVFormatter.format(scraper_response)`
			`response = StreamingResponse(csv_output, media_type="text/csv")`
			`response.headers[`
			`"Content-Disposition"`
			`] = f"attachment; filename={generate_filename()}"`
			`return response`
update resp schema (#15) 2023-08-26 18:30:00 -07:00
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`return scraper_response`