JobSpy/api/v1/jobs/__init__.py

import io
from fastapi import APIRouter
from fastapi.responses import StreamingResponse
from concurrent.futures import ThreadPoolExecutor

from api.core.scrapers.indeed import IndeedScraper
from api.core.scrapers.ziprecruiter import ZipRecruiterScraper
from api.core.scrapers.linkedin import LinkedInScraper
from api.core.formatters.csv import CSVFormatter
from api.core.scrapers import (
    ScraperInput,
    Site,
    JobResponse,
    OutputFormat,
    CommonResponse,
)
from typing import List, Dict, Tuple, Union

router = APIRouter(prefix="/jobs", tags=["jobs"])

SCRAPER_MAPPING = {
    Site.LINKEDIN: LinkedInScraper,
    Site.INDEED: IndeedScraper,
    Site.ZIP_RECRUITER: ZipRecruiterScraper,
}


@router.post("/")
async def scrape_jobs(scraper_input: ScraperInput) -> CommonResponse:
    """
    Asynchronously scrapes job data from multiple job sites.
    :param scraper_input:
    :return: scraper_response
    """

    def scrape_site(site: Site) -> Tuple[str, JobResponse]:
        scraper_class = SCRAPER_MAPPING[site]
        scraper = scraper_class()
        scraped_data: JobResponse = scraper.scrape(scraper_input)
        return (site.value, scraped_data)

    with ThreadPoolExecutor(max_workers=3) as executor:
        results = dict(executor.map(scrape_site, scraper_input.site_type))
    scraper_response = CommonResponse(status="JSON response success", **results)

    if scraper_input.output_format == OutputFormat.CSV:
        csv_output = CSVFormatter.format(scraper_response)
        response = StreamingResponse(csv_output, media_type="text/csv")
        response.headers[
            "Content-Disposition"
        ] = f"attachment; filename={CSVFormatter.generate_filename()}"
        return response

    elif scraper_input.output_format == OutputFormat.GSHEET:
        csv_output = CSVFormatter.format(scraper_response)
        try:
            CSVFormatter.upload_to_google_sheet(csv_output)
            return CommonResponse(
                status="Successfully uploaded to Google Sheets", **results
            )

        except Exception as e:
            return CommonResponse(
                status="Failed to upload to Google Sheet", error=repr(e), **results
            )

    else:
        return scraper_response
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`import io`
feat(jobs): remove pages for results_wanted 2023-07-10 20:07:19 -07:00			`from fastapi import APIRouter`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`from fastapi.responses import StreamingResponse`
			`from concurrent.futures import ThreadPoolExecutor`
- init 2023-07-06 16:44:38 -07:00
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00			`from api.core.scrapers.indeed import IndeedScraper`
feat: add ZipRecruiterScraper 2023-07-08 04:57:36 -07:00			`from api.core.scrapers.ziprecruiter import ZipRecruiterScraper`
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00			`from api.core.scrapers.linkedin import LinkedInScraper`
Google sheets integration (#22) 2023-08-27 18:32:46 -07:00			`from api.core.formatters.csv import CSVFormatter`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`from api.core.scrapers import (`
			`ScraperInput,`
			`Site,`
			`JobResponse,`
			`OutputFormat,`
Google sheets integration (#22) 2023-08-27 18:32:46 -07:00			`CommonResponse,`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`)`
			`from typing import List, Dict, Tuple, Union`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
chore: clean up 2023-08-19 16:46:03 -07:00			`router = APIRouter(prefix="/jobs", tags=["jobs"])`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
refactor(jobs): switch site_type param from string to SiteType enum 2023-07-08 19:36:08 -07:00			`SCRAPER_MAPPING = {`
			`Site.LINKEDIN: LinkedInScraper,`
			`Site.INDEED: IndeedScraper,`
			`Site.ZIP_RECRUITER: ZipRecruiterScraper,`
			`}`
feat: add IndeedScraper 2023-07-07 19:00:59 -07:00
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`@router.post("/")`
Google sheets integration (#22) 2023-08-27 18:32:46 -07:00			`async def scrape_jobs(scraper_input: ScraperInput) -> CommonResponse:`
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`"""`
			`Asynchronously scrapes job data from multiple job sites.`
			`:param scraper_input:`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`:return: scraper_response`
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`"""`
remove postal code (#17) * fix: remove postal code 2023-08-26 20:09:04 -07:00
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`def scrape_site(site: Site) -> Tuple[str, JobResponse]:`
Feat/multiple sites (#12) * adding multiple search sites * updating docs and postman * threading per scraper type 2023-08-26 12:28:02 -07:00			`scraper_class = SCRAPER_MAPPING[site]`
			`scraper = scraper_class()`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`scraped_data: JobResponse = scraper.scrape(scraper_input)`
update resp schema (#15) 2023-08-26 18:30:00 -07:00			`return (site.value, scraped_data)`
feat: add LinkedIn scraper 2023-07-08 07:34:55 -07:00
remove duplicates - gsheets (#29) 2023-08-31 08:29:43 -07:00			`with ThreadPoolExecutor(max_workers=3) as executor:`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`results = dict(executor.map(scrape_site, scraper_input.site_type))`
Google sheets integration (#22) 2023-08-27 18:32:46 -07:00			`scraper_response = CommonResponse(status="JSON response success", **results)`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00
			`if scraper_input.output_format == OutputFormat.CSV:`
			`csv_output = CSVFormatter.format(scraper_response)`
			`response = StreamingResponse(csv_output, media_type="text/csv")`
			`response.headers[`
			`"Content-Disposition"`
Google sheets integration (#22) 2023-08-27 18:32:46 -07:00			`] = f"attachment; filename={CSVFormatter.generate_filename()}"`
Add Csv output (#20) 2023-08-27 14:25:48 -07:00			`return response`
update resp schema (#15) 2023-08-26 18:30:00 -07:00
Google sheets integration (#22) 2023-08-27 18:32:46 -07:00			`elif scraper_input.output_format == OutputFormat.GSHEET:`
			`csv_output = CSVFormatter.format(scraper_response)`
			`try:`
			`CSVFormatter.upload_to_google_sheet(csv_output)`
remove duplicates - gsheets (#29) 2023-08-31 08:29:43 -07:00			`return CommonResponse(`
			`status="Successfully uploaded to Google Sheets", **results`
			`)`
Google sheets integration (#22) 2023-08-27 18:32:46 -07:00
			`except Exception as e:`
			`return CommonResponse(`
remove duplicates - gsheets (#29) 2023-08-31 08:29:43 -07:00			`status="Failed to upload to Google Sheet", error=repr(e), **results`
Google sheets integration (#22) 2023-08-27 18:32:46 -07:00			`)`

			`else:`
			`return scraper_response`