Création auto dossier

2021-02-07 21:34:55 +01:00 · 2021-02-07 21:34:55 +01:00 · 6d08071c6c
commit 6d08071c6c
parent f4ca5d5835
55 changed files with 18 additions and 8 deletions
--- a/4chanscrape.py
+++ b/4chanscrape.py
@ -6,7 +6,7 @@ from bs4 import BeautifulSoup
 #Connexion web
 import mechanicalsoup
 import wget
-
+from os import mkdir
 '''
 ############## 4chan thread scrapper ################
 Give me a thread, i'll download all of its pictures !
@ -23,7 +23,7 @@ def getArgs():

    parser = argparse.ArgumentParser()
    parser.add_argument("-u", "--url", help = "URL of the thread", action="store", type=str, required=True)
-    parser.add_argument("-f", "--folder", help = "Folder in which downloads will go", action="store", type=str, required=True)
+    parser.add_argument("-f", "--folder", help = "Folder in which downloads will go, ex: ./downloads", action="store", type=str, required=True)
    #Creating the args object
    args=parser.parse_args()

@ -73,10 +73,15 @@ def scraper(soup):

 def item_dl(sources, dlfolder):
    '''
-    Download all items in the sources list to folder dlfolder"
+    Download all items in the sources list to folder dlfolder, which we try to create"
    Args:
    - sources : a list of URLs
    '''
+    try:
+        mkdir(dlfolder)
+    except FileExistsError:
+        print(f"{dlfolder} already exists, not creating")
+
    for source in sources:
        fullsource = "http://" + source
        name = wget.download(fullsource, out=dlfolder)
--- a/downloads/1612495733903.jpg
+++ b/downloads/1612495733903.jpg
--- a/downloads/1612495889126.jpg
+++ b/downloads/1612495889126.jpg
--- a/downloads/1612496273920.jpg
+++ b/downloads/1612496273920.jpg
--- a/downloads/1612496326357.png
+++ b/downloads/1612496326357.png
--- a/downloads/1612496427354.png
+++ b/downloads/1612496427354.png
--- a/downloads/1612496458053.jpg
+++ b/downloads/1612496458053.jpg
--- a/downloads/1612496491214.png
+++ b/downloads/1612496491214.png
--- a/downloads/1612496545051.jpg
+++ b/downloads/1612496545051.jpg
--- a/downloads/1612496585654.jpg
+++ b/downloads/1612496585654.jpg
--- a/downloads/1612496617905.jpg
+++ b/downloads/1612496617905.jpg
--- a/downloads/1612498171829.png
+++ b/downloads/1612498171829.png
--- a/downloads/1612498234647.jpg
+++ b/downloads/1612498234647.jpg
--- a/downloads/1612498296481.jpg
+++ b/downloads/1612498296481.jpg
--- a/downloads/1612498357605.jpg
+++ b/downloads/1612498357605.jpg
--- a/downloads/1612498614377.jpg
+++ b/downloads/1612498614377.jpg
--- a/downloads/1612498872184.png
+++ b/downloads/1612498872184.png
--- a/downloads/1612498944896.jpg
+++ b/downloads/1612498944896.jpg
--- a/downloads/1612499007394.jpg
+++ b/downloads/1612499007394.jpg
--- a/downloads/1612499068840.png
+++ b/downloads/1612499068840.png
--- a/downloads/1612499129413.jpg
+++ b/downloads/1612499129413.jpg
--- a/downloads/1612500378091.jpg
+++ b/downloads/1612500378091.jpg
--- a/downloads/1612501855596.jpg
+++ b/downloads/1612501855596.jpg
--- a/downloads/1612542694607.jpg
+++ b/downloads/1612542694607.jpg
--- a/downloads/1612542757961.jpg
+++ b/downloads/1612542757961.jpg
--- a/downloads/1612542819567.jpg
+++ b/downloads/1612542819567.jpg
--- a/downloads/1612542880894.jpg
+++ b/downloads/1612542880894.jpg
--- a/downloads/1612542942459.jpg
+++ b/downloads/1612542942459.jpg
--- a/downloads/1612546870980.png
+++ b/downloads/1612546870980.png
--- a/downloads/1612549708543.jpg
+++ b/downloads/1612549708543.jpg
--- a/downloads/1612549769793.jpg
+++ b/downloads/1612549769793.jpg
--- a/downloads/1612587310966.jpg
+++ b/downloads/1612587310966.jpg
--- a/downloads/1612587373905.jpg
+++ b/downloads/1612587373905.jpg
--- a/downloads/1612587435764.jpg
+++ b/downloads/1612587435764.jpg
--- a/downloads/1612587498221.jpg
+++ b/downloads/1612587498221.jpg
--- a/downloads/1612660763418.jpg
+++ b/downloads/1612660763418.jpg
--- a/downloads/1612660825853.jpg
+++ b/downloads/1612660825853.jpg
--- a/downloads/1612679388338.png
+++ b/downloads/1612679388338.png
--- a/downloads/1612721086476.jpg
+++ b/downloads/1612721086476.jpg
--- a/downloads/1612721838882.png
+++ b/downloads/1612721838882.png
--- a/downloads/1612721863881.jpg
+++ b/downloads/1612721863881.jpg
--- a/downloads/1612721920904.jpg
+++ b/downloads/1612721920904.jpg
--- a/downloads/1612722054983.png
+++ b/downloads/1612722054983.png
--- a/downloads/1612722082481.png
+++ b/downloads/1612722082481.png
--- a/downloads/1612722415043.jpg
+++ b/downloads/1612722415043.jpg
--- a/downloads/1612722444002.jpg
+++ b/downloads/1612722444002.jpg
--- a/downloads/1612722505368.jpg
+++ b/downloads/1612722505368.jpg
--- a/downloads/1612722858144.gif
+++ b/downloads/1612722858144.gif
--- a/downloads/1612723284202.jpg
+++ b/downloads/1612723284202.jpg
--- a/downloads/1612723314446.jpg
+++ b/downloads/1612723314446.jpg
--- a/downloads/1612723453700.jpg
+++ b/downloads/1612723453700.jpg
--- a/downloads/1612723516899.jpg
+++ b/downloads/1612723516899.jpg
--- a/downloads/1612723578590.jpg
+++ b/downloads/1612723578590.jpg
--- a/downloads/1612723639738.jpg
+++ b/downloads/1612723639738.jpg
--- a/scrape.py
+++ b/scrape.py
@ -6,10 +6,10 @@ from bs4 import BeautifulSoup
 #Connexion web
 import mechanicalsoup
 import wget
-
+from os import mkdir
 '''
-############## image scrapper ################
-Give me a url, i'll download all of its pictures !
+############## 4chan thread scrapper ################
+Give me a page, i'll download all of its pictures !
 '''


@ -23,7 +23,7 @@ def getArgs():

    parser = argparse.ArgumentParser()
    parser.add_argument("-u", "--url", help = "URL of the thread", action="store", type=str, required=True)
-    parser.add_argument("-f", "--folder", help = "Folder in which downloads will go", action="store", type=str, required=True)
+    parser.add_argument("-f", "--folder", help = "Folder in which downloads will go, ex: ./downloads", action="store", type=str, required=True)
    #Creating the args object
    args=parser.parse_args()

@ -73,10 +73,15 @@ def scraper(soup):

 def item_dl(sources, dlfolder):
    '''
-    Download all items in the sources list to folder dlfolder"
+    Download all items in the sources list to folder dlfolder, which we try to create"
    Args:
    - sources : a list of URLs
    '''
+    try:
+        mkdir(dlfolder)
+    except FileExistsError:
+        print(f"{dlfolder} already exists, not creating")
+
    for source in sources:
        fullsource = "http://" + source
        name = wget.download(fullsource, out=dlfolder)