Soru Parametreleri ile bağlantıları takip etmeden wget ile nasıl indirilir


CD'ye eklenmek üzere iki site indirmeye çalışıyorum:

http://boinc.berkeley.edu/trac/wiki
http://www.boinc-wiki.info

Sahip olduğum problem, bunların her ikisi de wiki. Yani, örn. İle indirirken:

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif http://www.boinc-wiki.info/

Anladım çok dosya çünkü aynı zamanda ... gibi linkleri takip eder: action = edit ...? action = diff & version = ...

Biri bunu aşmanın bir yolunu biliyor mu?

Sadece şu anki sayfalarını, resimsiz ve karmaşık olmayan bir şekilde istiyorum.

P.S. .:

wget -r -k -np -nv -l 1 -R jpg,jpeg,png,gif,tif,pdf,ppt http://boinc.berkeley.edu/trac/wiki/TitleIndex

Bu berkeley için çalıştı ama boinc-wiki.info hala bana sorun veriyor: /

P.P.S:

Şununla en alakalı sayfaların hangisi olduğu anlaşılıyor:

wget -r -k -nv  -l 2 -R jpg,jpeg,png,gif,tif,pdf,ppt http://www.boinc-wiki.info

8
2018-06-29 21:08


Menşei


Süper kullanıcı ve sunucu hatası arasında geçiş yapmaya gerek yok superuser.com/questions/158318/... - Bryan
Bunu nereye postalamalıyım? - Tie-fighter


Cevaplar:


wget --reject-regex '(.*)\?(.*)' http://example.com

(--reject-type posix varsayılan olarak). Sadece son zamanlarda (> = 1.14) sürümleri için çalışır wget Ancak, diğer yorumlara göre.

Kullanabileceğine dikkat edin --reject-regex sadece bir kere wget telefon etmek. Yani kullanmak zorundasın | Birden fazla normal ifade seçmek istiyorsanız, tek bir normal ifade ile:

wget --reject-regex 'expr1|expr2|…' http://example.com

8
2018-01-25 19:08



Wget'teki Regex, başlangıçta veya sonunda sabitlenmez, böylece ilk örneğinizde wget --reject-regex '\?' http://example.com yeterlidir. - Stéphane Gourichon


 wget belgeleri diyor:

Ayrıca, sorgu dizeleri (bir soru işareti ('?') İle başlayan bir URL'nin sonundaki dizeler, kabul / reddetme kuralları için dosya adının bir parçası olarak dahil edilmez. Yerel dosyanın Wget'in gelecekteki bir sürümünün sorgu dizelerine karşı eşleşmeye izin verme seçeneği sunması bekleniyor.

İz.. R. R. R. R.. R... R. R. R. R......... bir süredir masada ve onunla hiçbir şey yapılmadı.

Kullanmadım ama httrack Wget'den daha sağlam bir filtreleme özelliği ayarlanmış gibi görünüyor ve aradığınız şey için daha uygun olabilir (buradaki filtreler hakkında bilgi edinin) http://www.httrack.com/html/fcguide.html).


4
2018-06-29 21:44



Beni httrack’a yönlendirmek için + 1’e. O zaman daha iyi görünüyor ve wget durgun görünüyor. - Stefan Lasiewski
Winhttrack'ı denedim ama komik davranıyor. Dosyaları ve dizinleri indirmemesi gereken dizinleri indirir: / - Tie-fighter
Belki bir gün wget sabit olacak. Şimdilik httrack ve pavuk için her ikisi de iyi görünüyor. - joeytwiddle


Yeni sürümü wget (v.1.14) .......... R... R. R. R. R...........

Yeni seçeneği kullanmalısın --reject-regex=.... sorgu dizelerini işlemek için.

Bu yeni seçenekleri içeren yeni kılavuzu bulamadığımı unutmayın, bu yüzden yardım komutunu kullanmalısınız. wget --help > help.txt


3
2018-01-05 19:39





Pavuk bunu yapabilmelidir:

http://pavuk.sourceforge.net/man.html#sect39

................................

[...]

-skip_url_pattern ’oldid =, action = edit, action = geçmişi, fark =, sınırı =,    [/ =] Kullanıcı:, [/ =] User_talk:, [^ P] / Özel:, = Özel: [^ R], .php / Özel: [^ LUA] [^ haftaları] [^ nul],    MediaWiki:, Arama:, Yardım et:

[...]


1
2018-05-09 16:37





MediaWiki'nin özel sayfalarını indirmekten kaçınmaya çalışıyorsunuz gibi görünüyor. Bu sorunu çözmeden bir kez çözdüm index.php sayfa:

wget  -R '*index.php*'  -r ... <wiki link>

Ancak wiki, Wikipedia'da görüldüğü gibi URL'leri kullandı (http://<wiki>/en/Theme) ve başka yerlerde gördüğüm kalıbı değil (http://<wiki>/index.php?title=Theme). Dan beri verdiğiniz bağlantı Wikipedia modelindeki URL'leri kullanır, bence bu çözüm sizin için de işe yarayabilir.


1
2018-05-30 15:00





R -R ret listesi - reddetme reddi ’ Kabul etmek veya reddetmek için virgülle ayrılmış dosya adı sonekleri veya kalıpları belirtin (bkz. Dosya Türleri). Joker karakterlerden herhangi biri, ‘*’, ‘?’, ‘[’ Veya ‘]’, bir akademisyen veya reddetme öğesinde görünürse, bir sonek değil, bir desen olarak ele alınacağını unutmayın.

Desenler muhtemelen senin istediğin gibi. Kalıpların ne kadar karmaşık olduğundan emin değilim, ancak yalnızca belirli dosyaları kabul etmeyi veya engellemeyi deneyebilirsiniz:

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif,*\? http://www.boinc-wiki.info/

Kabul etmek:

wget -r -k -np -nv -R jpg,jpeg,gif,png,tif -A [a-zA-Z.] http://www.boinc-wiki.info/

Düzenleme: Diğer gönderinin ışığında nvm.


0
2018-06-29 21:43



Bu sorgu dizeleri üzerinde çalışıyor? Kullandığım her wget sürümü sadece reddedilen liste kalıplarını URL'nin dosya bölümüne uygular. Bir atış yapacağım ve göreceğim. - Evan Anderson
Ben test etmedim. Sadece belgelere baktım. Kabuk kuralı kullandığını buldum, fakat deneyiminiz eşleştirmenin çalışma işleviyle ilgili olarak benimkinden daha fazla konuşacaktı. - Joshua Enfield
"?" Den kaçmak wget 1.11.4 çalışan CentOS 5.3 kutumda OP istediğini yapmak için wget almıyor görünmüyor. - Evan Anderson