อัปเดตล่าสุด --06:01, 10 มกราคม 2551 (PST)

การค้นหาโดเมนสาธารณะของ Appropediaเปิดใช้งานแล้ว ผลลัพธ์จะไม่ใช่สาธารณสมบัติ 100% ดังนั้นโปรดตรวจสอบอย่างละเอียด แต่ควรช่วยให้คุณค้นหาเนื้อหาที่เป็นสาธารณสมบัติได้จำนวนมาก

ขณะนี้กลไกค้นหาเพียง 4 โดเมน แต่เป็นโดเมนขนาดใหญ่ และไซต์ (เล็กกว่า) อื่นๆ จะถูกเพิ่มเร็วๆ นี้ โดเมนย่อยบางโดเมนไม่เหมาะสม (เช่น หน่วยงานราชการในท้องถิ่นหรือของรัฐ หรือไซต์ที่พิมพ์เนื้อหาที่มีลิขสิทธิ์จำนวนมากซ้ำ) ดังนั้นจึงยกเว้น ดังที่อธิบายไว้ด้านล่าง

เว็บไซต์ที่รวมไว้คือ:

  • *.gutenberg.org,
  • *.fed.us,
  • *.รัฐบาล
  • *.ล้าน

นี่คือขั้นตอนเริ่มต้นในการสร้างเครื่องมือค้นหาที่ครอบคลุมสำหรับ เนื้อหา ที่เป็นสาธารณสมบัติเช่น ฟรีสำหรับการใช้งานไม่จำกัด บนอินเทอร์เน็ต สิ่งนี้มีประโยชน์อย่างยิ่งสำหรับ Appropedia เนื่องจากเราสามารถใช้เพื่อค้นหาข้อมูลที่เป็นประโยชน์เพื่อย้ายมาที่นี่

คุณสามารถช่วยได้

ช่วยออก! ฉันต้องการความช่วยเหลือ (ไม่อย่างนั้นฉันจะต้องทำเองและนั่นหมายถึงปล่อยไว้จนถึงปลายเดือนธันวาคม) หากทำได้ ให้ช่วยเหลือด้วยวิธีใดวิธีหนึ่งต่อไปนี้:

  • โปรดเพิ่มไซต์และดัชนีที่เป็นสาธารณสมบัติใน#Add to รวมรายการ ฉันไม่ได้เพิ่มอะไรมากนักในการเริ่มต้นเนื่องจากฉันปรับปรุงการค้นหาของรัฐบาลสหรัฐฯ เป็นหลัก แต่ตอนนี้ก็พร้อมที่จะขยายแล้ว (ผมจะไปขัดเกลาที่อื่นต่อไป)
  • เพิ่มไซต์ "ผลบวกลวง" ใดๆ เช่น ที่ไม่ใช่สาธารณสมบัติ ลงใน#Add to exclusion list นี่เป็นลำดับความสำคัญต่ำกว่าการหาวิธีที่มีประสิทธิภาพในการดำเนินการนี้ - ดูจุดถัดไป
  • เพื่อช่วยฉันปรับปรุงการค้นหาของรัฐบาลสหรัฐฯ:
    • ค้นหาหน้าเดียวที่มีเว็บไซต์ของหน่วยงานรัฐบาลกลาง หน่วยงาน ฯลฯ ทั้งหมด (หรือมากที่สุดเท่าที่เป็นไปได้) ใส่ลิงค์ที่นี่ ( http://web.archive.org/web/20200629173533/http://washlaw.edu:80/doclaw/executive5m.html - อาจจะไม่สมบูรณ์มาก...)
    • ...หรือสร้างตัวเองจากกลุ่มเพจ (ไม่จำเป็นต้องเป็น html ที่ถูกต้อง ตราบใดที่มี URL ที่จำเป็น) (เดิมทีฉันได้แนะนำรายชื่อหน่วยงานรัฐบาลกลางของ USA.govแต่กลับกลายเป็นว่าไม่ใช่แค่รัฐบาลกลาง - ดูด้านล่าง )
    • จากนั้นประมวลผลไฟล์เพื่อสร้างไฟล์ที่คั่นด้วยแท็บสำหรับไซต์รัฐบาลกลางของสหรัฐอเมริกาทั้งหมด อาจจะดีที่สุดถ้าฉันทำเช่นนี้ เนื่องจากฉันได้ฝึกฝนมาแล้วและรวดเร็ว
    • ช่วยฉันค้นหาฟังก์ชัน OpenOffice ที่คืนค่าเป็นจริงหรือเท็จว่าเซลล์มีข้อความบางอย่างหรือไม่ (และโดยเฉพาะข้อความจะเป็น ".gov") ไม่สามารถใช้งานได้... มันเป็นสิ่งสำคัญสำหรับการเรียงลำดับเอาท์พุตของ Google อย่างมีประสิทธิภาพ เพื่อดึงผลบวกลวงออกมาและใส่ลงในไฟล์แยก =FIND(".gov"; B6)โดยที่ B6 คือตำแหน่งของสตริง ให้ตัวเลข (ซึ่งตรงข้ามกับ #VALUE คือ ไม่พบ) ทำงานได้ - ขอบคุณ Curt!
    • ให้คำแนะนำเกี่ยวกับข้อกำหนดในการกำจัดเว็บไซต์ของรัฐและท้องถิ่น รวมถึงหน่วยงานของรัฐที่มีโดเมนของตนเอง ฉันกำลังใช้หรือจะใช้: เคาน์ตี, เคาน์ตี, นายกเทศมนตรี, ท้องถิ่น, ศาลาว่าการ, (คำว่า "แผนก" บางชนิด ... แผนกของรัฐไม่ได้ให้ผลยอดนิยมที่เกี่ยวข้องกับรัฐมากนักใน สหรัฐอเมริกา), สภาเมือง, สภา-หอการค้า... อะไรอีกล่ะ?

ขอบคุณ!

คำเตือน - ไม่ใช่ทุกหน้าในเว็บไซต์ของรัฐบาลกลางที่เป็น PD

ไซต์และเพจต่างๆ จะต้องได้รับการตรวจสอบทีละรายการ หากผลงานดังกล่าวสร้างขึ้นโดยพนักงานรัฐบาลกลางของสหรัฐอเมริกา และไม่ได้ขึ้นอยู่กับงานที่มีลิขสิทธิ์ งานนั้นจะถือเป็นสาธารณสมบัติ

ตัวอย่างของเนื้อหาที่ไม่ใช่ PD: ตัวอย่าง เช่น หน้านี้อยู่ในไซต์ของรัฐบาลกลาง แต่ดูเหมือนว่าจะจัดทำโดยบุคคลจากออเรนจ์เคาน์ตี้ ไม่ใช่รัฐบาลกลาง และดังนั้นจึงไม่ใช่สาธารณสมบัติโดยอัตโนมัติ

เว็บไซต์หน่วยงานของรัฐบาลกลางจัดทำขึ้นเพื่อเป็นบริการสาธารณะ แม้ว่าข้อมูลส่วนใหญ่ที่นำเสนอจะเป็นสาธารณสมบัติและอาจทำซ้ำโดยไม่มีข้อจำกัดหรือการอนุญาต แต่บางส่วนอยู่ภายใต้ทรัพย์สินทางปัญญาและข้อกำหนดและเงื่อนไขทางกฎหมายอื่นๆ ในการใช้งาน

งานของรัฐบาลสหรัฐอเมริกา (งานที่จัดทำโดยเจ้าหน้าที่และลูกจ้างของรัฐบาลสหรัฐฯ โดยเป็นส่วนหนึ่งของหน้าที่อย่างเป็นทางการ 17 USC § 101) ไม่ได้รับการคุ้มครองโดยลิขสิทธิ์ในสหรัฐอเมริกา (17 USC §105 < http://www.copyright.gov /title17/92chap1.html > )

อย่างไรก็ตาม งานของรัฐบาลสหรัฐฯ อาจมีผลงานที่สร้างขึ้นโดยเอกชนและมีลิขสิทธิ์ (เช่น ข้อความอ้างอิง ภาพถ่าย แผนภูมิ ภาพวาด ฯลฯ) ที่ใช้ภายใต้ใบอนุญาตหรือได้รับอนุญาตจากเจ้าของลิขสิทธิ์ การรวมตัวกันในงานของรัฐบาลสหรัฐฯ ไม่ได้ทำให้งานส่วนตัวเป็นสาธารณสมบัติ อาจจำเป็นต้องได้รับอนุญาตจากผู้ถือลิขสิทธิ์ในการทำซ้ำเนื้อหานี้แยกกัน

นอกจากนี้ผู้รับเหมาและผู้รับทุนไม่ถือเป็นพนักงานของรัฐบาล โดยทั่วไปแล้วพวกเขาถือลิขสิทธิ์ผลงานที่พวกเขาผลิตให้กับรัฐบาล รัฐบาลได้รับใบอนุญาตทั่วโลกให้ใช้ ดัดแปลง ทำซ้ำ เผยแพร่ ดำเนินการ แสดง หรือเปิดเผยผลงานเหล่านี้ หรืออนุญาตให้ผู้อื่นกระทำการดังกล่าวในนามของรัฐบาล ใบอนุญาตหรือการอนุญาตดังกล่าวไม่จำเป็นต้องโอนให้ผู้อื่น เนื่องจากเจ้าของลิขสิทธิ์สงวนสิทธิ์แต่เพียงผู้เดียว งานจึงไม่เป็นสาธารณสมบัติ การส่งหรือทำซ้ำรายการที่ได้รับการคุ้มครองเหล่านี้ นอกเหนือจากที่อนุญาตโดยการใช้งานโดยชอบธรรมhttp://www.copyright.gov/fls/fl102.htmlหรือข้อจำกัดอื่นๆ เกี่ยวกับสิทธิ์แต่เพียงผู้เดียว (§107-§122 http://www.copyright.gov/ title17/92chap1.html ) ต้องได้รับอนุญาตจากเจ้าของลิขสิทธิ์

การไม่มีประกาศเกี่ยวกับลิขสิทธิ์ไม่ได้หมายความว่าผลงานดังกล่าวเป็นสาธารณสมบัติ ไม่จำเป็นต้องมีการแจ้งเตือนเรื่องลิขสิทธิ์สำหรับงานที่สร้างขึ้นหลังปี 1978 http://web.archive.org/web/20090326042005/http://www.copyright.gov:80/circs/circ03.htmlผู้ใช้มีหน้าที่รับผิดชอบในการ กำหนดลิขสิทธิ์และประเมินตนเองตามวัตถุประสงค์การใช้งาน

ดู: คำถามที่พบบ่อยของ CENDI เกี่ยวกับลิขสิทธิ์: ปัญหาที่ส่งผลกระทบต่อรัฐบาลกลางhttp://www.cendi.gov/publications/04-8copyright.html

การสร้างเครื่องมือค้นหาที่กำหนดเอง ขั้นตอนที่ 1 - เว็บไซต์ของรัฐบาลกลางสหรัฐฯ

นี่เป็นงานที่มีแนวโน้มที่จะเกิดขึ้นซ้ำในอนาคต ดังนั้นฉันจึงคิดว่าจะบันทึกวิธีการทำงานไว้ ภารกิจหลักประการแรกคือการค้นหาให้ครอบคลุมไซต์ของรัฐบาลกลางสหรัฐฯ ทั้งหมด แต่ไม่มีไซต์ในท้องถิ่นหรือของรัฐ - น่าแปลกใจว่าไม่มีไซต์ใดให้ใช้งานได้ (อย่างน้อยก็ขึ้นอยู่กับการค้นหาโดย Google ที่ค่อนข้างครอบคลุม)

รวมเว็บไซต์เพื่อค้นหา

ส่วนนี้เป็นเรื่องง่าย - มีการเลือกไซต์ที่เป็นสาธารณสมบัติหลักๆ โดยไซต์ที่สำคัญที่สุดคือไซต์ของรัฐบาลกลางสหรัฐฯ รัฐบาล:

  • .gutenberg.org
  • .fed.us
  • .gov
  • .ล้าน

เพิ่มในรายการรวม

แน่นอนว่ายังมีไซต์ที่เป็นสาธารณสมบัติอีกมากใช่ไหม หากคุณพบดัชนีของไซต์ดังกล่าว โปรดเพิ่มได้ที่นี่ นอกจากนี้ ยังยินดีต้อนรับไซต์ที่เป็นสาธารณสมบัติส่วนบุคคลอีกด้วย เราไม่ต้องการ เนื้อหา ที่เข้าถึงได้แบบเปิดเช่น ibiblio.org (ซึ่งจะเป็นโครงการอื่น - ซึ่งแน่นอนว่าคุณยินดีที่จะเริ่มต้น!) - เราแค่ต้องการสาธารณสมบัติ

ไซต์ที่ยกเว้น

รายการไซต์ที่ยกเว้นในปัจจุบัน ซึ่งคั่นด้วยแท็บเพื่อให้อัปโหลดได้ง่าย (ผ่านแท็บขั้นสูงของแผงควบคุมการค้นหาที่กำหนดเอง) คือ: ไฟล์:ไฟล์ CSE - ไซต์ของรัฐและหน่วยงานรัฐบาลท้องถิ่นของสหรัฐอเมริกา.doc - ไฟล์ข้อความ แต่ต้องเรียกว่า .doc เพื่ออนุญาตให้อัพโหลดได้

เว็บไซต์ของรัฐบาลกลาง

ไซต์ของรัฐบาลกลางที่มีเนื้อหาสำคัญซึ่งไม่ใช่สาธารณสมบัติ:

  • pubmedcentral.nih.gov [1]

เว็บไซต์ท้องถิ่นและของรัฐ

การทำสิ่งนี้เป็นส่วนที่ยากในการค้นหาเว็บไซต์ของรัฐบาลกลางสหรัฐฯ โดเมน .gov ประกอบด้วยไซต์ของรัฐและท้องถิ่นจำนวนมาก ซึ่งไม่ใช่สาธารณสมบัติ รัฐไม่ยากเกินไป แต่การค้นหารายชื่อสถานที่ของรัฐบาลท้องถิ่นทั้งหมดนั้นเป็นไปไม่ได้

แนวทางดำเนินการคือการสร้างรายการไซต์ที่ยกเว้นดังนี้: แยก URL สำหรับไซต์หน่วยงานของรัฐในท้องถิ่นและของรัฐทั้งหมด โดยใช้หน้าเว็บที่http://www.statelocalgov.net/ - ฉันบันทึกหน้าเว็บไว้ (โดยใช้ Opera - ง่ายกว่าสำหรับการเปิดซ้ำ) -ในฟังก์ชันแท็บใหม่และบันทึกหลายไฟล์) บีบอัดไฟล์แล้วส่งไปที่ Amit Pathik เพื่อนที่เป็นคลังข้อมูล เขาแยก URL และลบทุกอย่างออกจากช่วงที่สองสุดท้ายไปข้างหน้า (เช่น http://www.dhs.alabama.gov กลายเป็น alabama.gov เป็นต้น) เขาส่งพวกเขากลับมาในรูปแบบสเปรดชีต (ซึ่งฉันเปิดใน OpenOffice) และให้คำแนะนำสำหรับขั้นตอนต่อไป

  • บางรัฐใช้มากกว่าหนึ่งโดเมน ขึ้นอยู่กับชื่อของรัฐหรือตัวย่อทางไปรษณีย์ เพื่อปกปิดเรื่องนี้ให้ดีที่สุดเท่าที่จะทำได้:
    • ฉันได้รับรายชื่อรัฐของสหรัฐอเมริกาและรายชื่อเมืองขึ้นต่อกัน พร้อมด้วยตัวย่อทางไปรษณีย์จากวิกิพีเดีย:ตัวย่อทางไปรษณีย์ของสหรัฐอเมริกาและนำมารวมกันทีละรายการในสเปรดชีต ไม่ได้ใช้รหัสกองทัพ - หากพวกเขามีเว็บไซต์ สันนิษฐานว่าเป็นสาธารณสมบัติและเป็นสถาบันของรัฐบาลกลาง
    • ฉันกำหนดให้เป็นตัวพิมพ์เล็กทั้งหมด (โปรแกรมแก้ไขข้อความ OpenOffice) จากนั้นลบช่องว่างทั้งหมดออกจากคอลัมน์ชื่อ
    • เปลี่ยนเป็น URL: การค้นหาด้วยสัญลักษณ์ตัวแทนใช้เพื่อแทนที่ .. ด้วย &.gov ในคอลัมน์แรก (.. ค้นหาตัวอักษรสองตัวของแต่ละรหัส) คอลัมน์ที่สองนั้นยากกว่า - ต้องนำข้อความออกจากคอลัมน์ (แก้ไข -> วางแบบพิเศษ -> ไม่จัดรูปแบบ) จากนั้นแทนที่ $ ด้วย &.gov\n (ฉันคิดว่าจำเป็นต้องใช้ตัวแบ่งหน้า \n เนื่องจากข้อบกพร่องใน OpenOffice - ไม่ควรจำเป็น)
    • ชื่อโดเมนที่สร้างขึ้นทั้งสองคอลัมน์สำหรับไซต์ในสหรัฐอเมริกาที่เป็นไปได้ถูกวางลงในสเปรดชีตของ Amit ใต้ URL อื่นๆ ผู้ที่มีชื่อ US จะถูกลบออกด้วยตนเอง ข้อความอธิบายถูกลบออกจากรายการหนึ่ง เว็บไซต์บางแห่งยาวเกินไปและดูเหมือนไม่น่าเป็นไปได้ แต่ฉันเพิ่งทิ้งทุกอย่างไว้ตามที่ปรากฎในตอนนี้
  • หากต้องการลบไซต์ที่ไม่ใช่ .gov ฉันค้นหา .com (จากนั้นจึงใช้ .us และ .net) หลังจากสแกนเพื่อตรวจสอบผลบวกลวง ฉันกด Edit -> Delete -> Delete ทั้วแถว
  • ฉันค้นหาช่องว่างใน URL และลบออก (ค้นหาและแทนที่ช่องว่างโดยไม่มีอะไรเลย) ทั้งนี้เพื่อให้แน่ใจว่าฟังก์ชัน EXACT จะทำงานในภายหลัง (รู้เรื่องนี้ช้าและต้องทำใหม่)
  • จากนั้นฉันก็ทำการเรียงลำดับพื้นฐานเพื่อเรียงลำดับตามตัวอักษร (ข้อมูล -> เรียงลำดับ)
  • ขณะนี้ URL ทั้งหมดอยู่ในคอลัมน์ A ในคอลัมน์ถัดไป เซลล์ถึง ฉันใช้สูตร=EXACT(A1;A2)เพื่อทดสอบ URL ที่ซ้ำกัน ข้อมูลนี้ถูกคัดลอกไปที่ด้านล่างของแถว URL จากนั้นการอ่านค่า TRUE และ FALSE แถวนี้จะถูกคัดลอกไปยังไฟล์ข้อความ และคัดลอกกลับ (ขณะนี้เป็นข้อความธรรมดา) ที่ด้านบนของสูตร ทางเลือกหนึ่งคือการเรียงลำดับตามจริงและเท็จ แต่ฉันแค่ค้นหา TRUE และลบแถวเหล่านั้นแทน (หลังจากตรวจสอบผลบวกลวง) แนวทางแรกน่าจะเป็นวิธีการหลีกเลี่ยงข้อผิดพลาดที่ชัดเจนกว่าเมื่อเข้าใจถึงปัญหาหลังเหตุการณ์

ณ จุดนี้ มีรายการไซต์ที่ควรครอบคลุมเว็บไซต์ท้องถิ่นและของรัฐทั้งหมดในโดเมน .gov ในขณะที่เขียนฉันกำลังพยายามอัปโหลดรายการไปยังการค้นหา ในการค้นหาที่กำหนดเองของ Google สามารถทำได้บนแท็บ "ไซต์" ของแผงควบคุม CSE ใต้รายการไซต์ที่รวมไว้ ให้คลิก "ไซต์ที่ยกเว้น" และเพิ่มเข้าไป ในกรณีนี้ เราต้องการยกเว้นรัฐบาลท้องถิ่นและของรัฐ เนื่องจากโดยทั่วไปแล้วไซต์เหล่านี้ไม่ใช่สาธารณสมบัติ ดังนั้นเราจึงเพิ่มพวกเขาในรูปแบบ alabama.gov ฯลฯ ไซต์ไม่ตอบสนอง (ผ่านการเชื่อมต่อที่ช้าในจาการ์ตา) ดังนั้นฉันจะให้คนอื่นเพิ่มไว้ ไม่เช่นนั้นฉันจะลองในภายหลัง

ผ่านครั้งที่สอง

เมื่ออัปโหลดรายการที่แยกออก (ไฟล์ที่คั่นด้วยแท็บในแท็บขั้นสูงของการตั้งค่า CSE) พบว่ามีหน้าเคาน์ตี้หลายหน้าปรากฏขึ้น - รายการที่แยกออกไม่สมบูรณ์ การค้นหา "เคาน์ตี" เป็นวิธีหนึ่งในการแสดงว่ามีกี่แห่ง และคำตอบก็คือ จำนวนมาก มี Google ตามมาอีกมากมาย

ไซต์ไดเรกทอรีอื่นดูเหมือนจะมีลิงก์เพิ่มเติม - http://www.newsdirectory.comพร้อมหน้าเมืองและเคาน์ตี http://www.oultwood.comมีลิงก์ แต่ดูเหมือนจะไม่มีลิงก์ใดมากไปกว่าไซต์แรกที่ใช้

ต่อไปนี้เป็นหมายเหตุเล็กๆ น้อยๆ เผื่อว่าฉันหรือคนอื่นต้องทำขั้นตอนนี้ซ้ำ

บันทึกหน้าทั้งหมดและใส่ไว้ในโฟลเดอร์ของตัวเอง ทำงานบนบรรทัดคำสั่ง Linux:

แก้ไข catfile.txt ค้นหา .gov" แทนที่ด้วย .gov_BINGO_GOV_SITE - เครื่องหมายนี้จะช่วยแยกไซต์ gov ออก โดยใช้สิ่งนี้แทนที่จะทดสอบ ".gov" โดยตรง เนื่องจากจะหลีกเลี่ยงความเป็นไปได้ของ ".gov" ใน ตำแหน่งอื่นที่ไม่ใช่ตำแหน่งสุดท้าย (พบ 37 รายการ - ไม่มาก จริงๆ แล้ว...) จากนั้นฉันก็รู้ว่าสิ่งนี้ไม่อนุญาตให้มีหน้าย่อยแต่ได้ตรวจสอบบรรทัดที่ถูกละทิ้งในภายหลังและไม่พลาดสิ่งใดที่ยังไม่ครอบคลุม (ภายใต้ .wa.gov ) แทนที่จุดเริ่มต้นของบรรทัดเหล่านั้นจนถึง www ด้วย * จากนั้นลบอัฒภาคทั้งหมด (เพื่อเก็บสิ่งต่าง ๆ ไว้ในคอลัมน์เดียวในสเปรดชีต) วางในสเปรดชีตและเรียงลำดับ ลบทั้งหมดที่ไม่ได้ขึ้นต้นด้วย * (ไม่เช่นนั้นฟังก์ชันจะตายไป 14,000 แถว)

จัดระเบียบขั้นสุดท้าย: แทนที่_BINGO GOV FILE.*ด้วย/* _cse_exclude_p04xreki1j4 (ทำเครื่องหมายนิพจน์ทั่วไป)

พยายาม

หยุดทำงานเมื่อทำกับไฟล์ Raw จำนวน 14,000 แถว ใช้ฟังก์ชันการค้นหาแทน โดยทำเครื่องหมายคอลัมน์ถัดไปด้วยตนเอง

ได้ผลลัพธ์ 26 รายการ; ลบสิ่งเหล่านั้นในโดเมนย่อย (state).gov -> เหลือ 18 รายการ มีอีก 11 รายการอยู่ในรายการแล้ว ดังนั้นมีใหม่ 7 รายการ วุ่นวายมากแต่ได้ประโยชน์น้อย

หลังจากนี้ ให้พิจารณาแปลงส่วนต่อท้ายทั้งหมดเป็น .gov...? เช่น nashville.org จริงๆ แล้วคือ nashville.gov และปรากฏในการค้นหา

ผ่านที่สาม

11:04, 21 พฤศจิกายน 2550 (PST): หันไปใช้วิธี "การทำให้บริสุทธิ์" แบบดุร้าย - ค้นหาคำเช่นนายกเทศมนตรีและเทศมณฑล ทำการวิเคราะห์ผลลัพธ์ อัปเกรดรายการยกเว้นอย่างต่อเนื่อง สแกนด้วยตนเองเพื่อหลีกเลี่ยงไซต์ที่ป้อน

พบบางกรณีที่ป้ายกำกับ "_cse..." คือ " cse..." - ดูที่ไม่มีขีดล่าง แท็บหายไปเช่นกัน เพียง "/*_cse"

เพิ่มไปยังรายการยกเว้น

หากคุณพบไซต์ของรัฐบาลท้องถิ่นหรือของรัฐที่ยังคงปรากฏในการค้นหา โปรดเพิ่มไซต์เหล่านี้ที่นี่: เฉพาะโดเมนเท่านั้นที่สำคัญ - ข้อความเพิ่มเติมโดยเฉพาะในตอนท้ายจะถูกลบในการประมวลผล การทำซ้ำจะถูกลบโดยอัตโนมัติเช่นกัน ซึ่งไม่ทำให้เกิดปัญหา

  • pubmedcentral.nih.gov

ปรับปรุงรายการยกเว้นเพิ่มเติม

เพื่อช่วยค้นหาไซต์เหล่านี้ที่ยังไม่ถูกยกเว้น ฉันได้ตั้งค่าเครื่องมือค้นหาการค้นหาไซต์ Non-federal .gov ซึ่งใช้รายการยกเว้นสองรายการ:

  • รายชื่อไซต์ที่ไม่ใช่ของรัฐบาลกลาง (และไซต์อื่น ๆ ที่ยกเว้น) ที่ใช้ในการค้นหาสาธารณสมบัติ
  • รายชื่อไซต์ของรัฐบาลกลาง

แน่นอนว่า ทุกอย่างจะต้องจัดอยู่ในหนึ่งในสองหมวดหมู่ ดังนั้นหากทั้งสองรายการบรรลุความสมบูรณ์แบบโดยไม่มีผลลบลวง (ไม่มีไซต์ใดหลุดออกจากรายการ) เครื่องมือค้นหาก็ไม่ควรส่งคืนการเข้าชมสำหรับการค้นหาทั้งสองรายการ นั่นคือสิ่งที่เราตั้งเป้าไว้ แม้ว่าจะมีสถานที่ราชการจำนวนมหาศาล และมีการจัดตั้งสถานที่ใหม่ๆ ขึ้น แต่ความสมบูรณ์แบบก็ดูไม่น่าเป็นไปได้ เราจะเข้าใกล้ให้มากที่สุด

ตอนนี้ รายการที่สำคัญคือรายการแรก แม้ว่าการปรับปรุงรายการที่สองจะช่วยการทำงานของกลไก "การค้นหาไซต์ Non-federal .gov" และบุคคลอื่นอาจพบว่ารายการดังกล่าวมีประโยชน์

หากต้องการนำไซต์ของรัฐบาลที่ไม่ใช่ของรัฐบาลกลางออกมา เราสามารถค้นหาเคาน์ตีหรือเคาน์ตีหรือนายกเทศมนตรีหรือท้องถิ่นหรือศาลาว่าการและรูปแบบต่างๆ ของสิ่งนั้น (บางทีอาจทิ้งคำศัพท์บางคำ หากบางคำเป็น ) คำว่าศาลากลางให้ผลลัพธ์จำนวนมาก และยังคงต้องดำเนินการอีกครั้ง และแผนกของ (หรือคำที่เทียบเท่า) ควรลองใช้เพื่อค้นหาไซต์ของรัฐ เมื่อไซต์ของรัฐบาลกลางถูกแยกออกจากการค้นหา (ลองใช้"แผนกของ" -"แผนกของรัฐบาลกลางของ" ) ลองด้วย: สภาเมือง, สภา-หอการค้า... อะไรอีกล่ะ? การเก็บขยะจากสวนชุมชน และกิจกรรมอื่นๆ ที่เกิดขึ้นในระดับท้องถิ่นเป็นส่วนใหญ่อาจเป็นประโยชน์

เมื่อพบเว็บไซต์ใหม่ ควรรวบรวมเว็บไซต์เหล่านั้น (คัดลอกมาจากหน้าค้นหาของ Google) และ:

  • ทิ้งข้อความไว้บนหน้าพูดคุยของฉัน หรือ
  • หากคุณได้รับสิทธิ์ในการเข้าถึงและกำลังดำเนินการตามกระบวนการทั้งหมด ควรเพิ่มรายการเหล่านั้นลงในรายการที่มีอยู่และดำเนินการตามที่อธิบายไว้ข้างต้น และอัปโหลดไปยังเครื่องมือค้นหาตามล่า เมื่อดำเนินการเรื่องนี้เสร็จสิ้น (สำหรับวันนั้น) รายการที่ได้รับการปรับปรุงควรอัปโหลดไปยังเครื่องมือค้นหาสาธารณสมบัติ

โปรดทราบว่าการตั้งค่ากำหนด Google ของคุณให้แสดงผลการค้นหา 100 รายการจะทำให้งานนี้ง่ายขึ้นเล็กน้อย แต่จะไม่มีผลทันทีกับการค้นหาที่กำหนดเอง - คุณอาจต้องรอ (ชั่วโมงหรือวัน?) 20 หรือประมาณนั้นอาจเป็นการประนีประนอมที่ดีที่ไม่รบกวนคุณมากเกินไปเมื่อทำการค้นหาใน Google เป็นประจำ

สร้างรายชื่อไซต์ของรัฐบาลกลาง

สร้างรายการยกเว้นไซต์ของรัฐบาลกลางที่รู้จัก - เพิ่มสิ่งนี้ลงในการทดสอบการค้นหาพร้อมกับไซต์ท้องถิ่นและของรัฐ ซึ่งจะทำให้ง่ายต่อการค้นหา "ไซต์หลอกลวง" เช่น ไซต์ที่ยังไม่ถูกแยกออก

-site:ed.gov -site:epa.govฯลฯ เช่น

-site:ed.gov -site:epa.gov -site:.mil -site:energystar.gov/ -site:nsf.gov/ -site:cdc.gov -site:nih.gov -site:state.gov - ไซต์:weather.gov -site:neh.gov -site:hhs.gov -site:ssa.gov -site:loc.gov -site:whitehouse.govไซต์:energy.gov -site:noaa.gov -site:usdoj.gov -site:access-board.gov -site:senate.gov -site:house.gov

ฉันคิดว่ารายการทั้งหมดคงจะมากเกินไป - มีไซต์หลายร้อยแห่ง - ดังนั้นฉันจึงสร้างขึ้นจากการเข้าชมบ่อยครั้ง แต่ถ้าเพิ่มเป็นรายการยกเว้นแยกต่างหาก นั่นก็จะได้ผล... นั่นคือขั้นตอนต่อไป เมื่อฉันเดินทางกลับออสเตรเลียในช่วงกลางเดือนธันวาคม 50 ถ้าไม่มีใครเอาชนะฉันได้)

  • - -

โอเค ฉันก็ทนไม่ไหวแล้ว ฉันไปที่http://www.usa.gov/Agencies/Federal/All_Agencies/index.shtmlและรวบรวมรายชื่อ (เป็นกระบวนการที่ค่อนข้างเจ็บปวด - ได้ไฟล์ขนาดใหญ่ที่ยากต่อการเปิดเป็นซอร์สใน Ubuntu ในที่สุดก็ประสบความสำเร็จด้วย Opera และ "ดู -> ซอร์ส") อย่างไรก็ตาม มันก็เป็นการเสียเวลา

เว็บไซต์ usa.gov ไม่สอดคล้องกัน มันแนะนำ (เช่นที่นี่และใน url) ว่าสิ่งเหล่านี้เป็นหน่วยงานของรัฐบาลกลาง แต่รวมรัฐด้วย ดังนั้นรายการจึงไม่มีประโยชน์สำหรับการค้นหาโดย fed แต่จะยังคงให้บริการตามจุดประสงค์ที่นี่ ในการปรับปรุงรายการยกเว้นของรัฐและท้องถิ่น (สมมติว่าไซต์ของรัฐบาลท้องถิ่นและหน่วยงานของรัฐซึ่งยังไม่ได้รับการยกเว้นไม่น่าจะอยู่ในนี้ รายการ).

ต่อไปนี้เป็นรายการในรูปแบบคั่นด้วยแท็บ: ไฟล์:CSE PDTS federal sites and more.doc

คำถาม

แล้วดินแดนของสหรัฐอเมริกา (?) - สิ่งเหล่านี้ถูกระบุว่าเป็นไซต์ของรัฐบาลกลางในhttp://www.usa.gov/Agencies/Federal/All_Agencies/index.shtml - แต่ฉันคิดว่าพวกเขาทั้งหมดรวมอยู่ในรัฐและรัฐบาลท้องถิ่นด้วย รายการยกเว้น พวกเขาควรถูกลบออกไหม? เช่น

  • americansamoa.gov/
  • .arctic.gov/
  • usmarshals.gov

ขั้นตอนถัดไป

เราสามารถใช้เครื่องหมาย CC Public Domain ใหม่ (บางครั้งเรียกว่า CC-Ø) เพื่อค้นหาได้หรือไม่ (การค้นหา CC บน Google ฯลฯ ยังไม่มีตัวเลือกนี้) เราสามารถทำให้การค้นหาสิ่งใด ๆ ในไซต์ที่กำหนดไว้ในการค้นหาหรือสิ่งใด ๆ บนไซต์ใด ๆ ที่ใช้เครื่องหมาย CC ที่เกี่ยวข้องได้หรือไม่

ไอคอนข้อมูล FA.svgไอคอนมุมลง.svgข้อมูลเพจ
ผู้เขียนคริส วัตกินส์
ใบอนุญาตCC-BY-SA-3.0
ภาษาอังกฤษ (อังกฤษ)
ที่เกี่ยวข้อง0 หน้าย่อย 2 หน้า ลิงก์ที่นี่
นามแฝงAPDS - วิธีสร้างการค้นหา
ผลกระทบจำนวนการดูหน้าเว็บ 510 ครั้ง
สร้าง10 มกราคม2551โดยChris Watkins
ดัดแปลง12 มีนาคม2565โดยไอรีน เดลกาโด
Cookies help us deliver our services. By using our services, you agree to our use of cookies.