Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Sức khỏe - Y tế
Văn bản luật
Nông Lâm Ngư
Kỹ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Giới thiệu
Đăng ký
Đăng nhập
Tìm
Danh mục
Kinh doanh - Marketing
Kinh tế quản lý
Biểu mẫu - Văn bản
Tài chính - Ngân hàng
Công nghệ thông tin
Tiếng anh ngoại ngữ
Kĩ thuật công nghệ
Khoa học tự nhiên
Khoa học xã hội
Văn hóa nghệ thuật
Y tế sức khỏe
Văn bản luật
Nông lâm ngư
Kĩ năng mềm
Luận văn - Báo cáo
Giải trí - Thư giãn
Tài liệu phổ thông
Văn mẫu
Thông tin
Điều khoản sử dụng
Quy định bảo mật
Quy chế hoạt động
Chính sách bản quyền
Giới thiệu
Đăng ký
Đăng nhập
0
Trang chủ
Luận Văn - Báo Cáo
Báo cáo khoa học
Báo cáo khoa học: "Fragments and Text Categorization"
tailieunhanh - Báo cáo khoa học: "Fragments and Text Categorization"
We introduce two novel methods of text categorization in which documents are split into fragments. We conducted experiments on English, French and Czech. In all cases, the problems referred to a binary document classification. We find that both methods increase the accuracy of text categorization. For the Na¨ve Bayes classifier this increase is ı significant. | Fragments and Text Categorization Jan Blatak and Eva Mrakova and Lubos Popelinsky Knowledge Discovery Lab Faculty of Informatics Masaryk University 602 00 Brno Czech Republic xblatak glum popel @ Abstract We introduce two novel methods of text categorization in which documents are split into fragments. We conducted experiments on English French and Czech. In all cases the problems referred to a binary document classification. We find that both methods increase the accuracy of text categorization. For the Naive Bayes classifier this increase is significant. 1 Motivation In the process of automatic classifying documents into several predefined classes - text categorization Sebastiani 2002 - text documents are usually seen as sets or bags of all the words that have appeared in a document maybe after removing words in a stop-list. In this paper we describe a novel approach to text categorization in which each documents is first split into subparts called fragments. Each fragment is consequently seen as a new document which shares the same label with its source document. We introduce two variants of this approach - skip-tail and fragments. Both of these methods are briefly described below. We demonstrate the increased accuracy that we observed. Skipping the tail of a document The first method uses only the first X sentences of a document and is henceforth referred to as skip-tail. The idea behind this approach is that the beginning of each document contains enough information for the classification. In the process of learning each document is first replaced by its initial part. The learning algorithm then uses only these initial fragments as learning test examples. We also sought the minimum length of initial fragments that preserve the accuracy of the classification. Splitting a document into fragments The second method splits the documents into fragments which are classified independently of each others. This method is henceforth referred to as .
Minh Vy
85
4
pdf
Báo lỗi
Trùng lắp nội dung
Văn hóa đồi trụy
Phản động
Bản quyền
File lỗi
Khác
Upload
Tải xuống
đang nạp các trang xem trước
Bấm vào đây để xem trước nội dung
Tải xuống
TÀI LIỆU LIÊN QUAN
Pictorial Ket To The Tarot - Being Fragments Of Secret Tradition Under The Veil Of Divination
134
65
0
Báo cáo khoa học: "Toward Automatically Assembling Hittite-Language Cuneiform Tablet Fragments into Larger Texts"
5
77
0
Báo cáo khoa học: "Simple, Accurate Parsing with an All-Fragments Grammar"
10
56
0
Báo cáo khoa học: "Extracting Parallel Sub-Sentential Fragments from Non-Parallel Corpora"
8
67
0
Báo cáo khoa học: "Towards Finding and Fixing Fragments: Using ML to Identify Non-Sentential Utterances and their Antecedents in Multi-Party Dialogue"
8
80
0
Báo cáo khoa học: "Fragments and Text Categorization"
4
82
0
Báo cáo khoa học: "What is the Minimal Set of Fragments that Achieves Maximal Parse Accuracy?"
8
77
0
Báo cáo khoa học: "A Model for Robust Processing of Spontaneous Speech by Integrating Viable Fragments*"
5
68
0
Báo cáo khoa học: "SENTENCE FRAGMENTS REGULAR STRUCTURES"
10
84
0
Expression of the recombinant single chain variable fragments recognizing blood antigen fused with thioredoxin in Escherichia Coli
8
100
0
TÀI LIỆU XEM NHIỀU
Một Case Về Hematology (1)
8
462299
61
Giới thiệu :Lập trình mã nguồn mở
14
24949
79
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11291
542
Câu hỏi và đáp án bài tập tình huống Quản trị học
14
10514
466
Phân tích và làm rõ ý kiến sau: “Bài thơ Tự tình II vừa nói lên bi kịch duyên phận vừa cho thấy khát vọng sống, khát vọng hạnh phúc của Hồ Xuân Hương”
3
9795
108
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8878
1160
Tiểu luận: Nội dung tư tưởng Hồ Chí Minh về đạo đức
16
8468
426
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8092
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7476
1763
Đề tài: Dự án kinh doanh thời trang quần áo nữ
17
7193
268
TỪ KHÓA LIÊN QUAN
Báo cáo khoa học
Fragments
Text Categorization
Long Papers
báo cáo khoa học
mô hình ngôn ngữ
xử lý ngôn ngữ tự nhiên
tradition
veil
divination
secret
ket
tarot
pictorial
Toward Automatically
Assembling Hittite Language Cuneiform Tablet Fragments
Larger Texts
báo cáo ngôn ngữ
ngôn ngữ tự nhiên
Simple
Accurate Parsing
All Fragments Grammar
Mohit Bansal and Dan Klein
Extracting Parallel
Sub Sentential Fragments
Non Parallel Corpora
Towards Finding
Fixing Fragments Using ML to Identify Non Sentential Utterances
their Antecedents in Multi Party Dialogue
What is the Minimal
Set of Fragments
Achieves Maximal Parse Accuracy
A Model for Robust Processing
Spontaneous Speech
Integrating Viable Fragments
SENTENCE FRAGMENTS
REGULAR STRUCTURES
Marcia C
Linebarger
scientific reports
model language
process natural language
Recombinant single chain variable
Chain variable fragments
Recognizing blood antigen fused
Blood antigen fused with thioredoxin
Escherichia Coli
BMC Biotechnology
Fusion protein
Tetanus toxin fragments
Bcl 2 fusion proteins
Retrograde axonal migration
BMC Bioinformatics
tRNA fragments
Consequential consideration
tRNA lookalikes
Mitochondrial tRNAs
BMC Musculoskeletal Disorders
Lumbar disc herniation
Posterior epidural migration
Lumbar disc fragments
Low back pain
Agricultural sciences
Emergence of Rumex species
Root fragments regeneration of Rumex species
Rumex crispus
Rumex obtusifolius
Root fragment
BMC Cancer
Non coding RNA
Transfer RNA derived fragments
Small noncoding RNAs
Post transcriptionally regulation
democracy
law
politics
Gavin Williams
HSRC
anh văn
ngoại ngữ
presentation
ngữ pháp
văn phạm
grammar
Pro SharePoint
Solution Development
Team Site and Content
Microsoft Outlook Solutions
Document Fragments
Microsoft PowerPoint Solutions
trình bày báo cáo
tài liệu báo cáo khoa học
báo cáo y học
kiến thức y học
nghiên cứu y học
công trình nghiên cứu về y học
tài liệu về y học
cách trình bày báo cáo
scientific research
biochemistry
medical knowledge
cytoplasm
analysis of cytoplasmic
Kinds of Sentences
Irregular Comparisons
Prefixes and Suffixes
Commas and Compound
Tag Questions
TÀI LIỆU MỚI ĐĂNG
Giáo án mầm non chương trình đổi mới: Gia đình vui nhộn
4
376
3
28-11-2024
Data Structures and Algorithms - Chapter 8: Heaps
41
173
5
28-11-2024
Báo cáo y học: "The Factors Influencing Depression Endpoints Research (FINDER) study: final results of Italian patients with depressio"
9
140
1
28-11-2024
TÀI LIỆU TRẮC NGHIỆM LIPOPROTEIN
24
134
1
28-11-2024
Báo cáo khoa học: "A rare coexistence of adrenal cavernous hemangioma with extramedullar hemopoietic tissue: a case report and brief review of the literature"
4
102
0
28-11-2024
Neuromuscular Diseases A Practical Guideline - part 4
46
143
1
28-11-2024
THUẬT TOÁN LUYỆN KIM SONG SONG (Parallel Simulated Annealing Algorithms) GIẢI QUYẾT BÀI TOÁN MAX-SAT
41
115
1
28-11-2024
English Grammar Tests-Elementary Level's archiveReal Life: Accessories and Clothing (1)
8
114
0
28-11-2024
NGUYÊN NHÂN HÌNH THÀNH VÀ VẮN HÓA XÃ HỘI NGUYÊN THỦY_1
8
139
1
28-11-2024
Thực hành bệnh tim mạch part 3
54
144
1
28-11-2024
TÀI LIỆU HOT
Mẫu đơn thông tin ứng viên ngân hàng VIB
8
8092
2279
Giáo trình Tư tưởng Hồ Chí Minh - Mạch Quang Thắng (Dành cho bậc ĐH - Không chuyên ngành Lý luận chính trị)
152
7476
1763
Ebook Chào con ba mẹ đã sẵn sàng
112
4367
1369
Ebook Tuyển tập đề bài và bài văn nghị luận xã hội: Phần 1
62
6160
1259
Ebook Facts and Figures – Basic reading practice: Phần 1 – Đặng Tuấn Anh (Dịch)
249
8878
1160
Giáo trình Văn hóa kinh doanh - PGS.TS. Dương Thị Liễu
561
3794
680
Giáo trình Sinh lí học trẻ em: Phần 1 - TS Lê Thanh Vân
122
3910
609
Giáo trình Pháp luật đại cương: Phần 1 - NXB ĐH Sư Phạm
274
4621
562
Tiểu luận: Tư tưởng Hồ Chí Minh về xây dựng nhà nước trong sạch vững mạnh
13
11291
542
Bài tập nhóm quản lý dự án: Dự án xây dựng quán cafe
35
4457
490